[논문]A Lightweight Deep Learning Model for Text Detection in Fashion Design Sketch Images for Digital Transformation

Ju-Seok Shin; Hyun-Woo Kang

doi:10.9708/jksci.2023.28.10.017

A Lightweight Deep Learning Model for Text Detection in Fashion Design Sketch Images for Digital Transformation 원문보기

韓國컴퓨터情報學會論文誌 = Journal of the Korea Society of Computer and Information, v.28 no.10, 2023년, pp.17 - 25

Ju-Seok Shin (Dept. of Artificial Intelligence, Korea Polytechnics) , Hyun-Woo Kang (Dept. of Artificial Intelligence, Korea Polytechnics)

초록
AI-Helper

본 논문에서는 의류 디자인 도면 이미지의 글자 검출을 위한 경량화된 딥러닝 네트워크를 제안하였다. 최근 의류 디자인 산업에서 Digital Transformation의 중요성이 대두되면서, 디지털 도구를 활용한 의류 디자인 도면 작성이 강조되고 있으며, 디지털화된 의류 디자인 도면의 활용 가능성을 고려할 때, 도면에서 글자 검출과 인식이 중요한 첫 단계로 간주된다. 이 연구에서는 기존의 글자 검출 딥러닝 모델을 기반으로 의류 도면 이미지의 특수성을 고려하여 경량화된 네트워크를 설계하였으며, 별도로 수집한 의류 도면 데이터 셋을 추가하여 딥러닝 모델을 학습시켰다. 실험 결과, 제안한 딥러닝 모델은 의류 도면 이미지에서 기존 글자 검출 모델보다 약 20% 높은 성능을 보였다. 따라서 이 논문은 딥러닝 모델의 최적화와 특수한 글자 정보 검출 등의 연구를 통해 의류 디자인 분야에서의 Digital Transformation에 기여할 것으로 기대한다.

Abstract ▼ AI-Helper

In this paper, we propose a lightweight deep learning architecture tailored for efficient text detection in fashion design sketch images. Given the increasing prominence of Digital Transformation in the fashion industry, there is a growing emphasis on harnessing digital tools for creating fashion design sketches. As digitization becomes more pervasive in the fashion design process, the initial stages of text detection and recognition take on pivotal roles. In this study, a lightweight network was designed by building upon existing text detection deep learning models, taking into consideration the unique characteristics of apparel design drawings. Additionally, a separately collected dataset of apparel design drawings was added to train the deep learning model. Experimental results underscore the superior performance of our proposed deep learning model, outperforming existing text detection models by approximately 20% when applied to fashion design sketch images. As a result, this paper is expected to contribute to the Digital Transformation in the field of clothing design by means of research on optimizing deep learning models and detecting specialized text information.

주제어

표/그림 (7)

그림 Fig. 1. Example Dataset and Annotations
그림 Fig. 2. Proposal Network Architecture
그림 Fig. 3. Results of proposal our model inference
그림 Fig. 4. Different Results of Text Detection
표 Table 1. Model Accuracy Evaluation results
그림 Fig. 5. Result of text detection on the GUI tool
표 Table 2. Comparative evaluation of the number of parameters and Model Inference time

AI 본문요약
AI-Helper

문제 정의

본 논문에서는 의류 디자인 도면 이미지의 글자 검출을 위한 경량화된 딥러닝 모델을 제안하였다. 기존의 딥러닝 모델 중 글자 검출 성능이 뛰어난 모델을 선택하고, 의류 도면 이미지의 특수성을 고려하여 모델을 최적화하였다.
본 연구에서는 제안한 모델의 검출 결과를 용이하게 확인하기 위하여 Python 기반의 GUI SW를 개발하였다. 개발한 GUI SW에서 학습된 모델을 선택하고, 도면 데이터를 선택하면 모델의 검출 결과를 화면에 보여준다.

제안 방법

본 논문에서는 의류 디자인 도면 이미지의 글자 검출을 위한 경량화된 딥러닝 모델을 제안하였다. 기존의 딥러닝 모델 중 글자 검출 성능이 뛰어난 모델을 선택하고, 의류 도면 이미지의 특수성을 고려하여 모델을 최적화하였다. 우리가 제안한 딥러닝 네트워크는 VGG16 백본 네트워크를 기반으로 하되, Decoding 부분과 마지막 Layer를 경량화하는 방향으로 설계하였다.
따라서 도면 내에서 글씨의 위치만 정확하게 찾아낼 수 있다면 문자 인식 부분에 있어서는 공개된 모델들을 사용하여도 충분히 높은 성능을 기대할 수 있다. 따라서 도면 인식에서 중요한 부분은 글씨의 위치를 정확하게 검출하는 것이며, 본 논문에서는 이미지 내에 있는 글자를 검출하는 딥러닝 모델 설계에 중점을 두었다.
추가적으로, 자연 영상 이미지에 비하여 비교적 단순한 의류 디자인 도면의 형태를 고려하여 경량화된 딥러닝 네트워크를 제안하였다. 또한 의류산업 특성상 많은 양의 의류 디자인 도면 이미지들을 확보하기 어렵기 때문에 적은양의 데이터로도 성능을 보장할 수 있는 전이 학습 방법을 통하여 딥러닝 모델을 학습하였다.
기존의 딥러닝 모델 중 글자 검출 성능이 뛰어난 모델을 선택하고, 의류 도면 이미지의 특수성을 고려하여 모델을 최적화하였다. 우리가 제안한 딥러닝 네트워크는 VGG16 백본 네트워크를 기반으로 하되, Decoding 부분과 마지막 Layer를 경량화하는 방향으로 설계하였다. 또한, 의류 도면 데이터 셋을 수집하고 이를 활용하여 모델을 학습시켰으며, 실험결과, 제안한 네트워크는 기존 딥러닝 기반의 글자 검출 모델보다 약 20% 더 높은 성능을 보였다.
추가적으로, 자연 영상 이미지에 비하여 비교적 단순한 의류 디자인 도면의 형태를 고려하여 경량화된 딥러닝 네트워크를 제안하였다. 또한 의류산업 특성상 많은 양의 의류 디자인 도면 이미지들을 확보하기 어렵기 때문에 적은양의 데이터로도 성능을 보장할 수 있는 전이 학습 방법을 통하여 딥러닝 모델을 학습하였다.

대상 데이터

본 논문에서 제안한 문자 검출 경량화 딥러닝 모델과 CRAFT 모델을 추가 수집한 패션 도면 이미지 중 테스트 데이터 셋 10장에 대해 성능을 비교 평가하였다. 성능 평가는 정밀도(precision), 재현율(recall), 그리고 조화평균(F1-score)을 계산하여 진행하였으며, 모델의 성능을 GUI 툴을 통해 시각적으로도 확인하였다.
총 704장의 패션 도면 이미지를 어노테이션하였으며, 그중 679장은 학습 데이터 셋으로 사용하여 네트워크를 학습시켰다. 나머지 25장 중 15장은 학습 중 Validation을 위한 목적으로 사용하였으며, 10장은 모델의 성능 검증을 위해 사용하였다.

데이터처리

와 같이 정의하였고, {affi loss}는 Eq. 3.과 같이 정의하였으며, 두 loss 모두 MSE(Mean Square Error)를 사용하여 계산하였다.
본 논문에서 제안한 문자 검출 경량화 딥러닝 모델과 CRAFT 모델을 추가 수집한 패션 도면 이미지 중 테스트 데이터 셋 10장에 대해 성능을 비교 평가하였다. 성능 평가는 정밀도(precision), 재현율(recall), 그리고 조화평균(F1-score)을 계산하여 진행하였으며, 모델의 성능을 GUI 툴을 통해 시각적으로도 확인하였다.

성능/효과

CRAFT 모델을 기반으로 별도 제작한 Dataset을 추가하여 학습한 모델의 성능이 가장 좋은 것으로 확인되었다. 하지만 본 논문에서 제안한 방식으로 딥러닝 네트워크를 경량화하더라도 약 0.
초록색은 GT(Ground Truth)를 표현한 것이고, 빨간색 Bbox(Bounding Box)가 본 논문에서 제안한 모델로 검출한 결과이다. GUI 툴을 통하여 각 샘플마다 글자 검출이 잘 되는지를 시각화하여 결과를 확인할 수 있어 성능평가에 보다 신뢰성을 높였다.
우리가 제안한 딥러닝 네트워크는 VGG16 백본 네트워크를 기반으로 하되, Decoding 부분과 마지막 Layer를 경량화하는 방향으로 설계하였다. 또한, 의류 도면 데이터 셋을 수집하고 이를 활용하여 모델을 학습시켰으며, 실험결과, 제안한 네트워크는 기존 딥러닝 기반의 글자 검출 모델보다 약 20% 더 높은 성능을 보였다. 이러한 결과는 의류 디자인 도면 이미지 분야에서 글자 검출의 효율성을 향상시킬 수 있을 것으로 기대된다.
이 방법을 통해 학습된 모델은 의류 도면 이미지에서 글자를 더욱 정확하게 검출할 수 있음을 실험을 통해 확인하였다. 특히 단일 문자 및 작은 수치를 정확하게 검출함으로써 미검출 성능을 평가하는 지표로 사용되는 Recall 성능이 약 29% 향상된 것을 확인하였다.
제안한 경량화된 모델이 기존 딥러닝 모델보다 파라미터 수와 모델 사이즈 모두 줄어든 것을 확인하였으며, 딥러닝 모델 추론 속도도 평균 40ms 향상되었다.
이 방법을 통해 학습된 모델은 의류 도면 이미지에서 글자를 더욱 정확하게 검출할 수 있음을 실험을 통해 확인하였다. 특히 단일 문자 및 작은 수치를 정확하게 검출함으로써 미검출 성능을 평가하는 지표로 사용되는 Recall 성능이 약 29% 향상된 것을 확인하였다.
결과와 같이 CRAFT에서는 문자 하나만 있거나 숫자만 있는 경우, 정확하게 검출하지 못하거나 위/아래의 내용이 합쳐서 검출하는 경우가 있었다. 특히, 문자 하나만 있는 경우에 대해 정확하게 검출 못한 문제로 인하여 Recall 성능이 실험 결과 약 64%로 나타났다.
CRAFT 모델을 기반으로 별도 제작한 Dataset을 추가하여 학습한 모델의 성능이 가장 좋은 것으로 확인되었다. 하지만 본 논문에서 제안한 방식으로 딥러닝 네트워크를 경량화하더라도 약 0.5% 성능밖에 저하되지 않는 것을 시험을 통하여 확인하였다.

후속연구

의류 디자인 도면 이미지의 디지털 트랜스포메이션은 의류 산업에 혁신과 생산성 향상을 가져올 것으로 예상되며, 딥러닝 기술의 발전된 활용을 통해 의류 디자인 분야에서 새로운 비즈니스 기회를 창출하는데 기여할 것으로 기대된다.
이러한 CRAFT의 텍스트 영역 검출 성능과 효율성은 의류 디자인 도면 이미지 분석 분야에서도 좋은 성능을 보여 줄 것으로 기대하고 있으며, 문자 단위 인식과 멀티스케일 특징 추출 기법이 이러한 이미지에서의 글자 검출에 높은 성능을 발휘할 것으로 기대된다. 하지만 CRAFT는 비용 문제 등을 이유로 개별 문자 단위(Charater-Level)로 된 데이터 셋을 활용하여 모델을 만들지 않고 단어 단위(Word-Level)를 개별 문자 단위로 추정하는 문제로 학습하였기 때문에 개별 문자 단위에 대해서는 정확하게 검출 못 할 수 있다.
또한, 의류 도면 데이터 셋을 수집하고 이를 활용하여 모델을 학습시켰으며, 실험결과, 제안한 네트워크는 기존 딥러닝 기반의 글자 검출 모델보다 약 20% 더 높은 성능을 보였다. 이러한 결과는 의류 디자인 도면 이미지 분야에서 글자 검출의 효율성을 향상시킬 수 있을 것으로 기대된다.
향후 연구 방향으로는 높은 성능을 위해 딥러닝 네트워크의 추가적인 최적화를 진행할 예정이며, 의류 디자인 도면 이미지의 특성을 보다 정교하게 고려한 모델 개발이 중요한 과제이기 때문에 특수한 글자 정보를 고려한 모델 성능 향상 방안을 추가 연구하고자 한다.

참고문헌 (28)

B. Rathore, "Fashion Transformation 4.0 : Beyond Digitalization & Marketing in Fashion Industry," Eduzone: International Peer Reviewed/Refereed Multidisciplinary Journal, Vol. 10, No. 2, pp. 54-59, 2021. DOI: https://doi.org/10.56614/eiprmj.v10i2.234？
O. Behr, "Fashion 4.0 - Digital Innovation in the Fashion Industry," Journal of technology and innovation management, Vol. 2, No. 1 pp. 1-9, 2018. DOI: 10.1108/RJTA-03-2018-0023？

상세보기
H. J. Choo, Y. J. Nam, Y. R. Lee, H. K. Lee, S. J. Lee, S. E. Lee, J. I. Jang, J. H. Park, J. W. Choi, and D. Y. Kim. "Domestic Research Trends in IT Fashion," Journal of the Korean Society for Clothing Industry, Vol.14, No. 4, pp. 614-628, August, 2012. doi:10.5805/ksci.2012.14.4.614？

원문보기 상세보기
K. S. Noh, "A study on Strategic Fitness of Digital Transformation and Competitive Strategy," Journal of the Korean Convergence Society, Vol.12, No. 8, pp. 257-265, August, 2021.？
B. Vial, "Understanding digital transformation: A review and a research agenda," Managing Digital Transformation, pp. 54, 2021.？
Chamorro-Premuzic, T., "The essential components of digital transformation," Harvard Business Review, Vol. 13, pp. 1-6, 2021.？
S.V. Akram, P.K. Malik, R. Singh, A. Gehlot, A. Juyal, K. Z. Ghafoor and S. Shrestha, "Implementation of Digitalized Technologies for Fashion Industry 4.0: Opportunities and Challenges", Scientific Programming, Vol. 2022, 17 pages, 2022. https://doi.org/10.1155/2022/7523246？

상세보기
R. Choi, and C. S. Cho. "A Virtual Fitting System Using The Top and Bottom Image of Garment." Journal of Korea Multimedia Society, Vol. 15, No. 7, pp. 941-950, July 2012. DOI:10.9717/kmms.2012.15.7.941？

원문보기 상세보기
L. H. Yang, P. Zhang. F., "Review of Scene Text Detection and Recognition," Journal of Arch Computat Methods Eng, Vol. 27, pp. 433-454, 2020. DOI: https://doi.org/10.1007/s11831-019-09315-1？

상세보기
S. N. Matton, A. Greaves, M, and Lam, A. "A survey of deep learning approaches for ocr and document understanding," arXiv preprint arXiv:2011.13534, 2020.？
M. Wang, S. Niu, and Z. Gao, "A novel scene text recognition method based on deep learning," Journal of Computers, Materials & Continua, Vol. 60, No. 2, pp. 781-794, 2019.？
J. Y. Baek, J. Y. Lee, B. Han, T. K. Kim, and K. H. Lee, , "Character Region Awareness for Text Detection," In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 10507-10516, 2019.？
V. Shapiro, D. Dimov, S. Bonchev, V. Velichkov and G. Gluhchev, "Adaptive license plate image extraction," International Conference on Computer Systems and Technologies, 2003.？
S. Kim, D. Kim, Y. Ryu and G. Kim, "A Robust License-plate Exeaction Method under Complex Image Conditions," the 16th Intemational Conference on Pattem Recognition (16th ICPR), Quebec, Canada, pp. 216-219, 2002.？
H. Li, Y. Ma, H. Bao, and Y. Zhang, "Probabilistic Hough Transform for Rectifying Industrial Nameplate Images: A Novel Strategy for Improved Text Detection and Precision in Difficult Environments," Journal of Appl. Sci. Vol. 13, No. 7, pp. 4533. DOI: https://doi.org/10.3390/app13074533？

상세보기
P. Lyu, M. Liao, C. Yao, W. Wu and X. Bai, "Mask textspotter: An end-to-end trainable neural network for spotting text with arbitrary shapes," arXiv preprint arXiv:1807.02242, 2018.？
M. Liao, B. Shi, and X. Bai, "Textboxes++: A single-shot oriented scene text detector," Image Processing, Vol. 27, No. 8, pp. 3676-3690, 2018.？
R. Smith, tesseract, https://github.com/tesseract-ocr/tesseract？
Jaided AI, EasyOCR, https://github.com/JaidedAI/EasyOCR？
J. Baek, G. Kim, J. Lee, S. Park, D. Han, S. Yun, S. Oh and H. Lee, "What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis," International Conference on Computer Vision, 2019.？
M. Jaderberg, K. Simonyan, A. Zisserman and K. Kavukcuoglu, "Spatial Transformer Networks," Proceedings of the 28th International Conference on Neural Information Processing Systems, pp. 2017-2025, Dec. 2015.？
K. He, X. Zhang, S. Ren and J. Sun, "Deep Residual Learning for Image Recognition," 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, pp. 770-778, 2016. DOI: 10.1109/CVPR.2016.90.？
B. Shi, X. Wang, P. Lyu, C. Yao and X. Bai, "Robust Scene Text Recognition with Automatic Rectification," 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, pp. 4168-4176, 2016. DOI: 10.1109/CVPR.2016.452.？
A. Graves, S. Fernandez, F. Gomez and J. Schmidhuber, "Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks," Proceedings of the 23rd international conference on Machine learningJune, pp. 369-376, 2006. DOI: https://doi.org/10.1145/1143844.1143891？
K. Simonyan, and A. Zisserman, "Very deep convolutional networks for large-scale image recognition," In Proceedings of the 27th International Conference on Neural Information Processing Systems, pp. 1097-1105, 2014.？
Z. Wang, J. Zhang, and Z Wang, "EasyOCR: A fast, accurate, and user-friendly OCR system," arXiv preprint arXiv:2109.13099. DOI: 10.1109/ICASSP.2022.9731104？
wkentaro, labelme, https://github.com/wkentaro/labelme？
O. Ronneberger, P. Fischer, and T. Brox. "U-net: Convolutional networks for biomedical image segmentation," In MICCAI 2015, pp. 234-241, 2015.

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증