$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

온라인 쇼핑몰에서 상품 설명 이미지 내의 키워드 인식을 위한 딥러닝 훈련 데이터 자동 생성 방안
The way to make training data for deep learning model to recognize keywords in product catalog image at E-commerce 원문보기

지능정보연구 = Journal of intelligence and information systems, v.24 no.1, 2018년, pp.1 - 23  

김기태 ((주)마인드그룹 개발본부) ,  오원석 (한양대학교 경영학부) ,  임근원 (한양대학교 경영학부) ,  차은우 (한양대학교 경영학부) ,  신민영 (한양대학교 중어중문학과) ,  김종우 (한양대학교 경영대학)

초록
AI-Helper 아이콘AI-Helper

E-commerce 환경의 발전으로 소비자들은 다양한 상품들을 한 자리에서 폭 넓게 비교할 수 있게 되었다. 하지만 온라인 쇼핑몰에 올라와있는 상당량의 주요 상품 정보들이 이미지 형태이기 때문에 컴퓨터가 인지할 수 있는 텍스트 기반 검색 시스템에 반영될 수 없다는 한계가 존재한다. 이러한 한계점은 일반적으로 기존 기계학습 기술 및 OCR(Optical Character Recognition) 기술을 활용해, 이미지 형태로 된 키워드를 인식함으로써 개선할 수 있다. 그러나 기존 OCR 기술은 이미지 안에 글자가 아닌 그림이 많고 글자 크기가 작으면 낮은 인식률을 보인다는 문제가 있다. 이에 본 연구에서는 기존 기술들의 한계점을 해결하기 위하여, 딥러닝 기반 사물인식 모형 중 하나인 SSD(Single Shot MultiBox Detector)를 개조하여 이미지 형태의 상품 카탈로그 내의 텍스트 인식모형을 설계하였다. 하지만 이를 학습시키기 위한 데이터를 구축하는 데 상당한 시간과 비용이 필요했는데, 이는 지도학습의 방법론을 따르는 SSD 모형은 훈련 데이터마다 직접 정답 라벨링을 해줘야 하기 때문이다. 본 연구는 이러한 문제점을 해결하기 위해 '훈련 데이터 자동 생성 프로그램'을 함께 개발하였다. 훈련 데이터 자동 생성 프로그램을 통해 수작업으로 데이터를 만드는 것에 비하여 시간과 비용을 대폭 절감할 수 있었으며, 생성된 훈련용 데이터를 통해 모형의 인식 성능을 높일 수 있었다. 더 나아가 실험연구를 통해 자동으로 생성된 훈련 데이터의 특징별로 인식기 모형의 성능에 얼마나 큰 영향을 끼치는지 알아보고, 성능 향상에 효과적인 데이터의 특징을 분석하였다. 본 연구를 통해서 개발된 상품 카탈로그 내 텍스트 인식모형과 훈련 데이터 자동 생성 프로그램은 온라인 쇼핑몰 판매자들의 상품 정보 등록 수고를 줄여줄 수 있으며, 구매자들의 상품 검색 시 결과의 정확성을 향상시키는 데 기여할 수 있을 것으로 기대한다.

Abstract AI-Helper 아이콘AI-Helper

From the 21st century, various high-quality services have come up with the growth of the internet or 'Information and Communication Technologies'. Especially, the scale of E-commerce industry in which Amazon and E-bay are standing out is exploding in a large way. As E-commerce grows, Customers could...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 훈련용 데이터 자동 생성기를 개발한 결과, 원하는 특징을 가지는 데이터들을 빠른 시간 내에 원하는 양 만큼 쉽게 생산할 수 있게 되었다. 그러나 어떠한 특징의 데이터를 얼마나 생성해야 키워드 인식기 모형의 성능 향상에 도움이 되는지 명확하지 않아, 실험을 통해 이를 확인하였다.
  • 본래 지도학습에서는 기본적으로 훈련용 데이터와 시험용 데이터가 같은 종류인 것이 일반적이나, 본 연구에서 사용되는 훈련용 데이터는 상품 카탈로그 데이터를 이용하는 것이 아니라 임의로 제작하기 때문에 어떻게 제작하는지에 따라 성능 차이가 발생할 수 있다. 그렇기에 본 실험에서는 어떻게 훈련용 데이터를 제작하면 적은 양의 데이터로도 높은 성능을 발휘할 수 있는지 여러 방법들을 비교하면서 알아보는 것을 목표로 한다.
  • 본 연구에서는 전자상거래에서의 검색서비스 향상을 위해 상품 카탈로그 이미지 내 키워드를 인식하는 딥러닝 기반 키워드 인식기 모형을 제시했다. 그와 동시에 키워드 인식기 모형의 학습 데이터 수집 및 정답 라벨링 작업의 문제점을 해결하고자 훈련용 데이터 자동 생성기를 고안하였다. 훈련용 데이터 자동 생성기의 데이터를 학습한 키워드 인식기는 기존 OCR 프로그램보다 높은 키워드 인식 성능을 보여 상품 카탈로그 이미지 내 텍스트 인식에 본 연구의 딥러닝 기반 인식 모형이 효과적임을 보였다.
  • 두 번째는 훈련용 데이터 자동 생성기로 어떠한 특징의 데이터를 생성해야 키워드 인식기 성능 향상에 효과적인지 알아보고자, 서로 다른 특징을 가진 데이터들로 훈련된 키워드 인식기의 성능을 비교하는 실험이다. 본래 지도학습에서는 기본적으로 훈련용 데이터와 시험용 데이터가 같은 종류인 것이 일반적이나, 본 연구에서 사용되는 훈련용 데이터는 상품 카탈로그 데이터를 이용하는 것이 아니라 임의로 제작하기 때문에 어떻게 제작하는지에 따라 성능 차이가 발생할 수 있다.
  • 따라서 본 연구에서는 이 ‘훈련용 데이터 자동 생성 프로그램’으로 만든 데이터의 특징들이 SSD의 키워드 인식 성능에 미치는 영향을 분석하기 위한 실험을 수행하였다.
  • 훈련용 데이터 자동 생성기의 데이터를 학습한 키워드 인식기는 기존 OCR 프로그램보다 높은 키워드 인식 성능을 보여 상품 카탈로그 이미지 내 텍스트 인식에 본 연구의 딥러닝 기반 인식 모형이 효과적임을 보였다. 또한 본 연구는 훈련용 데이터 자동 생성기가 어떠한 특징의 데이터를 생성해야 키워드 인식기의 훈련에 효과적인지를 알아보는 실험을 수행하였다. 서로 다른 특징의 데이터들을 각각 1,000개씩 생성하여 키워드 인식 모형을 훈련시켰고, 각각의 인식 성능을 측정하였다.
  • 하지만 인공지능이 딥러닝을 필두로 이미지 인식에서 두각을 드러내기 시작하자 이미지 내의 텍스트를 인식하기 위해 딥러닝을 사용하는 연구가 많아지고 있는데, 여러 논문들에서 인공신경망을 기반으로 OCR 프로그램을 제작하였을 때 기존보다 좋은 성능을 보인다는 결과가 보이고 있다(Singh, 2013). 본 연구 역시 카탈로그 데이터들이 일반 문서와는 다르게 다양한 서체와 각종 배경 이미지들로 꾸며져 있기에 기존 OCR 기술들의 한계를 넘고자 딥러닝을 활용해 키워드 인식 모형을 만들었다.
  • 본 연구는 3장에서 제시한 키워드 인식기 및 훈련용 데이터 자동 생성기의 효과성을 실험하기 위해, 두 번의 실험을 설계하였다. 첫 번째로는 훈련 데이터 자동 생성기로 학습된 키워드 인식기의 성능을 기존 OCR 프로그램들의 성능과 비교하는 실험이다.
  • 따라서 본 연구에서는 이 ‘훈련용 데이터 자동 생성 프로그램’으로 만든 데이터의 특징들이 SSD의 키워드 인식 성능에 미치는 영향을 분석하기 위한 실험을 수행하였다. 본 연구는 이 실험을 통해 텍스트 인식모형에 효과적인 학습 데이터 생성 방안을 제시한다.
  • 본 연구에서는 기존 OCR 프로그램 및 서비스의 한계로 인해 현재 이미지 인식 분야에서 좋은 성능을 보이고 있는 딥러닝 기법을 활용해 새로운 키워드 인식기 개발을 시도하였다. 새로운 검색 서비스 목표의 특성상 미리 지정된 키워드만을 인식해 텍스트로 변환하면 되는데, 이에 가장 적합한 딥러닝 모형은 이미지 내 사물 인식 모형이라 판단하였다.
  • 본 연구에서는 이 두 종류의 시스템 중 고객들이 원하는 상품을 보다 쉽게 찾을 수 있도록 온라인 상점의 검색 시스템 부분을 개선해 보고자 한다. 그러나 고객이 입력한 키워드를 확장시키거나 유사한 의미를 찾는 것이 아니라, 검색이 되는 영역을 넓혀 보다 많은 키워드를 추출하려는 면에서 다른 기존 연구들과는 접근 방법이 다소 다르다고 볼 수 있다.
  • 본 연구에서는 전자상거래에서의 검색서비스 향상을 위해 상품 카탈로그 이미지 내 키워드를 인식하는 딥러닝 기반 키워드 인식기 모형을 제시했다. 그와 동시에 키워드 인식기 모형의 학습 데이터 수집 및 정답 라벨링 작업의 문제점을 해결하고자 훈련용 데이터 자동 생성기를 고안하였다.
  • 본 연구에서는 학습데이터 정답 라벨링과 데이터 수집의 어려움을 해소하기 위한 방안으로 프로그램을 통해 학습 데이터를 생성하는 방법(훈련용 데이터 자동 생성기 개발)을 고안했다. 대다수 상품 카탈로그 이미지는 컴퓨터 환경 하에서 제작되었다는 점에서 학습데이터를 컴퓨터 프로그램으로 생성하여도 실제 카탈로그 이미지 데이터와 생산과정에서 유의적인 차이가 없다.
  • 이러한 문제를 극복하기 위해 본 연구에서는 기존의 카탈로그 이미지들이 대다수 컴퓨터 환경에서 제작되었다는 것에서 착안하여, 자동으로 훈련 데이터를 생성하는 프로그램을 개발하였다. 이 프로그램은 이미지 속에 여러 키워드와 각종 요소들을 카탈로그 이미지와 유사하게 그려냄과 동시에 키워드의 위치 정보와 텍스트 정보를 바탕으로 정답 데이터를 생성한다.
  • 첫 번째로는 훈련 데이터 자동 생성기로 학습된 키워드 인식기의 성능을 기존 OCR 프로그램들의 성능과 비교하는 실험이다. 이를 통해 기존 OCR 프로그램들을 활용하여 상품 카탈로그 이미지들에서 키워드를 인식할 때의 한계와 함께, 본 키워드 인식기의 프로토타입이 가지는 강점에 대해 알아본다.
  • 하지만 키워드의 크기가 작거나 키워드의 서체가 일정치 않은 경우 OCR 기술의 인식 성능이 낮아 활용에 어려움이 있다. 이에 본 연구는 최근 2010년대 들어 이미지 인식 분야에서 좋은 성능을 보이고 있는 딥러닝 기법을 사용하여 이미지 형태의 상품 상세 설명 부분(이하 카탈로그 이미지)에 있는 키워드를 인식하는 방안을 제시하도록 한다. 인식에 사용한 모형은 사물 인식부분에서 좋은 인식 성능을 보여주고 있는 Single Shot Multibox Detector(SSD)로, 이를 활용하여 다양한 특정 키워드들을 인식할 수 있도록 설계하였다(Liu et al.
  • 본 연구는 3장에서 제시한 키워드 인식기 및 훈련용 데이터 자동 생성기의 효과성을 실험하기 위해, 두 번의 실험을 설계하였다. 첫 번째로는 훈련 데이터 자동 생성기로 학습된 키워드 인식기의 성능을 기존 OCR 프로그램들의 성능과 비교하는 실험이다. 이를 통해 기존 OCR 프로그램들을 활용하여 상품 카탈로그 이미지들에서 키워드를 인식할 때의 한계와 함께, 본 키워드 인식기의 프로토타입이 가지는 강점에 대해 알아본다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
OCR 기술의 문제를 해결하기 위해 도입한 방식은? 그러나 기존 OCR 기술은 이미지 안에 글자가 아닌 그림이 많고 글자 크기가 작으면 낮은 인식률을 보인다는 문제가 있다. 이에 본 연구에서는 기존 기술들의 한계점을 해결하기 위하여, 딥러닝 기반 사물인식 모형 중 하나인 SSD(Single Shot MultiBox Detector)를 개조하여 이미지 형태의 상품 카탈로그 내의 텍스트 인식모형을 설계하였다. 하지만 이를 학습시키기 위한 데이터를 구축하는 데 상당한 시간과 비용이 필요했는데, 이는 지도학습의 방법론을 따르는 SSD 모형은 훈련 데이터마다 직접 정답 라벨링을 해줘야 하기 때문이다.
기존 OCR 기술의 문제는? 이러한 한계점은 일반적으로 기존 기계학습 기술 및 OCR(Optical Character Recognition) 기술을 활용해, 이미지 형태로 된 키워드를 인식함으로써 개선할 수 있다. 그러나 기존 OCR 기술은 이미지 안에 글자가 아닌 그림이 많고 글자 크기가 작으면 낮은 인식률을 보인다는 문제가 있다. 이에 본 연구에서는 기존 기술들의 한계점을 해결하기 위하여, 딥러닝 기반 사물인식 모형 중 하나인 SSD(Single Shot MultiBox Detector)를 개조하여 이미지 형태의 상품 카탈로그 내의 텍스트 인식모형을 설계하였다.
광학적 문자 인식이란 무엇인가? 광학적 문자 인식(Optical Character Recognition; 이하 OCR)은 광학 메커니즘을 통해 디지털 이미지에 있는 이미지 형태의 텍스트를 편집할 수 있는 텍스트 형태로 변환시켜주는 프로세스를 칭한다(Singh, 2013). 이러한 OCR은 1870년 C.
질의응답 정보가 도움이 되었나요?

참고문헌 (34)

  1. Cao, G., X. Xie, W. Yang, Q. Liao, G. Shi, and J. Wu, "Feature-Fused SSD: Fast Detection for Small Objects," arXiv preprint, (2017). 

  2. Cho, S. Y., J. E. Choi, K. H. Lee, and H. W. Kim, "An online review mining approach to a recommendation system," Information Systems Review, Vol.17, No.3(2015), 95-111. 

  3. Choi, H. Y., and Y. H. Min, "Introduction to deep learning and major issues[written in Korean]," Korea Information Processing Society Review, Vol.22, No.1(2015), 1-15. 

  4. Choi, S. I., Y. J. Hyun, and N. G. Kim, "Improving performance of recommendation systems using topic modeling," Journal of Intelligence and Information Systems, Vol.21, No.3(2015), 101-116. 

  5. Deselaers, T., T. Gass, G. Heigold, and H. Ney, "Latent log-linear models for handwritten digit classification," IEEE transactions on pattern analysis and machine intelligence, Vol.34, No.6(2012), 1105-1117. 

  6. Everingham, M., L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman, "The pascal visual object classes (voc) challenge," International journal of computer vision, Vol.88, No. 2(2010), 303-338. 

  7. Eikvil, L., "Optical character recognition," Technical Report, Norwegian Computing Center, 1993. 

  8. Fu, C. Y., W. Liu, A. Ranga, A. Tyagi, and A. C. Berg, "DSSD: Deconvolutional Single Shot Detector," arXiv preprint, (2017). 

  9. Girshick, R., "Fast r-cnn," The IEEE International Conference on Computer Vision (ICCV), (2015), 1440-1448. 

  10. Girshick, R., J. Donahue, T. Darrell, and J. Malik, "Rich feature hierarchies for accurate object detection and semantic segmentation," The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), (2014), 580-587. 

  11. Gupta, A., A. Vedaldi, and A. Zisserman, "Synthetic data for text localisation in natural images," The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), (2016), 2315-2324. 

  12. Hong, M. D., J. W. Kim, and G. S. Jo, "A wordnet-based open market category search system for efficient goods registration," Journal of the Korea society of computer and information, Vol.17, No.9(2012), 17-27. 

  13. Hwang, C. G., M. N. Yi, and G. D. Jung, "Design of merchandise retrieval system based on ontology on EC," Proceedings of the Korean Society for Internet Information, Vol.6, No.1(2005), 213-216. 

  14. Jung, K. H., H. J. Kim, and Y. H. Lee, "Character recognition in general video using deep learning[written in Korean]," Korea Information Processing Society Review, Vol.22, No.1(2015), 42-54. 

  15. Kim, H. A., Free 'ROSE document recognition', image to excel conversion function added[written in Korean], EDAYIL, 2016. Available at http://www.edaily.co.kr/news/NewsRead.edy?newsid01466166612883112(Accessed 13 July, 2017) 

  16. Kim, H. J., "Dynamic hand gesture recognition using CNN model and FMM neural networks," Journal of Intelligence and Information Systems, Vol. 16, No. 2(2010), 95-108. 

  17. Kim, J. W., H. A. Pyo, J. W. Ha, C. K. Lee, and J. H. Lee, "Deep learning algorithms and applications," Communications of the Korean Institute of Information Scientists and Engineers, Vol. 33, No. 8(2015), 25-31. 

  18. Kim, K. J., B. G. Kim, "Product recommender system for online shopping malls using data mining techniques," Journal of Intelligence and Information Systems, Vol.11, No.1(2005), 191-205. 

  19. Kim, K. S., "A hybrid collaborative filtering algorithm for personalized recommendations and its application to the internet electronic commerce," The Journal of Internet Electronic Commerce Research, Vol.8, No.4(2008), 1-20. 

  20. Krizhevsky, A., I. Sutskever, and G. E. Hinton, "Imagenet classification with deep convolution neural networks," Advances in neural information processing systems, Vol.25(2013), 1097-1105. 

  21. LeCun, Y., B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel, "Backpropagation applied to handwritten zip code recognition," Neural computation, Vol. 1, No. 4(1989), 541-551. 

  22. Liu, W., D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C. Y. Fu, and A. C. Berg, "SSD: Single shot multibox detector," arXiv preprint, (2016). 

  23. Ma, J., I. H. Jeon, and Y. K. Choi, "Design of an efficient keyword-based retrieval system using concept lattice," Journal of Internet Computing and Services, Vol.16, No.3(2015), 43-57. 

  24. Minsky, M., and S. Papert, Perceptrons. M.I.T. Press, Oxford, England, 1969. 

  25. Mo, Y. I., and C. G. Lee, "A study on increasing the efficiency of image search using image attribute in the area of content-based image retrieval," Journal of the Korea society for simulation, Vol.18, No.2(2009), 39-48. 

  26. Patel, C., A. Patel, and D. Patel, "Optical character recognition by open source OCR tool tesseract: A case study," International Journal of Computer Applications, Vol.55, No.10(2012), 50-56. 

  27. Redmon, J., S. Divvala, R. Girshick, and A. Farhadi, "You only look once: Unified, real-time object detection," The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), (2016), 779-788. 

  28. Ren, S., k. He, R. Girshick, and J. Sun, "Faster R-CNN: Towards real-time object detection with region proposal networks," Advances in neural information processing systems, (2015), 91-99. 

  29. Rosenblatt, F., "The perceptron: A probabilistic model for information storage and organization in the brain," Psychological review, Vol.65, No.6(1958), 386-408. 

  30. Singh, S., "Optical character recognition techniques: a survey," Journal of emerging Trends in Computing and information Sciences, Vol.4, No.6(2013), 545-550. 

  31. Yang, G. M., E-commerce industry to attract investment attraction 'hot'... The market gets bigger.[written in Korean], NEWSIS, 2017. Available at http://www.newsis.com/view/?idNISX20170426_0014856681 (Accessed 13 July, 2017). 

  32. Yang, J. G., S. I. Kwon, and Y. M. Yu, "A study on the current state of cross-border e-commerce and strategic activation plans for overseas direct sales," E-Trade Review, Vol.14, No.1(2016), 23-46. 

  33. Yao, C., X. Bai, and W. Liu, "A unified framework for multioriented text detection and recognition," IEEE Transactions on Image Processing, Vol.23, No.11(2014), 4737-4749. 

  34. Zhang, B. T., "Deep Hypernetwork Models," Communications of the Korean Institute of Information Scientists and Engineers, Vol.33, No.8(2015), 11-24. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로