$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

전문성 이식을 통한 딥러닝 기반 전문 이미지 해석 방법론
Deep Learning-based Professional Image Interpretation Using Expertise Transplant 원문보기

지능정보연구 = Journal of intelligence and information systems, v.26 no.2, 2020년, pp.79 - 104  

김태진 (국민대학교 비즈니스IT 전문대학원) ,  김남규 (국민대학교 비즈니스IT 전문대학원)

초록
AI-Helper 아이콘AI-Helper

최근 텍스트와 이미지 딥러닝 기술의 괄목할만한 발전에 힘입어, 두 분야의 접점에 해당하는 이미지 캡셔닝에 대한 관심이 급증하고 있다. 이미지 캡셔닝은 주어진 이미지에 대한 캡션을 자동으로 생성하는 기술로, 이미지 이해와 텍스트 생성을 동시에 다룬다. 다양한 활용 가능성 덕분에 인공지능의 핵심 연구 분야 중 하나로 자리매김하고 있으며, 성능을 다양한 측면에서 향상시키고자 하는 시도가 꾸준히 이루어지고 있다. 하지만 이처럼 이미지 캡셔닝의 성능을 고도화하기 위한 최근의 많은 노력에도 불구하고, 이미지를 일반인이 아닌 분야별 전문가의 시각에서 해석하기 위한 연구는 찾아보기 어렵다. 동일한 이미지에 대해서도 이미지를 접한 사람의 전문 분야에 따라 관심을 갖고 주목하는 부분이 상이할 뿐 아니라, 전문성의 수준에 따라 이를 해석하고 표현하는 방식도 다르다. 이에 본 연구에서는 전문가의 전문성을 활용하여 이미지에 대해 해당 분야에 특화된 캡션을 생성하기 위한 방안을 제안한다. 구체적으로 제안 방법론은 방대한 양의 일반 데이터에 대해 사전 학습을 수행한 후, 소량의 전문 데이터에 대한 전이 학습을 통해 해당 분야의 전문성을 이식한다. 또한 본 연구에서는 이 과정에서 발생하게 되는 관찰간 간섭 문제를 해결하기 위해 '특성 독립 전이 학습' 방안을 제안한다. 제안 방법론의 실현 가능성을 파악하기 위해 MSCOCO의 이미지-캡션 데이터 셋을 활용하여 사전 학습을 수행하고, 미술 치료사의 자문을 토대로 생성한 '이미지-전문 캡션' 데이터를 활용하여 전문성을 이식하는 실험을 수행하였다. 실험 결과 일반 데이터에 대한 학습을 통해 생성된 캡션은 전문적 해석과 무관한 내용을 다수 포함하는 것과 달리, 제안 방법론에 따라 생성된 캡션은 이식된 전문성 관점에서의 캡션을 생성함을 확인하였다. 본 연구는 전문 이미지 해석이라는 새로운 연구 목표를 제안하였고, 이를 위해 전이 학습의 새로운 활용 방안과 특정 도메인에 특화된 캡션을 생성하는 방법을 제시하였다.

Abstract AI-Helper 아이콘AI-Helper

Recently, as deep learning has attracted attention, the use of deep learning is being considered as a method for solving problems in various fields. In particular, deep learning is known to have excellent performance when applied to applying unstructured data such as text, sound and images, and many...

주제어

표/그림 (22)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 따라서 본 연구에서는 전문가가 여러 개별 특성을 동시에 관찰하고 그 특성을 종합하여 이미지를 해석하는 과정에 착안하여, 종합적인 해석을 생성하기에 앞서 각 특성에 대한 ‘관찰 캡션’을 분리하여 생성하고, 이를 종합하여 ‘전문 해석’을 도출하는 방안을 제시하고자 한다.
  • 하지만 이처럼 전문가에 의해 작성된 이미지/캡션 쌍은 그 수가 매우 부족하며 확보도 어려우므로, 기존의 이미지 캡셔닝 기법을 통해 각 분야의 전문적 캡션을 자동으로 생성하기란 현실적으로 불가능하다. 따라서 본 연구에서는 전이 학습, 즉 방대한 양의 일반 데이터에 대해 사전 학습을 수행한 후, 소량의 전문 데이터에 대한 미세 조정을 진행하여 이러한 문제를 해결하고자 한다.
  • 본 연구에서는 주어진 이미지에 대해 관련 캡션을 자동으로 생성하는 기술인 이미지 캡셔닝을 더욱 고도화하기 위한 방안을 제시하였다. 이미지 캡셔닝의 성능을 고도화하기 위한 최근의 많은 노력에도 불구하고, 이미지를 일반인이 아닌 분야별 전문가의 시각에서 해석하기 위한 연구는 찾아보기 어렵다.
  • 본 절에서는 일반 캡션의 생성 결과와 전문 캡션의 생성 결과를 비교함으로써 제안 방법론의 우수성을 평가한다. [Figure 19]는 주어진 이미지에 대해 일반적인 관점을 학습한 사전 학습 모델을 사용하여 이미지를 추론한 결과를 보이고 있다.
  • 이를 해결하기 위해 미술 치료의 일부 과정을 인공지능으로 보완하여 객관성을 높이고자 하는 연구가 이루어진 바 있다. 이러한 맥락에서 본 연구에서는 미술 치료사의 그림 해석을 지원하기 위해, 입력 이미지에 대해 미술 치료 관점에서의 전문적 캡션을 생성하는 기법을 제안하고자 한다.
  • 이에 본 연구에서는 전문가의 전문성을 활용하여 이미지에 대해 해당 분야에 특화된 전문 캡션을 도출하기 위한 방안을 제안하고자 한다. [Figure 3]은 미술치료 전문가의 관점에서 캡션 전문성 이식을 통한 딥러닝 기반 전문 이미지 해석 방법론을 생성한 실제 실험 결과의 일부를 나타내고 있다.
  • 이미지 캡셔닝의 성능을 고도화하기 위한 최근의 많은 노력에도 불구하고, 이미지를 일반인이 아닌 분야별 전문가의 시각에서 해석하기 위한 연구는 찾아보기 어렵다. 이에 본 연구에서는 전문가의 전문성을 활용하여 이미지에 대해 해당 분야에 특화된 캡션을 생성하기 위한 방안을 제안 하였다. 또한 데이터의 편향을 줄이고 학습에 악영향을 주는 요소를 제거하기 위해 이미지 복잡도에 따른 캡션의 품질 비교 실험을 진행하였으며, 그 결과를 토대로 전문 캡션 생성 모델을 구축하고 캡션을 추론한 결과를 제시하였다.
  • 또한 전이 학습은 한 분야의 학습 결과를 다른 분야의 추론에 활용하기 위한 기법으로, 주로 딥러닝 학습에 필요한 데이터의 부족 현상을 극복하고 학습에 소요되는 시간을 줄이기 위해 사용되고 있다. 하지만 본 연구에서는 특정 분야의 전문성을 구조화하고, 이를 통해 일반적 사전 학습의 결과에 해당 분야의 전문성을 이식하기 위한 방안으로 전이 학습을 사용하는 방안을 제시했다. 향후 제안 방법론을 다양한 분야의 전문성 이식에 적용하여 전문 데이터 부족 문제를 해결하고 성능을 고도화하기 위한 연구가 활발하게 이루어질 것으로 기대한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
이미지 캡셔닝이란 무엇인가? 최근에는 이미지 딥러닝과 텍스트 딥러닝 기술의 괄목할 만한 발전에 힘입어, 두 분야의 접점에 해당하는 이미지 캡셔닝(Image Captioning)의 활용 및 기술에 대한 관심이 급증하고 있다. 이미지 캡셔닝은 입력 이미지를 이해하고 그에 적합한 캡션을 출력으로 생성하는 기술이며, 이미지 인코딩과 텍스트 생성을 동시에 다룬다(Ryan et al, 2014). 이미지 캡셔닝은 기본적으로 이미지 인덱싱 및 검색에 사용될 수 있으며, 의학, 심리학, 교육, 그리고 소셜 미디어 등 다양한  분야에서 활용될 수 있다.
어텐션이란 무엇이며, 어떤 장점을 갖는가? 하지만 LSTM 역시도 장기 의존성 문제를 완벽하게 해결하지 못한다는 한계가 있으며, 이를 해결하기 위해 등장한 것이 어텐션 메커니즘이다(Ashnish et al, 2017). 어텐션은 문장에서 학습에 필요한 중요한 정보에 초점을 맞추는 방식으로, 처리해야 할 정보의 양을 줄여준다는 장점을 갖는다. 최근 많은 연구에서 어텐션 메커니즘이 적용되고 있으며, 이는 그 동안 연구된 딥러닝 기법의 성능을 한 차원 끌어 올리는데 기여하였다.
대표적인 신경망 기반 사전 학습 언어 모델인 ELMo, BERT, XLNet 각각의 특징은 무엇인가? 대표적인 신경망 기반 사전 학습 언어 모델로는 ELMo(Embeddings from Language Model), BERT(Bidirectional Encoder Representations from Transformer)(Devlin et al, 2018; Peters et al, 2018), 그리고 XLNet(eXtra Long Network)(Yang et al, 2019) 등이 널리 알려져 있다. ELMo는 LSTM을 활용하여 텍스트 시퀀스를 정방향, 역방향의 두 방향으로 학습하는 양방향 학습 언어 모델이다. BERT 역시 양방향 학습 언어 모델이며, ELMo에서 나타나는 신호의 전달 강도 한계를 극복하기 위해 특정 단어에 대해 동일 시퀀스에 존재하는 다른 단어와의 관계를 파악하는 알고리즘인 어텐션 메커니즘 기반의 학습을 수행한다. 최근에 고안된 사전 학습 언어 모델인 XLNet은 전체 텍스트를 부분으로 분할하여 학습을 수행하기 때문에 장문의 텍스트에 대한 학습이 가능하다는 점, 그리고 텍스트의 시퀀스를 무작위로 바꾼 학습을 수행하여 원래 텍스트가 가지고 있던 자연스러운 문맥을 더욱 정확하게 파악할 수 있다는 점으로 인해 최근 텍스트 분석의 다양한 분야에서 많은 관심을 받고 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (38)

  1. Alex, K., S. Ilya, and E. H. Geoffrey, "ImageNet Classification with Deep Convolutional Neural Networks," Advances in Neural Information Processing Systems, Vol. 25, (2012), 1097-1105. 

  2. Ali, F. B., G. Lluis, R. Marcal, and D. Karatzas, "Good News, Everyone! Context Driven Entity-Aware Captioning for News Images," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, (2019), 12466-12475. 

  3. Ashnish, V., S. Noam, P. Niki, U. Jakob, J. Llion, N. G. Aidan, K. Lukasz, and P. Illia, "Attention is All You Need,", arXiv:1706.03762, (2017). 

  4. Buck J.N., "The H-T-P test," Journal of Clinical Psychology, Vol 4, (1948), 151-159. 

  5. Caigny, A. D., C. Krsitof, W. D. B. Koen, and L. Stefan, "Incorporating Textual Information in Customer Churn Prediction Models Based on a Convolutional Neural Network," International Journal of Forecasting, (2019), 1-16. 

  6. Chen, L., T. Zhang, and Y. Chen, "Customer Purchase Intent Prediction Under Online Multi-Channel Promotion: A Feature-Combined Deep Learning Framework," IEEE Access, Vol. 7, (2019), 112963-112976. 

  7. Christain, S., W. Liu, Y. Jia, S. Pierre, R. Scott, A. Dragomir, E. Dumitru, V. Vincent, and R. Andrew, "Going Deeper with Convolutions," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, (2015), 1-9. 

  8. Devlin, J., MW. Chang, K. Lee, and K. Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," arXiv:1810.04805, (2018). 

  9. Feng, M., T. Shaonan, C. Lee, and M. Ling, "Deep Learning Models for Bankruptcy Prediction Using Textual Disclosures," European Journal of Operational Research, Vol. 274, No. 2, (2019), 743-758. 

  10. Forrest, N. I., S. Han, W. M. Matthew, A. Khalid, J. D. William, and K. Kurt, "SqueezeNet:AlexNet-level Accuracy with 50x Fewer Parameters and <0.5MB Model Size," arXiv:1602.07360, (2016). 

  11. Gan, C., Z. Gan, X. He, J. Gao, and D. Li, "StyleNet: Generating Attractive Visual Captions with Styles," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, (2017), 3137-3146. 

  12. He, K., X. Zhang, S. Ren, and J. Sun, "Deep Residual Learning for Image Recognition," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, (2016), 770-778. 

  13. Hossain, M. D. Z., S. Ferdous, F. S. Mohd, and L. Hamid, "A Comprehensive Survey of Deep Learning for Image Captioning," ACM Computing Surveys, Vol. 51, No. 6, (2019), 1-36. 

  14. Huang, G., Z. Liu, V. D. M. Laurens, and Q.W. Kilian, "Densely Connected Convolutional Networks," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, (2017), 4700-4708. 

  15. Ian, G., B. Yoshua., and C. Aaron, Deep Learning, MIT Press, United Strates, 2016. 

  16. Jeffrey, P., S. Richard., and D. M. Christopher, "Glove: Global Vectors for Word Representation," in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, (2014), 1532-1543. 

  17. Justin, J., K. Andrej, and F. Li., "Densecap: Fully Convolutional Localization Networks for Dense Captioning," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, (2016), 4565-4574. 

  18. Karl, W., M. K. Taghi, and D. Wang, "A Survey of Transfer Learning," Journal of Big Data, Vol. 3, (2016) 1-40. 

  19. Kim, B. N., J. W. Choi, H. S. Ko, "Replication crisis in psychology: A review of its causes and solutions," Korean Journal of Psychology:general, Vol. 36. No. 3, (2017), 359-396. 

  20. Lecun, Y., B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel, "Backpropagation Applied to Handwritten Zip Code Recognition," Neural Computation, Vol. 1, No. 4, (1989), 541-551. 

  21. Liu, Y. and L. Wu, "Geological Disaster Recognition on Optical Remote Sensing Images Using Deep Learning," Procedia Computer Science, Vol. 91, (2016), 566-575. 

  22. Marc, T., G. Albert, and P. C. Kenneth, "Transfer Learning from Language Models to Image Caption Generators: Better Models may not Transfer Better," arXiv:1901.01216, (2019). 

  23. Micheal, I. J., "Attractor Dynamics and Parallelism in a Connectionist Sequential Machine," Artificial Neural Networks: Concept Learning, (1990), 112-127. 

  24. Pan, S. J. and Q. Yang, "A Survey on Transfer Learning," IEEE Transactions on Knowledge and Data Engineering, Vol. 22, No. 10, (2010), 1345-1359. 

  25. Pang, G., X. Wang, F. Hao, J. Xie, X. Wang, Y. Lin, and X. Qin, "ACNN-FM: A Novel Recommender with Attention-based Convolutional Neural Network and Factorization Machines," Knowledge-Based Systems, Vol. 181, (2019), 1-13. 

  26. Peters, M. E., N. Mark, I. Mohi, G. Matt, C. Christopher, K. Lee, and Z. Luke, "Deep Contextualized Word Representations," arXiv:1802.05365, (2018). 

  27. Piotr, B., G. Eduard, J. Armand, and M. Tomas, "Enriching Word Vectors with Subword Information," arXiv:1607.04606, (2016) 

  28. Qi D., L. S., J. Song, E. Cui, T. Bharti, A. Sacheti, "ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data," arXive:2001.07966, (2020). 

  29. Ren, S., K. He, G. Ross, and J. Sun, "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks," Advances in Neural Information Processing Systems, Vol. 28, (2015), 91-99. 

  30. Ryan, K., S. Ruslan, and Z. Richard, "Multimodal Neural Language Models," in Proceedings of the International Conference on Machine Learning, Vol. 32, (2014), 592-603. 

  31. Sanjiban, S. R., M. Abhinav, G. Rishab, S. O. Mohammad, and P. V. Krishna, "A Deep Learning Based Artificial Neural Network Approach for Intrusion Detection," in Proceedings of the International Conference Mathematics and Computing, (2017), 44-53. 

  32. Hochreiter, S. and S. Jurgen, "Long Short-Term Memory," Neural Computation, Vol. 9, No. 8, (1997), 1735-1780. 

  33. Tan, C., F. Sun, T. Kong, W. Zhang, C. Yang, and C. Liu, "A Survey on Deep Transfer Learning," arXiv:1808.01974, (2018). 

  34. Tomas, M., K. Chen, C. Greg, and D. Jeffrey, "Efficient Estimation of Word Representations in Vector Space," arXiv:1301.3781, (2013). 

  35. Tomas, M., S. Ilya, K. Chen, C. Greg, and D. Jeffrey, "Distributed Representations of Words and Phrases and their Compositionality," Advances in Neural Information Processing Systems, Vol. 26, (2013), 3111-3119. 

  36. Xu, K., J. Ba, K. Ryan, K. Cho, C. Aaron, S. Ruslan, S. Z. Richard, and B. Yoshua, "Show, Attend and Tell: Neural Image Caption Generation with Visual Attention," in Proceedings of the International Conference on Machine Learning, Vol. 32, (2015), 2048-2057. 

  37. Yang, Y., L. Zheng, J. Zhang, Q. Cui, Z. Li, and P. S. Yu, "TI-CNN: Convolutional Neural Networks for Fake News Detection," arXiv:1806.00749, (2018). 

  38. Yang, Z., Z. Dai, Y. Yang, C. Jaime, R. S. Russ, and Q. V. Le, "XLNet: Generalized Autoregressive Pretraining for Language Understanding," arXiv:1906.08237, (2019). 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로