[논문]멀티모달 패션 추천 대화 시스템을 위한 개선된 트랜스포머 모델

박영준; 조병철; 이경욱; 김경선

doi:10.5392/jkca.2022.22.01.138

멀티모달 패션 추천 대화 시스템을 위한 개선된 트랜스포머 모델
Improved Transformer Model for Multimodal Fashion Recommendation Conversation System 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.22 no.1, 2022년, pp.138 - 147

박영준 (엔에이치엔 다이퀘스트) , 조병철 (엔에이치엔 다이퀘스트) , 이경욱 (엔에이치엔 다이퀘스트) , 김경선 (엔에이치엔 다이퀘스트)

초록
AI-Helper

최근 챗봇이 다양한 분야에 적용되어 좋은 성과를 보이면서 쇼핑몰 상품 추천 서비스에도 챗봇을 활용하려는 시도가 많은 이커머스 플랫폼에서 진행되고 있다. 본 논문에서는 사용자와 시스템간의 대화와 패션 이미지 정보에 기반해 사용자가 원하는 패션을 추천하는 챗봇 대화시스템을 위해, 최근 자연어처리, 음성인식, 이미지 인식 등의 다양한 AI 분야에서 좋은 성능을 내고 있는 트랜스포머 모델에 대화 (텍스트) 와 패션 (이미지) 정보를 같이 사용하여 추천의 정확도를 높일 수 있도록 개선한 멀티모달 기반 개선된 트랜스포머 모델을 제안하며, 데이터 전처리(Data preprocessing) 및 학습 데이터 표현(Data Representation)에 대한 분석을 진행하여 데이터 개선을 통한 정확도 향상 방법도 제안한다. 제안 시스템은 추천 정확도는 0.6563 WKT(Weighted Kendall's tau)으로 기존 시스템의 0.3372 WKT를 0.3191 WKT 이상 크게 향상시켰다.

Abstract ▼ AI-Helper

Recently, chatbots have been applied in various fields and have shown good results, and many attempts to use chatbots in shopping mall product recommendation services are being conducted on e-commerce platforms. In this paper, for a conversation system that recommends a fashion that a user wants based on conversation between the user and the system and fashion image information, a transformer model that is currently performing well in various AI fields such as natural language processing, voice recognition, and image recognition. We propose a multimodal-based improved transformer model that is improved to increase the accuracy of recommendation by using dialogue (text) and fashion (image) information together for data preprocessing and data representation. We also propose a method to improve accuracy through data improvement by analyzing the data. The proposed system has a recommendation accuracy score of 0.6563 WKT (Weighted Kendall's tau), which significantly improved the existing system's 0.3372 WKT by 0.3191 WKT or more.

주제어

표/그림 (13)

그림 그림 1. 멀티 모달 패션 추천 대화 시스템 개요
그림 그림 2. 트랜스포머 모델
그림 그림 3. BERT 모델[24]
그림 그림 4. 추천 받은 옷에 대한 텍스트 정보 예시
그림 그림 5. 데이터 전처리 전후 예시
그림 그림 6. 데이터 증강 예시 (True:1, False: 0)
표 표 1. 발화자 태그 및 대화 의도 태그 설명
그림 그림 7. ELECTRA를 이용한 패션 추천 시스템
그림 그림 8. Multimodal ELECTRA를 이용한 패션 추천 시스템
그림 그림 9. 한 의상 코디가 3가지 종류로 이루어져 있을 때의 최종 의상 코디 선택 방법 예시
표 표 2. 실험에서 사용한 하이퍼 파라미터
표 표 3. 다양한 모델에 따른 실험 결과
표 표 4. 최종모델에 대한 결과

AI 본문요약
AI-Helper

문제 정의

본 논문에서는 멀티모달 패션 추천 시스템을 위해 개선된 트랜스포머 모델을 제안한다. 본 논문에서 제안하는 모델은 자연어 데이터만 사용하는 기존 트랜스포머모델과 달리, 자연어 데이터와 이미지 데이터를 동시에 사용해 의상 코디를 추천한다.
본 논문에서는 쇼핑몰 영역에서 사용자가 원하는 의상을 사용자와 대화를 통해 추천하는 패션 추천 대화 시스템에 사용되어 추천 정확성과 신뢰도를 높일 수 있도록 개선한 트랜스포머 기반 멀티모달 패션 추천 대화 모델을 제안한다.
본 논문의 목표 서비스인 패션 추천 대화 시스템에서는 사용자의 긴 발화와 이전 발화 내용에 대한 정확한 이해를 통한 정확한 추천이 필요하므로 이 분야에서 가장 좋은 성능을 보이는 트랜스포머를 기본 모델로 사용하여 대화(텍스트) 기반의 기존 트랜스포머 모델을 패션(이미지) 정보를 윱합 적용한 멀티모달 기반 트랜스포머 모델로 개선하고 데이터 전처리 및 학습데이터 표현에 대한 분석을 진행하여 이를 학습데이터 개선에 반영한 개선된 멀티모달 기반 트랜스포머 모델을 제안한다. 본 논문 제안한 시스템은 기존 시스템의 정확도 0.

제안 방법

[그림 1]은 본 논문의 목표 서비스인 멀티모달 패션 추천 대화 시스템의 서비스 흐름으로 사용자와의 대화를 통해 여러 개의 의상 중 사용자의 요구사항에 가장 적합한 의상을 사용자와의 대화(텍스트)와 패션(이미지) 분석을 기반으로 딥러닝 추천 기술을 이용하여 추천한다.
본 논문에서는 멀티모달 패션 추천 시스템을 위해 개선된 트랜스포머 모델을 제안한다. 본 논문에서 제안하는 모델은 자연어 데이터만 사용하는 기존 트랜스포머모델과 달리, 자연어 데이터와 이미지 데이터를 동시에 사용해 의상 코디를 추천한다. 제안하는 모델은 대용량의 말뭉치에 사전 학습된 언어 모델을 사용함으로써 비교적 정확하게 대화 내용을 이해했으며, 본 논문에서는 모델의 성능 향상을 위해 데이터 증강 등의 데이터 전처리를 진행했다.
본 논문에서는 사용자와 시스템이 나누었던 이전 대화를 활용하여, 주어진 의상 코디 중 사용자에게 적절한 코디를 추천하는 시스템을 제안한다. 모델을 미세조정 시에는 사용자와 시스템의 대화에 대해 해당 의상 코디가 적절한지의 여부를 분류하는 문제로 학습한다.
위와 같은 방법으로 본 논문에서는 이미지 데이터와 텍스트 데이터를 결합한 방법인 초기 융합 멀티모달 (early fusion multimodal) 패션 추천 시스템을 제안한다.
본 논문에서 제안하는 모델은 자연어 데이터만 사용하는 기존 트랜스포머모델과 달리, 자연어 데이터와 이미지 데이터를 동시에 사용해 의상 코디를 추천한다. 제안하는 모델은 대용량의 말뭉치에 사전 학습된 언어 모델을 사용함으로써 비교적 정확하게 대화 내용을 이해했으며, 본 논문에서는 모델의 성능 향상을 위해 데이터 증강 등의 데이터 전처리를 진행했다. 향후 연구에서는 멀티모달 모델의 결합 부분을 개선하여 좀 더 이미지 데이터를 효과적으로 사용할 수 있는 방법을 고안할 것이며, ELECTRA 모델이 아닌 다른 사전 학습 언어 모델들에 대해서도 추가적인 연구를 진행할 계획이다.

대상 데이터

3372 WKT score를 보였다. KoELECTRA(2) 모델은 learning rate 4e-5, epoch 5, 1:3 비율로 데이터 증강을 적용했고, KoELECTRA(3) 모델은 learning rate 4e-5, epoch 5, 1:4 비율로 데이터 증강을 했다. KoELECTRA(4) 모델은 learning rate 3e-5, epoch 5, 1:5 비율로 데이터 증강을 했다.
KoELECTRA(2) 모델은 learning rate 4e-5, epoch 5, 1:3 비율로 데이터 증강을 적용했고, KoELECTRA(3) 모델은 learning rate 4e-5, epoch 5, 1:4 비율로 데이터 증강을 했다. KoELECTRA(4) 모델은 learning rate 3e-5, epoch 5, 1:5 비율로 데이터 증강을 했다. 이때 각각 0.
Multimodal KoELECTRA(1)는 원본 데이터를 사용하고, 하이퍼 파라미터는 learning rate 3e-5, epoch 5를 했을 때 0.2999 WKT score를 보였다. Multimodal KoELECTRA(2)는 1:3비율, Multimodal KoELECTRA(3)는 1:4 비율로 데이터 증강을 했고, 동일하게 learning rate 3e-5, epoch 5를 하이퍼 파라미터로 사용했을 때 각각 0.
[그림 4][그림 5]는 본 논문에서 사용한 데이터 샘플이고, [표 1]는 발화자 태그 및 의도 태그 설명이다. 본 논문에서 사용한 데이터는 시스템과 사용자가 나눈 대화에 대해 발화자 정보, 대화 내용, 대화의 의도 태그, 추천받은 옷에 대한 텍스트 정보로 구성 되어 있다.
본 논문에서는 FASCODE & Codebook(FAShion COordination DatasEt / FAShion CODE)[23] 패션 대화 데이터(토큰 분리 미적용 버전)을 사용한다
본 논문에서는 FASCODE DATA (토큰 미분류 데이터)를 이용하고, 다양한 하이퍼 파라미터 (hyperparameter)와 데이터 증강을 적용하여 WKT Score를 구한다. WKT는 순위 상관계수(rank correlation coefficient)의 한 종류이며 두 변수들 간의 순위를 비교하여 연관성을 계산하고, 가중치가 고려된 상관계수를 측정하는 방법이다.
본 논문에서는 KoELECTRA 모델에 [표 2]와 같은 하이퍼 파라미터를 이용하여 실험을 진행한다.

이론/모형

ELECTRA 모델의 입력은 대화와 의상 아이템의 설명 데이터의 특징 단어들을 하나로 이어붙여 긴 입력 시계열 데이터를 생성하여 사용한다. ELECTRA 모델을 통과해 출력된 [CLS] 토큰의 벡터를 MLP를 통과시킨 후 참, 거짓 여부를 출력할 수 있도록 Cross Entropy Loss를 사용해 학습했다.
BERT 보다 학습 속도가 빠르고, 비교적 적은 파라미터 (parameter)를 가지고 BERT 이상의 성능을 기록했다. 본 논문에서는 한국어로 사전 학습된 KoELECTRA 모델을 사용한다[25]. 사전 학습된 KoELECTRA 모델을 FASCODE & Codebook에 미세조정 학습 후 패션 추천에 사용한다.

성능/효과

KoELECTRA 모델의 경우 데이터 증강을 했을 때 최대 0.30의 WKT score 성능 향상이 있었고, Multimodal KoELECTRA의 경우 최대 0.27의 WKT score 성능 향상이 있었다. 모델의 종류와 무관하게 데이터 증강을 사용할 경우 성능 향상을 기록했다.
KoELECTRA(1) 모델은 데이터 증강 없이 원본 데이터, learning rate 3e-5, epoch 5를 사용했을 때 0.3372 WKT score를 보였다. KoELECTRA(2) 모델은 learning rate 4e-5, epoch 5, 1:3 비율로 데이터 증강을 적용했고, KoELECTRA(3) 모델은 learning rate 4e-5, epoch 5, 1:4 비율로 데이터 증강을 했다.
2999 WKT score를 보였다. Multimodal KoELECTRA(2)는 1:3비율, Multimodal KoELECTRA(3)는 1:4 비율로 데이터 증강을 했고, 동일하게 learning rate 3e-5, epoch 5를 하이퍼 파라미터로 사용했을 때 각각 0.5781, 0.5304 WKT score 를 보였다.
27의 WKT score 성능 향상이 있었다. 모델의 종류와 무관하게 데이터 증강을 사용할 경우 성능 향상을 기록했다.
본 논문의 목표 서비스인 패션 추천 대화 시스템에서는 사용자의 긴 발화와 이전 발화 내용에 대한 정확한 이해를 통한 정확한 추천이 필요하므로 이 분야에서 가장 좋은 성능을 보이는 트랜스포머를 기본 모델로 사용하여 대화(텍스트) 기반의 기존 트랜스포머 모델을 패션(이미지) 정보를 윱합 적용한 멀티모달 기반 트랜스포머 모델로 개선하고 데이터 전처리 및 학습데이터 표현에 대한 분석을 진행하여 이를 학습데이터 개선에 반영한 개선된 멀티모달 기반 트랜스포머 모델을 제안한다. 본 논문 제안한 시스템은 기존 시스템의 정확도 0.3372 WKT를 0.6563 WKT로 크게 향상 시켰다.
ensemble 모델은 KoELECTRA(3)모델과 Multimodal KoELECTRA(2)를 선형 앙상블(linear ensemble) 한모델이다. 최종적으로 ensemble모델이 0.6563 WKT score로 가장 높은 성능을 기록했다.

후속연구

제안하는 모델은 대용량의 말뭉치에 사전 학습된 언어 모델을 사용함으로써 비교적 정확하게 대화 내용을 이해했으며, 본 논문에서는 모델의 성능 향상을 위해 데이터 증강 등의 데이터 전처리를 진행했다. 향후 연구에서는 멀티모달 모델의 결합 부분을 개선하여 좀 더 이미지 데이터를 효과적으로 사용할 수 있는 방법을 고안할 것이며, ELECTRA 모델이 아닌 다른 사전 학습 언어 모델들에 대해서도 추가적인 연구를 진행할 계획이다.

참고문헌 (25)

T. Young, D. Hazarika, S. Poria, and E. Cambria, "Recent Trends in Deep Learning Based Natural Language Processing," IEEE Computational Intelligence Magazine, Vol.13, pp.55-75, 2018.
Y. N. Chen, A. Celikyilmaz, and D. H. Tur, "Deep Learning for Dialogue Systems," in Proceedings of the 27th International Conference on Computational Linguistics: Tutorial Abstracts, pp.25-31, 2018.
S. Koo, H. Yu, and G. G. Lee, "Adversarial approach to domain adaptation for reinforcement learning on dialog systems," Pattern Recognit Lett, Vol.128, pp.67-473, 2019.
H. Chen, X. Liu, D. Yin, and J. Tang, "A Survey on Dialogue Systems," ACM SIGKDD Explor. Newsl, Vol.19, No.2, pp.25-35, 2017.
B. H. Su, T. W. Kuan, S. P. Tseng, J. F. Wang, and P. H. Su, "Improved TF-IDF weight method based on sentence similarity for spoken dialogue system," 2016 International Conference on Orange Technologies, pp.36-39, 2016.
Y. Kim, "Convolutional Neural Networks for Sentence Classification," in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, pp.1746-1751, 2014.
H. Palangi, L. Deng, Y. Shen, J. Gao, J. Chen, and R. Ward, "Deep Sentence Embedding Using Long Short-Term Memory Networks: Analysis and Application to Information Retrieval," IEEE/ACM Trans. Audio, Speech and Lang, Vol.24, No.4, pp.694-707, 2016.
A. Vaswani, N. Shazzer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin, "Attention is All you Need," in Advances in Neural Information Processing Systems 30 Curran Associates, Inc, pp.5998-6008. 2017.
Z. Yu, Z. Xu, A. W. Black, and A. Rudnicky, "Strategy and Policy Learning for Non-Task-Oriented Conversational Systems," in Proceedings of the 17th Annual Meeting of the Special Interest Group on Discourse and Dialogue, pp.404-412, 2016.
T. H. Wen, D. Vandyke, N. Mrksic, M. Casic, L. M. Rojas Barahona, P. H. Su, S. Ultes, and S. Young, "A Network-based End-to-End Trainable Task-oriented Dialogue System," CoRR, Vol.1604, p.1236, 2016.
C. Gunasekara, J. K. Kummerfeld, L. Polymenakos, and W. Lasecki, "7 Task 1: Noetic End-to-End Response Selection," in Proceedings of the First Workshop on NLP for Conversational AI, 2019, pp.60-67, doi: 10.18653/v1/W19-4107.
A. Bordes, Y. L. Boureau, and J. Weston, "Learning End-to-End Goal-Oriented Dialog," 2017, [Online]. Available: https://openreview.net/forum?idS1Bb3D5gg.
A. Sherstinsky, "Fundamentals of Recurrent Neural Network and Long Short-Term Memory Network," CoRR, Vol.abs, p.1808, 2018, [Online]. Available: http://arxiv.org/abs/1808.03314.
K. Cho, B. van Merrienboer, C. Gulcehre, F. Bougares, H. Schwenk, and Y. Bengio, "Learning Phrase Representations using Encoder-Decoder for Statistical Machine Translation," CoRR, Vol.abs, p.1406, 2014.
J. Devlin, M. W. Chang, K. Lee, and K. Toutanova, "Pre-training of Deep Bidirectional Transformers for Language Understanding," Human Language Technologies, Vol.1, pp.4171-4186, 2019. doi: 10.18653/v1/N19-1423.
Y. Liu, M. Ott, N. Goyal, J. Du, M. Joshi, D. Chen, O. Levy, M. Lewis, L. Zettlemoyer, and V. Sotyanov, "RoBERTa: Robustly Optimized Pretraining Approach," CoRR, Vol.1907.1, 2019. [Online]. Available: http://arxiv.org/abs/1907.11692.
W. Rahman, M. K. Hasan, S. Lee, A. Zadeh, C. Mao, L. P. Morency, and E. Hoque, "Integrating Multimodal Information in Large Pretrained Transformers," in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pp.2359-2369, 2020. doi: 10.18653/v1/2020.acl-main.214.
X. Zhou, L. Li, D. Dong, Y. Liu, Y. Chen, W. X. Zaho, D. Yu, and H. Wu, "Multi-Turn Response Selection for Chatbots with Deep Attention Matching Network," Association for Computational Linguistics, Vol.1, pp.1118-1127, 2018. doi: 10.18653/v1/P18-1103.
G. Laput, M. Dontcheva, G. Wilensky, W. Chang, A. Agarwala, J. Linder, and E. Adar, "PixelTone: a multimodal interface for image editing," in 2013 Conference on Human Factors in Computing Systems, 13, Paris, France, pp.2185-2194, 2013. doi: 10.1145/2470654.2481301.
S. Antol, A. Agrawal, J. Lu, M. Mitchell, D. Batra, C. L. Zitnick, and D. Parikh, "VQA: Visual Question Answering," In Proceedings of the IEEE international conference on computer vision, 2015.
J. Devlin, H. Cheong, H. Fang, S. Gupta, L. Deng, X. He, G. Zweig, and M. Mitchell, "Language Models for Image Captioning: The Quirks and What Works," Association for Computational Linguistics, Vol.2, pp.100-105, 2015. doi: 10.3115/v1/P15-2017.
K. Clark, M. T. Luong, Q. V. Le, and C. D. Manning, "{ELECTRA:} Pre-training Text Encoders as Discriminators Rather Than Generators," 2020, [Online] Available: https://openreview.net/forum?idr1xMH1BtvB.
정의석, 김현우, 오효정, 송화전, "인터렉션 기반 추천 시스템 개발을 위한 데이터셋 연구," 한글 및 한국어 정보처리 학술 대회, pp.1-5, 2020.
https://wikidocs.net/115055, 2021.10.07.
https://github.com/monologg/KoELECTRA, 2020

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증