[논문]자연어처리 모델을 이용한 이커머스 데이터 기반 감성 분석 모델 구축

최준영; 임희석

doi:10.15207/jkcs.2020.11.11.033

자연어처리 모델을 이용한 이커머스 데이터 기반 감성 분석 모델 구축
E-commerce data based Sentiment Analysis Model Implementation using Natural Language Processing Model 원문보기

한국융합학회논문지 = Journal of the Korea Convergence Society, v.11 no.11, 2020년, pp.33 - 39

최준영 (고려대학교 컴퓨터정보통신대학원) , 임희석 (고려대학교 컴퓨터학과)

초록
AI-Helper

자연어 처리 분야에서 번역, 형태소 태깅, 질의응답, 감성 분석등 다양한 영역의 연구가 활발히 진행되고 있다. 감성 분석 분야는 Pretrained Model을 전이 학습하여 단일 도메인 영어 데이터셋에 대해 높은 분류 정확도를 보여주고 있다. 본 연구에서는 다양한 도메인 속성을 가지고 있는 이커머스 한글 상품평 데이터를 이용하고 단어 빈도 기반의 BOW(Bag Of Word), LSTM[1], Attention, CNN[2], ELMo[3], KoBERT[4] 모델을 구현하여 분류 성능을 비교하였다. 같은 단어를 동일하게 임베딩하는 모델에 비해 문맥에 따라 다르게 임베딩하는 전이학습 모델이 높은 정확도를 낸다는 것을 확인하였고, 17개 카테고리 별, 모델 성능 결과를 분석하여 실제 이커머스 산업에서 적용할 수 있는 감성 분석 모델 구성을 제안한다. 그리고 모델별 용량에 따른 추론 속도를 비교하여 실시간 서비스가 가능할 수 있는 모델 연구 방향을 제시한다.

Abstract ▼ AI-Helper

In the field of Natural Language Processing, Various research such as Translation, POS Tagging, Q&A, and Sentiment Analysis are globally being carried out. Sentiment Analysis shows high classification performance for English single-domain datasets by pretrained sentence embedding models. In this thesis, the classification performance is compared by Korean E-commerce online dataset with various domain attributes and 6 Neural-Net models are built as BOW (Bag Of Word), LSTM[1], Attention, CNN[2], ELMo[3], and BERT(KoBERT)[4]. It has been confirmed that the performance of pretrained sentence embedding models are higher than word embedding models. In addition, practical Neural-Net model composition is proposed after comparing classification performance on dataset with 17 categories. Furthermore, the way of compressing sentence embedding model is mentioned as future work, considering inference time against model capacity on real-time service.

주제어

표/그림 (19)

그림 Fig. 3. Importance and satisfaction of Example 2
그림 자연어처리 모델을 이용한 이커머스 데이터 기반 감성 분석 모델 구축 35 Fig. 2. BOW Sentiment Model
그림 Fig. 3. BDLSTM Sentiment Model
그림 Fig. 4. BDLSTM + Attention Sentiment Model
그림 Fig. 5. CNN　Sentence Classification Model Example
그림 Fig. 6. ELMo structure
그림 Fig. 7. EMLo Sentiment Model
그림 Fig. 8. Transformer architecture
그림 Fig. 9. BERT Input data structure
표 Table 1. CNN Sentiment Model
그림 Fig. 10. BERT single sentence classification
그림 Fig. 11. KoBERT Sentiment Model
표 Table 2. Dataset Example
표 Table 3. Dataset Information
표 Table 4. KoNLPy POS Tagger Comparison
표 Table 5. Activation Function, Loss Function, Optimizer
표 Table 6. Model Parameter number & Training Time
표 Table 7. Model Accuracy & Loss
표 Table 8. KoBERT Accuracy per Category

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

마지막으로 모델 용량 및 학습시간을 비교하여 KoBERT가 성능은 우수했지만 추론 속도가 타 모델에 비해 다소 느리다는 점을 확인하여 경량화하는 연구 내용[16]을 적용해 보는 것을 향후 계획으로 제시해 보고자 한다
본 논문에서는 다양한 도메인(카테고리)가진 한글 상품평 데이터셋으로 6가지 감성 분석 모델 구현하여 성능을 비교하고자 한다. 그리고 비정제된 실제 한글 이커머스 온라인 데이터를 적용하기 위한 전처리 방안을 언급하고 다양한 도메인(카테고리) 데이터셋의 감성 분석 모델을 고성능으로 구현하는 방안을 제시한다.

제안 방법

3절에 언급한 모델 중, BOW 모델을 Baseline으로 설정하고, BDLSTM, BDLSTM+Attention, CNN 모델의 Embedding Layer는 페이스북에서 개발한 FastText[12]를 적용하여 Embedding size 300으로 생성 후, freezing 하여 학습시켰다.
본 논문에서는 다양한 도메인(카테고리)가진 한글 상품평 데이터셋으로 6가지 감성 분석 모델 구현하여 성능을 비교하고자 한다. 그리고 비정제된 실제 한글 이커머스 온라인 데이터를 적용하기 위한 전처리 방안을 언급하고 다양한 도메인(카테고리) 데이터셋의 감성 분석 모델을 고성능으로 구현하는 방안을 제시한다. 본 논문의 2장에서는 기존 자연어처리 감성 분석 연구 내용을 언급하고 3장에서는 구현한 6가지 감성 분석 모델 구조를 설명한다.
따라서 본 논문에서는 이를 고려하여 한글 데이터셋를 형태소 분석기 및 정규 표현식을 이용하여 토근화하였고, 구현화한 6가지 모델 중에서 KoBERT[4] 모델이 가장 좋은 성능을 내는 것을 확인하였다. 그리고 이커머스 온라인 상품평 17가지 카테고리 별 성능을 비교하여, 실제 서비스를 하기 위한 모델 구성을 제시한다.
또한 17가지 카테고리 별, 상품평 분류 성능을 비교분석하여 분류 성능이 좋지 않은 특정 카테고리의 상품평 단어 패턴이 상이함을 확인하였고 해당 카테고리의 감성 분석 모델을 별도 구성하여 고성능을 확보하는 방안을 제시하였다.
먼저 정규 표현식으로 한글을 제외한 이모티콘, 특수기호, 영어를 제거했고 KoNLPy package에서 제공하는 형태소 분석기를 적용하여 아래 Table 4와 같이 성능을 비교 분석하였다.
본 논문에서 다루는 이커머스 온라인 상품평 데이터셋은 맞춤법, 띄어쓰기, 비속어, 등 정리되지 않은 문장이고 한글은 교착어이기 때문에 모델 입력 전, 전처리 작업이 필요하였다.
Bag Of Word란 문장의 단어 순서를 고려하지 않고 단어 출현 빈도로 문장을 벡터화하는 방법이다. 본 논문에서 상품평 단어 사전을 구축하고 index를 붙여 각 상품평들을 아래 Fig 1 와 같이 카운트 기반 multi-hot 벡터로 변환하였다. 그리고 단순 2-Fully Connected Layers로 Fig 2 와 같이 구성하였고 긍/부정에 대한 분류 문제를 풀기 위해 최종 Activation Function에 아래 식 1 sigmoid를 적용하였다.
표제어와 어간 추출 성능 및 속도를 고려하여 Mecab을 형태소 분석기로 선택하였고. KoBERT[4]인 경우 Mecab 형태소 분석기로 토큰화된 문장을 이어 붙인 후, sentencepiece[11]로 재토큰화 하였다.
해당 논문에서는 한글 이커머스 데이터셋으로 BOW, BDLSTM, BDLSTM+Attention, CNN[2], ELMo[3], KoBERT[4] 총 6가지 감성 분석 모델을 구현하여 성능을 비교 분석하였다.

대상 데이터

데이터셋은 롯데닷컴 이커머스 상품평과 별점을 수집하여 아래 Table 2와 같이 준비하였다. 수집된 상품평 수는 26,782,700건이고 17가지 카테고리를 가진 별점별, 상품평 수는 아래 Table 3와 같다.
별점 1,2점을 부정 상품평으로 4,5점은 긍정 상품평으로 가정하였고 상품평 긍/부정 일치 여부를 조사한 결과, random sampling 10,000건 기준 긍/부정 불일치 비율이 35% / 50%임을 확인하였다. 따라서 긍/부정 Tagging 작업을 수행하여 긍/부정 상품평을 8만건씩 총 16만건을 준비하였다. 현 실험에서 불용어는 지정하지 않았고 Train / Validation / Test 데이터셋의 비율은 8:1:1으로 분리하였다
본 논문에서는 BERT[5] 논문에서 제시된 Fig 10의 모델 구조에 한국어 위키/뉴스를 추가 학습시킨 KoBERT[4]를 이용하였고, 아래 Fig 11와 같이 Classifier을 붙여 모델을 구성하였다.

이론/모형

BERT[5] 논문에서 ELMo 구조를 아래 Fig 6과 같이 제시하였고 본 논문에서는 Tensorflow Hub에서 제공하는 Pretrained ELMo 모델을 사용하여 Fig 7과 같이 모델을 구성하였다.

성능/효과

KoBERT[4]가 가장 좋은 성능을 보였고 BCE loss 측면에서 상대적으로 낮은 값을 가짐을 확인할 수 있었다.
그리고 최고 성능을 낸 KoBERT[4]모델의 17가지 카테고리별 분류 정확도 성능을 비교 분석하여 rental, pets, culture service의 분류 정확도가 낮음을 확인하였고, 해당 카테고리를 별도 모델로 학습하여 아래 Table 8과 같이 성능 향상을 도출할 수 있었다.
선행 연구들은 단일 도메인의 영어 단어들을 TF-IDF로 변환하거나 동의어를 동일하게 임베딩하는 기법을 사용하여 감성 분석 모델을 구현하였으나, 다양한 도메인(카테고리)을 가진 한글인 경우, 교착어라는 특성과 동의어를 문맥에 따라 다르게 임베딩하는 기법을 고려해야 할 것이다. 따라서 본 논문에서는 이를 고려하여 한글 데이터셋를 형태소 분석기 및 정규 표현식을 이용하여 토근화하였고, 구현화한 6가지 모델 중에서 KoBERT[4] 모델이 가장 좋은 성능을 내는 것을 확인하였다. 그리고 이커머스 온라인 상품평 17가지 카테고리 별 성능을 비교하여, 실제 서비스를 하기 위한 모델 구성을 제시한다.
별점 1,2점을 부정 상품평으로 4,5점은 긍정 상품평으로 가정하였고 상품평 긍/부정 일치 여부를 조사한 결과, random sampling 10,000건 기준 긍/부정 불일치 비율이 35% / 50%임을 확인하였다. 따라서 긍/부정 Tagging 작업을 수행하여 긍/부정 상품평을 8만건씩 총 16만건을 준비하였다.
본 논문에서 BOW, LSTM, Attention, CNN[2], ELMo[3], KoBERT[4] 모델을 구현하여 분류 성능을 비교하였는데 문맥에 따라 동의어 임베딩을 달리 처리하는 전이학습 모델 KoBERT가 가장 좋은 성능을 보였다.

참고문헌 (16)

Hochreiter & Schmidhuber. (1997). LONG SHORT-TERM MEMORY. Neural Computation, DOI: 10.1162/neco.1997.9.8.1735

상세보기
Lecun. (1998). Gradient-Based Learning Applied to Document Recognition. IEEE, 86(11), 2278-2324. DOI:10.1109/5.726791

상세보기
M. Peters. (2018). ELMo-Deep contextualized word representations. NAACL 2018. https://arxiv.org/abs/1802.05365
SKTBrain, KoBERT. (2019). https://github.com/SKTBrain/KoBERT
J. Devlin, K. Lee & K. Toutanova. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. http://arxiv.org/abs/1810.04805
H. M. Kim & K. B. Park. (2019). Sentiment analysis of online food product review using ensemble technique. Journal of Digital Convergence, 17(4), 115-122. DOI: 10.14400/JDC.2019.17.4.11
H. Y. Park & K. J. Kim. (2019). Sentiment Analysis of Movie Review Using Integrated CNN-LSTM Model. Journal of Intelligence and Information Systems, 25(4), 141-154. DOI : 10.13088/jiis.2019.25.4.141

원문보기 상세보기
D. Bahdanau, K. H. Cho & Y. Bengio (2014) Neural Machine Translation by Jointly Learning to Align and Translate. ICLR 2015. https://arxiv.org/abs/1409.0473
Y. Kim. (2014) Convolutional Neural Networks for Sentence Classification. EMNLP 2014. https://arxiv.org/abs/1408.5882
Vaswani et al. (2017). Attention is all you need. https://arxiv.org/abs/1706.03762
T. Kudo & J. Richardson. (2018). SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing. EMNLP2018, 66-71 https://arxiv.org/abs/1808.06226
A. Joulin. (2016). FastText.zip: Compressing text classification models. ICLR 2017. https://arxiv.org/abs/1612.03651
A. F. Agarap. (2018). Deep Learning using Rectified Linear Units (ReLU), 1, 2-8. https://arxiv.org/abs/1803.08375
D. P. Kingma & J. Ba. (2014). Adam: A Method for Stochastic Optimization. 1-15. https://doi.org/http://doi.acm.org.ezproxy.lib.ucf.edu/10.1145/1830483.1830503
D. Hendrycks & K. Gimpel. (2016). Gaussian Error Linear Units (GELUs). https://arxiv.org/abs/1606.08415
M. A. Gordon - All The Ways to Compress http://mitchgordon.me/machine/learning/2019/11/18/all-the-ways-to-compress-BERT.html

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증