[논문]감성분석과 Word2vec을 이용한 비정형 품질 데이터 분석

이진욱; 유국현; 문병민; 배석주

doi:10.7469/jksqm.2017.45.1.117

감성분석과 Word2vec을 이용한 비정형 품질 데이터 분석
Informal Quality Data Analysis via Sentimental analysis and Word2vec method 원문보기

品質經營學會誌 = Journal of Korean society for quality management, v.45 no.1, 2017년, pp.117 - 128

이진욱 (한양대학교 산업공학과) , 유국현 (한양대학교 수학과) , 문병민 (한양대학교 산업공학과) , 배석주 (한양대학교 산업공학과)

Abstract ▼ AI-Helper

Purpose: This study analyzes automobile quality review data to develop alternative analytical method of informal data. Existing methods to analyze informal data are based mainly on the frequency of informal data, however, this research tries to use correlation information of each informal data. Method: After sentimental analysis to acquire the user information for automobile products, three classification methods, that is, $na{\ddot{i}}ve$ Bayes, random forest, and support vector machine, were employed to accurately classify the informal user opinions with respect to automobile qualities. Additionally, Word2vec was applied to discover correlated information about informal data. Result: As applicative results of three classification methods, random forest method shows most effective results compared to the other classification methods. Word2vec method manages to discover closest relevant data with automobile components. Conclusion: The proposed method shows its effectiveness in terms of accuracy and sensitivity on the analysis of informal quality data, however, only two sentiments (positive or negative) can be categorized due to human errors. Further studies are required to derive more sentiments to accurately classify informal quality data. Word2vec method also shows comparative results to discover the relevance of components precisely.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이러한 단점을 보완하기 위하여 Word2vec 방법에는 좀 더 많은 단위의 비정형 데이터를 학습시키고자 하며, 데이터 확보 방안이나 다른 데이터와의 혼합을 통한 응용방안을 고려하고자 한다. 또한 부정적 데이터 분석만이 아니라 긍정적 데이터 분석을 동시 진행하여 단어 간의 연관성에 대한 자세한 분석을 실행하고자 한다.
본 연구에서는 단순히 단어의 빈도수를 사용하여 비정형 데이터를 분석하는 방안의 대안으로써 감성분석을 적용하여 분석을 실행하고자 하였다. 차량의 고객 서비스 데이터를 적용, 계산의 용이함을 위해 긍정 및 부정적인 감정으로만 데이터를 분류, 분석한 결과 높은 정확도를 보였다.
이러한 대다수의 연구 방법이 키워드의 빈도수에 집중, 비정형 데이터에 대한 소비자의 감성을 발취하기 힘든 단점이 있다. 본 연구에서는 단어의 빈도수 분석이 아닌 소비자의 감성을 기반으로 비정형 데이터인 차량의 서비스에 대한 소비자 리뷰 데이터 분석을 시도하였다. 현재 주목받고 있는 방법인 감성분석은 비정형 데이터에 적용되고 있는 방법 중 하나로써 고객의 욕구 및 감성을 진단하여 다양한 분석을 가능하게 하며 여러 산업에 적용할 수 있다.

가설 설정

순수 베이지안 분류기는 클래스 데이터 Y가 주어졌을 때, 각 속성이 조건부로 독립적이라고 가정하며 각 클래스 조건부 확률을 계산한다. 아래는 속성 집합 X에 대하여 d개의 속성으로 구성된 조건부 독립성 가정에 대한 수식에 해당한다.

제안 방법

Word2vec의 사례로써 앞서 사용한 차량 평가데이터 중 부정적 의견을 Word2vec 알고리즘에 학습하였다. Word2vec 알고리즘의 효과적인 결과 도출을 위해 parsing 방법을 통해 관사 및 전치사를 제거, 명사 위주의 불만사항을 도출하려 하였다. 그러나 Parsing 방법을 관사나 전치사 간 빈칸을 기준으로 하여 적용함으로 인하여 ‘,’ 나 ‘;’ 등의 문장기호로 연결되었을 경우, 관사나 전치사의 제거의 어려움이 있었다.
감성분석의 경우 중립적 의견을 제외한 총 4,347개의 고객 데이터의 68%에 해당하는 긍정 및 부정으로 분류된 데이터 중 90%를 훈련 데이터로 활용하고, 나머지 10%를 검증 데이터로 하여 3가지 방법을 적용, 분류를 실시하였다. 분류 결과 랜덤포레스트를 적용한 결과가 86.
정확한 분석을 위하여 확정적인 부정적 의견과 긍정적 의견을 제외한 데이터는 제거, 감성분석 방법을 적용, 분류한 뒤 3가지 분류 알고리즘, 즉 순수 베이지안 분류기, 랜덤 포레스트 및 서포트 벡터 머신을 적용하였다. 데이터는 training set으로써 80%, test set을 20% 할당하여 실행하였다. 랜덤 포레스트 및 서포트 벡터 머신의 경우 높은 분류정확도를 나타냈지만, 순수 베이지안 분류기의 경우 상대적으로 낮은 분류 정확도를 나타냈다.
본 연구는 빈도수를 주로 고려하는 비정형 데이터의 대안으로써 제품에 대한 비정형 형태의 소비자 품질 평가 데이터를 감성분석(Sentimental analysis)를 적용한 뒤 순수 베이지안 분류기(Naïve Bayes), 서포트 벡터 머신(Support vector machine), 랜덤 포레스트(Random forest) 방법을 통해 분류한 결과에 대한 효과 및 정확도에 대한 비교 분석을 실시하였다.
감성분석은 주로 인터넷 매체로부터 다양한 텍스트 데이터 등의 비정형 데이터를 수집한 후 주관성 탐지를 통해 감성분석에 사용될 요소만을 분리 및 분류하고, 감성과는 관련이 없는 부분 즉 주관성이 존재하지 않는 부분 및 저자의 이름 및 성별과 같은 개인정보를 걸러낸다. 이 후 이렇게 처리된 데이터에 극성 탐지(Polarity detection)을 실행한다. 이 작업을 통해 얻어진 정보로부터 긍정이나 부정적인 단어를 탐지하여 문장이나 문단의 특정 단어의 빈도수의 평균 혹은 총합을 통해 문장이나 문단의 긍정적 또는 부정 여부를 결정한다.
이러한 단점을 보완하기 위하여 Word2vec 방법에는 좀 더 많은 단위의 비정형 데이터를 학습시키고자 하며, 데이터 확보 방안이나 다른 데이터와의 혼합을 통한 응용방안을 고려하고자 한다. 또한 부정적 데이터 분석만이 아니라 긍정적 데이터 분석을 동시 진행하여 단어 간의 연관성에 대한 자세한 분석을 실행하고자 한다.
또한 Word2vec를 사용하여 데이터에 대한 연관성 분석을 실행하였다. 이러한 분석 방법을 통해 소비자의 사용 차량의 품질평가에 대한 감성정보를 발취, 서비스나 제품에 대한 소비자의 정보를 확보할 수 있을 것으로 기대하며, 또한 Word2vec방법을 사용하여 빠른 계산을 통하여 데이터간의 상관분석을 실시, 중요 단어 추출 가능성을 검토, 분석하였다.
이 식의 N은 사용할 벡터의 길이를 나타내며 이 후 투사 층에서 출력 층으로 향할 때, N×V 크기의 가중치 행렬 W’를 사용한다. 입력에서 벡터화한 데이터를 투사한 후 데이터의 평균을 구해서 투사 층을 사용한다. 이 후 가중치 행렬 W’를 사용한 뒤 출력 층에 보내 구해야 할 단어를 예측한다.
본 품질평가 데이터는 47%의 부정적 의견, 21%의 긍정적 의견 및 32%의 중립적 의견으로 이루어져있다. 정확한 분석을 위하여 확정적인 부정적 의견과 긍정적 의견을 제외한 데이터는 제거, 감성분석 방법을 적용, 분류한 뒤 3가지 분류 알고리즘, 즉 순수 베이지안 분류기, 랜덤 포레스트 및 서포트 벡터 머신을 적용하였다. 데이터는 training set으로써 80%, test set을 20% 할당하여 실행하였다.

대상 데이터

본 연구에서는 비정형 데이터인 차량의 소비자 품질 리뷰 데이터에서 단어의 빈도수 사용 방안의 대안으로써 감성분석과 Word2vec방법을 적용하였다. H사에서 제공한 총 4,347개의 차량 품질평가 데이터에 대하여 감성분석 방법을 적용하였다. 본 품질평가 데이터는 47%의 부정적 의견, 21%의 긍정적 의견 및 32%의 중립적 의견으로 이루어져있다.

데이터처리

본 연구는 빈도수를 주로 고려하는 비정형 데이터의 대안으로써 제품에 대한 비정형 형태의 소비자 품질 평가 데이터를 감성분석(Sentimental analysis)를 적용한 뒤 순수 베이지안 분류기(Naïve Bayes), 서포트 벡터 머신(Support vector machine), 랜덤 포레스트(Random forest) 방법을 통해 분류한 결과에 대한 효과 및 정확도에 대한 비교 분석을 실시하였다. 또한 Word2vec를 사용하여 데이터에 대한 연관성 분석을 실행하였다. 이러한 분석 방법을 통해 소비자의 사용 차량의 품질평가에 대한 감성정보를 발취, 서비스나 제품에 대한 소비자의 정보를 확보할 수 있을 것으로 기대하며, 또한 Word2vec방법을 사용하여 빠른 계산을 통하여 데이터간의 상관분석을 실시, 중요 단어 추출 가능성을 검토, 분석하였다.

이론/모형

Word2vec의 사례로써 앞서 사용한 차량 평가데이터 중 부정적 의견을 Word2vec 알고리즘에 학습하였다. Word2vec 알고리즘의 효과적인 결과 도출을 위해 parsing 방법을 통해 관사 및 전치사를 제거, 명사 위주의 불만사항을 도출하려 하였다.
주로 주어진 데이터 집합을 바탕으로 새로운 데이터가 어느 데이터 범주에 속하는지 결정하는 초평면(Hyperplane)을 가진 선형분류 모형을 사용한다. 본 문헌에서는 선형 서포트 벡터 머신을 적용하였으며 선형벡터 머신은 종종 최대 마진 분류기(Maximal margin classifier)이라 불린다. 서포트 벡터 머신이 경계를 학습하기 위해서는 먼저 선형 의사결정 경계를 정해야 한다.
본 연구에서는 비정형 데이터인 차량의 소비자 품질 리뷰 데이터에서 단어의 빈도수 사용 방안의 대안으로써 감성분석과 Word2vec방법을 적용하였다. H사에서 제공한 총 4,347개의 차량 품질평가 데이터에 대하여 감성분석 방법을 적용하였다.

성능/효과

H사에서 제공한 총 4,347개의 차량 품질평가 데이터에 대하여 감성분석 방법을 적용하였다. 본 품질평가 데이터는 47%의 부정적 의견, 21%의 긍정적 의견 및 32%의 중립적 의견으로 이루어져있다. 정확한 분석을 위하여 확정적인 부정적 의견과 긍정적 의견을 제외한 데이터는 제거, 감성분석 방법을 적용, 분류한 뒤 3가지 분류 알고리즘, 즉 순수 베이지안 분류기, 랜덤 포레스트 및 서포트 벡터 머신을 적용하였다.
감성분석의 경우 중립적 의견을 제외한 총 4,347개의 고객 데이터의 68%에 해당하는 긍정 및 부정으로 분류된 데이터 중 90%를 훈련 데이터로 활용하고, 나머지 10%를 검증 데이터로 하여 3가지 방법을 적용, 분류를 실시하였다. 분류 결과 랜덤포레스트를 적용한 결과가 86.2%의 정확도로 가장 좋은 성능을 보였다. 이는 서포트 벡터 머신과 비슷한 성능을 보이지만 민감도에 관하여 약 95.
분석 데이터가 부정적 의견에 관한 데이터이므로, 이를 기반으로 ‘door’에서 ‘noise’가 가장 많이 발생하고 고객의 불만이 일어났음을 유추할 수 있었으며, 또한 ‘navigation’과 ‘blue-link’의 ‘control’에 관해서 고객의 장비사용 에 대한 애로점이 파악될 수 있었다.
이 결과를 살펴본 결과 ‘noise’와 가장 연관이 깊은 단어는 ‘door’를 추정할 수 있으며 ‘navigation’과 ‘blue-link’의 경우 ‘control’이 가장 연관이 높은 것으로 파악되었다.
이 학습결과를 통해 부정적인 단어와 특정 명사를 연결하여 유사한 어휘를 통해 고객의 불만사항을 파악할 수 있었다. 예를 들어 만일 부정적 단어인 ‘Poor’와 가장 관련이 높은 단어로써 ‘H’회사가 연결되면, 이를 고객 불만사항으로 파악하였다.
2%의 정확도로 가장 좋은 성능을 보였다. 이는 서포트 벡터 머신과 비슷한 성능을 보이지만 민감도에 관하여 약 95.9%로써 서포터 벡터 머신의 92.9%보다 향상된 성능을 보이고 있다.
이를 적용 하여 부정적인 단어(‘poor’, ‘noise’)와 특정명사(‘navigation’, ‘blue-link’)를 결합, 고객불만 사항을 파악할 수 있었다.
본 연구에서는 단순히 단어의 빈도수를 사용하여 비정형 데이터를 분석하는 방안의 대안으로써 감성분석을 적용하여 분석을 실행하고자 하였다. 차량의 고객 서비스 데이터를 적용, 계산의 용이함을 위해 긍정 및 부정적인 감정으로만 데이터를 분류, 분석한 결과 높은 정확도를 보였다. 향후 연구방향에서는 이런 고객 데이터의 감성분석 결과를 좀 더 세분화된 방향, 즉 부정적 표현인 분노, 슬픔 등과 긍정적 표현인 만족, 행복 등으로 더욱 세분화하여 분석을 실시하고자 한다.

후속연구

또 다른 적용 방법인 Word2vec의 경우 단어의 연관성을 쉽게 찾을 수 있는 가능성을 검토하였으며, 이를 통해 주요 부품인 Navigation이나 Blue link에 대한 문제점을 도출할 수 있었다. 이러한 방법을 통해 고객들의 제품에 대한 품질 불만사항을 쉽게 도출할 수 있을 것으로 기대한다. Word2vec을 사용하여 단어의 연관성을 알아보고자 하였을 때, 부정적인 데이터만의 분석을 고려하였고, 또한 전체 단어수가 100,000개 이상을 고려함으로써 단어 간의 연관성이 큰 차이를 보이지 않는 단점을 보였다.
차량의 고객 서비스 데이터를 적용, 계산의 용이함을 위해 긍정 및 부정적인 감정으로만 데이터를 분류, 분석한 결과 높은 정확도를 보였다. 향후 연구방향에서는 이런 고객 데이터의 감성분석 결과를 좀 더 세분화된 방향, 즉 부정적 표현인 분노, 슬픔 등과 긍정적 표현인 만족, 행복 등으로 더욱 세분화하여 분석을 실시하고자 한다. 또 다른 적용 방법인 Word2vec의 경우 단어의 연관성을 쉽게 찾을 수 있는 가능성을 검토하였으며, 이를 통해 주요 부품인 Navigation이나 Blue link에 대한 문제점을 도출할 수 있었다.

질의응답

핵심어	질문	논문에서 추출한 답변
	데이터의 빈도수를 고려하는 방식의 한계점은 무엇인가?	대표적인 예로 문서나 기사의 키워드를 시각적으로 보여주는 워드 클라우드(Word cloud), 문서나 지상에서 특정 단어의 빈도에 따라 가중치를 부여하는 TF-IDF(Term frequency-Inverse document frequency) 가중치 적용 방법 등이 있다. 이러한 방법은 단어의 빈도수를 사용하여 직관적으로 주제 및 관심 분야를 찾을 수 있지만, 데이터에 존재하는 소비자들의 심리 등을 심층적으로 발취하는데 한계점이 존재한다.
	대다수의 비정형 데이터, 텍스트 마이닝은 데이터의 빈도수를 고려하는 방식을 사용하는데, 그 예시로 무엇이 있을까?	대다수의 방식이 데이터가 가진 의미 및 뜻을 사용하는 대신, 얼마나 자주 사용되는 지, 혹은 다른 데이터와 얼마나 자주 연관이 되는지 등의 빈도를 주로 고려한다. 대표적인 예로 문서나 기사의 키워드를 시각적으로 보여주는 워드 클라우드(Word cloud), 문서나 지상에서 특정 단어의 빈도에 따라 가중치를 부여하는 TF-IDF(Term frequency-Inverse document frequency) 가중치 적용 방법 등이 있다. 이러한 방법은 단어의 빈도수를 사용하여 직관적으로 주제 및 관심 분야를 찾을 수 있지만, 데이터에 존재하는 소비자들의 심리 등을 심층적으로 발취하는데 한계점이 존재한다.
	업의 서비스에 따른 소비자의 평가방법이 다양하게 증가한 이유는 무엇인가?	소셜 네트워크 서비스, 블로그 등의 개인과 개인 간의 간접적인 상호작용 서비스가 증가함에 따라 기업의 서비스에 따른 소비자의 평가방법도 다양하게 증가하였다. SNS나 블로그등의 인터넷 활동에서 소비자의 제품 평이나 서비스에 대한 평가를 쉽게 찾을 수 있는 가운데, 비정형화된 데이터의 분석방안 또한 발전해가고 있는 추세이다.

참고문헌 (10)

Eun Ji Yu, Yoo Sin Kim, Nam Gyu Kim, and Seung Ryul Jeong. 2013. "Predicting the direction of the stock index by using a domain-specific sentiment dictionary." Journal of Intelligence and Information Systems 19(1):95-110.

원문보기 상세보기
Pang Ning Tang, Michael Stenbach, and Vipin Kumar. 2006. Introduction To Data Mining. Addison-Wesley Longman Publishing Co., Inc.
Quoc Le, Tomas Mikolov. 2014. "Distributed representations of Sentences and Documents." Proceedings of the 31st international conference on machine learning, 1188-1136.
Sung-Jick Lee, and Han-Joon Kim. 2009. "Keyword extraction from news corpus using modified TF-IDF." The Journal of Society for e-Business Studies 14(4):59-73.
Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. 2003. "Efficient estimation of word representations in vector space." Proceedings in International Conference on learning representations 2013.
Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013. "Distributed representation of words and phrases and their compositionality." Proceedings in International conference on neural information processing systems, 3111-3119.
Yoo Sin Kim, Nam Gyu Kim, and Seung Ryul Jeong. 2011. "Stock-index invest model using news big data opinion mining." Journal of Intelligence and Information Systems. Volume 18(2):143-156.
Yuen-Hsien Tseng, Chi-Jen Lin, and Yu-I Lin. 2007. "Text mining techniques for patent analysis." Information processing and management 43(5):1216-1247.

상세보기
Yean Ran Lee, Eun Ju Yoon, Jung Ah Im, Young Hwan Lim, and Jung Hwan Sung. 2013. "Emotional tree using sensitivity image analysis algorithm." Journal of the Korea Contents Association 13(11):562-570.

원문보기 상세보기
Zhou Yong, Li Youwen, and Xia Shixiong. 2009. "An improved KNN text classification algorithm based on clustering." The Journal of Computers 4(3):230-237.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증