[논문]속성선택방법과 워드임베딩 및 BOW (Bag-of-Words)를 결합한 오피니언 마이닝 성과에 관한 연구

어균선; 이건창

doi:10.14400/jdc.2019.17.2.163

속성선택방법과 워드임베딩 및 BOW (Bag-of-Words)를 결합한 오피니언 마이닝 성과에 관한 연구
Investigating Opinion Mining Performance by Combining Feature Selection Methods with Word Embedding and BOW (Bag-of-Words) 원문보기

디지털융복합연구 = Journal of digital convergence, v.17 no.2, 2019년, pp.163 - 170

어균선 (성균관대학교 경영대학) , 이건창 (성균관대학교 글로벌경영학과)

초록
AI-Helper

과거 10년은 웹의 발달로 인한 데이터가 폭발적으로 생성되었다. 데이터마이닝에서는 대용량의 데이터에서 무의미한 데이터를 구분하고 가치 있는 데이터를 추출하는 단계가 중요한 부분을 차지한다. 본 연구는 감성분석을 위한 재표현 방법과 속성선택 방법을 적용한 오피니언 마이닝 모델을 제안한다. 본 연구에서 사용한 재표현 방법은 백 오즈 워즈(Bag-of-words)와 Word embedding to vector(Word2vec)이다. 속성선택(Feature selection) 방법은 상관관계 기반 속성선택(Correlation based feature selection), 정보획득 속성선택(Information gain)을 사용했다. 본 연구에서 사용한 분류기는 로지스틱 회귀분석(Logistic regression), 인공신경망(Neural network), 나이브 베이지안 네트워크(naive Bayesian network), 랜덤포레스트(Random forest), 랜덤서브스페이스(Random subspace), 스태킹(Stacking)이다. 실증분석 결과, electronics, kitchen 데이터 셋에서는 백 오즈 워즈의 정보획득 속성선택의 로지스틱 회귀분석과 스태킹이 높은 성능을 나타냄을 확인했다. laptop, restaurant 데이터 셋은 Word2vec의 정보획득 속성선택을 적용한 랜덤포레스트가 가장 높은 성능을 나타내는 조합이라는 것을 확인했다. 다음과 같은 결과는 오피니언 마이닝 모델 구축에 있어서 모델의 성능을 향상시킬 수 있음을 나타낸다.

Abstract ▼ AI-Helper

Over the past decade, the development of the Web explosively increased the data. Feature selection step is an important step in extracting valuable data from a large amount of data. This study proposes a novel opinion mining model based on combining feature selection (FS) methods with Word embedding to vector (Word2vec) and BOW (Bag-of-words). FS methods adopted for this study are CFS (Correlation based FS) and IG (Information Gain). To select an optimal FS method, a number of classifiers ranging from LR (logistic regression), NN (neural network), NBN (naive Bayesian network) to RF (random forest), RS (random subspace), ST (stacking). Empirical results with electronics and kitchen datasets showed that LR and ST classifiers combined with IG applied to BOW features yield best performance in opinion mining. Results with laptop and restaurant datasets revealed that the RF classifier using IG applied to Word2vec features represents best performance in opinion mining.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

후)백오브">백 오브 워즈 방법과 Word2vec 방법의 성능을 비교 분석했다. 그리고 속성선택 방법을 적용해 단일 또는 앙상블 분류기의 성능을 상승시키고자 했다. 단일분류기는 로지스틱 회귀분석, 인공신경망, 나이브 베이지안 네트워크의 목표는 목표변수 정보가 포함되어 있는 학습용 인스턴스를 이용하여 검증용 인스턴스의 목표변수를 정확하게 예측하는 것이다. 나이브 베이지안 네트워크는 두 가지 후)본연구에서는">본 연구에서는 Wor2vec방법을 이용해 의미론적 특성을 반영할 수 있는 오피니언 마이닝 방법을 제안한다. 그리고 속성선택(Feature selection)방법을 적용해 본 연구에서는 단일 또는 앙상블 분류기 모형을 벤치마킹하여 재표현, 속성선택, 분류 및 검증을 통해 속성선 택방법과 재표현 방법 간의 최적의 조합을 제안 한다. 단일분류기는 로지스틱 회귀분석, 인공신경망, 본 연구에서는 단일 및 앙상블 분류기 모형을 사용하여 재표현, 속성선택 방법의 성능 검증을 통해 속성선택 방법과 재표현 방법 간의 최적의 조합을 제안한다.

가설 설정

RQ2 : 감성분석을 위한 FS방법을 적용한 경우 분류기의 성능은 향상되는가?
RQ2 : 오피니언 마이닝 모델을 구축할 경우, FS방법을 적용한 경우 분류기의 성능은 향상되는가?
후)베이지 안">베이지안 네트워크는 나이브의 형태로 변화한다. 특히 예측용 변수는 해당 목표변수 별로 조건적으로 독립적이라고 가정한다. 파악된 변수 또는 잠재된 변수는 분류 과정에 영향을 미친다.

제안 방법

후)본연구에서는">본 연구에서는 Wor2vec방법을 이용해 의미론적 특성을 반영할 수 있는 오피니언 마이닝 방법을 제안한다. 그리고 속성선택(Feature selection)방법을 적용해 종속변수에 영향을 주는 속성만 선택하여 효율적인 감성분석을 시도한다 [6,7].
나아가 단어의 빈도수를 측정하는 TF (Term frequency)와, 문서 내 단어 중요도를 나타내는 TF-IDF (Term frequency – Inverse document frequency)를 측정해 단어벡터를 구 성한다.
후)백오브">백 오브 워즈 방법과 Word2vec 방법의 속성선택전후의 결과를 비교했다. 본 연구의 결과는 다음 Table 2, Table 후)백오브">백 오브 워즈와 Word2vec으로 된 데이터 셋을 통해 분류기모형의 성능을 측정한다.
본 연구는 백 오브 워즈 방법과 Word2vec방법을 통해 오피니언 마이닝을 위한 속성선택 방법과 머신러닝 분류기의 조합의 성능을 비교한다. 본 연구는 본 연구에서 사용한 모델의 성능을 검증하기 위해서 10-fold cross validation을 통해 단일분류기 및 앙상블 분류기 모형을 검증했다. 두 도메인 모두 긍정적인 리뷰, 부정적인 리뷰로 구성되어 있다. 본 연구에서는 아마존 데이터에서 2개의 도메인을 사용, SemEval2014에서 2개의 도메인을 사용 총 4개의 도메인에 대한 분석을 실시했다.
본 연구에서는 오피니언 마이닝 예측 모델 구축을 위해 백 오브 워즈 방법과 Word2vec 방법의 성능을 비교 분석했다. 그리고
대상 데이터
- ">레이블링했다[21]. 본 논문에서는 electronic, kitchen 2가지 데이터 셋을 사용했고 다음으로 SemEval2014 데이터를 사용했다. SemEval2014 데이터는 Laptop, Restaurant 데이터 셋으로 이루어져 있으며 Laptop은 총 1853건, Restaurant는 본 연구에 사용한 데이터는 아마존 상품의 리뷰 데이터이다. Blizer et al.

이론/모형

후)속성 선택">속성선택 방법을 사용해 속성의 수를 줄인다. 본 연구는 상관관계 기반 속성선택과 정보획득 속성선택 방법을 적용한다. ">벡터화 한다. 본 연구에서는 백 오브 워즈와 Word2vec 두가지 벡터화 방법을 사용했다.
후)극대화할">극대화 할 수 있고 부정적인 반응이면 개선안을 마련할 수 있다. 전통적 감성분석은 백 오브 워즈 방법을 이용해 N-gram의 조합을 만들어 감성분석을 수행한다. 하지만 이 방법은 문장의 의미론적(Semantic) 특성을 반영하지 못한다는 단점이 있다.

성능/효과

48로 WE의 성능이 더 높았다. NN + before 조합을 제외한 분류기와 FS방법의 모든 조합에서 BOW 방법의 성능이 더 높았다. kitchen 데이터의 경우, 분류기와 FS방법의 모든 조합에서 BOW방법이 WE방법 보다 높음을 확인했다.
후)나이브베이지안">나이브 베이지안 네트워크의 경우 모든 데이터에서 성능이 향상됨을 확인했다. Word2vec에서 정보획득 속성선택을 적용한 나이브 베이지안 네트워크의 경우 electronics 데이터 셋을 제외하고, 남은 3개의 데이터에서 성능이 상승함을 확인했다. Word2vec에서 상관관계 기반 Word2vec에서는 상관관계 기반 속성선택을 적용한 나이브 베이지안 네트워크의 경우 모든 데이터에서 성능이 향상됨을 확인했다. Word2vec에서 후)데이터별">데이터 별 가장 높은 성능을 내는 조합은 다음과 같다. electronics 데이터 셋은 정보획득 속성선택 방법을 적용한 스태킹에서 81.35로 가장 높고 다음으로는 정보획득 속성선택을 적용한 로지스틱 회귀분석이 81.15로 두 번째로 높았다. kitchen 데이터 셋에서는 정 electronics, kitchen 데이터 셋에서는 백 오브 워즈 방법의 정보획득 속성선택방법을 적용한 로지스틱 회귀분석과 스태킹이 높은 성능을 나타내는 것을 확인했다. laptop과 restaurant 데이터 셋에서는 Word2vec의 정보 획 15로 두 번째로 높았다. kitchen 데이터 셋에서는 정보획득 속성선택을 적용한 로지스틱 회귀분석에서 78.65로 가장 높았고 두 번째로는 정보획득 속성선택을 적용한 스태킹이 78.10로 높았다. laptop 데이터 셋은 상관관계 기반 10로 높았다. laptop 데이터 셋은 상관관계 기반 속성선택을 적용한 로지스틱 회귀분석에서 76.85로 가장 높았고 두 번째로는 상관관계 기반 속성선택을 적용한 스태킹이 76.68 로 높았다. restaurant 데이터 셋은 정보획득 속성선택을 적용한 스태킹에서 76.
31로 높았다. laptop 데이터 셋을 제외한 electronics, laptop, restaurant 데이터 셋에서는 정보획득 속성선택을 적용한 로지스틱 회귀분석과 스태킹이 높은 성능을 나타냄을 확인했다. 반면 laptop 데이터 셋에서는 상관관계 기반 후)회귀 분석과">회귀분석과 스태킹이 높은 성능을 나타내는 것을 확인했다. laptop과 restaurant 데이터 셋에서는 Word2vec의 정보 획득 속성선택방법을 적용한 랜덤포레스트가 가장 높은 성능을 나타내는 조합이라는 것을 확인했다. 본 연구의 한계는 다음과 같다.
결과적으로, electronics, kitchen에서는 BOW의 IG방법 LR과 ST가 높은 성능을 나타냄을 확인했다. laptop과 restaurant에서는 WE의 IG방법의 RF가 가장 높은 성능을 나타내는 조합이라는 것을 확인했다.
68 로 높았다. restaurant 데이터 셋은 정보획득 속성선택을 적용한 스태킹에서 76.15로 가장 높았고 두 번째로는 정보획득 속성선택을 적용한 스태킹이 75.31로 높았다. laptop 데이터 셋을 제외한 electronics, laptop, restaurant 데이터 셋에서는 결과적으로 아마존 상품리뷰 데이터인 electronic과 kitchen에서 WE 방법 보다 BOW방법의 성능이 높음을 확인했다. 그리고 SemEval 데이터인 laptop과 restaurant에서는 BOW보다 WE방법의 성능이 높음을 확인했다.
03으로 가장 높았다. 결과적으로, electronics, kitchen에서는 BOW의 IG방법 LR과 ST가 높은 성능을 나타냄을 확인했다. laptop과 restaurant에서는 WE의 IG방법의 RF가 가장 높은 성능을 나타내는 조합이라는 것을 확인했다.
후)방법보다">방법 보다 BOW방법의 성능이 높음을 확인했다. 그리고 SemEval 데이터인 laptop과 restaurant에서는 BOW보다 WE방법의 성능이 높음을 확인했다.
후)회귀 분석과">회귀분석과 스태킹이 높은 성능을 나타냄을 확인했다. 반면 laptop 데이터 셋에서는 상관관계 기반 속성선택을 적용한 로지스틱 회귀분석과 스태킹이 높은 성능을 나타냄을 확인했다.
후)백오브">백 오브 워즈에서는 상관관계 기반 속성선택을 적용한 인공신경망의 경우 모든 데이터에서 상관관계 기반 속성선택을 적용하기 전보다 성능이 상승함을 확인했다. ">비교하였다[11]. 전반적으로 피쳐해싱은 좋은 재표현 방법으로 나타났지만 정확도 측면에서는 백 오브 워즈가 피쳐해싱보다 좋은 성능을 내는 것을 확인했다.
후)정보 획득">정보획득 속성선택 방법을 적용한 랜덤포레스트의 경우 kitchen 데이터 셋을 제외하고, 남은 데이터에서 성능이 상승함을 확인했다. 후)정보 획득">정보획득 속성선택을 적용한 경우는 로지스틱 회귀분석, 인공신경망, 랜덤서브스페이스, 스태킹이 모든 데이터에서 성능이 상승했다. 후)정보 획득">정보획득 속성선택을 적용한 스태킹의 경우 electronics 데이터 셋을 제외하고, 남은 3개의 데 이터에서 성능이 상승함을 확인했다.

후속연구

">있 다. 향후 연구과제는 본 연구에서 수행한 데이터와 다른 영역의 도메인에 대해서도 감성분류를 위한 방법을 연구할 필요가 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	로지스틱 회귀분석이 회귀를 수행하는 과정은?	로지스틱 회귀분석은 선형 및 비선형 분류의 용도로 사용하는 회귀분석 분류기이다. 해당하는 목적변수에 속한 학습용 인스턴스의 출력을 1로 설정하고 소속되지 않은 인스턴스의 출력은 0으로 설정해 목적변수에 대한 회귀를 수행한다. 이 과정의 결과로 선형 함수가 도출된다. 그 후에는, 학습되지 않은 목적변수에 대해 테스트를 할 때, 선형 함수의 결과를 계산하여 가장 큰 값을 채택 한다[15].
	Word2vec이 백 오브 워즈 방법과 다른 특성은?	이와 같은 과정은 벡터의 희박성(sparsity) 문제로 견고한 머신러닝 모델을 만드는 것은 어렵다. 백 오브 워즈 방법과 달리 Word2vec을 이용해 단어를 학습할 경우, 문맥상 비슷한 의미를 가진 단어들은 서로 가까운 공간벡터를 가진다. Word2vec은 워드임베딩을 표현 하는 2가지 방법을 제공한다.
	오피니언 마이닝이란?	오피니언 마이닝(Opinion mining)은 텍스트가 지니는 긍정적 또는 부정적인 의견을 분석하는 감성분석 (Sentiment analysis) 분야이다[1-3]. 인터넷 뉴스, 블로그, 소셜미디어의 발전과 더불어 사용자가 작성한 콘텐츠는 폭발적으로 증가하게 되었다.

참고문헌 (22)

M. Kang, J. Ahn & K. Lee. (2018). Opinion mining using ensemble text hidden Markov models for text classification. Expert Systems with Applications, 94, 218-227.

상세보기
J. R. Pineiro-Chousa, M. A. Lopez-Cabarcos & A. M. Perez-Pico. (2016). Examining the influence of stock market variables on microblogging sentiment. Journal of Business Research, 69(6), 2087-2092.

상세보기
A. Yadollahi, A. G. Shahraki & O. R. Zaiane. (2017). Current state of text sentiment analysis from opinion to emotion mining. ACM Computing Surveys (CSUR), 50(2), 25.
M. Y. Chen & T. H. Chen. (2017). Modeling public mood and emotion: Blog and news sentiment and socio-economic phenomena. Future Generation Computer Systems.
T. Mikolov, K. Chen, G. Corrado & J. Dean. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
L. P. Ni, Z. W. Ni & Y. Z. Gao. (2011). Stock trend prediction based on fractal feature selection and support vector machine. Expert Systems with Applications, 38(5), 5569-5576.

상세보기
Y. Liu, J. W. Bi & Z. P. Fan. (2017). Multi-class sentiment classification: The experimental comparisons of feature selection and machine learning algorithms. Expert Systems with Applications, 80, 323-339.

상세보기
F. Corea. (2016). Can Twitter Proxy the Investors' Sentiment? The Case for the Technology Sector. Big Data Research, 4, 70-74.

상세보기
Y. Ruan, A. Durresi & L. Alfantoukh. (2018). Using Twitter trust network for stock market analysis. Knowledge-Based Systems, 145, 207-218.

상세보기
M. Ghiassi, J. Skinner & D. Zimbra. (2013). Twitter brand sentiment analysis: A hybrid system using n-gram analysis and dynamic artificial neural network. Expert Systems with applications, 40(16), 6266-6282.

상세보기
N. F. Da Silva, E. R. Hruschka & E. R. Hruschka Jr. (2014). Tweet sentiment analysis with classifier ensembles. Decision Support Systems, 66, 170-179.

상세보기
G. Wang, J. Sun, J. Ma, K. Xu & J. Gu. (2014). Sentiment classification: The contribution of ensemble learning. Decision support systems, 57, 77-93.

상세보기
S. Yoo, J. Song & O. Jeong. (2018). Social media contents based sentiment analysis and prediction system. Expert Systems with Applications, 105, 102-111.

상세보기
A. Garcia-Pablos, M. Cuadros & G. Rigau. (2018). W2vlda: almost unsupervised system for aspect based sentiment analysis. Expert Systems with Applications, 91, 127-137.

상세보기
S. Menard. (2002). Applied logistic regression analysis, 106, Sage.
R. J. Schalkoff. Artificial neural networks, 1, New York: McGraw-Hill.
N. Friedman, D. Geiger & M. Goldszmidt. (1997). Bayesian network classifiers. Machine learning, 29(2-3), 131-163.
L. Breiman. (2001). Random forests. Machine learning, 45(1), 5-32.
T. K. Ho. (1998). The Random Subspace Method for Constructing Decision Forests, IEEE Trans. Pattern Analysis and Machine Intelligence, 20(8), 832-844.

상세보기
D. H. Wolpert. (1992). Stacked generalization. Neural networks, 5(2), 241-259.

상세보기
J. Blitzer, M. Dredze & F. Pereira. (2007). Biographies, bollywood, boom-boxes and blenders: Domain adaptation for sentiment classification. In Proceedings of the 45th annual meeting of the association of computational linguistics, (pp. 440-447).
S. Poria, E. Cambria & A. Gelbukh. (2016). Aspect extraction for opinion mining with a deep convolutional neural network. Knowledge-Based Systems, 108, 42-49.

상세보기

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증