[논문]문장 분류를 위한 정보 이득 및 유사도에 따른 단어 제거와 선택적 단어 임베딩 방안

이민석; 양석우; 이홍주

doi:10.13088/jiis.2019.25.4.105

문장 분류를 위한 정보 이득 및 유사도에 따른 단어 제거와 선택적 단어 임베딩 방안
Selective Word Embedding for Sentence Classification by Considering Information Gain and Word Similarity 원문보기

지능정보연구 = Journal of intelligence and information systems, v.25 no.4, 2019년, pp.105 - 122

이민석 (가톨릭대학교 경영학전공) , 양석우 (가톨릭대학교 심리학전공) , 이홍주 (가톨릭대학교 경영학전공)

초록
AI-Helper

텍스트 데이터가 특정 범주에 속하는지 판별하는 문장 분류에서, 문장의 특징을 어떻게 표현하고 어떤 특징을 선택할 것인가는 분류기의 성능에 많은 영향을 미친다. 특징 선택의 목적은 차원을 축소하여도 데이터를 잘 설명할 수 있는 방안을 찾아내는 것이다. 다양한 방법이 제시되어 왔으며 Fisher Score나 정보 이득(Information Gain) 알고리즘 등을 통해 특징을 선택 하거나 문맥의 의미와 통사론적 정보를 가지는 Word2Vec 모델로 학습된 단어들을 벡터로 표현하여 차원을 축소하는 방안이 활발하게 연구되었다. 사전에 정의된 단어의 긍정 및 부정 점수에 따라 단어의 임베딩을 수정하는 방법 또한 시도하였다. 본 연구는 문장 분류 문제에 대해 선택적 단어 제거를 수행하고 임베딩을 적용하여 문장 분류 정확도를 향상시키는 방안을 제안한다. 텍스트 데이터에서 정보 이득 값이 낮은 단어들을 제거하고 단어 임베딩을 적용하는 방식과, 정보이득 값이 낮은 단어와 코사인 유사도가 높은 주변 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 단어 임베딩을 재구성하는 방식이다. 본 연구에서 제안하는 방안을 수행함에 있어 데이터는 Amazon.com의 'Kindle' 제품에 대한 고객리뷰, IMDB의 영화리뷰, Yelp의 사용자 리뷰를 사용하였다. Amazon.com의 리뷰 데이터는 유용한 득표수가 5개 이상을 만족하고, 전체 득표 중 유용한 득표의 비율이 70% 이상인 리뷰에 대해 유용한 리뷰라고 판단하였다. Yelp의 경우는 유용한 득표수가 5개 이상인 리뷰 약 75만개 중 10만개를 무작위 추출하였다. 학습에 사용한 딥러닝 모델은 CNN, Attention-Based Bidirectional LSTM을 사용하였고, 단어 임베딩은 Word2Vec과 GloVe를 사용하였다. 단어 제거를 수행하지 않고 Word2Vec 및 GloVe 임베딩을 적용한 경우와 본 연구에서 제안하는 선택적으로 단어 제거를 수행하고 Word2Vec 임베딩을 적용한 경우를 비교하여 통계적 유의성을 검정하였다.

Abstract ▼ AI-Helper

Dimensionality reduction is one of the methods to handle big data in text mining. For dimensionality reduction, we should consider the density of data, which has a significant influence on the performance of sentence classification. It requires lots of computations for data of higher dimensions. Eventually, it can cause lots of computational cost and overfitting in the model. Thus, the dimension reduction process is necessary to improve the performance of the model. Diverse methods have been proposed from only lessening the noise of data like misspelling or informal text to including semantic and syntactic information. On top of it, the expression and selection of the text features have impacts on the performance of the classifier for sentence classification, which is one of the fields of Natural Language Processing. The common goal of dimension reduction is to find latent space that is representative of raw data from observation space. Existing methods utilize various algorithms for dimensionality reduction, such as feature extraction and feature selection. In addition to these algorithms, word embeddings, learning low-dimensional vector space representations of words, that can capture semantic and syntactic information from data are also utilized. For improving performance, recent studies have suggested methods that the word dictionary is modified according to the positive and negative score of pre-defined words. The basic idea of this study is that similar words have similar vector representations. Once the feature selection algorithm selects the words that are not important, we thought the words that are similar to the selected words also have no impacts on sentence classification. This study proposes two ways to achieve more accurate classification that conduct selective word elimination under specific regulations and construct word embedding based on Word2Vec embedding. To select words having low importance from the text, we use information gain algorithm to measure the importance and cosine similarity to search for similar words. First, we eliminate words that have comparatively low information gain values from the raw text and form word embedding. Second, we select words additionally that are similar to the words that have a low level of information gain values and make word embedding. In the end, these filtered text and word embedding apply to the deep learning models; Convolutional Neural Network and Attention-Based Bidirectional LSTM. This study uses customer reviews on Kindle in Amazon.com, IMDB, and Yelp as datasets, and classify each data using the deep learning models. The reviews got more than five helpful votes, and the ratio of helpful votes was over 70% classified as helpful reviews. Also, Yelp only shows the number of helpful votes. We extracted 100,000 reviews which got more than five helpful votes using a random sampling method among 750,000 reviews. The minimal preprocessing was executed to each dataset, such as removing numbers and special characters from text data. To evaluate the proposed methods, we compared the performances of Word2Vec and GloVe word embeddings, which used all the words. We showed that one of the proposed methods is better than the embeddings with all the words. By removing unimportant words, we can get better performance. However, if we removed too many words, it showed that the performance was lowered. For future research, it is required to consider diverse ways of preprocessing and the in-depth analysis for the co-occurrence of words to measure similarity values among words. Also, we only applied the proposed method with Word2Vec. Other embedding methods such as GloVe, fastText, ELMo can be applied with the proposed methods, and it is possible to identify the possible combinations between word embedding methods and elimination methods.

주제어

표/그림 (10)

그림 Example of Extracting SimilarWords from I_n
그림 Token Elimination Algorithm
표 Information about Review Data
표 Information about Drop Embeddings
표 Mean Dropped Ratio per Sentences in DE_(n)
표 Mean Dropped Ratio per Sentences in DE_(n,t)
표 Comparison with Embeddings
표 Comparison with Word2Vec, GloVe, DE_(n), DE_(n,t) results and t-test.
그림 Comparison with Information Gain base Dropped Embeddings
그림 Comparison with Information Gain & Cosine Similarity base Dropped Embeddings

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

Minimum-redundancy-maximum-relevance(mR MR)(Peng et al., 2005) 또한 정보 이론을 기초로 하며 데이터의 불필요한 중복을 줄이고, 데이터 간의 상관성을 높이는 것을 목적으로 한다. 데이 터의 중복성과 상관성은 피어슨 상관계수와 정보 이득을 통해 정의되고, 탐욕 알고리즘(Greedy Algorithm)을 통해 특징을 선택한다.
반면 Word2Vec은 단어 간의 유사도 측정이 가능하지만 연구자가 지정한 윈도우 규모 내에서 학습을 하기 때문에 말뭉치 전체의 통계적 정보를 반영하기 어렵다. 결과적으로 GloVe는 두 단어의 벡터 내적이 유사도가 아니라 동시 출 현(co-occurrence) 확률의 로그 값이 되도록 목적 함수를 갖는다.
뿐만 아니라 유용하지 않은 리뷰를 판별하여 해당 리뷰를 덜 노출시켜 소비자로 하여금 바람직한 구매의사결정을 내리는데 기여할 수 있다. 문장 분류 엔진을 설계하는 엔지니어들은 본 연구 결과를 활용하여 기존 엔진의 성과를 높이는 방안을 시도해 볼 수 있다.
본 연구는 문장 분류에서 문장의 특징을 어떻 게 선택할 것인 지가 분류 모형의 성능에 많은 영향을 미치기에, 선택적으로 단어 제거를 수행 하고 임베딩을 적용하여 문장 분류 정확도를 향 상시키는 두 가지 방안을 제안하였다. 텍스트 데 이터에서 정보 이득 값이 낮은 단어들을 선택하 여 문장에서 제거하거나, 해당 단어와 코사인 유사도가 높은 단어들을 함께 제거하여 문장의 특 징을 선택하고 단어 임베딩을 생성한 점에서 기 존 연구와 차별점을 갖는다.
본 연구는 문장의 특징을 선택하고 단어 임베딩하는 과정에서 분류 성과 증대를 위해 두 가지 방안을 제안한다. 첫 번째 방안은 정보 이득 알 고리즘을 사용하여 정보 이득 값이 낮은 단어를 파악한 뒤, 정보 이득 값이 상대적으로 낮은 단어들을 텍스트 데이터에서 제거하고 단어 임베 딩을 구성하는 것이다.
실무적 관점에서 제안한 방법론은 다음과 같이 적용할 수 있다. 본 연구는 사용자들이 작성한 리뷰 데이터를 활용하여 리뷰의 유용여부나, 긍정/부정 같은 감성 분류를 판별함에 있어 분류 정확도를 높이는 방법론을 제안하였다. 이는 서 비스 기획 및 마케팅 관련 종사자로 하여금 자사가 제공하는 재화나 서비스에 대해 소비자들이 어떻게 인지하고 있는지 파악할 수 있는 자료로 활용 가능하다.

제안 방법

4-1, 4-2절의 데이터에 위의 두 모델 을 사용하여 에 나타난 네 가지 단어 임베딩을 적용하여 실험을 수행하였다.
GloVe(Global Vectors for Word Representation) 는 잠재의미분석(LSA)과 Word2Vec의 장점만을 반영하여 기존의 방법의 단점을 보완하였다. LSA는 선행 연구에서 밝힌 것과 같이 말뭉치 전 체의 통계적 정보를 활용하고(Landauer and Dumais, 1997), 단어와 문맥 간의 내재적인 의미를 보존 하여 모델 성능에 도움을 주며(Deerwester et al, 1990; Landauer and Dumais, 1997), 입력 데이터의 노이즈 제거(Rapp, 2003) 등에 효과가 있지만 단어 혹은 문서 간의 유사도 측정에는 어려움이 있다.
com ‘Kindle’ 제품에 대한 사용자 리뷰, IMDB의 영화 리뷰, Yelp의 사용자 리뷰 데이터를 사용하였고 각 데이터의 크기와 분류 클래스는 <Table 1>과 같다. Kindle의 유용 한 리뷰 선택은 전체 데이터에서 유용한 표 (Helpful Vote)를 5개 이상 받고, 전체 득표(Total vote)에서 70% 이상 유용한 표를 받은 리뷰를 유용한 리뷰로 분류하였다. Yelp의 경우 유용한 리 뷰 선택에 있어 전체 득표 항목을 알 수 없기 때 문에 유용한 표를 5개 이상 받은 리뷰 약 750,000개 중 100,000개를 무작위 추출하여 유용한 리뷰로 분류하였다.
Kindle과 Yelp의 유용하지 않은 리뷰는 유용한 표가 0인 리뷰들 중에서 유용한 리뷰의 개수만큼 무작위 추출하였다. 각 리뷰 데이터에서 학습 집합과 테스트 집합을 80:20으로 나누고 다시 학습 집합에서 80%를 학 습에, 나머지 20%를 학습한 것을 검증하는데 사용하였다.
1절의 정보 이득 알고리즘을 통해 정보 이득 값이 낮은 n개의 단어를 선택하고, n 개의 단어에 대해 코사인 유사도가 높은 t개의 단어를 추가로 선택하여 총 n + ( n*t )개의 단어 를 추출하였다. 두 단어(A, B)의 유사도 측정을 위해 실험에 사용한 텍스트 데이터를 Word2Vec 방식으로 만든 100차원 단어 임베딩에서 각 단 어에 대해 100차원의 벡터를 사용하여 두 단어 벡터의 내각을 구함으로써 유사도를 도출하였 다. 3.
첫 번째 방안은 정보 이득 알 고리즘을 사용하여 정보 이득 값이 낮은 단어를 파악한 뒤, 정보 이득 값이 상대적으로 낮은 단어들을 텍스트 데이터에서 제거하고 단어 임베 딩을 구성하는 것이다. 두 번째 방안은 첫 번째 방안에서 선택된 정보 이득 값이 낮은 단어와 그 주변에 있는 유사 단어들을 텍스트 데이터에서 함께 제거하여 단어 임베딩을 구성하는 것이다. 3.
이를 개선하기 위해 전처리 과정에서 데이터의 차원 축소가 많이 활용된다. 또한, 차원 축소를 위한 다양한 방법들이 제시되어 왔고, 단순히 데이터의 노이즈를 줄이는 것에서부 터 통사론적 정보와 문맥을 함께 고려하면서 성능을 높이는 방안을 활용하였다.
본 연구는 3.1절의 정보 이득 알고리즘을 통해 정보 이득 값이 낮은 n개의 단어를 선택하고, n 개의 단어에 대해 코사인 유사도가 높은 t개의 단어를 추가로 선택하여 총 n + ( n*t )개의 단어 를 추출하였다. 두 단어(A, B)의 유사도 측정을 위해 실험에 사용한 텍스트 데이터를 Word2Vec 방식으로 만든 100차원 단어 임베딩에서 각 단 어에 대해 100차원의 벡터를 사용하여 두 단어 벡터의 내각을 구함으로써 유사도를 도출하였 다.
상대적으로 덜 중요한 단어들을 분류하는 방안으로 Zhang and Tran (2011)이 제안한 정보 이득(Information Gain)을 활용하였으며 유사한 단어 선택에 코사인 유사도(Cosine Similarity)를 활용하였다. 본 연구는 정보 이득 값이 낮은 단어를 문장에서 제거하거 나, 정보 이득 값이 낮은 단어와 코사인 유사도 가 높은 단어를 추가로 제거하여 단어 임베딩을 구성하는 두 가지 방법론을 제안한다. 정보 이득 알고리즘을 통해 단어의 정보 이득 값을 구하고 정보 이득 값이 낮은 단어를 텍스트 데이터에서 제거하여 단어 임베딩을 구성하였다.
정보 이득 값이 낮은 단어와 코사인 유사도가 높은 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 이를 활용하여 임베딩을 구성하는 방법도 함께 시도하였다. 본 연구에서 제안한 방법론을 평가 하기 위해 단어 제거를 수행하지 않고 Word2Vec 과 GloVe 임베딩을 적용한 경우와 선택적으로 단어 제거를 수행하고 Word2Vec 방식으로 단어 임베딩을 적용한 방식과 성능 비교를 하였다. 또한 실험 결과를 양측 검정으로 통계적 유의성을 확보하여 두 가지의 방법 중 적어도 한 가지의 방법에서 기존의 단어 임베딩 방식보다 본 연구에서 제안한 임베딩 방식이 통계적으로 유의함을 보였다.
본 연구에서는 리뷰의 평점에 따라 긍정/부정 리뷰로 분류하거나 리뷰의 유용 투표수에 따라 긍정(s1)과 부정(s2)으로 분류하였고 최종 정보 이득 값은 다음과 같다.
정보 이득은 상위 노드와 하위 노드 간 엔트로피의 차이를 구하 고 이를 해당 속성의 변별력으로 간주한다. 본 연구에서는 텍스트 데이터 내 단어들의 엔트로 피를 통해 정보 이득 값을 구한다. 단어의 정보 이득 값이 낮을수록 해당 단어가 문장 분류에 있어 변별력이 낮다는 것을 의미하므로, 정보 이득 값이 낮은 단어를 제거하였다.
4-1, 4-2절의 데이터에 위의 두 모델 을 사용하여 <Table 5>에 나타난 네 가지 단어 임베딩을 적용하여 실험을 수행하였다. 전체 데이터셋을 학습 집합과 테스트 집합으로 무작위 층화 추출하여 나누었으며, 분류 성과는 정확도 (accuracy)와 f1 스코어를 활용하여 측정하였다. 총 30회 실험을 반복하였으며, 방안 간의 성과 차이를 통계적으로 검증하기 위하여 반복수행 된 성과를 가지고 독립표본 t 테스트를 수행하였다.
정보 이득 값이 낮은 단어 주변에 있는 단어를 찾기 위해 코사인 유사도를 사용하였다. 코사인 유사도는 내적 공간의 두 벡터 간 각도의 코사인 값을 이용하여 측정된 벡터 간의 유사도로 정의 되며 단어 A와 B의 유사도는 다음과 같이 측정 된다.
정보 이득 알고리즘을 통해 단어의 정보 이득 값을 구하고 정보 이득 값이 낮은 단어를 텍스트 데이터에서 제거하여 단어 임베딩을 구성하였다. 정보 이득 값이 낮은 단어와 코사인 유사도가 높은 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 이를 활용하여 임베딩을 구성하는 방법도 함께 시도하였다. 본 연구에서 제안한 방법론을 평가 하기 위해 단어 제거를 수행하지 않고 Word2Vec 과 GloVe 임베딩을 적용한 경우와 선택적으로 단어 제거를 수행하고 Word2Vec 방식으로 단어 임베딩을 적용한 방식과 성능 비교를 하였다.
본 연구는 정보 이득 값이 낮은 단어를 문장에서 제거하거 나, 정보 이득 값이 낮은 단어와 코사인 유사도 가 높은 단어를 추가로 제거하여 단어 임베딩을 구성하는 두 가지 방법론을 제안한다. 정보 이득 알고리즘을 통해 단어의 정보 이득 값을 구하고 정보 이득 값이 낮은 단어를 텍스트 데이터에서 제거하여 단어 임베딩을 구성하였다. 정보 이득 값이 낮은 단어와 코사인 유사도가 높은 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 이를 활용하여 임베딩을 구성하는 방법도 함께 시도하였다.
텍스트 데 이터에서 정보 이득 값이 낮은 단어들을 선택하 여 문장에서 제거하거나, 해당 단어와 코사인 유사도가 높은 단어들을 함께 제거하여 문장의 특 징을 선택하고 단어 임베딩을 생성한 점에서 기 존 연구와 차별점을 갖는다. 제거한 텍스트 데이 터를 바탕으로 Word2Vec을 통해 단어 임베딩을 만들고 이를 딥러닝 모델에 적용하여 선택적으 로 단어 제거를 수행하지 않은 경우와 성능을 비 교하였다.
Naïve Bayes(Sahami, 1996; Lewis, 1998) 와 Support Vector Machine(Joachims, 1998) 방법들이, 차원 축소와 함께 적용되었을 때 더 높은 성과를 보였다(Mohan and Paramasivam, 2017; Kim, 2005). 차원 축소는 문장 분류 문제에서도 성능 향상과 모델의 과적합을 방지하기 위해 중 요한 부분이며, 본 연구는 단어의 차원 축소에 초점을 맞추어 연구를 진행하였다. 지금까지 적용되어온 차원 축소의 방법은 크게 특징 추출, 특징 선택, 단어 임베딩으로 분류할 수 있다.
본 연구는 문장의 특징을 선택하고 단어 임베딩하는 과정에서 분류 성과 증대를 위해 두 가지 방안을 제안한다. 첫 번째 방안은 정보 이득 알 고리즘을 사용하여 정보 이득 값이 낮은 단어를 파악한 뒤, 정보 이득 값이 상대적으로 낮은 단어들을 텍스트 데이터에서 제거하고 단어 임베 딩을 구성하는 것이다. 두 번째 방안은 첫 번째 방안에서 선택된 정보 이득 값이 낮은 단어와 그 주변에 있는 유사 단어들을 텍스트 데이터에서 함께 제거하여 단어 임베딩을 구성하는 것이다.

대상 데이터

본 연구는 Amazon.com ‘Kindle’ 제품에 대한 사용자 리뷰, IMDB의 영화 리뷰, Yelp의 사용자 리뷰 데이터를 사용하였고 각 데이터의 크기와 분류 클래스는 과 같다.
제안한 방법론을 평가하기 위한 데이터로 사용자 리뷰와 영화 리뷰 데이터를 사용하였고, 딥 러닝 모델로 CNN과 Attention-Based Bidirectional LSTM을 사용하였다. 실험 결과 제안한 방법론 을 통해 선택적으로 단어 제거를 수행하고 임베딩을 적용한 경우가 그렇지 않은 경우에 비해 모 든 결과에서 적어도 하나 이상이 통계적으로 유의한 차이가 있음을 보였다.

데이터처리

<Table 6>는 리뷰 데이터와 학습 모델을 활용 하여 30회 반복 실험을 수행한 후의 성과의 평균 값이다. 제안한 두 가지 방법에서 가장 좋은 성 능을 보인 경우와 Word2Vec 및 GloVe를 활용한 경우와 t 테스트를 수행하여 통계적 유의성을 검정하였다. 실험 결과 모든 리뷰 데이터에 대해 본 연구에서 제안하는 방법론 중 적어도 한 가지 이상이 정확도와 f1 스코어에 대해 성과가 높았 으며 통계적으로 유의한 차이를 나타냈다.
전체 데이터셋을 학습 집합과 테스트 집합으로 무작위 층화 추출하여 나누었으며, 분류 성과는 정확도 (accuracy)와 f1 스코어를 활용하여 측정하였다. 총 30회 실험을 반복하였으며, 방안 간의 성과 차이를 통계적으로 검증하기 위하여 반복수행 된 성과를 가지고 독립표본 t 테스트를 수행하였다.

이론/모형

단어 임베딩은 Python의 Word2Vec 라이브러 리를 활용하여 생성하였고, 5회 이상 등장한 단 어들을 가지고 100차원의 Skip Gram 방식을 사용하였다. 나머지 파라미터는 기본 설정 값을 사 용하였다.
데이터를 학습하는데 사용한 모델은 CNN과 Attention-Based Bidirectional LSTM 모델을 사 용하였다. 4-1, 4-2절의 데이터에 위의 두 모델 을 사용하여 <Table 5>에 나타난 네 가지 단어 임베딩을 적용하여 실험을 수행하였다.
또한 실험 결과를 양측 검정으로 통계적 유의성을 확보하여 두 가지의 방법 중 적어도 한 가지의 방법에서 기존의 단어 임베딩 방식보다 본 연구에서 제안한 임베딩 방식이 통계적으로 유의함을 보였다. 본 연구를 진행함에 있어 데이터로 Amazon.com Kindle 카테고리 제품에 대한 리뷰, 영화 리뷰인 IMDB, 사용자 리뷰인 Yelp를 사용 하였고, 모델은 Convolutional Neural Network (Kim, 2014)와 Attention-Based Bidirectional LSTM (P Zhou, 2016)을 사용하였다.
본 연구는 문장 분류 문제에 대해 문장의 특징 을 선택함에 있어 상대적으로 중요하지 않은 단어를 제거 후, 단어 임베딩을 생성하는 점에서 기존 연구와 차이가 있다. 상대적으로 덜 중요한 단어들을 분류하는 방안으로 Zhang and Tran (2011)이 제안한 정보 이득(Information Gain)을 활용하였으며 유사한 단어 선택에 코사인 유사도(Cosine Similarity)를 활용하였다. 본 연구는 정보 이득 값이 낮은 단어를 문장에서 제거하거 나, 정보 이득 값이 낮은 단어와 코사인 유사도 가 높은 단어를 추가로 제거하여 단어 임베딩을 구성하는 두 가지 방법론을 제안한다.

성능/효과

본 연구에서 제안한 방법론을 평가 하기 위해 단어 제거를 수행하지 않고 Word2Vec 과 GloVe 임베딩을 적용한 경우와 선택적으로 단어 제거를 수행하고 Word2Vec 방식으로 단어 임베딩을 적용한 방식과 성능 비교를 하였다. 또한 실험 결과를 양측 검정으로 통계적 유의성을 확보하여 두 가지의 방법 중 적어도 한 가지의 방법에서 기존의 단어 임베딩 방식보다 본 연구에서 제안한 임베딩 방식이 통계적으로 유의함을 보였다. 본 연구를 진행함에 있어 데이터로 Amazon.
실험 결과 모든 리뷰 데이터에 대해 본 연구에서 제안하는 방법론 중 적어도 한 가지 이상이 정확도와 f1 스코어에 대해 성과가 높았 으며 통계적으로 유의한 차이를 나타냈다.
제안한 방법론을 평가하기 위한 데이터로 사용자 리뷰와 영화 리뷰 데이터를 사용하였고, 딥 러닝 모델로 CNN과 Attention-Based Bidirectional LSTM을 사용하였다. 실험 결과 제안한 방법론 을 통해 선택적으로 단어 제거를 수행하고 임베딩을 적용한 경우가 그렇지 않은 경우에 비해 모 든 결과에서 적어도 하나 이상이 통계적으로 유의한 차이가 있음을 보였다. 제안한 방법론을 적 용함에 있어 연구자의 연구 목적과 사용하는 데이터 및 모델에 따라 어떤 방법론을 사용할지, 단어를 얼마나 제거할지가 달라짐을 확인할 수 있었다.
실험 결과 제안한 방법론 을 통해 선택적으로 단어 제거를 수행하고 임베딩을 적용한 경우가 그렇지 않은 경우에 비해 모 든 결과에서 적어도 하나 이상이 통계적으로 유의한 차이가 있음을 보였다. 제안한 방법론을 적 용함에 있어 연구자의 연구 목적과 사용하는 데이터 및 모델에 따라 어떤 방법론을 사용할지, 단어를 얼마나 제거할지가 달라짐을 확인할 수 있었다.

후속연구

따라서 보다 정밀하게 유사한 단어를 측정하는 방안의 적용이나 연구가 필요하다. Word2Vec이 아닌 다른 단어 임베딩에 대해 본 연구에서 제안하는 방법론을 적용했을 때 성능이 개선되는지는 확인하지 못했다. 그렇기에 추후 다른 단어 임베딩 방안에 대해 선택적으로 단어 제거를 수행하고 임베딩을 생성하는 방법을 적용하는 연구를 수행할 필요가 있다.
Word2Vec이 아닌 다른 단어 임베딩에 대해 본 연구에서 제안하는 방법론을 적용했을 때 성능이 개선되는지는 확인하지 못했다. 그렇기에 추후 다른 단어 임베딩 방안에 대해 선택적으로 단어 제거를 수행하고 임베딩을 생성하는 방법을 적용하는 연구를 수행할 필요가 있다.
본 연구에서 제안하는 방법론의 성능을 평가하기 위해 텍스트 데이터에서 숫자 및 특수문자 를 제거하는 등 최소한의 전처리를 수행하였으나 보다 심층적인 전처리를 수행한 뒤 제안하는 방법론을 적용하면 지금보다 성능 개선의 여지가 있을 것이라 생각한다. 또한, 유사한 단어를 찾기 위해 사용한 Word2Vec은 단어의 동시 출현 정보를 저장하여 단어 임베딩을 만들기 때문에 코사인 유사도로 측정한 유사 단어가 실제로는 유사한 단어가 아닌 경우가 존재한다.
이는 서 비스 기획 및 마케팅 관련 종사자로 하여금 자사가 제공하는 재화나 서비스에 대해 소비자들이 어떻게 인지하고 있는지 파악할 수 있는 자료로 활용 가능하다. 뿐만 아니라 유용하지 않은 리뷰를 판별하여 해당 리뷰를 덜 노출시켜 소비자로 하여금 바람직한 구매의사결정을 내리는데 기여할 수 있다. 문장 분류 엔진을 설계하는 엔지니어들은 본 연구 결과를 활용하여 기존 엔진의 성과를 높이는 방안을 시도해 볼 수 있다.
성능이 떨 어진 것은 Word2Vec이 단어의 동시 출현 정보를 보존하기 때문에 실제로 크게 관련이 없는 단어 들이 가깝게 임베딩 되어 유사한 단어로 선택되고, 지워졌기 때문에 성능이 나빠진 것으로 보인 다. 이를 종합하면 리뷰 데이터와 사용하는 모델, 그리고 본 논문에서 제안하는 방법론에 따라 단 어를 제거하는 최적 값이 달라지므로 연구자가 사용하는 데이터 및 모델에 따라 제거하는 단어 수의 튜닝이 필요하다.

질의응답

핵심어	질문	논문에서 추출한 답변
	특 징 추출이란 무엇인가?	, 2016). 특 징 추출은 고차원 데이터의 특징을 선형 혹은 비선형의 결합으로 보다 낮은 차원으로 투영시키는 방식이다.
	특징 선택의 목적은 무엇인가?	텍스트 데이터가 특정 범주에 속하는지 판별하는 문장 분류에서, 문장의 특징을 어떻게 표현하고 어떤 특징을 선택할 것인가는 분류기의 성능에 많은 영향을 미친다. 특징 선택의 목적은 차원을 축소하여도 데이터를 잘 설명할 수 있는 방안을 찾아내는 것이다. 다양한 방법이 제시되어 왔으며 Fisher Score나 정보 이득(Information Gain) 알고리즘 등을 통해 특징을 선택 하거나 문맥의 의미와 통사론적 정보를 가지는 Word2Vec 모델로 학습된 단어들을 벡터로 표현하여 차원을 축소하는 방안이 활발하게 연구되었다.
	Locally Linear Embedding의 장점은 무엇인가?	그 과정은 각 데이터에서 이웃을 구하고 가중치 행렬을 구성하여 이 가중 치를 유지하며 저차원의 형태로 변환하는 형식이다. LLE의 장점은 기본적으로 고차원의 데이 터를 저차원으로 매핑이 가능하며 다루기 쉽고 비선형 임베딩이 가능하다는 점이다.

참고문헌 (31)

Azhagusundari, B. and A.S. Thanamani, "Feature Selection based on Information Gain," International Journal of Innovative Technology and Exploring Engineering (IJITEE), Vol.2, No.2(2013), 18-21.
Barkan, O., "Bayesian Neural Word Embedding," Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence (AAAI-17), (2017)
Barkan, O. and N. Koenigstein."Item2Vec: Neural Item Embedding for Collaborative Filtering," arXiv Preprint arXiv:1603.04259 (2016).
Bojanowski, P., E. Grave, A. Joulin, and T. Mikolov, "Enriching word vectors with subword information," CoRR abs/1607.04606, (2016)
Deerwester, S., S.T. Dumais, T.K. Landauer, G.W. Furnas, and R. Harshman. "Indexing by latent semantic analysis," Journal of the American Society of Information Science, Vol.41, No.6(1990), 391-407.

상세보기
Duda, R.O., P.E. Hart, and D.G. Stork. Pattern classification, Wiley, 2000.
Frome, A., G. Corrado, and J. Shlens, "Devise: A Deep Visual-Semantic Embedding Model," Advances in Neural Information Processing Systems, 26(2013) 1-11.
Joachims, T., "Text categorization with support vector machines," Technical report, University of Dortmund, (1997).
Jolliffe, I.T., Principal Component Analysis, Springer-Verlag New York, Secaucus, NJ, (1989)
Kim, Y., "Convolutional neural networks for sentence classification," Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014, 1746-1751.
Lee, M. and H. J. Lee, "Increasing Accuracy of Classifying Useful Reviews by Removing Neutral Terms," Journal of Intelligent Information Systems, Vol.22, No.3(2016), 129-142.

원문보기 상세보기
Lee, M. and H. J. Lee, "Stock Price Prediction by Utilizing Category Neutral Terms: Text Mining Approach," Journal of Intelligent Information Systems, Vol.23, No.2(2017), 123-138.
Lewis, D.D., "Naive (Bayes) at forty: The independence assumption in information retrieval," Proceedings of ECML-98, 10th European Conference on Machine Learning, (1998), 4-15.
Lewis, D.D., "Feature selection and feature extraction for text categorization," Proceddings Speech and Natural Language Workshop, San Francisco, (1992), 212-217.
Li, J., K. Cheng, S. Wang, F. Morstatter, R. P. Trevino, J. Tang, and H. Liu, "Feature Selection: a data perspective," ACM Computing Surveys(CSUR), Vol.50, No.6(2017), 94:1-94:45.
Landauer, T.K., P. W. Foltz, and D. Laham, "Introduction to Latent Semantic Analysis," Discourse Processes, Vol.25(1998), 259-84.

상세보기
Mika, S., G. Ratsch, J. Weston, B. Scholkopf and K. -R. Muller, "Fisher discriminant analysis with kernels," Proceedings, IEEE Workshop on Neural Network for Signal Processing, (1999).
Mohan, P., I. Paramasivam, "A study on impact of dimensionality reduction on Naive Bayes classifier," Indian Journal of Science and Technology, Vol.10, No. 20(2017).
Peng, H., F. Long, C. Dong, "Feature selection based on mutual information: Criteria of maxdependence, max-relevance, min-redundancy", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.27, No.8(2005).
Pennington, J., R. Socher, and C. D. Manning. "Glove: Global vectors for word representation", EMNLP, (2014).
Peters, M., M. Neumann, M. Iyyer, M. Gardner, C. Clark, K. Lee, and L. Zettlemoyer. "Deep contextualized word representations", NAACL, (2018).
Rapp, M., F.-J. Lubken, P. Hoffmann, R. Latteck, G. Baumgarten, and T. A. Blix, "PMSE dependence on aerosol charge, number density and aerosol size," Journal of Geophysical Research, Vol.108, No.D8(2003), 1-11.
Roweis, S.T. and Saul, L.K., "Nonlinear dimensionality reduction by Locally Linear Embedding," Science, Vol.290, No.5500(2000), 2323-2326.

상세보기
Mika, S., G. Ratsch, J. Weston, B. Scholkopf, and K. -R Muller, "Fisher discriminant analysis with kernels," Proceedings of IEEE Workshop on Neural Networks for Signal Processing, (1999).
Sahami, M., "Learning limited dependence Bayesian classifiers". Proceedings 2nd International Conference on Knowledge Discovery and Data Mining, (1996), 334-338.
Sahlgren, M., "The distributional hypothesis," Italian Journal of Linguistics, Vol.20, No.1 (2008), 33-53.

상세보기
Mikolov, T., K. Chen, G. Corrado, and Jeffrey Dean. "Efficient estimation of word representations in vector space", ICLR Workshop, (2013).
Yu, L.C., J. Wang, K. R. Lai, and X. Zhang, "Refining word embeddings for sentiment analysis", Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, (2017), 545-550.
Zhang, R. and T. Tran, "An Information gainbased approach for recommending useful product reviews", Knowledge Information Systems, Vol.26, No.3(2011), 419-434.

상세보기
Zhou, P., W. Shi, J. Tian, Z. Qi, B. Li, H. Hao, and B. Xu. "Attention-based bidirectional long short-term memory networks for relation classification", The 54th Annual Meeting of the Association for Computational Linguistics, (2016), 207-213.
Zhu, L., G. Wang, and X. Zou, "Improved information gain feature selection method for Chinese text classification based on word embedding", proceedings of the 6th International Conference on Software and Computer Applications, (2017), 72-76.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증