[논문]온라인 리뷰 분석을 통한 상품 평가 기준 추출: LDA 및 k-최근접 이웃 접근법을 활용하여

이지현; 정상형; 김준호; 민은주; 여운영; 김종우

doi:10.13088/jiis.2020.26.1.097

온라인 리뷰 분석을 통한 상품 평가 기준 추출: LDA 및 k-최근접 이웃 접근법을 활용하여
Product Evaluation Criteria Extraction through Online Review Analysis: Using LDA and k-Nearest Neighbor Approach 원문보기

지능정보연구 = Journal of intelligence and information systems, v.26 no.1, 2020년, pp.97 - 117

이지현 (한양대학교 철학과) , 정상형 (한양대학교 경영학부) , 김준호 (한양대학교 수학과) , 민은주 (한양대학교 파이낸스경영학과) , 여운영 (한양대학교 비즈니스인포매틱스학과) , 김종우 (한양대학교 경영대학 경영학부)

초록
AI-Helper

상품 평가 기준은 상품에 대한 속성, 가치 등을 표현한 지표로써 사용자나 기업이 상품을 측정하고 파악할 수 있게 한다. 기업이 자사 제품에 대한 객관적인 평가와 비교를 수행하기 위해서는 적절한 기준을 선정하는 것이 필수적이다. 이때, 평가 기준은 소비자들이 제품을 실제로 구매 및 사용 후 평가할 때 고려하는 제품의 특징을 반영하여야 한다. 그러나 기존에 사용되던 평가 기준은 제품마다 상이한 소비자의 의견을 반영하지 못하고 있다. 기존 연구에서는 소비자 의견이 반영된 온라인 리뷰를 통해 상품의 특징, 주제를 추출하고 이를 평가기준으로 사용했다. 하지만 여전히 상품과 연관성이 낮은 평가 기준이 추출되거나 부적절한 단어가 정제되지 않는 한계가 있다. 본 연구에서는 이를 극복하기 위해 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 기법으로 리뷰로부터 평가 기준 후보군을 추출하고 이를 k-최근접 이웃 접근법(k-Nearest Neighbor Approach, k-NN)을 이용해 정제하는 모델을 개발하고 검증했다. 제시하는 방법은 준비 단계와 추출 단계로 이루어진다. 준비 단계에서는 워드임베딩(Word Embedding) 모델과 평가 기준 후보군을 정제하기 위한 k-NN 분류기를 생성한다. 추출 단계에서는 k-NN 분류기와 언급 비율을 이용해 평가 기준 후보군을 정제하고 최종 결과를 도출한다. 제안 모델의 성능 평가를 위해 명사 빈도 추출 모델, LDA 빈도 추출 모델, 실제 전자상거래 사이트가 제공하는 평가 기준을 세 비교 모델로 선정했다. 세 모델과의 비교를 위해 설문을 진행하고 점수화하여 결과를 검정했다. 30번의 검정 결과 26번의 결과에서 제안 모델이 우수함을 확인했다. 본 연구의 제안 모델은 전자상거래 사이트에서 리뷰 특성을 반영한 상품군 별 차원을 도출하는데 활용될 수 있고 이를 기초로 인사이트 발굴을 위한 리뷰 분석 및 활용에 크게 기여할 것이다.

Abstract ▼ AI-Helper

Product evaluation criteria is an indicator describing attributes or values of products, which enable users or manufacturers measure and understand the products. When companies analyze their products or compare them with competitors, appropriate criteria must be selected for objective evaluation. The criteria should show the features of products that consumers considered when they purchased, used and evaluated the products. However, current evaluation criteria do not reflect different consumers' opinion from product to product. Previous studies tried to used online reviews from e-commerce sites that reflect consumer opinions to extract the features and topics of products and use them as evaluation criteria. However, there is still a limit that they produce irrelevant criteria to products due to extracted or improper words are not refined. To overcome this limitation, this research suggests LDA-k-NN model which extracts possible criteria words from online reviews by using LDA and refines them with k-nearest neighbor. Proposed approach starts with preparation phase, which is constructed with 6 steps. At first, it collects review data from e-commerce websites. Most e-commerce websites classify their selling items by high-level, middle-level, and low-level categories. Review data for preparation phase are gathered from each middle-level category and collapsed later, which is to present single high-level category. Next, nouns, adjectives, adverbs, and verbs are extracted from reviews by getting part of speech information using morpheme analysis module. After preprocessing, words per each topic from review are shown with LDA and only nouns in topic words are chosen as potential words for criteria. Then, words are tagged based on possibility of criteria for each middle-level category. Next, every tagged word is vectorized by pre-trained word embedding model. Finally, k-nearest neighbor case-based approach is used to classify each word with tags. After setting up preparation phase, criteria extraction phase is conducted with low-level categories. This phase starts with crawling reviews in the corresponding low-level category. Same preprocessing as preparation phase is conducted using morpheme analysis module and LDA. Possible criteria words are extracted by getting nouns from the data and vectorized by pre-trained word embedding model. Finally, evaluation criteria are extracted by refining possible criteria words using k-nearest neighbor approach and reference proportion of each word in the words set. To evaluate the performance of the proposed model, an experiment was conducted with review on '11st', one of the biggest e-commerce companies in Korea. Review data were from 'Electronics/Digital' section, one of high-level categories in 11st. For performance evaluation of suggested model, three other models were used for comparing with the suggested model; actual criteria of 11st, a model that extracts nouns by morpheme analysis module and refines them according to word frequency, and a model that extracts nouns from LDA topics and refines them by word frequency. The performance evaluation was set to predict evaluation criteria of 10 low-level categories with the suggested model and 3 models above. Criteria words extracted from each model were combined into a single words set and it was used for survey questionnaires. In the survey, respondents chose every item they consider as appropriate criteria for each category. Each model got its score when chosen words were extracted from that model. The suggested model had higher scores than other models in 8 out of 10 low-level categories. By conducting paired t-tests on scores of each model, we confirmed that the suggested model shows better performance in 26 tests out of 30. In addition, the suggested model was the best model in terms of accuracy. This research proposes evaluation criteria extracting method that combines topic extraction using LDA and refinement with k-nearest neighbor approac

주제어

표/그림 (11)

그림 Word2Vec
그림 k-Nearest Neighbor Approach
그림 The Overview of the Proposed Approach to Evaluation Criteria Extraction
표 Middle level category 'Drives/Storage' words tagging
표 Low level category 'External HDD' predicted words and reference ratio
표 Extracted evaluation criteria for each model (External HDD)
그림 Evaluation criteria of external HDD
표 Scoring for each model
그림 Survey results of external HDD
표 Average for each model
표 Paired t-test Results

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이러한 문제 해결을 위해 본 연구에서는 리뷰에서 상품 평가 기준에 적합한 단어를 반자동으로 추출해내는 모델을 제시한다. 본 모델은 사전에 상위 상품 카테고리 수준에서 사례 베이스를 구축하여 이를 기반으로 하위 상품 카테고리 리뷰 데이터에서 평가 기준으로 적합한 단어를 분류해내는 방식이다. 제시하는 모델은 토픽모델링 기법인 LDA로 리뷰의 특징 단어들을 추출하고 k-최근접 이웃 접근법(k-Nearest Neighbor Aproach, k-NN)을 평가 기준 분류에 활용한다.
본 연구는 기업의 상품에 대한 평가 기준을 LDA와 k-NN을 이용해 온라인 리뷰에서 추출하는 방안을 제시한다. 기존 사전 기반 추출 방식이 사용자의 의견을 반영하지 못하는 한계를 극복하기 위해 본 연구는 LDA 기법으로 평가 기준 후보군을 추출했다.
정리하면 기존의 온라인 리뷰로부터 상품 평가 기준을 추출하는 연구들은 기준을 추출할 때 주관이 과도하게 개입되거나, 불용어 사전을 활용한다는 한계를 보인다. 본 연구에서는 이러한 한계를 극복하기 위해 LDA를 실시한 결과에 대해 k-NN을 활용해 기계학습을 실시한다. 이전 연구들과는 다르게 불용어 사전을 활용하지 않고 k-NN을 통해 반자동적으로 상품 평가 기준을 도출해 내어 주관적인 판단을 최소화 했다는 것에 주요한 차이점이 있다.
본 연구에서는 토픽 모델링 기법 중 LDA를 활용하여 상품별 리뷰를 분석하고 리뷰의 잠재된 주제, 주제가 언급하는 내용 및 중요 단어를 파악한다.
기존 연구에서는 LDA를 통해 특정 주제와 해당 주제를 구성하는 내부 단어들을 추출할 수 있었다. 본 연구에서는 특정 주제를 뽑는 것보다 상품 평가 기준이 될 수 있는 단어들을 뽑는 데에 중점을 두었다. LDA는 토픽 수, 단어 수, 랜덤 시드(Random Seed) 등의 매개 변수가 변화하면 추출되는 토픽 내 단어도 변화한다.
각기 다른 이유로 제품에 만족한 고객들이 동일한 평점을 준다면 기업은 제품의 장단점을 구체적으로 파악할 수 없다. 이 문제를 보완하기 위한 방안으로 상품에 대한 평가를 사전에 정한 평가 기준 별로 하도록 유도하거나 리뷰를 기초로 평가 기준을 추출하는 것이다. 평가 기준 추출 방법으로는 형태소 분석을 통해 명사를 추출해내거나(Son et al.
이러한 문제 해결을 위해 본 연구에서는 리뷰에서 상품 평가 기준에 적합한 단어를 반자동으로 추출해내는 모델을 제시한다. 본 모델은 사전에 상위 상품 카테고리 수준에서 사례 베이스를 구축하여 이를 기반으로 하위 상품 카테고리 리뷰 데이터에서 평가 기준으로 적합한 단어를 분류해내는 방식이다.
2013). 추출한 상품 평가 기준에 해당하는 리뷰에 대해 해당하는 리뷰에 대해 감성 분석을 실시하여 소비자에게 도움이 될 만한 리뷰를 분류하는 연구이다. 또한 아마존에 존재하는 두 상품의 영어 리뷰를 대상으로 LDA를 실시한 후, 두 상품에 대한 비교 기준을 추출해 내는 연구가 있다(Wang et al.

제안 방법

명사 빈도 추출 모델은 리뷰 데이터로부터 명사만을 추출하여 빈도순으로 정렬하고 상위 n 개를 평가 기준으로 선정하는 방법이다. LDA 빈도 추출 모델은 리뷰 데이터에 형태소 분석을 한 뒤 LDA를 진행한다. 진행마다 추출되는 결과가 달라지는 임의성이 존재하므로 반복 진행을 통해 임의성을 제거한다.
LDA는 토픽 수, 단어 수, 랜덤 시드(Random Seed) 등의 매개 변수가 변화하면 추출되는 토픽 내 단어도 변화한다. 따라서 매개 변수를 바꿔가며 토픽 내의 출현 단어들을 반복 추출하는 과정을 자동화하였고, 여기서 추출된 단어들을 평가 기준 후보군으로 하였다. 평가 기준 후보군 추출은 중분류별로 실시한다.
기존 사전 기반 추출 방식이 사용자의 의견을 반영하지 못하는 한계를 극복하기 위해 본 연구는 LDA 기법으로 평가 기준 후보군을 추출했다. 리뷰의 명사 단어들을 빈도 순으로 정렬해 평가 기준을 추출했던 기존 연구와 달리, 본 연구에서는 k-NN을 이용해 평가 기준 후보군을 정제했다. 제안 모델은 해당 상품군의 리뷰에 대해 형태소 분석을 한 뒤 LDA를 통해 평가 기준 후보군을 추출한다.
제시하는 모델은 토픽모델링 기법인 LDA로 리뷰의 특징 단어들을 추출하고 k-최근접 이웃 접근법(k-Nearest Neighbor Aproach, k-NN)을 평가 기준 분류에 활용한다. 먼저 상위 상품 카테고리 수준에서LDA로 상품 평가 기준 후보군을 추출하고 평가 기준으로 적절한지를 판단, 태깅(Taging) 함으로써 k-NN 사례 베이스를 만든다. 리뷰 데이터 역시 LDA로 평가 기준 후보군이 만들어지면 앞선 사례를 기반으로 평가기준을 생성하고자 하는 하위 상품 카테고리의 평가 기준이 추출된다.
본 연구에서 제안한 모델은 기존 기술에 비해 소비자의 의견을 정확하게 반영하며 보다 적합한 평가 기준을 제공한다. 기존 기술은 빈도에 의존하기 때문에 모델에 사용하는 리뷰의 질과 양에 따라 추출되는 평가 기준 결과의 차이가 클 수 있다.
태그 2의 경우 모든 상품군에 적용이 가능하기 때문에 기준이 되는 언급 비율은 비교적 낮게 설정되며, 태그 1의 경우 특정 상품군에만 해당하는 평가 기준을 선별하기 위해 기준이 되는 언급 비율을 비교적 높게 설정한다. 본 연구에서는 태그 2에는 1%, 태그 1에는 10%를 기준으로 적용하여 각 소분류별로 7~10개의 평가 기준을 도출한다. 최종 평가 기준 선정에 관한 수식은 다음과 같다.
또한 11번가 제공 평가 기준의 경우 [Table 3]에서 ‘양’과 같이 상품과 관련 없는 단어가 나타나는 한계점이 존재한다. 본 연구의 제안 모델은 이러한 한계점을 해결하여 불필요한 단어를 제외한, 보다 정확한 평가 기준이 추출되도록 한다.
이후 사전 준비단계와 동일한 과정으로 평가 기준 후보 단어를 추출한다. 워드 임베딩 모델을 사용하여 후보 단어들을 벡터화(Vectorization)하고 사전 준비단계에서 생성된 대분류 k-NN 분류기를 통해 평가 기준 가능성을 판단한다. 아래 [Table 2]는 소분류 ‘외장 HDD’ 평가 기준 추출 결과이다.
가장 많은 수의 y'_m을 x의 분류로 보는 것은 합리적이지만, [Figure 2]과 같이 k 값에 따라 그 결과가 달라지는 경우가 존재하므로 x와 x'_m간 거리에 따라 가중치를 부여하는 것 또한 합리적이다(Dudani, 1976). 이를 토대로 본 연구에서는 데이터의 불균형을 해결하기 위해 k-NN 적용 시 거리에 따른 가중치를 고려한다. 새로운 x의 근접 이웃들을 거리 순으로 정렬한 것을 < x’₁,x’₂, …,x’n >라 하고, x_j와 x와의 거리를 라 d_j하면, 가장 먼 이웃 과의 거리는 d_n이 되고, 가중치 w_j는 다음과 같이 정의할 수 있다.
제안 모델은 해당 상품군의 리뷰에 대해 형태소 분석을 한 뒤 LDA를 통해 평가 기준 후보군을 추출한다. 이후 사전에 생성한 k-NN 분류기와 언급 비율을 이용해 최종 평가 기준을 추출한다.
비교 대상은 명사 빈도 추출, LDA 빈도 추출, 11번가 제공 평가 기준이다. 제안 모델 및 비교 모델로 추출한 평가 기준을 종합하고, 설문을 통해 피설문자가 판단하기에 적합한 평가 기준을 복수 선택하게 했다. 설문 결과를 바탕으로 각 모델에 점수를 부여하고 대응 표본 t-검정을 진행한 결과, 비교 모델보다 제안 모델의 성능이 우수했다.
제안 모델에서 추출한 상품 평가 기준과 동일한 개수의 평가 기준을 각 모델로부터 추출, 종합 후 중복을 제거한다. 이를 피설문자에게 제공하고 피설문자는 특정 상품군의 평가 기준으로 적합하다고 판단되는 항목을 복수 선택한다.
리뷰의 명사 단어들을 빈도 순으로 정렬해 평가 기준을 추출했던 기존 연구와 달리, 본 연구에서는 k-NN을 이용해 평가 기준 후보군을 정제했다. 제안 모델은 해당 상품군의 리뷰에 대해 형태소 분석을 한 뒤 LDA를 통해 평가 기준 후보군을 추출한다. 이후 사전에 생성한 k-NN 분류기와 언급 비율을 이용해 최종 평가 기준을 추출한다.
제안 모델의 성능 평가를 위해 실험을 진행하였다. 비교를 위한 3가지 모델은 명사를 빈도 순으로 정렬해 추출한 평가 기준, LDA 기법을 통해 추출한 주제 단어를 빈도수로 정제한 평가 기준과 1번가에서 실제 제공하는 평가 기준이다.
제안 모델의 성능을 평가하기 위한 실험을 진행했다. 비교 대상은 명사 빈도 추출, LDA 빈도 추출, 11번가 제공 평가 기준이다.
이는 많이 언급된 단어가 평가 기준이 될 것이라는 가정에 기반하는 것으로 제안하는 모델과 차이가 있다. 제안하는 모델은 두 모델과 달리 사례 베이스를 사용하여 단어의 의미를 나타내는 벡터 값에 따라 평가 기준 여부를 결정한다. 특히, 명사 빈도 추출 모델은 제안하는 모델과 달리 토픽 모델링 기법을 사용하지 않아 문서 내의 주제가 되는 단어를 고려하는 과정이 없다.
진행마다 추출되는 결과가 달라지는 임의성이 존재하므로 반복 진행을 통해 임의성을 제거한다. 추출된 토픽 단어들을 순으로 정렬하여 상위 n개를 추출하고 이를 평가 기준으로 한다. 1번가 제공 평가 기준은 단일상품의 리뷰를 분류한 목록을 수집하고 목록에 포함된 리뷰가 많은 순으로 정렬, 상위 n개를 추출하여 생성한다.
대분류 내의 모든 중분류에 대해 ‘많은 리뷰 순’으로 상품을 정렬한 뒤 상위 n개(본 연구에서는 40) 상품의 리뷰를 수집한다. 한국어 형태소 분석기 Konlpy의 Twiter 패키지를 통해 수집한 데이터의 명사, 형용사, 부사, 동사를 추출한다. 추출한 단어들로 워드 임베딩(Word Embeding) 모델을 생성하며 이때 FastText 기법을 활용한다.

대상 데이터

대분류 내의 모든 중분류에 대해 ‘많은 리뷰 순’으로 상품을 정렬한 뒤 상위 n개(본 연구에서는 40) 상품의 리뷰를 수집한다.
제안 모델의 성능을 평가하기 위한 실험을 진행했다. 비교 대상은 명사 빈도 추출, LDA 빈도 추출, 11번가 제공 평가 기준이다. 제안 모델 및 비교 모델로 추출한 평가 기준을 종합하고, 설문을 통해 피설문자가 판단하기에 적합한 평가 기준을 복수 선택하게 했다.
설문은 이커머스 이용 경험이 있는 138명에게 진행했다. 10개 상품에 대하여 각각 14~23개의 평가 기준을 제시하고 이를 중복 선택하게 했다.
비교를 위한 3가지 모델은 명사를 빈도 순으로 정렬해 추출한 평가 기준, LDA 기법을 통해 추출한 주제 단어를 빈도수로 정제한 평가 기준과 1번가에서 실제 제공하는 평가 기준이다. 평가 기준을 추출할 대상으로는 1번가 베스트 10 상품 중 디지털/가전/컴퓨터 분류에 포함되는 상위 10개 소분류¹⁾를 선정했다.

데이터처리

평균 점수를 바탕으로 대응 표본 t-검정을 진행했고 제안 모델과 3개의 모델 간 점수의 차이가 유의한지 확인했다. 제안 모델과 3개의 모델을 검정한 결과는 [Table 6]와 같다.

이론/모형

본 연구는 기업의 상품에 대한 평가 기준을 LDA와 k-NN을 이용해 온라인 리뷰에서 추출하는 방안을 제시한다. 기존 사전 기반 추출 방식이 사용자의 의견을 반영하지 못하는 한계를 극복하기 위해 본 연구는 LDA 기법으로 평가 기준 후보군을 추출했다. 리뷰의 명사 단어들을 빈도 순으로 정렬해 평가 기준을 추출했던 기존 연구와 달리, 본 연구에서는 k-NN을 이용해 평가 기준 후보군을 정제했다.
본 연구에서 거리 가중 k-NN(Distance Weightedk-NN)은 사전 추출된 평가 기준 후보군에 부여한 태그를 기반으로 새로운 상품의 평가 기준 후보군을 정제하는데 사용된다.
이를 통해 희귀한 단어에 대해 더 좋은 임베딩모델을 형성할 수 있으며, 훈련 말 뭉치에 존재하지 않았던 단어의 벡터 또한 만들어낼 수 있다. 본 연구에서는 리뷰 데이터를 활용했기 때문에 희귀한 단어들이 많았고, 평가 기준 추출 단계에서는 새로운 단어들의 벡터를 형성할 필요성이 있었기 때문에 FastText를 활용했다.
이때 x'm {x1,x2, …,xn}와 의 거리를 구하는 방법에는 유클리드 거리(Euclidean distance), 맨해튼 거리(Manhatan distance) 등이 있으며 본 연구에서는 유클리드 거리를 적용한다.
본 모델은 사전에 상위 상품 카테고리 수준에서 사례 베이스를 구축하여 이를 기반으로 하위 상품 카테고리 리뷰 데이터에서 평가 기준으로 적합한 단어를 분류해내는 방식이다. 제시하는 모델은 토픽모델링 기법인 LDA로 리뷰의 특징 단어들을 추출하고 k-최근접 이웃 접근법(k-Nearest Neighbor Aproach, k-NN)을 평가 기준 분류에 활용한다. 먼저 상위 상품 카테고리 수준에서LDA로 상품 평가 기준 후보군을 추출하고 평가 기준으로 적절한지를 판단, 태깅(Taging) 함으로써 k-NN 사례 베이스를 만든다.
[Table 1]은 ‘외장 HDD’가 속한 ‘저장 장치’ 중분류의 태깅을 실시한 결과이다. 중분류별로 태깅을 마친 단어들을 대분류 단위로 합치고 k-NN 접근법을 활용하여 k-NN 분류기를 생성한다. 제안 모델은 이 과정을 통해 각 단어의 벡터 값에 따른 태그를 학습할 수 있다.
한국어 형태소 분석기 Konlpy의 Twiter 패키지를 통해 수집한 데이터의 명사, 형용사, 부사, 동사를 추출한다. 추출한 단어들로 워드 임베딩(Word Embeding) 모델을 생성하며 이때 FastText 기법을 활용한다. FastText 기법 적용 시 대부분의 파라미터는 기본값을 적용하고 size, min_count, workers, sg 파라미터를 128, 10, 10, 1로 적용한다.
평가 기준 후보군 추출에는 LDA를 활용한다. 기존 연구에서는 LDA를 통해 특정 주제와 해당 주제를 구성하는 내부 단어들을 추출할 수 있었다.

성능/효과

제안 모델은 사례 베이스를 기반으로 하여 기업은 원하는 상품군에 대한 객관적인 평가 기준을 얻을 수 있다. 또한, 이커머스의 빠른 성장에 따라 리뷰의 양이 크게 증가하는 상황에서 제안 모델은 리뷰의 신속하고 정확한 파악에 기여할 수 있고 일부 리뷰를 기반으로 학습한 모델을 적용해 해당 상품군 내의 모든 상품에 대한 리뷰를 분석하고 결과를 도출할 수 있다. 새로운 리뷰들에 나타난 평가 기준을 반자동 방식의 모델을 통해 빠르게 도출함으로써 기업은 소비자의 니즈 변화에 대한 마켓 인사이트를 발굴할 수 있고, 객관적인 상품 비교 및 마켓 센싱 또한 가능하다.
제안 모델은 사례 베이스를 사용함으로써 언급 빈도는 높으나 평가 기준이 될 수 없는 단어들이 추출되는 문제를 해결하였다. 리뷰 데이터에서 평가 기준 후보군을 직접적으로 추출함으로써 해당 상품에 부합하지 않는 평가 기준을 배제시키는 효과를 볼 수 있었다.
11번가 제공 평가 기준의 경우 자체 사전을 기반으로 리뷰를 분류했기 때문에 등록된 단어와 유사한 언어 혹은 등록되지 않은 언어가 나타날 때 부정확한 결과가 나타난다. 리뷰를 기반으로 평가 기준을 추출한 제안 모델은 리뷰와 사용된 언어에 따라 유동성을 가지므로 11번가 제공 평가 기준보다 우수하다고 해석된다.
또한, 이커머스의 빠른 성장에 따라 리뷰의 양이 크게 증가하는 상황에서 제안 모델은 리뷰의 신속하고 정확한 파악에 기여할 수 있고 일부 리뷰를 기반으로 학습한 모델을 적용해 해당 상품군 내의 모든 상품에 대한 리뷰를 분석하고 결과를 도출할 수 있다. 새로운 리뷰들에 나타난 평가 기준을 반자동 방식의 모델을 통해 빠르게 도출함으로써 기업은 소비자의 니즈 변화에 대한 마켓 인사이트를 발굴할 수 있고, 객관적인 상품 비교 및 마켓 센싱 또한 가능하다. 따라서 본 모델은 리뷰들을 통합적으로 분석함으로써 제품군 고유의 상품 평가 기준을 추출했다는 점에 의의가 있다.
제안 모델 및 비교 모델로 추출한 평가 기준을 종합하고, 설문을 통해 피설문자가 판단하기에 적합한 평가 기준을 복수 선택하게 했다. 설문 결과를 바탕으로 각 모델에 점수를 부여하고 대응 표본 t-검정을 진행한 결과, 비교 모델보다 제안 모델의 성능이 우수했다. 제안 모델은 사례 베이스를 사용함으로써 언급 빈도는 높으나 평가 기준이 될 수 없는 단어들이 추출되는 문제를 해결하였다.
이는 제안 모델에서 평가 기준 후보군을 추출할 때 사용한 LDA 기법이 단순 명사를 추출하는 것보다 우수한 것으로 해석되며, 단순 LDA 기법만을 적용하는 것 보다 LDA 기법으로 추출된 평가 기준들을 태그하고 k-NN을 통해 정제하는 것이 우수한 것으로 해석된다.
제안 모델과 1번가 제공 평가 기준 간 검정 결과, 10개 소분류 중 6개 항목²⁾에서 제안 모델이 우수했고 2개 항목³⁾은 기각되지 않았으며 2개 항목⁴⁾은 11번가 제공 평가 기준이 우수했다. 11번가 제공 평가 기준의 경우 자체 사전을 기반으로 리뷰를 분류했기 때문에 등록된 단어와 유사한 언어 혹은 등록되지 않은 언어가 나타날 때 부정확한 결과가 나타난다.
제안 모델과 명사 빈도 추출 모델, 제안 모델과 LDA 빈도 추출 모델 간 대응 표본 t-검정 결과, 모든 소분류에서 제안 모델이 우수했으며 1번가와의 비교에서는 2개 부문을 제외하고 모두 우수했다.
기존 기술은 빈도에 의존하기 때문에 모델에 사용하는 리뷰의 질과 양에 따라 추출되는 평가 기준 결과의 차이가 클 수 있다. 제안 모델은 사례 베이스를 기반으로 하여 기업은 원하는 상품군에 대한 객관적인 평가 기준을 얻을 수 있다. 또한, 이커머스의 빠른 성장에 따라 리뷰의 양이 크게 증가하는 상황에서 제안 모델은 리뷰의 신속하고 정확한 파악에 기여할 수 있고 일부 리뷰를 기반으로 학습한 모델을 적용해 해당 상품군 내의 모든 상품에 대한 리뷰를 분석하고 결과를 도출할 수 있다.
설문 결과를 바탕으로 각 모델에 점수를 부여하고 대응 표본 t-검정을 진행한 결과, 비교 모델보다 제안 모델의 성능이 우수했다. 제안 모델은 사례 베이스를 사용함으로써 언급 빈도는 높으나 평가 기준이 될 수 없는 단어들이 추출되는 문제를 해결하였다. 리뷰 데이터에서 평가 기준 후보군을 직접적으로 추출함으로써 해당 상품에 부합하지 않는 평가 기준을 배제시키는 효과를 볼 수 있었다.

후속연구

한계점으로는 k-NN 분류기 생성 시 태깅하는 과정에서 그 기준이 일관되지 못했다는 점과 이 과정이 불가피하여 완전한 자동화를 이루지 못했다는 점이다. 또한, 평가 기준 후보군이 될 수 있는 단어가 제한적이어서 학습 데이터가 부족했고, 이에 본 연구에서는 k-NN만을 사용했다는 한계점이 있다. 향후 분석하는 리뷰의 수를 늘린다면 다른 기계학습 기법까지 시도하여 결과를 개선할 수 있을 것이다.
현재 리뷰는 제품 평가와 함께 판매자의 신뢰도, 이력이 포함되어 있으며 이를 분리한다면 제품만의 심층적인 평가가 가능해진다. 이를 통해 생산자들은 소비자에 대한 한층 더 깊은 인사이트를 얻을 수 있으며, 제품에 대한 소비자들의 평가 기준 또한 보다 더 정확하게 파악할 수 있을 것이다. 나아가 판매자에 대한 단독평가를 통해 구매에 영향을 미치는 제품 외 요소들을 발견할 수 있다.
본 연구의 한계점 및 향후 연구 주제는 다음과 같다. 한계점으로는 k-NN 분류기 생성 시 태깅하는 과정에서 그 기준이 일관되지 못했다는 점과 이 과정이 불가피하여 완전한 자동화를 이루지 못했다는 점이다. 또한, 평가 기준 후보군이 될 수 있는 단어가 제한적이어서 학습 데이터가 부족했고, 이에 본 연구에서는 k-NN만을 사용했다는 한계점이 있다.
또한, 평가 기준 후보군이 될 수 있는 단어가 제한적이어서 학습 데이터가 부족했고, 이에 본 연구에서는 k-NN만을 사용했다는 한계점이 있다. 향후 분석하는 리뷰의 수를 늘린다면 다른 기계학습 기법까지 시도하여 결과를 개선할 수 있을 것이다.
후속 연구로는 판매자와 제품에 대한 리뷰를 별개로 분석하여, 각각의 평가 기준을 생성해 제품과 판매자에 대한 평가를 구분하는 것이 가능할 것이다. 현재 리뷰는 제품 평가와 함께 판매자의 신뢰도, 이력이 포함되어 있으며 이를 분리한다면 제품만의 심층적인 평가가 가능해진다.

질의응답

핵심어	질문	논문에서 추출한 답변
	잠재 디리클레 할당의 사용으로 극복한 문제점은?	그러나 기존에 사용되던 평가 기준은 제품마다 상이한 소비자의 의견을 반영하지 못하고 있다. 기존 연구에서는 소비자 의견이 반영된 온라인 리뷰를 통해 상품의 특징, 주제를 추출하고 이를 평가기준으로 사용했다. 하지만 여전히 상품과 연관성이 낮은 평가 기준이 추출되거나 부적절한 단어가 정제되지 않는 한계가 있다. 본 연구에서는 이를 극복하기 위해 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 기법으로 리뷰로부터 평가 기준 후보군을 추출하고 이를 k-최근접 이웃 접근법(k-Nearest Neighbor Approach, k-NN)을 이용해 정제하는 모델을 개발하고 검증했다.
	최근접 이웃 접근법이란?	최근접 이웃 접근법(Nearest Neighbor Aproach,NN)은 분류되지 않은 새로운 관측 값을 이전에 분류된 값들의 집합 중 가장 가까운 집합으로 분류하는 방법이다(Cover et al. 1967).
	리뷰의 어떠한 점이 기업의 중요한 자원이 되는가?	리뷰는 소비자들의 구매 의사결정에 중요한 요소이며 이커머스 시장의 고성장과 함께 그 양도 방대해지고 있다. 한편, 리뷰는 고객의 잠재된 니즈를 담고 있다는 점에서 기업의 마켓 센싱 측면에서도 중요한 자원이다. 기업은 리뷰로부터 제품 개선 방향에 대한 아이디어를 얻고(Cha et al.

참고문헌 (39)

Blei, D. M., A. Y. Ng and M. I. Jordan, "Latent Dirichlet Allocation." Journal of Machine Learning Research, Vol.3, Jan(2003), 993-1022.
Blei, D. M., "Probabilistic Topic Models" Communications of the ACM, Vol.55, No.4 (2012), 77-84.

상세보기
Bojanowski, P., E. Grave, A. Joulin and T. Mikolov, "Enriching Word Vectors with Subword Information." Transactions of the Association for Computational Linguistics, Vol. 5, No.10(2017), 135-146.

상세보기
Chae, S. H., J. I. Lim and J. Y. Kang, "A Comparative Analysis of Social Commerce and Open Market Using User Reviews in Korean Mobile Commerce." Journal of Intelligence and Information Systems, Vol.21, No.4(2015), 53-77.

원문보기 상세보기
Cover, T. M. and P. Hart, "Nearest Neighbor Pattern Classification." IEEE Transactions On Information Theory, Vol.13, No.1(1967), 21-27.

상세보기
Dai, X., I. Spasic and F. Andres, "A Framework for Rating Online Reviews: Topic Modelling, Text Classification and Sentiment Analysis." ACMSE 2017 The Annual ACM Southeast Conference Featuring Multidisciplinary and Interdisciplinary Computing, At Kennesaw State University, Georgia, 2017.
Dong, R., M. Schaal, M. P. O'Mahony and B. Smyth "Topic Extraction from Online Reviews for Classification and Recommendation." Proceeding of the Twenty-Third International Joint Conference on Artificial Intelligence, (2013), 1310-1316.
Dudani, S. A., "The Distance-Weighted k-Nearest-Neighbor Rule." IEEE Transactions on Systems, Man, and Cybernetics, Vol.SMC-6, No.4(1976), 325-327.

상세보기
Fix, E. and J. L. Hodges, "Nonparametric Discrimination: Consistency Properties." Report for the USAF School of Aviation Medicine, Randolph Field Report Number 4, Texas, 1951.
Griffiths, T. L. and M. Steyvers, "Finding Scientific Topics." Proceedings of the National Academy of Sciences, (2004), 5228-5235.
Jang, K. R., K. W. Lee and S. H. Myaeng, "Extracting Implicit Customer Viewpoints from Product Review Text." Journal of KISS : Software and Applications, Vol.41, No.5 (2014), 376-386.
Jin, J., P. Ji and R. Gu, "Identifying Comparative Customer Requirements from Product Online Reviews for Competitor Analysis." Engineering Applications of Artificial Intelligence, Vol.49, No.3(2016), 61-73.

상세보기
Jo, H. S. and S. G. Lee, "Korean Word Embedding Using FastText." Journal of Korea Information Science Society, Vol.2017, No.12(2017), 705-707.
Keller, J. M., M. R. Gray and J. A. Givens, "A Fuzzy k-Nearest Neighbor Algorithm." IEEE Transactions On systems, Man, and Cybernetics, Vol.SMC-15, No.4(1985), 580-585.

상세보기
Kim, H. W., H. C. Chan and S. Gupta, "Social Media for Business and Society," Asia Pacific Journal of Information Systems, Vol.25, No.2(2015), 211-233.

원문보기 상세보기
Kim, M. J., E. J. Song and Y. H. Kim, "A Design of Satisfaction Analysis System for Content Using Opinion Mining of Online Review Data." Journal of Internet Computing and Services, Vol.17, No.3(2016), 107-113.

원문보기 상세보기
Kim, S. W. and N. G. Kim, "A Study on the Effect of Using Sentiment Lexicon in Opinion Classification." Journal of Intelligence and Information Systems, Vol.20, No.1(2014), 133-148.

원문보기 상세보기
Kwon, J. Y. and M. Y. Lee, "A Study on the Determining Factors of Online Review Helpfulness." Journal of Korea Intelligent information Systems Society, Vol.2012, No.12 (2012), 205-211.
Lee, H. A., W. C. Lee and K. J. Lee, "Antomatic Product Feature Extraction for Efficient Analysis of Product Reviews Using Term Statistics." The KIPS Transactions : Part B, Vol.16, No.6(2009), 497-502.
Lee, J. E., H. K. Seo, and K. Y. Han, "Refined IPC Classification System Based on KNN Using Patent Search Results." Journal of KIISE Academic Publications, Vol.38, No.2A (2011), 256-259.
Lee, M., and H. J. Lee, "Increasing Accuracy of Classifying Useful Reviews by Removing Neutral Terms." Journal of Intelligence and Information Systems, Vol.22, No.3(2016), 129-142.

원문보기 상세보기
Lee, S. H., J. Cui and J. W. Kim. "Sentiment Analysis on Movie Review through Building Modified Sentiment Dictionary by Movie Genre." Journal of Intelligence and Information Systems, Vol.22, No.2(2016), 97-113.

원문보기 상세보기
Lim, B. H. and K. H. Um, "A Study of the Comparison of Product Quality Competitiveness of Consumer Electronics among Major Countries." Korean Corporation Management Review, Vol.43, No.3(2012), 131-151.
Ma, B., D. Zhang, Z.Yan and T. Kim, "An LDA and Synonym Lexicon based Approach to Product Feature Extraction from Online Consumer Product Reviews." Journal of Electronic Commerce Research, Vol.14, No.4 (2013), 304.
Mikolov, T., E. Grave, P. Bojanowski and C. Puhrsch, "Advances in Pre-Training Distributed Word Representations." arXiv preprint arXiv: 1712.09405 (2017).
Mikolov, T., I. Sutskever, K. Chen, G. S. Corrado and J. Dean, "Distributed Representations of Words and Phrases and their Compositionality." arXiv preprint arXiv:1310.4546 (2013).
Mikolov, T., K. Chen, G. Corrado and J. Dean, "Efficient Estimation of Word Representations in Vector Space." arXiv preprint arXiv:1301.3781, (2013).
Patrick, E. A. and F. P. Fischer III, "A Generalized k-Nearest Neighbor Rule." Information and Control, Vol.16, No.2(1970), 128-152.

상세보기
Rasyidi, M. A., J. M. Kim and K. R. Ryu, "Short-term Prediction of Vehicle Speed on Main City Roads Using the K-Nearest Neighbor Algorithm." Journal of Intelligence and Information Systems, Vol.20, No.1(2014), 121-131.

원문보기 상세보기
Santosh, D. T., B. V. Vardhan and D. Ramesh, "Extracting Product Features from Reviews Using Feature Ontology Tree Applied on LDA Topic Clusters." 2016 IEEE 6th International Conference on Advanced Computing, IEEE, Bhimavaram, 2016.
Sim, J.S. and H. J. Kim, "A Searching Method for Legal Case Using LDA Topic Modeling" Journal of the Institute of Electronics and Information Engineers, Vol.54, No.9(2017), 67-75.
Son, S. B. and J. H. Chun, "Product Feature Extraction and Rating Distribution Using User Reviews." The Journal of Society for e-Business Studies, Vol.22, No.1(2017), 65-87.

원문보기 상세보기
Song, J. S. and S. W. Lee, " Automatic Construction of Positive/Negative Feature-Predicate Dictionary for Polarity Classification of Product Reviews." Journal of KIISE: Software and Applications, Vol.38, No.3 (2011), 157-168.
Steyvers, M. and T. L. Griffiths, "Probabilistic Topic Models." Handbook of Latent Semantic Analysis, Vol.427, No.7(2007), 424-440.
Wang, W., Y. Feng and W. Dai, "Topic Analysis of Online Reviews for Two Competitive Products Using Latent Dirichlet Allocation." Electronic Commerce Research and Applications, Vol.29, No.13(2018), 142-156.

상세보기
Xu, K., S. S. Liao, J. Li and Y. Song, "Mining Comparative Opinions from Customer Reviews for Competitive Intelligence." Decision Support Systems, Vol.50, No.4(2011), 743-754.

상세보기
Xu, X., X. Wang, Y. Li and M. Haghighi, "Business Intelligence in Online Customer Textual Reviews: Understanding Consumer Perceptions and Influential Factors." International Journal of Information Management, Vol.37, No.6(2017), 673-683.

상세보기
Yagci, I. A. and S. Das, "Measuring Design-Level Information Quality in Online Reviews." Electronic Commerce Research and Applications, Vol.30, No.10(2018), 102-110.

상세보기
You, E. S., G. H. Choi and S. H. Kim "Study on Extraction of Keywords Using TF-IDF and Text Structure of Novels." Journal of the Korea Society of Computer and Information, Vol.20, No.2(2015), 121-129.

원문보기 상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증