[논문]텍스트 마이닝 기반의 온라인 상품 리뷰 추출을 통한 목적별 맞춤화 정보 도출 방법론 연구

김주영; 김동수

doi:10.7838/jsebs.2016.21.2.151

텍스트 마이닝 기반의 온라인 상품 리뷰 추출을 통한 목적별 맞춤화 정보 도출 방법론 연구
A Study on the Method for Extracting the Purpose-Specific Customized Information from Online Product Reviews based on Text Mining 원문보기

한국전자거래학회지 = The Journal of Society for e-Business Studies, v.21 no.2, 2016년, pp.151 - 161

김주영 (Dept. of Industrial and Information Systems Engineering, Soongsil University) , 김동수 (Dept. of Industrial and Information Systems Engineering, Soongsil University)

초록
AI-Helper

개방, 공유, 참여를 특징으로 하는 웹 2.0 시대로 들어서면서 인터넷 사용자들의 데이터 생산 및 공유가 쉬워졌다. 이에 따른 데이터의 기하급수적인 증가와 함께 디지털 정보의 대부분인 비정형적 데이터(Unstructured Data)의 양도 증가하고 있다. 인터넷에서 정해진 형식 없이 자연어 형태로 만들어진 비정형 데이터 중, 특정 상품들에 대해 개인이 평가한 리뷰들은 해당 기업이나 해당 상품에 관심이 있는 잠재적 고객에게 필요한 데이터이다. 많은 양의 리뷰 데이터에서 상품에 대한 유용한 정보를 얻기 위해서는 데이터 수집, 저장, 전처리, 분석, 및 결론 도출의 과정이 필요하다. 따라서 본 연구는 R을 이용한 텍스트 마이닝(Text Mining) 기법을 사용하여 텍스트 형식의 비정형 데이터에서 자연어 처리 기술 및 문서 처리 기술을 적용하여 정형화된 데이터 값을 도출하는 방법에 대해 소개한다. 또한, 도출된 정형화된 리뷰 정보를 데이터 마이닝 기법에 적용하여 목적에 맞게 맞춤화된 리뷰 정보를 도출시키는 방안을 제시하고자 한다.

Abstract ▼ AI-Helper

In the era of the Web 2.0, characterized by the openness, sharing and participation, it is easy for internet users to produce and share the data. The amount of the unstructured data which occupies most of the digital world's data has increased exponentially. One of the kinds of the unstructured data called personal online product reviews is necessary for both the company that produces those products and the potential customers who are interested in those products. In order to extract useful information from lots of scattered review data, the process of collecting data, storing, preprocessing, analyzing, and drawing a conclusion is needed. Therefore we introduce the text-mining methodology for applying the natural language process technology to the text format data like product review in order to carry out extracting structured data by using R programming. Also, we introduce the data-mining to derive the purpose-specific customized information from the structured review information drawn by the text-mining.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서 본 연구는 R 프로그램을 바탕으로 한 텍스트 마이닝을 이용하여 비정형적인 상품 리뷰 데이터를 자연어 처리 기술 및 문서 처리 기술을 적용하여 이를 정형화된 데이터로 정제하는 방법에 대해 설명한다. 그 후, 텍스트 마이닝을 통해 추출한 데이터로 이루어진 리뷰 데이터셋(Review Dataset)의 속성값(Attribute)들과 속성 값을 구성하는 요소(Element)들에 데이터 마이닝을 이용하여 목적에 맞춤화된 리뷰 정보를 도출시키는 방안에 대해 소개하고자 한다.
해당 연구에서는 비정형적인 리뷰 데이터를 유용한 정보로 가공하는 방안을 제시하는 것에 초점을 두고 연구하였다. 따라서 본 연구는 R 프로그램을 바탕으로 한 텍스트 마이닝을 이용하여 비정형적인 상품 리뷰 데이터를 자연어 처리 기술 및 문서 처리 기술을 적용하여 이를 정형화된 데이터로 정제하는 방법에 대해 설명한다. 그 후, 텍스트 마이닝을 통해 추출한 데이터로 이루어진 리뷰 데이터셋(Review Dataset)의 속성값(Attribute)들과 속성 값을 구성하는 요소(Element)들에 데이터 마이닝을 이용하여 목적에 맞춤화된 리뷰 정보를 도출시키는 방안에 대해 소개하고자 한다.
또한, 전체 데이터를 통한 일반적인 정보 외에도 기업이나 소비자가 목적에 해당하는 맞춤화된 정보만 볼 수 있게끔 데이터의 분류 및 군집화가 필요하다[18]. 따라서 본 연구는 목적에 맞춤화된 유용한 리뷰 정보를 도출하는 방안 및 특정 제약조건과 연관된 리뷰 정보를 제공하는 방안에 대해 제시하였다. 기업은 정제한 리뷰 정보를 통해 상품의 특성별 고객의 기호도를 파악할 수 있고, 고객의 경우, 자신의 정보와 비슷한 고객들이 남긴 리뷰를 정리하여 보여줌으로써 추천 리뷰 서비스로 확장이 가능할 것이다.
본 연구에서는 온라인 쇼핑몰에서 판매되는 특정 상품에 대한 리뷰를 추출하고 정리하여 정형 데이터로 만드는 것을 목표로 한다. 연구의 흐름은 리뷰 데이터 수집 및 저장, 자연어 처리, 키워드 추출, 그리고 자료 분류 및 요약 순으로 진행된다.
많은 양의 정형화된 데이터에서 정보를 추출하여 가공하는 데이터 마이닝은 이미 많은 분야에서 사용되고 있다[19]. 해당 연구에서는 비정형적인 리뷰 데이터를 유용한 정보로 가공하는 방안을 제시하는 것에 초점을 두고 연구하였다. 따라서 본 연구는 R 프로그램을 바탕으로 한 텍스트 마이닝을 이용하여 비정형적인 상품 리뷰 데이터를 자연어 처리 기술 및 문서 처리 기술을 적용하여 이를 정형화된 데이터로 정제하는 방법에 대해 설명한다.

제안 방법

[Figure 3]은 리뷰 데이터 마이닝 방법론에 대한 아키텍처이다. 먼저 데이터 추출 및 정제 단계에서 상품 평가 리뷰를 추출하고 자연어 처리를 진행한다. 웹 크롤링(Web Crawling)을 이용하여 상품에 대한 온라인 리뷰와 공개된 고객의 정보를 수집(Data Aggregation)한다.
군집화로 묶여진 단어 묶음을 대표할 수 있는 용어를 정형화된 리뷰 데이터 테이블의 속성 값에 입력을 하고 각각의 단어들은 해당 속성 값의 요소 칸에 값을 넣는다. 비정형적 형태로 이루어진 리뷰를 데이터 가공과 분석을 통해 정형화된 테이블 값에 넣은 후, 목적에 맞게 필터링하여 리뷰 정보를 도출한다.
[Figure 1]은 텍스트 마이닝을 통해 텍스트로부터 의미 있는 패턴을 도출시키는 과정을 보여준다. 사용자는 텍스트 마이닝 기술을 통해 방대한 양의 데이터에서 의미 있는 정보를 추출해 내고, 다른 정보와의 연계성을 파악한다. 텍스트 마이닝을 통해 컴퓨터가 자연어처리를 하기 위해서는 대용량 언어 자원과 복잡한 통계적, 규칙적 알고리즘이 적용되어야만 한다.
본 연구에서는 온라인 쇼핑몰에서 판매되는 특정 상품에 대한 리뷰를 추출하고 정리하여 정형 데이터로 만드는 것을 목표로 한다. 연구의 흐름은 리뷰 데이터 수집 및 저장, 자연어 처리, 키워드 추출, 그리고 자료 분류 및 요약 순으로 진행된다.
먼저 데이터 추출 및 정제 단계에서 상품 평가 리뷰를 추출하고 자연어 처리를 진행한다. 웹 크롤링(Web Crawling)을 이용하여 상품에 대한 온라인 리뷰와 공개된 고객의 정보를 수집(Data Aggregation)한다. 단, 파일의 단위는 하나의 제품에 있는 모든 리뷰로 설정한다.
또한, 가격을 나타내는 서술어도 정해져 있기 때문에 데이터 사전에 미리 값을 입력한다. 위의 두 데이터 사전과 관련한 단어를 제한 키워드에서 연관 규칙 학습을 통해 단어 간 연결 관계를 파악한다. 그 후, 다시 데이터 사전을 정의하고 연관 규칙 학습을 반복한다.

데이터처리

각 단어의 연관 관계를 분석하기 위한 데이터 파일과 데이터베이스에 저장하기 위한 테이블 형태의 데이터 파일을 구분 지어 리뷰 텍스트를 저장한다. 저장한 텍스트를 통계분석용 소프트웨어인 R 프로그램을 이용하여 비정형적인 리뷰 데이터를 단어 단위로 추출하고 불용어(Stopword)나 의미가 없는 문자 및 기호를 제거하는 전처리(Preprocessing)를 수행한다.

성능/효과

이를 통해 상품의 전체적인 리뷰를 읽지 않아도 타인이 평가한 대체적인 의견을 쉽게 알수 있다는 장점이 있다. 또한, 각 단어 간의 선․후행 연결 관계를 파악할 수 있어 분석된 결과를 통해 단어의 재조합을 통해 전반적으로 평가된 키워드로 평가를 정리할 수 있다는 장점이 있다.

후속연구

추후 연구에서는 방법론에 제시된 형태로 알고리즘을 구현하고 특정 산업의 리뷰 데이터를 추출하여 방법론에 대한 검증을 수행할 예정이다. 또한, 기존 데이터를 이용하여 파악한 키워드의 연관 관계 및 고객 데이터 속성을 이용하여 고객의 평가를 예측할 수 있는 모델링(Predictive Modeling)도 설립할 것이다.
추후 연구에서는 방법론에 제시된 형태로 알고리즘을 구현하고 특정 산업의 리뷰 데이터를 추출하여 방법론에 대한 검증을 수행할 예정이다. 또한, 기존 데이터를 이용하여 파악한 키워드의 연관 관계 및 고객 데이터 속성을 이용하여 고객의 평가를 예측할 수 있는 모델링(Predictive Modeling)도 설립할 것이다.
하지만 본 연구에서는 비정형화된 데이터를 정형화된 데이터로 변환할 때의 성능 문제와 각각의 고객 리뷰의 진실성 검증이 어려운 한계점이 있다. 한글 단어의 특징 때문에 R 프로그래밍의 텍스트 마이닝 패키지(tm Package)를 그대로 사용할 수 없다는 점과 기존의 단어추출 패키지의 정확도가 부족하기 때문이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	기업이나 불특정 개인이 필요로 하는 정보를 찾기 위해 온라인 상품 리뷰을 취합하고 가공하는 분석 기술을 요하는 이유는 무엇인가?	이는 텍스트 마이닝(Text Mining) 기법 사용 없이는 정해진 스키마가 없는 비정형 데이터에서 의미 있는 정보를 추출하기 어려움을 의미 한다. 또한, 사용자들의 수동적, 능동적인 참여에 따라 방대한 양의 리뷰들이 존재하기 때문에 기업이나 불특정 개인이 필요로 하는 가치 있는 정보를 찾기 위해서는 온라인 상품 리뷰들을 취합하고 가공하는 분석 기술을 요한다.
	집단 지성이란 무엇인가?	이로 인해 해당 내용에 관심이 있는 개인에게는 새로운 정보를 얻을 수 있는 기회를, 기업에게는 자사 상품들에 대한 고객 들의 견해와 관련된 텍스트 데이터를 데이터베이스에 구축할 수 있는 방법 중 하나인 집단지성(Collective Intelligence)이 탄생하게 되었다. 집단 지성이란 많은 사람들로부터 산출된 데이터를 협력 혹은 경쟁을 적용하여 나온 결과물을 의미한다[20]. 이는 전문가 개인이 제공 하는 정보보다 다수의 데이터로 산출된 정보가 올바른 결론에 가깝다고 할 수 있다.
	리뷰 데이터를 가치가 있는 정보로 가공하여 의미와 규칙 정보를 발견하는 것이 필요한 이유는 무엇인가?	하지만 많은 곳에 산재해 있는 온라인 리뷰 데이터는 그 자체만으로는 의미 있는 정보를 얻기 힘들다. 이로 인해 잠재적 고객은 단순히 가장 인기 있는 리뷰나 최근의 리뷰를 읽고 구매 여부를 결정한다[10]. 따라서 단순한 집단 지성으로 산출된 데이터의 나열이 아닌 리뷰 데이터를 가치가 있는 정보로 가공하여 의미와 규칙 정보를 발견하는 것이 필요하다[6].

참고문헌 (20)

Archak, N., Ghose, A., and Ipeirotis, P. G., "Deriving the pricing power of product features by mining consumer reviews," Management Science, Vol. 57, No. 8, pp. 1485-1509, 2011.

상세보기
Baars, H. and Kemper, H.-G., "Management support with structured and unstructured data-an integrated business intelligence framework," Information Systems Management, Vol. 25, No. 2, pp. 132-148, 2008.

상세보기
Blumberg, R. and Atre, S., "The problem with unstructured data," DM Review Magazine, 2003.
Buneman, P., "Semistructured data," Proceedings of the sixteenth ACM SIGACTSIGMOD-SIGART symposium on Principles of database systems, ACM, 1997.
Chevalier, J. A. and Mayzlin, D., "The effect of word of mouth on sales: Online book reviews," Journal of marketing research, Vol. 43, No. 3, pp. 345-354, 2006.

상세보기
Collins, M., Head-driven statistical models for natural language parsing, Computational linguistics, Vol. 29, No. 4, pp. 589-637, 2003.

상세보기
Decker, R. and Trusov, M., "Estimating aggregate consumer preferences from online product reviews," International Journal of Research in Marketing, Vol. 27, No. 4, pp. 293-307, 2010.

상세보기
Fayyad, U., Piatetsky-Shapiro, G., and Smyth, P., "From data mining to knowledge discovery in databases," AI magazine, Vol. 17, No. 3, pp. 37-54, 1996.

상세보기
Holton, C., "Identifying disgruntled employee systems fraud risk through text mining: A simple solution for a multi-billion dollar problem," Decision Support Systems, Vol. 46, No. 4, pp. 853-864, 2009.

상세보기
Kangale, A., Kumara, S. K., Naeema, M. A., Williamsb, M., and Tiwaria, M. K., "Mining consumer reviews to generate ratings of different product attributes while producing feature-based review-summary," International Journal of Systems Science, Vol. 47, No. 13, pp. 1-15, 2016.
Kozinets, R. V., de Valck, K., Wojnicki, A. C., and Wilner, S. J. S., "Networked narratives: Understanding word-of-mouth marketing in online communities," Journal of marketing, Vol. 74, No. 2, pp. 71-89, 2010.

상세보기
Lee, J., "How eWOM Reduces Uncertainties in Decision-making Process: Using the Concept of Entropy in Information Theory," The Journal of Society for e-Business, Vol. 16, No. 4, pp. 241-256, 2011.

원문보기 상세보기
Mangold, C., "A survey and classification of semantic search approaches," International Journal of Metadata, Semantics and Ontologies, Vol. 2, No. 1, pp. 23-34, 2007.
Mayer-Schonberger, V. and Cukier, K., Big data: A revolution that will transform how we live, work, and think., Houghton Mifflin Harcourt, 2013.
McAfee, A. and Brynjolfsson, E., "Big data," The management revolution, Harvard Bus Rev, Vol. 90, No. 10, pp. 61-67, 2012.
Mei, Q. and Zhai, C. X., "Discovering evolutionary theme patterns from text: an exploration of temporal text mining," Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining, ACM, 2005.
O'reilly, T., "What is Web 2.0: Design patterns and business models for the next generation of software," Communications and strategies, No. 1, p. 17, 2007.
Tan, A.-H., "Text mining: The state of the art and the challenges," Proceedings of the PAKDD 1999 Workshop on Knowledge Discovery from Advanced Databases, pp. 65-70, 1999.
Washio, T. and H. Motoda., "State of the art of graph-based data mining," Acm Sigkdd Explorations Newsletter, Vol. 5, No. 1, pp. 59-68, 2003.

상세보기
Woolley, A. W., Chabris, C. F., Pentland, A., Hashmi, N., and Malone, T. W., "Evidence for a collective intelligence factor in the performance of human groups," science, Vol. 330, No. 6004, pp. 686-688, 2010.

상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증