[논문]편향된 의견 문서 검출을 위한 이상치 탐지 기법

연종흠; 심준호; 이상구

doi:10.7838/jsebs.2013.18.4.315

편향된 의견 문서 검출을 위한 이상치 탐지 기법
Outlier Detection Techniques for Biased Opinion Discovery 원문보기

한국전자거래학회지 = The Journal of Society for e-Business Studies, v.18 no.4, 2013년, pp.315 - 326

연종흠 (School of Computer Science and Engineering, Seoul National University) , 심준호 (Department of Computer Science, Sookmyung Women's University) , 이상구 (School of Computer Science and Engineering, Seoul National University)

초록
AI-Helper

소셜 미디어에서는 상품평, 영화평 등의 다양한 종류의 의견이 표현되고 있으며, 사용자들이 물품 구매 등에 있어 이러한 의견을 참고로 하여 결정을 내리는 것은 일반적이 되었다. 하지만 의견 정보의 활용도가 높아질수록 이를 부적절하게 왜곡하는 사례 또한 증가하고 있다. 예를 들어, 홍보를 목적으로 과도하게 긍정적인 의견이 포함된 리뷰를 작성하거나, 반대로 일반적인 평가에서 벗어나 과도하게 부정적인 의견을 게시하는 경우 등이다. 편향된 의견은 소셜 미디어의 신뢰성과 연결 되기 때문에 이를 검출하는 것은 점차 중요한 문제로 대두되고 있다. 기존의 오피니언 마이닝 혹은 감성 분석은 문서를 분석하여 그 문서가 가지고 있는 의견의 성향을 판단하는 기법이다. 하지만 기존의 연구는 의견을 단순히 긍정/부정으로만 분류하는 방향으로 연구가 이루어져 왔으며, 특히 사전에 의견 성향에 따라 분류된 충분한 양의 학습 데이터가 필요하다는 단점이 있다. 본 논문에서는 학습데이터가 없는 경우에, 전체 문서의 의견 성향 분포에서 벗어난 의견 문서를 검출하는 기법을 제안한다. 여기에는 각도기반 이상치 탐지와, 개인화된 페이지랭크 방법을 활용한다. 또한 영화 리뷰 문서를 대상으로 실험을 수행하여 제안한 방법들의 성능을 분석하였다.

Abstract ▼ AI-Helper

Users in social media post various types of opinions such as product reviews and movie reviews. It is a common trend that customers get assistance from the opinions in making their decisions. However, as opinion usage grows, distorted feedbacks also have increased. For example, exaggerated positive opinions are posted for promoting target products. So are negative opinions which are far from common evaluations. Finding these biased opinions becomes important to keep social media reliable. Techniques of opinion mining (or sentiment analysis) have been developed to determine sentiment polarity of opinionated documents. These techniques can be utilized for finding the biased opinions. However, the previous techniques have some drawback. They categorize the text into only positive and negative, and they also need a large amount of training data to build the classifier. In this paper, we propose methods for discovering the biased opinions which are skewed from the overall common opinions. The methods are based on angle based outlier detection and personalized PageRank, which can be applied without training data. We analyze the performance of the proposed techniques by presenting experimental results on a movie review dataset.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서 본 논문에서는 학습 데이터가 없는 경우에, 전체 문서의 의견 성향 분포에서 벗 어난 의견 문서를 검출하는 기법을 제안하고자 한다. 여기에는 각도 기반 이상치 탐지 (Angle-Based Outlier Detection)와, 개인화된 페이지랭크(Personalized PageRank) 방법을 활용한다.
본 논문은 문서 집합의 의견 성향 분포를 고려하여 편향된 소수의 의견 문서를 검출하 는 기법을 제안한다. 편향된 의견 문서는 대다수의 일반적인 의견의 문서에 비해 적은 숫자를 이루고 있다.

제안 방법

각도기반 이상치 탐지 기법을 적용한 실험 (이하 ABOD)과 개인화된 페이지랭크 방법을 적용한 실험(이하 PPR)은 모두 품사 태깅(POS tagging) 후 형용사와 동사만을 추출한 후, 이들에 대한 빈도수로 생성한 문서 벡터를 사용하였다. 다른 품사 조합이나, SentiWordNet 등을 사용하였으나, 형용사와 동사만을 사용한 경우가 가장 좋은 성능을 보였다.
1) 이상치 탐지 기법 중 하나인 각도 기반 이상치 탐지(Angle Based Outlier Detection) 기법과 2) 문서 키워드 그래프를 활용한 개인화된 페이지 랭크(Personalized Page Rank) 기법을 활용한다. 또한 영화 리뷰 문서를 대상으로 실험을 수행하여 제안 방법을 검증한다.
하지만 이러한 연구는 문서의 긍정, 부정을 판별하는 기법들에 집중하였으며, 연구 스팸 의견이나 편향된 의견을 탐지하는 것은 그 중요성에 비해 상대적으로 적은 관심을 받아왔다. 본 논문에서는 전체 의견 문서에서 편향된 문서를 찾아내는 방법으로, 각도 기반의 이상치 탐지와 개인화된 페이지랭크 기법을 적용하는 방법을 제안하였다. 이렇게 찾아 진 의견 문서는 향후 소셜 미디어 분석을 더욱 정교하게 하는데 활용될 수 있다.
이 문서 집합은 사전에 나누어진 긍정 문서 1000개와 부정 문서 1000개로 나누어져 있다. 실험은 크게 2가지로, 다수의 긍정적인 문서에서 소수의 부정적인 문서를 검출하는 것과 다수의 부정적인 문서에서 소수의 긍정적인 문서를 찾는다
ABOD와 PPR는 대상들간의 순서를 매기는 것이기 때문에 분류기인 SA와 동일한 평가방법을 적용할 수는 없다. 이상적인 랭킹은 이상치가 가장 높게 위치하는 것이기 때문에, 찾아야하는 이상 문서의 개수가 상위에 얼마나 있는지를 정확도로서 측정하였다. 예를 들어, 긍정문서 20개, 부정문서 4개의 문서들에서 부정문서를 찾아야 하는 경우, 1위부터 4위 안에 부정 문서가 몇 개나 있는지를 측정한다.
ABOD와 PPR는 대상들간의 순서를 매기는 것이기 때문에 분류기인 SA와 동일한 평가방법을 적용할 수는 없다. 이상적인 랭킹은 이상치가 가장 높게 위치하는 것이기 때문에, 찾아야하는 이상 문서의 개수가 상위에 얼마나 있는지를 정확도로서 측정하였다. 예를 들어, 긍정문서 20개, 부정문서 4개의 문서들에서 부정문서를 찾아야 하는 경우, 1위부터 4위 안에 부정 문서가 몇 개나 있는지를 측정한다.
이상치가 아닌 문서가 20개인 경우 10개의 실험 셋, 30개인 경우 6개, 50 개인 경우 4개, 100개인 경우 2개로 구성하였으며, 결과는 이들에 대한 평균 값이다. 이상치는 각각의 실험셋의 10%, 20%를 상정하고 그 숫자를 적용하였다.
최종적인 랭크는, 각각의 시작 노드에 대해서 모든 개인화된 페이지랭크를 구한 후 그 랭크 순서를 누적하는 방식으로 구한다. 다수의 문서들에서 페이지랭크가 낮게 나타나는 문서는, 그 문서들과 가장 동떨어져 있다고 볼 수 있다.

대상 데이터

인 경우는 긍정문서 20개와 부정문서 2개를 포함하는 문서셋에서 이상치를 부정문서로 보고 2개인 문서를 찾아내는 것에 대한 정확도를 측정하는 것이다. 실험셋은 나이브 베이즈 분류기에 사용된 학습 데이터를 제외한 나머지 400개의 문서로서 실험 대상을 구성하였다. 이상치가 아닌 문서가 20개인 경우 10개의 실험 셋, 30개인 경우 6개, 50 개인 경우 4개, 100개인 경우 2개로 구성하였으며, 결과는 이들에 대한 평균 값이다.
실험은 감성 분석 분야에서 많이 사용된 영 화리뷰 데이터로 수행하였다[5]. 이 문서 집합은 사전에 나누어진 긍정 문서 1000개와 부정 문서 1000개로 나누어져 있다.

데이터처리

평가는 SA의 경우 실험 대상에 대한 분류 정확도(precision)를 측정하였다. [Table 1]에서처럼 가장 높은 성능을 보이며, 긍정 문서에서 부정문서를 찾는 경우가 그 반대의 경우보다 높은 성능을 보였다.

이론/모형

본 논문에서 두 가지 랭킹 기법을 사용한다. 1) 이상치 탐지 기법 중 하나인 각도 기반 이상치 탐지(Angle Based Outlier Detection) 기법과 2) 문서 키워드 그래프를 활용한 개인화된 페이지 랭크(Personalized Page Rank) 기법을 활용한다. 또한 영화 리뷰 문서를 대상으로 실험을 수행하여 제안 방법을 검증한다.
특히, 일반적으로 대다수의 의견 문서들은 의견 성향에 따라 분류가 되어 있지 않기 때문에, 학습 데이터가 필요 없는 랭킹 기반의 비감독(Unsupervised) 이상치 탐지 기법을 적용하는 것이 필요하다. 본 논문에서 두 가지 랭킹 기법을 사용한다. 1) 이상치 탐지 기법 중 하나인 각도 기반 이상치 탐지(Angle Based Outlier Detection) 기법과 2) 문서 키워드 그래프를 활용한 개인화된 페이지 랭크(Personalized Page Rank) 기법을 활용한다.
따라서 본 논문에서는 학습 데이터가 없는 경우에, 전체 문서의 의견 성향 분포에서 벗 어난 의견 문서를 검출하는 기법을 제안하고자 한다. 여기에는 각도 기반 이상치 탐지 (Angle-Based Outlier Detection)와, 개인화된 페이지랭크(Personalized PageRank) 방법을 활용한다.
스팸 작성자들의 행동은 크게 두 가지 유형으로, 상품 점수에 영향을 주기 위해 일반적인 사용자들과는 다른 양상으로 상품 점수를 매기는 행위와, 리뷰 텍스트에 영향을 미치기 위해 여러 번 리뷰를 작성하는 행위로 나뉘어진다. 유사도에 기반한 점수화로 스팸 지수를 정의하였으며, 이를 머신 러닝 기법에 입력 특징으로 사용하였다.

후속연구

본 논문에서는 전체 의견 문서에서 편향된 문서를 찾아내는 방법으로, 각도 기반의 이상치 탐지와 개인화된 페이지랭크 기법을 적용하는 방법을 제안하였다. 이렇게 찾아 진 의견 문서는 향후 소셜 미디어 분석을 더욱 정교하게 하는데 활용될 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	의견 텍스트 추출에는 어떠한 방법들이 있습니까?	이렇게 추출된 의견은 요약이나 시각화 절차를 통해 사용자에게 전 달된다[15]. 의견 텍스트 추출에는 크게 문장 구조 정보를 활용하는 자연언어처리 기반의 방법[7, 8]들과 어휘 빈도수, TF IDF 등을 활용하는 통계적 기반 방법[9, 10]이 있다. 극 성 판단에는 사전에 정의된 사전을 활용하는 방법[7, 8]이나 기계학습에 기반한 분류기 (Classifer)[11]를 활용하는 방법이 이용되고 있다.
	사용자들이 물품 구매를 함에 있어 참고하는 의견의 부류는 무엇입니까?	사용자들이 물품 구매 등에 있어 이러한 의견을 참고로 하여 결정을 내리는 것은 일반적이 현상이 되었다. 이러한 의견은 크게 두 부류로, 긍정적인 의견과 부정적인 의견으로 나눌 수 있다. 긍정적인 의견의 경우 제품이나 서비스의 이익에 실제적으로 도움이 되지만, 반대로 부정적인 의견은 제품의 구매 동기를 낮추는 요인 중 하나로서 작용하는 것이 밝혀져 있다 [1]. 그렇기 때문에 기업들은 자사의 제품이나 기업 이미지에 대한 소셜 미디어 상의 평판을 관리하는데 많은 노력을 기울이고 있다.
	오피니언 마이닝 혹은 감성 분석은 무엇을 기본 프로세스로 합니까?	오피니언 마이닝 혹은 감성 분석은 문서 내 에서 나타나는 의견 텍스트를 추출하고, 텍스 트가 긍정인지 부정인지 판별하는 극성 판단을 기본 프로세스로 한다. 이렇게 추출된 의견은 요약이나 시각화 절차를 통해 사용자에게 전 달된다[15].

참고문헌 (15)

Scaffidi, C., Bierhoff, K., Chang, E., Felker, M., Ng, H. and Jin, C., "Red Opal : Product Feature Scoring from Reviews," In Proceedings of the 8th ACM conference on Electronic Commerce, 2007.
Jindal, N. and Liu, B., "Opinion Spam and Analysis," In Proceedings of the international conference on Web search and web data mining, 2008.
Castillo, C. and Davison, B. D., "Adversarial Web Search," Foundations and Trends in Information Retrieval, Vol. 4, No. 5, 2010.

상세보기
Liu, B., "Web Data Mining : Exploring Hyperlinks, Contents, and Usage Data," Springer, 2011.
Pang, B., Lee, L. and Vaithyanathan, S., "Thumbs up? Sentiment Classification using Machine Learning Techniques," In Proceedings of the ACL 02 conference on Empirical methods in natural language processing, Vol. 10, 2002.
Ding, X., Liu, B., and Yu, P. S., "A holistic lexicon based approach to opinion mining," In Proceedings of the international conference on Web search and web data mining, 2008.
Hu, M. and Liu, B., "Mining and summarizing customer reviews," In Proceedings of the 10th ACM SIGKDD international conference on Knowledge Discovery and Data mining, 2004.
Liu, B., Hu, M. and Cheng, J., "Opinion observer : analyzing and comparing opinions on the Web," In Proceedings of the 14th international on World Wide Web, 2005.
Scaffidi, C., Bierhoff, K., Chang, E., M. Felker, Ng, H. and Jin, C., "Red Opal : Product Feature Scoring from Reviews," In Proceedings of the 8th ACM conference on Electronic Commerce, 2007.
Jin, W., Ho, H. and Srihari, R., "Opinion- Miner : a novel machine learning system for web opinion mining and extraction," In Proceedings of the 15th ACM SIGKDD international conference on Knowledge Discovery and Data mining, 2009.
Esuli, A. and Sebastiani, F., "Determining Term Subjectivity and Term Orientation for Opinion Mining," In Proceedings of 11th conference of the European chapter of the Association for Computational Linguistics, 2006.
Denecke, K., "Using SentiWordNet for Multilingual Sentiment Analysis," In Proceedings of the International Conference on Data Engineering : ICDE, Workshop on Data Engineering for Blogs, Social Media, and Web 2.0, 2008.
Lim, E., Nguyen, V., Jindal, N., Liu, B., and Lauw, H., "Detecting product review spammers using rating behaviors," In Proceedings of the 19th ACM international conference on Information and knowledge management, 2010.
Mukherjee, A., Liu, B. and Glance, N., "Spotting fake reviewer groups in consumer reviews," In Proceedings of the 21st international conference on World Wide Web, 2012.
Yeom, J., Lee, D. Shim, J., Lee, S. g., "Product Review Data and Sentiment Analytical Processing Modeling," The Journal of Society for e-Business Studies, Vol. 16, No. 4, 2011.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

편향된 의견 문서 검출을 위한 이상치 탐지 기법
Outlier Detection Techniques for Biased Opinion Discovery 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

후속연구

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

편향된 의견 문서 검출을 위한 이상치 탐지 기법 Outlier Detection Techniques for Biased Opinion Discovery 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

후속연구

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

연종흠 (3) 심준호 (20) 이상구 (32)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

편향된 의견 문서 검출을 위한 이상치 탐지 기법
Outlier Detection Techniques for Biased Opinion Discovery 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper