e비즈니스가 활발히 이루어지면서 소비자들은 온라인 쇼핑몰올 통해 수많은 상품을 접할 수 있게 되었고, 상품구매 시 다른 사람들의 리뷰를 참고하게 되었다. 하지만, 리뷰의 수도 많아짐에 따라 소비자가 모든 리뷰들을 살펴보기가 힘들다는 문제점이 대두되었으며 이를 해결하기 위해서 리뷰의 상품에 대한 평가를 요약하고 성향을 파악하는 오피니언 마이닝 연구가 나타나게 되었다. 본 논문에서는 상품리뷰를 대상으로 오피니언 마이닝을 수행하는 경우 어휘의 의견 성향을 파악할 때, 문맥정보를 활용하여 기존의 의견분류방법 보다 좀 더 정확한 의견 판단이 가능한 방법에 대해 다루고 있다. 이를 위해, 어휘가 사용될 때의 문맥정보를 정의하고 이를 의견분류에 적용하는 방법을 제안하였으며, 실험을 통하여 기존 연구 보다 상황별 알맞은 의견분류가 가능함을 보였다. 또한 수작업으로 말뭉치의 핵심 어휘들을 정의했던 기존 연구들에서의 방식에서 벗어나, 리뷰본문과 리뷰점수를 활용하여 자동으로 상황에 맞는 말뭉치를 구축하는 방법도 제안하였다. 이를 통해 상품리뷰에 나타난 어휘들의 문맥에 맞는 의미 성향을 정확하고 쉽게 판별해 낼 수 있게 되었다.
e비즈니스가 활발히 이루어지면서 소비자들은 온라인 쇼핑몰올 통해 수많은 상품을 접할 수 있게 되었고, 상품구매 시 다른 사람들의 리뷰를 참고하게 되었다. 하지만, 리뷰의 수도 많아짐에 따라 소비자가 모든 리뷰들을 살펴보기가 힘들다는 문제점이 대두되었으며 이를 해결하기 위해서 리뷰의 상품에 대한 평가를 요약하고 성향을 파악하는 오피니언 마이닝 연구가 나타나게 되었다. 본 논문에서는 상품리뷰를 대상으로 오피니언 마이닝을 수행하는 경우 어휘의 의견 성향을 파악할 때, 문맥정보를 활용하여 기존의 의견분류방법 보다 좀 더 정확한 의견 판단이 가능한 방법에 대해 다루고 있다. 이를 위해, 어휘가 사용될 때의 문맥정보를 정의하고 이를 의견분류에 적용하는 방법을 제안하였으며, 실험을 통하여 기존 연구 보다 상황별 알맞은 의견분류가 가능함을 보였다. 또한 수작업으로 말뭉치의 핵심 어휘들을 정의했던 기존 연구들에서의 방식에서 벗어나, 리뷰본문과 리뷰점수를 활용하여 자동으로 상황에 맞는 말뭉치를 구축하는 방법도 제안하였다. 이를 통해 상품리뷰에 나타난 어휘들의 문맥에 맞는 의미 성향을 정확하고 쉽게 판별해 낼 수 있게 되었다.
As the trend of e-business activities develop, customers come into contact with products through on-line shopping sites and lots of customers refer product reviews before the purchasing on-line. However, as the volume of product reviews grow, it takes a great deal of time and effort for customers to...
As the trend of e-business activities develop, customers come into contact with products through on-line shopping sites and lots of customers refer product reviews before the purchasing on-line. However, as the volume of product reviews grow, it takes a great deal of time and effort for customers to read and evaluate voluminous product reviews. Lately, attention is being paid to Opinion Mining(OM) as one of the effective solutions to this problem. In this paper, we propose an efficient method for opinion sentiment classification of product reviews using product specific context information of words occurred in the reviews. We define the context information of words and propose the application of context for sentiment classification and we show the performance of our method through the experiments. Additionally, in case of word corpus construction, we propose the method to construct word corpus automatically using the review texts and review scores in order to prevent traditional manual process. In consequence, we can easily get exact sentiment polarities of opinion words in product reviews.
As the trend of e-business activities develop, customers come into contact with products through on-line shopping sites and lots of customers refer product reviews before the purchasing on-line. However, as the volume of product reviews grow, it takes a great deal of time and effort for customers to read and evaluate voluminous product reviews. Lately, attention is being paid to Opinion Mining(OM) as one of the effective solutions to this problem. In this paper, we propose an efficient method for opinion sentiment classification of product reviews using product specific context information of words occurred in the reviews. We define the context information of words and propose the application of context for sentiment classification and we show the performance of our method through the experiments. Additionally, in case of word corpus construction, we propose the method to construct word corpus automatically using the review texts and review scores in order to prevent traditional manual process. In consequence, we can easily get exact sentiment polarities of opinion words in product reviews.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
하지만, 이러한 경우 너무 일반적인 성향의 어휘의미를 따르고, 수작업에 대한 부하가 생긴다는 점에서 문제가 발생한다. 따라서 본 연구에서는 어휘가 사용된 상황적 문맥 정보를 반영하기 위한 말뭉치사전 구축 전략 및 자동 구축을 통한 전문가 수작업 업무 제거에 대하여 다루었다’ 이와 관련하여 자동 구축에 대한 타당성을 실험을 통해 밝히고, 어휘의 상황적 문맥정보를 반영한 말뭉치 사전구축을 위해 상품리뷰를 사용하는 것에 대한 타당성을 고찰하였다.
본 논문에서는 어휘의 의견분류를 수행할 때, 기존방식들이 어휘의 일반적 의미를 활용하고, 많은 수작업이 요구된다는 단점을 보완하는 의견분류에 대한 방법을 제시하였다. 이를 위하여 상품리뷰 요약에서의 의견표현어휘가 갖는 문맥정보를 정의하고, 각 문맥정보를 어떻게 획득하여 적용시키는가에 대한 방법을 논하였다.
본 논문에서는 위와 같은 오피니언 마이닝의 단계 중에서 의견분류에 관한 효율적인 방법에 대하여 논하고 있다. 단순한 정보의 요약이 아닌 의미를 파악한다는 것이 오피니언 마이닝의 특징임을 감안했을 때, 의견정보의 올바른 의견분류는 반드시 필요한 과정이다.
본 실험의 주요목적은 의견표현 어휘의 성향을 판단할 때 어휘의 문맥정보를 고려함으로써 얻을 수 있는 장점을 밝히는 것이다. 즉, 특정 어휘가 사용된 상황에 따라서 긍정적 또는 부정적 의미를 가질 수 있으므로상황적 의미에 가장 알맞게 어휘의 의미적 성격을 판별하는 것을 목적으로 한다.
본 연구에서는 온라인 쇼핑몰에서 제공하는 상품리뷰를 요약할 때, 전문가의 수작업에 의존하며, 광범위하고 고정적인 의미적 극성을 가진 어휘의 활용에 기반하고 있는 기존방법의 문제점을 해결하고, 도메인별로 정확한 어휘의 의견분류를 수행하기 위한 방법에 대하여 다루고 있다. 특정 도메인 및 상황에 맞는 어휘의 의미를 파악하기 위하여 어휘가 사용된 문맥정보를 고려하였으며, 의견 성향 판별을 위해 사용되는 긍정적, 부정적 말뭉치의 구축을 자동으로 수행하여 분류작업의 유연성을 높였다.
본 연구에서는 위와 같은 연구방식의 문제점이 존재함을 ePinions.com의 실제 상품리뷰데이터를 분석함으로써 밝힐 수 있었다. 휴대전화 상품분류와 디지털카메라 상품분류를 대상으로 분석해본 결과<상품특징, 표현어휘>로 이루어진 의견정보 중에서 약 14~17%의 의견정보가 표현어휘 만의 의미로는 정확한 의미 판단이 되지 않는 것으로 관찰되었다.
본 절에서는 리뷰점수와 리뷰에서의 실제 평가가 가지는 상관관계에 대하여 분석하였다. 4.
본 절에서는 상품리뷰로부터 어휘가 사용된 문맥 정보를 얻기 위한 방법 및 이를 의견분류에 적용하는 방법에 대하여 서술하였다. 우선 각 표현어휘의 문맥 정보는 의견분류에 사용되는 말뭉치사전의 수집대상을 특정 상품군의 리뷰데이터로 제한함으로써 얻을 수 있다.
앞에서 언급한 것과 같이 본 실험을 통해서 밝히고자한 주요 내용은 의견을 표현하고 있는 어휘들의 문맥적 상황 정보를 고려한 의견분류를 통해서 상품리뷰에 나타난 의견이 갖는 의미적 극성을 정확하게 판별하고자 한 것이다. 실험 결과에서 알 수 있듯이 'big', 'small', 'many', 'few' 등의 의견을 표현하는 어휘들은 그 자체의 의미보다는 어떤 상품의 어떤 특징에 대해서 서술되었는가가 고려되어야 정확한 의미를 판단할 수 있다.
밝히는 것이다. 즉, 특정 어휘가 사용된 상황에 따라서 긍정적 또는 부정적 의미를 가질 수 있으므로상황적 의미에 가장 알맞게 어휘의 의미적 성격을 판별하는 것을 목적으로 한다. 이를 위하여 다양한 상품특징들과 함께 나타나며 경우에 따라 그 의미가 달라질 수 있는 표현어휘들을 중심으로 실험을 수행하였다’ 비교 대상이 되는 방법은 2.
앞에서 설명한 것과 같이 기존연구 방법 및 본 연구에서 제시한 방법 모두 PMI 값을 활용하여 특정 어휘의 의미적 성향을 판별하게 되는데 계산된 PMI값의 절대치는 의미의 강도를 나타낸다. 하지만 본 실험에서는 올바른 의미적 극성을 판별해 내는 것을 평가하였다.
가설 설정
귀무가설 (Ho): 리뷰점수와 실제 평가 사이에는 상관관계가 존재하지 않는다.
대립가설 (Hi): 리뷰점수와 실제 평가 사이에는 상관관계가 존재한다.
하지만 고정된 의미적 극성을 갖는 어휘의 활용이 중심이 된 기존방법의 경우 문맥에 따라 다른 의미적 극성을 가질 수 있는 어휘들의 문서 내에서의 의미를 파악하기에는 어려운 경우가 존재한다. 둘째, 분석하려는 콘텐츠별로 전문가가 핵심 어휘들을 미리 정의해야만 하는 것이다. 이는 수작업으로 이루어지며, 대상 콘텐츠의 성격 및 도메인이 바뀔 때마다 다시 정의해야 하는 비효율성을 지니고 있다.
제안 방법
기본적으로 의견정보 추출과정은 POS 태깅 정보 및 어휘간 거리, 문장 구성 등의 정보를 활용하였기 때문에, 실제 상품특성을 수식하고 있는 정보를 찾기 위한 정제작업이 필요하다. 따라서, 수작업을 통해두 데이터셋의 의견정보쌍을 각각 734, 974 쌍으로 줄이는 작업을 수행하였으며, 'good', perfect', 'poor' 등과 같이 문맥에 영향을 받지 않고 고정된 의미성향을 갖는 표현어휘와 'big', 'small', "high' 등과 같이 문맥에 따라 다른 의미성향을 가질 수 있는 표현어휘 그룹으로 나누었다. 이와 같은 의견정보의 구성을 표 5에 나타내었다.
대상으로 POS 태깅을 수행하였다. POS 태그 중에서 의견을 표현하는 어휘 및 특징을 나타내는 어휘가 될 수 있는 후보 태그들을 정의하여 해당 어휘들만을 대상으로 말뭉치 사전을 구축하였다. 말뭉치 사전은 의견분류에서의 활용을 위하여 긍정적 표현어휘사전, 부정적 표현어휘사전, 긍정적 특징어휘사전, 부정적 특징어휘 사전 등 총 4가지로 구성된다.
각쌍이 장점 및 단점 데이터에 출현하는 정보를 기반으로 실험을 위한 평가기준을 만들었다.
이를 위하여 상품리뷰 요약에서의 의견표현어휘가 갖는 문맥정보를 정의하고, 각 문맥정보를 어떻게 획득하여 적용시키는가에 대한 방법을 논하였다. 또한, 의견분류과정에서 사용되는 말뭉치사전을 자동으로 구축하는 방법도 제시하였다. 마지막으로 실험을 통하여 특정 상품군에서 각 상품특징에 따른 의견표현어휘의 의미 판별 정확성을 밝혔다.
리뷰본문으로부터 말뭉치사전을 구축하기 위해서, 리뷰 본문을 대상으로 POS 태깅을 수행하였다. POS 태그 중에서 의견을 표현하는 어휘 및 특징을 나타내는 어휘가 될 수 있는 후보 태그들을 정의하여 해당 어휘들만을 대상으로 말뭉치 사전을 구축하였다.
앞에서 설명한 특징을 나타내는 어휘와 의견을 표현하는 어휘 사이의 관계정보를 활용하기 위하여 본 연구에서는 PMI값을 두 어휘에 적용하였으며, 상품정보를 적용한 말뭉치사전을 활용하여 해당 의견의 최종 의견 성향을 계산하였다. 이 값을 구하는 식은 PMI의 개념을 활용한다는 점에서 다른 연구들의 방식과 같으나, 문맥 정보를 반영하여 계산할 수 있도록 변형하여 표현하였다.
한편, 본 연구에서 제시한 방법의 경우, 어휘가 사용된 문맥정보를 활용함으로써 문맥에 영향을 많이 받는 어휘에 대하여 정확도가 높았다. 이러한 실험 결과를 바탕으로 본 연구에서는, 두 방법의 장점을 모두 취하고 단점을 서로 보완할 수 있도록 두 방식에서의 PMI 점수를 조합하여 평균점수로 최종 PMI값을 계산하는 실험을 수행하였다. 두 방법 모두 어휘의 의미적 성향을 log2 규모의 값으로 표현하고 있으므로 두 값의 평균을 최종 의미 분류에 활용하였다.
즉, 특정 어휘가 사용된 상황에 따라서 긍정적 또는 부정적 의미를 가질 수 있으므로상황적 의미에 가장 알맞게 어휘의 의미적 성격을 판별하는 것을 목적으로 한다. 이를 위하여 다양한 상품특징들과 함께 나타나며 경우에 따라 그 의미가 달라질 수 있는 표현어휘들을 중심으로 실험을 수행하였다’ 비교 대상이 되는 방법은 2.2절에서 언급한 PMI를 이용한 기존연구 방법을 활용하였다. 앞에서 설명한 것과 같이 기존연구 방법 및 본 연구에서 제시한 방법 모두 PMI 값을 활용하여 특정 어휘의 의미적 성향을 판별하게 되는데 계산된 PMI값의 절대치는 의미의 강도를 나타낸다.
이를 위하여 상품리뷰 요약에서의 의견표현어휘가 갖는 문맥정보를 정의하고, 각 문맥정보를 어떻게 획득하여 적용시키는가에 대한 방법을 논하였다. 또한, 의견분류과정에서 사용되는 말뭉치사전을 자동으로 구축하는 방법도 제시하였다.
이 때, Pwords와 Nwords는 전문가가 사전에 정의한 긍정적, 부정적 의미의 어휘집합을 의미한다. 즉, 의미극성을 알고자 하는 어휘와 사전 정의된 어휘집합사이의 상관관계를 활용하여 최종 의미극성을 구한다. 식 (3)과 같이 각 어휘와 긍정적 또는 부정적 어휘와의 상관관계는 대상이 되는 두 어휘를 웹문서 대상으로 'near'연산 검색을 한 결과로 얻어진 웹문서의 수를 이용하여 구하게 되며, 사전정의된 여러 어휘집합들에 대한 PMI값이 구해지면 식 (2)와 같이 긍정적인 경우와 부정적인 경우의 차이 값으로 최종 의미극성을 판별한다〔3, 4].
대상 데이터
의견정보를 파악하기 위하여 선정된 48개의 상품특징들을 의견표현 어휘들과의 쌍으로 구성하였으며, 총 3, 136쌍의 의견정보를 추출하였다. 또한, 디지털카메라분류의 12, 917개 상품리뷰를 대상으로 37개의 상품특징을 선별하였으며 3, 476쌍의 의견정보를 추출하였다. 기본적으로 의견정보 추출과정은 POS 태깅 정보 및 어휘간 거리, 문장 구성 등의 정보를 활용하였기 때문에, 실제 상품특성을 수식하고 있는 정보를 찾기 위한 정제작업이 필요하다.
com의 휴대전화와 디지털카메라분류에서 1, 080건의 데이터를 무작위로 선정하였으며 리뷰내용에 대한 자세한 분포는 표 1 과 같다. 리뷰들에 대한 의미 판단은 20명의 연구원들이 수작업으로 관찰 및 판단한 것을 기초로 하였다.
실험데이터는 ePinionscom의 실제 상품리뷰데이터를 사용하였으며, 자세한 구성은 표 5와 같다. 휴대전화 분류에 대한 상품리뷰데이터 2, 947건에 대하여 2, 196건의 긍정적 리뷰, 418건의 부정적 리뷰를 구분하였으며, 상품특징 48개를 선정하였다.
실험에 사용된 대상 데이터는 ePinions.com의 휴대전화와 디지털카메라분류에서 1, 080건의 데이터를 무작위로 선정하였으며 리뷰내용에 대한 자세한 분포는 표 1 과 같다. 리뷰들에 대한 의미 판단은 20명의 연구원들이 수작업으로 관찰 및 판단한 것을 기초로 하였다.
휴대전화 분류에 대한 상품리뷰데이터 2, 947건에 대하여 2, 196건의 긍정적 리뷰, 418건의 부정적 리뷰를 구분하였으며, 상품특징 48개를 선정하였다. 의견정보를 파악하기 위하여 선정된 48개의 상품특징들을 의견표현 어휘들과의 쌍으로 구성하였으며, 총 3, 136쌍의 의견정보를 추출하였다. 또한, 디지털카메라분류의 12, 917개 상품리뷰를 대상으로 37개의 상품특징을 선별하였으며 3, 476쌍의 의견정보를 추출하였다.
본 실험에서 비교대상으로 한 방법은 식 (2), (3) 과 같은 방식을 사용한 Tumey의 방법이다[3, 4]. 정확성을 판단하기 위한 기준으로 본 연구에서 활용한 것은, ePinions.com의 리뷰데이터 중에서 Tros', 'Cons' 데이터를 활용하였다. 두 데이터는 보통의 리뷰데이터들과는 다른 ePinions.
휴대전화 분류에 대한 상품리뷰데이터 2, 947건에 대하여 2, 196건의 긍정적 리뷰, 418건의 부정적 리뷰를 구분하였으며, 상품특징 48개를 선정하였다. 의견정보를 파악하기 위하여 선정된 48개의 상품특징들을 의견표현 어휘들과의 쌍으로 구성하였으며, 총 3, 136쌍의 의견정보를 추출하였다.
데이터처리
상관관계에 대하여 분석하였다. 4.2에서 제시한 데이터를 보면 직관적으로 두 요소사이의 상관성이 상당히 높은 것을 알 수 있지만, 상관도의 객관성을 더하기 위하여 피어슨 상관관계분석 수행하였고 그를 위한 가설은 다음과 같이 정의하였다.
이론/모형
본 연구에서는 상품리뷰 요약에서의 의견분류에 사용되는 말뭉치사전 구축을 위하여 리뷰본문의 내용을 활용하였다. 리뷰본문의 활용 가능성을 파악하기 위하여 통계적 실험을 수행하였으며 다음과 같은 자료 및 분석을 통해 리뷰본문을 말뭉치사전에 활용할 수 있음을 알 수 있었다.
성능/효과
또한 같은<표현어휘, 상품특징>의 쌍이라 해도, 사용자가 어떤 평가를 내렸는가에 따라 그 의미하는 바가 다르게 된다. 의미정보를 구성하는 의미표현 어휘들 중에는 'nice', "wonderful' 등과 같이 그 성향이 명확한 어휘들이 있는 반면, 'big', * small', 'many', 'few' 등과 같이 경우에 따라 그 의미의 극성이 확연히 달라지는 경우도 약 15% 내외 존재하는 것을 알 수 있었다. 본 실험에서 활용한 문맥에 따라 다른 의미성향을 갖는 어휘는 다음과 같다.
또한 상관 계수 정보는 표 3에서 보는 바와 같다. 두 변수의 유의확률이 0.01 보다 작으므로 귀무가설은 성립되지 않고, 대립가설이 성립함을 알 수 있고, 리뷰점수와 실제 평가는 99%의 유의수준에서 0.76만큼의 상관도를 갖는 것을 알 수 있다. 즉, 두 변수 사이에는 상당한 연관성이 있으며, 리뷰의 내용이 해당 리뷰의 점수와 같은 성향을 띠고 있다고 말할 수 있다.
조합된 방식에 대한 정확성 또한 밝혔다. 따라서, 두 방법의 조합을 통해 기존 방법의 문맥에 따른 어휘 의견분류의 취약성을 극복하는 것이 최상의 결과를 보인다는 것을 알 수 있었다.
마지막으로 실험을 통하여 특정 상품군에서 각 상품특징에 따른 의견표현어휘의 의미 판별 정확성을 밝혔다. 또한 본 연구에서 제시한 방법을 활용하여 기존방법의 취약성을 극복할 수 있음을 실험을 통하여 밝혔다.
이러한 결과는 문맥에 따라 다른 의미를 갖는 어휘에 대한 의미 성향 분류에서 본 연구에서 제시한 문맥을 고려한 의견분류 방법이 높은 정확도를 가짐으로 인하여 조합된 최종 분류결과의 정확도 상승에 기여했기 때문이다. 또한, 두 방법에서 서로 상반된 극성의 결과를 분류해 낸 경우 계산되어진 PMI값의 평균을 통한 판단과정을 거침으로써 좀 더 높은 정확도를 보일 수 있었다.
또한, 의견분류과정에서 사용되는 말뭉치사전을 자동으로 구축하는 방법도 제시하였다. 마지막으로 실험을 통하여 특정 상품군에서 각 상품특징에 따른 의견표현어휘의 의미 판별 정확성을 밝혔다. 또한 본 연구에서 제시한 방법을 활용하여 기존방법의 취약성을 극복할 수 있음을 실험을 통하여 밝혔다.
실험을 통하여 문맥에 따라 그 의견 성향이 영향을 받는 어휘의 경우 본 연구에서 제시한 방법의 우수성을 밝혔으며, 기존 방법의 장점도 이용하기 위하여 두 방법의 조합된 방식에 대한 정확성 또한 밝혔다. 따라서, 두 방법의 조합을 통해 기존 방법의 문맥에 따른 어휘 의견분류의 취약성을 극복하는 것이 최상의 결과를 보인다는 것을 알 수 있었다.
정보를 활용할 수 있음을 알 수 있었다. 약 62%의 리뷰 제목에서 상품에 대한 명시적인 의견들이 관찰되었으며 상관관계분석을 통하여 리뷰내용이 리뷰점수와 같은 성향을 따른다는 것을 밝힘으로써 리뷰의 긍정적, 부정적 판단이 가능하게 되었다.
위의 표에서 보는 것과 같이 모든 어휘에 대한 경우 기존방법이 약간 좋은 성능을 나타냄을 알 수 있었다. 하지만, 앞에서 말한 어떤 상품분류 및 상품특징을 수식하느냐에 따라 의미가 달라지는 어휘, 즉 문맥에 따라 다른 의미성향을 갖는 어휘의 경우 본 연구에서 제시한 방식이 월등한 성능을 보임을 알 수 있었다.
즉, 전체 리뷰 중, 62% 이상의 리뷰는 긍정적 또는 부정적인 의견을 파악할 수 있는 대상이 된다는 것을 알 수 있다. 의견을 표현하고 있는 리뷰를 말뭉치 사전 구축에 활용한다고 했을 때, 그 내용의 구성을 파악하기 위하여 리뷰점수에 따른 평가내용의 분포를 살펴보았다 그림 1에서 보는 것과 같이 높은 리뷰점수가 부여된 리뷰에서의 리뷰내용은 좋은 평가가 압도적으로 많았고, 반대로 낮은 리뷰점수가 부여된 리뷰에서의 리뷰내용은 나쁜 평가가 많았다. 중간 수준의 리뷰점수를 가진 리뷰의 경우 상대적으로 여러 의견들이 혼재하고 있는 것을 알 수 있다.
있다. 특정 도메인 및 상황에 맞는 어휘의 의미를 파악하기 위하여 어휘가 사용된 문맥정보를 고려하였으며, 의견 성향 판별을 위해 사용되는 긍정적, 부정적 말뭉치의 구축을 자동으로 수행하여 분류작업의 유연성을 높였다.
수작업으로 말뭉치를 정의하고 의견분류를 수행하는 방법의 경우 수천 또는 수만 개의 상품에 대한 리뷰들을 모두 다루기 힘들다. 하지만, 본 연구에서 제시한 방법으로는 상품리뷰로부터 말뭉치를 자동으로 구축하고, 이를 의견분류에 활용함으로써 많은 상품리뷰 데이터를 빠르고 쉽게 분석할 수 있다.
있었다. 하지만, 앞에서 말한 어떤 상품분류 및 상품특징을 수식하느냐에 따라 의미가 달라지는 어휘, 즉 문맥에 따라 다른 의미성향을 갖는 어휘의 경우 본 연구에서 제시한 방식이 월등한 성능을 보임을 알 수 있었다.
한편, 본 연구에서 제시한 방법의 경우, 어휘가 사용된 문맥정보를 활용함으로써 문맥에 영향을 많이 받는 어휘에 대하여 정확도가 높았다. 이러한 실험 결과를 바탕으로 본 연구에서는, 두 방법의 장점을 모두 취하고 단점을 서로 보완할 수 있도록 두 방식에서의 PMI 점수를 조합하여 평균점수로 최종 PMI값을 계산하는 실험을 수행하였다.
휴대전화 상품분류와 디지털카메라 상품분류를 대상으로 분석해본 결과로 이루어진 의견정보 중에서 약 14~17%의 의견정보가 표현어휘 만의 의미로는 정확한 의미 판단이 되지 않는 것으로 관찰되었다.
후속연구
연구를 진행하고 있다. 또한 구어체로 표현된 상품리뷰의 내용을 추출하여 의견분류에 활용하는 방법 또한 필요할 것이다.
대하여 서술하였다. 우선 각 표현어휘의 문맥 정보는 의견분류에 사용되는 말뭉치사전의 수집대상을 특정 상품군의 리뷰데이터로 제한함으로써 얻을 수 있다. 즉, 말뭉치사전을 워드넷이나 웹문서와 같은 일반적 의미의 광범위한 말뭉치사전이 아닌 해당 상품군에 대한 어휘들로 이루어진 말뭉치들로 구성하는 것이다.
휴대전화 상품분류와 디지털카메라 상품분류를 대상으로 분석해본 결과<상품특징, 표현어휘>로 이루어진 의견정보 중에서 약 14~17%의 의견정보가 표현어휘 만의 의미로는 정확한 의미 판단이 되지 않는 것으로 관찰되었다. 이와 같은 상황에서 어휘의 상황적 의미를 정확하게 파악하기 위해서는 본 연구에서 제안하는 어휘의 문맥적 상황정보를 고려한 의견분류 방법이 필요한 것이다.
향후 과제로서 본 연구에서 제시한 통계적 방법에 자연어처리 방법을 접목하여 의견분류의 정확도를 더욱 높이는 연구를 진행하고 있다. 또한 구어체로 표현된 상품리뷰의 내용을 추출하여 의견분류에 활용하는 방법 또한 필요할 것이다.
참고문헌 (14)
M. Hu, B. Liu, 'Mining and summarizing customer reviews,' Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp.168-177, 2004
D. Lee, O. Jeong, S. Lee, 'Opinion Mining of Customer Feedback Data on the Web,' Proceedings of The Second International Conference on Ubiquitous Information Management and Communication, pp.230-235, 2008
X. Ding, B. Liu, P. S Yu, 'A holistic lexicon-based approach to opinion mining,' Proceedings of the international conference on Web search and web data mining, pp.231-240, 2008
Tumey, P. D, 'Thumbs up or thumbs down': semantic orientation applied to unsupervised classification of reviews,' In Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2002
Tumey, P. D., Littman, M. L., 'Measuring praise and criticism: Inference of semantic orientation from association,' ACM Trans. Inf. Syst., 21, 4, Oct. 2003
Namrata Godbole, Manjunath Srinivasaiah, Steven Skiena, 'Large-Scale Sentiment Analysis for News and Blogs,' Int'I AAAI Conference on Weblogs and Social Media (ICWSM 2007), 2007
E. Boiy, P. Hens, K. Deschacht, M. Moens, 'Automatic Sentiment Analysis in On-line Text,' ELPUB2007 Conference on Electronic Publishing, June 2007
J. Yi, W. Niblack, 'Sentiment Mining in WebFountain,' International Conference on Data Engineering (ICDE'05), pp.1073-1083, 2005
T. Nasukawa, J. Yi, 'Sentiment analysis: capturing favorability using natural language processing,' Proceedings of the K- CAP-03, 2nd International Conference on Knowledge Capture, pp.70-77, 2003
Xiaowen Ding, Bing Liu. 'The Utility of Linguistic Rules in Opinion Mining,' pp.811-812, SlGIR2007, 2007
M. Gamon, A. Aue, S. Corston-Oliver, E. Ringger. 'Pulse: Mining Customer Opinions from Free Text,' In Lecture Notes in Computer Science, VoI.3646. Springer Verlag. (IDA 2005), 2005
Wilson, T., Wiebe, J.. Hoffmann, P. 'Recognizing contextual polarity in phrase-level sentiment analysis,' In Proceedings of the Conjerence on Human Language Technology and Empirical Methods in Natural Language Processing, pp.347-354, 2005
Scaffidi, C., Bierhoff, K., Chang, E., Felker, M., Ng, H., Jin, C. 'Red Opal: product-feature scoring from reviews,' In Proceedings of the 8th ACM Conference on Electronic Commerce 2007, pp.182-191, 2007
Miller, G., Beckwith, R, Fellbaum, C., Gross, D., Miler, K. 'Introduction to WordNet: An on-line lexical database,' International Journal of Lexicography, pp.235-244, 1990
※ AI-Helper는 부적절한 답변을 할 수 있습니다.