소셜 네트워크 서비스(SNS)의 활성화로 웹상에는 방대한 양의 온라인 리뷰들이 생산되고 있으며, 이러한 온라인 리뷰들은 다양한 콘텐츠들에 대한 의견 데이터로써 콘텐츠 이용자와 제공자들에게 가치 있는 정보로 활용되고 있다. 한편, 온라인 리뷰에 대한 중요도가 높아짐에 따라 온라인 리뷰를 분석하여 글쓴이의 의견이나 평가, 태도, 감정 등을 추출해 내는 오피니언마이닝에 대한 연구가 활발하게 진행되고 있다. 그러나 기존의 오피니언마이닝 연구들에서는 리뷰의 의견 분류에만 초점을 맞추어 감성 분석 기법을 설계하였기 때문에 리뷰 속에 내포되어있는 작성자의 자세한 만족도까지는 알 수 없었으며, 감성 분석 기법이 특정 콘텐츠에 한정되어있어 도메인이 같지 않은 다른 콘텐츠들에는 적용될 수 없다는 문제점이 있었다. 이에 본 연구에서는 기존 의견 분류 방법에 강도를 주어 좀 더 세밀한 감성 분석을 수행하고, 이 결과를 통계적 척도에 적용하여 리뷰에 내포되어 있는 작성자의 자세한 만족도를 도출 할 수 있는 감성 분석 기법을 제안한다, 그리고 제안한 기법을 바탕으로 도메인에 상관없이 다양한 콘텐츠에 적용되어 콘텐츠의 만족도를 분석 할 수 있는 시스템을 설계하였다. 또한 방대한 양의 리뷰 데이터들을 빠르고 효율적으로 처리하기 위해 빅 데이터 처리도구인 하둡을 기반으로 시스템을 구축하였다. 본 시스템을 통해 콘텐츠 이용자는 보다 효율적인 의사결정을, 제공자들은 빠른 반응분석을 할 수 있어 본 시스템은 사용자의 의견을 필요로 하는 다양한 분야에 매우 실용적으로 활용 될 것으로 기대한다.
소셜 네트워크 서비스(SNS)의 활성화로 웹상에는 방대한 양의 온라인 리뷰들이 생산되고 있으며, 이러한 온라인 리뷰들은 다양한 콘텐츠들에 대한 의견 데이터로써 콘텐츠 이용자와 제공자들에게 가치 있는 정보로 활용되고 있다. 한편, 온라인 리뷰에 대한 중요도가 높아짐에 따라 온라인 리뷰를 분석하여 글쓴이의 의견이나 평가, 태도, 감정 등을 추출해 내는 오피니언마이닝에 대한 연구가 활발하게 진행되고 있다. 그러나 기존의 오피니언마이닝 연구들에서는 리뷰의 의견 분류에만 초점을 맞추어 감성 분석 기법을 설계하였기 때문에 리뷰 속에 내포되어있는 작성자의 자세한 만족도까지는 알 수 없었으며, 감성 분석 기법이 특정 콘텐츠에 한정되어있어 도메인이 같지 않은 다른 콘텐츠들에는 적용될 수 없다는 문제점이 있었다. 이에 본 연구에서는 기존 의견 분류 방법에 강도를 주어 좀 더 세밀한 감성 분석을 수행하고, 이 결과를 통계적 척도에 적용하여 리뷰에 내포되어 있는 작성자의 자세한 만족도를 도출 할 수 있는 감성 분석 기법을 제안한다, 그리고 제안한 기법을 바탕으로 도메인에 상관없이 다양한 콘텐츠에 적용되어 콘텐츠의 만족도를 분석 할 수 있는 시스템을 설계하였다. 또한 방대한 양의 리뷰 데이터들을 빠르고 효율적으로 처리하기 위해 빅 데이터 처리도구인 하둡을 기반으로 시스템을 구축하였다. 본 시스템을 통해 콘텐츠 이용자는 보다 효율적인 의사결정을, 제공자들은 빠른 반응분석을 할 수 있어 본 시스템은 사용자의 의견을 필요로 하는 다양한 분야에 매우 실용적으로 활용 될 것으로 기대한다.
Following the recent advancement in the use of social networks, a vast amount of different online reviews is created. These variable online reviews which provide feedback data of contents' are being used as sources of valuable information to both contents' users and providers. With the increasing im...
Following the recent advancement in the use of social networks, a vast amount of different online reviews is created. These variable online reviews which provide feedback data of contents' are being used as sources of valuable information to both contents' users and providers. With the increasing importance of online reviews, studies on opinion mining which analyzes online reviews to extract opinions or evaluations, attitudes and emotions of the writer have been on the increase. However, previous sentiment analysis techniques of opinion-mining focus only on the classification of reviews into positive or negative classes but does not include detailed information analysis of the user's satisfaction or sentiment grounds. Also, previous designs of the sentiment analysis technique only applied to one content domain that is, either product or movie, and could not be applied to other contents from a different domain. This paper suggests a sentiment analysis technique that can analyze detailed satisfaction of online reviews and extract detailed information of the satisfaction level. The proposed technique can analyze not only one domain of contents but also a variety of contents that are not from the same domain. In addition, we design a system based on Hadoop to process vast amounts of data quickly and efficiently. Through our proposed system, both users and contents' providers will be able to receive feedback information more clearly and in detail. Consequently, potential users who will use the content can make effective decisions and contents' providers can quickly apply the users' responses when developing marketing strategy as opposed to the old methods of using surveys. Moreover, the system is expected to be used practically in various fields that require user comments.
Following the recent advancement in the use of social networks, a vast amount of different online reviews is created. These variable online reviews which provide feedback data of contents' are being used as sources of valuable information to both contents' users and providers. With the increasing importance of online reviews, studies on opinion mining which analyzes online reviews to extract opinions or evaluations, attitudes and emotions of the writer have been on the increase. However, previous sentiment analysis techniques of opinion-mining focus only on the classification of reviews into positive or negative classes but does not include detailed information analysis of the user's satisfaction or sentiment grounds. Also, previous designs of the sentiment analysis technique only applied to one content domain that is, either product or movie, and could not be applied to other contents from a different domain. This paper suggests a sentiment analysis technique that can analyze detailed satisfaction of online reviews and extract detailed information of the satisfaction level. The proposed technique can analyze not only one domain of contents but also a variety of contents that are not from the same domain. In addition, we design a system based on Hadoop to process vast amounts of data quickly and efficiently. Through our proposed system, both users and contents' providers will be able to receive feedback information more clearly and in detail. Consequently, potential users who will use the content can make effective decisions and contents' providers can quickly apply the users' responses when developing marketing strategy as opposed to the old methods of using surveys. Moreover, the system is expected to be used practically in various fields that require user comments.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 한정된 특정 콘텐츠가 아닌, 다양한 콘텐츠 리뷰에 적용되어 오피니언 마이닝이 가능한 콘텐츠 만족도 분석 시스템을 설계 및 구현하였다. 또한 본 시스템의 기준이 되는 콘텐츠 도메인에 따른 감성사전 구축 방법과 만족도 도출을 위한 감성 분석 알고리즘의 단계를 구체적으로 제시하였다.
리뷰데이터의 정확한 감성분석을 위해서는 각 도메 인에 맞는 감성사전의 구축이 필수적이다. 본 연구에서 목표하는 콘텐츠의 만족도 분석은 다양한 콘텐츠를 대상으로 하는 만족도 분석이므로 콘텐츠의 도메인이 정해지면 그에 따라 자동적으로 감성사전이 구축될 수 있도록 해야 한다. 본 논문에서는 이러한 콘텐츠 별 감성사전을 구축하기 위하여 [9]의 그래프 기반 특정분야 감성사전 구축 방법을 이용하였다.
제안 방법
한편, [9]에서는 리뷰에 나타나는 모든 단어들 사이의 밀접도를 구해 그래프를 구성하고, 미리 정의된 감성 어휘(seed어휘)들을 그래프 전체에 전파하는 방식으로 모든 어휘의 감성을 추론하여 사전을 구축한다. [9]에서 제안하는 방식은 도메인 특징을 고려한 사전을 구축할 수 있다는 장점이 있으므로 본 논문에서는 [9]를 적용하여 콘텐츠 별 감성사전을 구축한다. 또한 시간이 지남에 따라 신조어, 은어로 인해 시드어휘가 바뀔 수 있다는 가능성을 고려하여 시드어휘를 갱신시키는 방법을 추가로 제안한다.
다음으로는 형태소 분석과정을 거친 리뷰데이터들 중감성단어의 대상이 되는 용언(V), 명사(N), 부사(a)와 품사를 알 수 없으나 신조어나 은어가 될 가능성이 있는 단어(K)들을 추출하고, 감성어휘가 아닌 단어들 예를 들면 용언으로 태깅되어 추출되지만 감성어휘가 아닌 “이다”, “가다” 등과 같은 불 용어들은 따로 전처리를 하였다. 그리고 [9]에서 제안한 방법에 적용하여 단어 그래프를 구성하고, 그래프를 통해 시드단어를 중심으로 감성을 추론하여 이를 토대로 단어사전을 구축 하였다. 그림 5은 갱신된 시드집합과 간선의 수를 나타낸다.
다음으로는 형태소 분석과정을 거친 리뷰데이터들 중감성단어의 대상이 되는 용언(V), 명사(N), 부사(a)와 품사를 알 수 없으나 신조어나 은어가 될 가능성이 있는 단어(K)들을 추출하고, 감성어휘가 아닌 단어들 예를 들면 용언으로 태깅되어 추출되지만 감성어휘가 아닌 “이다”, “가다” 등과 같은 불 용어들은 따로 전처리를 하였다.
하지만 [6]의 경우 상품의 속성문장들이 정형화된 문장규칙을 가지지 않는 경우에는 적용할 수 없고, [7] 또한 연구에서 정의된 문장규칙에 맞게 작성되지 않은 리뷰데이터에는 적용하기 어렵다는 한계를 가지고 있다. 따라서 본 연구에서는 [6-7]의 알고리즘을 참고해서 사용하되, 자유도가 높은 한국어 리뷰의 특징을 고려하여 속성이나 문장규칙에 대한 고려를 하지 않고 감정을 표현하는 단어에 초점을 맞추어 알고리즘을 다시 설계하였다. 또한 기존의 감성 분석 알고리즘의 결과는 단순히 긍정/부정에 대한 의견분류에 그친데 반해, 본 논문에서 설계한 알고리즘은 도출된 극성 값들을 통계적 척도에 적용하여 리뷰데이터에 내포되어 있는 작성자의 만족정도를 세밀하게 보여주었다.
본 논문에서는 한정된 특정 콘텐츠가 아닌, 다양한 콘텐츠 리뷰에 적용되어 오피니언 마이닝이 가능한 콘텐츠 만족도 분석 시스템을 설계 및 구현하였다. 또한 본 시스템의 기준이 되는 콘텐츠 도메인에 따른 감성사전 구축 방법과 만족도 도출을 위한 감성 분석 알고리즘의 단계를 구체적으로 제시하였다. 그리고 본 연구에서 설계한 시스템을 실험하기 위해 맛집 콘텐츠를 선정하여 약 6GB의 리뷰데이터들을 기반으로 맛집 도메인에 대한 감성사전을 구축하고, 제안한 알고리즘에 적용해 특정 맛집의 감성 분석 결과와 만족도를 도출해 냈다.
2에서 구축한 감성사전과 매칭되어 감성 분석이 이루어진다. 또한 알고리즘 내의 score함수에 의해 긍정어휘는 +1의 값을, 부정어휘는 -1의 값을 갖게 되며(line:6) 극성 분석의 세밀화를 위해 부사에 가중치(weight)를 두어 각 감성의 정도가 깊어지게 하였다(line:4). 예를 들어, “정말”, “너무”와 같은 강한 강도의 강조 부사어에는 2의 weight값을, “조금”, “약간”과 같은 약한 강도의 부사어에는 0.
이에 본 연구에서는 기존의 의견 분류 방법에 강도를 주어 좀 더 세밀한 의견분류를 수행하는 감성 분석 기법을 적용하고, 이를 통해 도출된 작성자의 의견 극성을 통계적 척도에 적용해 콘텐츠에 대한 작성자의 자세한 만족도를 도출해 내는 시스템을 구축한다. 또한 특정 콘텐츠에 한정된 감성 분석이 아닌, 다양한 콘텐츠들을 대상으로 도메인에 따라 자동적으로 감성 분석을 할 수 있도록 기존연구[9]를 확장한 감성분석 기법을 제안하여 이를 시스템에 적용하였다. 본 연구에서 제안한 시스템의 구현에는 방대한 양의 리뷰 데이터들을 시스템에 안정적으로 수집하고 저장하기 위한 하둡 기반의 HDFS(Hadoop Distributed File System)를 사용하고, 축적된 대용량 리뷰데이터의 빠르고 효율적인 처리를 위해 하둡 맵리듀스를 기반으로 한 감성 분석함수들을 구축하여 분석에 활용하였다[1].
본 논문에서 제안한 시스템은 hadoop-2.6.0 버전이 설치된 1대의 Master서버와 2대의 Slave 서버를 기반으로 구현되었다. 본 연구의 실험에는 맛집 콘텐츠를 실험 대상으로 선정하고, TV프로그램에서 방영된 맛집 1,163개의 정보를 기반으로 약 6GB의 리뷰데이터를 수집하여 실험에 활용하였다.
현재 감성 분석 기법에는 크게 의견의 의미방향을 분류하는 분야와 언어적 자원을 구축하는 분야가 있다. 본 논문에서는 두 개의 분야를 모두 적용하여 감성분석을 한다.
리뷰데이터로부터 콘텐츠의 만족도를 분석하기 위해 서는 리뷰데이터에 대한 세밀한 감성분석이 핵심적이다. 본 논문에서는 리뷰에 나타나 있는 감성표현단어들에 중점을 두고, 본 연구의 목적에 맞게끔 [6-7]의 알고리즘들을 확장하여 콘텐츠 만족도 도출을 위한 감성분석 알고리즘을 설계하였다(그림 3). 설계한 알고리즘에서는 감정 표현 단어의 의미강도를 부여하기 위해 부사어 규칙, 부정어 규칙을 적용하여 극성 분석을 세밀화 하였다.
또한 특정 콘텐츠에 한정된 감성 분석이 아닌, 다양한 콘텐츠들을 대상으로 도메인에 따라 자동적으로 감성 분석을 할 수 있도록 기존연구[9]를 확장한 감성분석 기법을 제안하여 이를 시스템에 적용하였다. 본 연구에서 제안한 시스템의 구현에는 방대한 양의 리뷰 데이터들을 시스템에 안정적으로 수집하고 저장하기 위한 하둡 기반의 HDFS(Hadoop Distributed File System)를 사용하고, 축적된 대용량 리뷰데이터의 빠르고 효율적인 처리를 위해 하둡 맵리듀스를 기반으로 한 감성 분석함수들을 구축하여 분석에 활용하였다[1].
본 논문에서는 리뷰에 나타나 있는 감성표현단어들에 중점을 두고, 본 연구의 목적에 맞게끔 [6-7]의 알고리즘들을 확장하여 콘텐츠 만족도 도출을 위한 감성분석 알고리즘을 설계하였다(그림 3). 설계한 알고리즘에서는 감정 표현 단어의 의미강도를 부여하기 위해 부사어 규칙, 부정어 규칙을 적용하여 극성 분석을 세밀화 하였다. 또한, 기존의 연구들에서 감성분석 시 극성의 결과만을 도출한다는 한계를 보완하여 도출된 극성 결과 값을 통계적 기법에 적용하여 만족도를 계산하였다.
이 절에서는 감성분석의 기법 중 의미방향을 분류하는 관점에서 관련연구들을 분석한다. 먼저 [3]은 화장품, [4]는 고객의 소리, [5]은 대학교 강의에 대해 미리 구축한 각 도메인별 단어사전과 입력 리뷰 텍스트들을 매칭하여 텍스트 내의 극성을 분석한다.
또한 기존에 연구되었던 감성 분석 기법들은 상품, 영화등과 같이 특정한 콘텐츠에 한정되어 도메인이 다른 콘텐츠들에는 적용할 수 없다는 단점이 있다. 이에 본 연구에서는 기존의 의견 분류 방법에 강도를 주어 좀 더 세밀한 의견분류를 수행하는 감성 분석 기법을 적용하고, 이를 통해 도출된 작성자의 의견 극성을 통계적 척도에 적용해 콘텐츠에 대한 작성자의 자세한 만족도를 도출해 내는 시스템을 구축한다. 또한 특정 콘텐츠에 한정된 감성 분석이 아닌, 다양한 콘텐츠들을 대상으로 도메인에 따라 자동적으로 감성 분석을 할 수 있도록 기존연구[9]를 확장한 감성분석 기법을 제안하여 이를 시스템에 적용하였다.
대상 데이터
0 버전이 설치된 1대의 Master서버와 2대의 Slave 서버를 기반으로 구현되었다. 본 연구의 실험에는 맛집 콘텐츠를 실험 대상으로 선정하고, TV프로그램에서 방영된 맛집 1,163개의 정보를 기반으로 약 6GB의 리뷰데이터를 수집하여 실험에 활용하였다. 또한 리뷰데이터의 형태소 분석은 국민대학교 연구실에서 제공하는 KLT 형태소 분석기 [11]를 사용하였다.
데이터처리
설계한 알고리즘에서는 감정 표현 단어의 의미강도를 부여하기 위해 부사어 규칙, 부정어 규칙을 적용하여 극성 분석을 세밀화 하였다. 또한, 기존의 연구들에서 감성분석 시 극성의 결과만을 도출한다는 한계를 보완하여 도출된 극성 결과 값을 통계적 기법에 적용하여 만족도를 계산하였다. 만족도의 계산은 특정 대상에 대한 개인의 태도를 측정하는 통계적 기법인 리커트 5점 척도[10]를 사용하였으며, 알고리즘의 결과로 나온 긍정 / 부정의 극성값들은 리커트 5점 척도에 적용되어 매우만족(5) > 만족(4) > 보통(3) > 불만족(2) > 매우불만족(1)의 결과를 도출하게 된다.
이론/모형
만족도의 계산은 특정 대상에 대한 개인의 태도를 측정하는 통계적 기법인 리커트 5점 척도[10]를 사용하였으며, 알고리즘의 결과로 나온 긍정 / 부정의 극성값들은 리커트 5점 척도에 적용되어 매우만족(5) > 만족(4) > 보통(3) > 불만족(2) > 매우불만족(1)의 결과를 도출하게 된다.
본 연구에서 목표하는 콘텐츠의 만족도 분석은 다양한 콘텐츠를 대상으로 하는 만족도 분석이므로 콘텐츠의 도메인이 정해지면 그에 따라 자동적으로 감성사전이 구축될 수 있도록 해야 한다. 본 논문에서는 이러한 콘텐츠 별 감성사전을 구축하기 위하여 [9]의 그래프 기반 특정분야 감성사전 구축 방법을 이용하였다.
성능/효과
간선은 밀접도가 0보다 클 때 정의되며, 그 값이 0보다 작으면 두 정점사이의 관계가 없다고 판단되어 간선이 정의되지 않는다. 결과적으로 이러한 정의를 기반으로 하여 단어 그래프가 생성되며, [9]에서 제안한 감성 추론식을 통해 모든 단어의 감성이 구해져 단어사전이 구축된다. 한편, 간선의 수가 많다는 것은 도메인 내에서 그 단어와 관계를 맺는 단어의 수가 매우 많다는 뜻으로, SEED 집합의 단어들은 간선의 수가 다른 어휘들보다 항상 많게 나타나게 된다.
또한 본 시스템의 기준이 되는 콘텐츠 도메인에 따른 감성사전 구축 방법과 만족도 도출을 위한 감성 분석 알고리즘의 단계를 구체적으로 제시하였다. 그리고 본 연구에서 설계한 시스템을 실험하기 위해 맛집 콘텐츠를 선정하여 약 6GB의 리뷰데이터들을 기반으로 맛집 도메인에 대한 감성사전을 구축하고, 제안한 알고리즘에 적용해 특정 맛집의 감성 분석 결과와 만족도를 도출해 냈다.
그림 6 ‘팔색삼겹살’의 경우, 1027개의 리뷰데이터들로부터 도출된 만족도는 총 76.1%이며, 먼저 왼쪽의 원형 도표를 보면, ‘팔색삼겹살’의 이용자들 중 만족의 경향을 나타내는 이용자들은 53%, 보통의 경향을 나타내는 이용자들은 44%, 불만족의 경향을 나타내는 이용자들은 4%로 해당 맛집에 대해 불만족의 경향을 나타내는 이용자들 보다 만족의 경향을 나타내는 이용자들이 14배 정도 많다는 것을 알 수 있다.
만약 지속적으로 누적되는 데이터들 속에서 기존 SEED 단어들의 간선의 수와 같거나 더 많은 간선의 수를 갖는 단어가 출현한다면, 이는 도메인 내에서 SEED 단어로써의 영향력을 가지고 있다고 할 수 있다. 따라서 본 연구에서는 [9]의 연구를 확장하여 계속해서 갱신되는 단어 그래프들 속에서 기존의 SEED어휘들 보다 간선의 수를 많이 가지게 되는, 즉 다른 단어들과의 연관성이 기존의 SEED보다 더 높은 단어들을 시드 단어집합에 추가로 갱신하여 그래프 구성의 세밀성을 높였다.
따라서 본 연구에서는 [6-7]의 알고리즘을 참고해서 사용하되, 자유도가 높은 한국어 리뷰의 특징을 고려하여 속성이나 문장규칙에 대한 고려를 하지 않고 감정을 표현하는 단어에 초점을 맞추어 알고리즘을 다시 설계하였다. 또한 기존의 감성 분석 알고리즘의 결과는 단순히 긍정/부정에 대한 의견분류에 그친데 반해, 본 논문에서 설계한 알고리즘은 도출된 극성 값들을 통계적 척도에 적용하여 리뷰데이터에 내포되어 있는 작성자의 만족정도를 세밀하게 보여주었다.
1%이며, 먼저 왼쪽의 원형 도표를 보면, ‘팔색삼겹살’의 이용자들 중 만족의 경향을 나타내는 이용자들은 53%, 보통의 경향을 나타내는 이용자들은 44%, 불만족의 경향을 나타내는 이용자들은 4%로 해당 맛집에 대해 불만족의 경향을 나타내는 이용자들 보다 만족의 경향을 나타내는 이용자들이 14배 정도 많다는 것을 알 수 있다. 또한 이에 대한 자세한 분석 내용을 보기 위해 왼쪽 도표를 살펴보면 1027개의 리뷰들 중 매우 만족은 355개, 만족은 199개, 보통은 469개, 불만족은 25개, 매우 불만족은 9개로 총 1027명의 이용자들 중 과반수이상인 554명의 이용자들이 해당 음식점에 대해 대체적으로 만족했다는 것을 알 수 있다. 한편, 그림 7은 그림 6에서 나타난 매우만족(5) > 만족(4) > 보통 (3) > 불만족(2) > 매우 불만족(1)의 리뷰들에 나타난 긍정, 부정어 여론을 보여주는 결과로 왜 이용자들이 그림 6와 같은 만족도를 나타냈는지에 대한 근거를 좀 더 자세하게 볼 수 있다.
먼저 오른쪽 표를 보았을 때 ‘팔색삼겹살’에 대한 가장 큰 만족요인은 기본적인 긍정어 ‘맛있다’, ‘좋다’, 외에 ‘다양’, ‘푸짐하다’, ‘깔끔하다’가 되며, 이용자들은 이러한 긍정 여론어들을 통해 ‘음식이 맛있고’, ‘메뉴가 다양하며’, ‘양이 푸짐하다’등이 ‘팔색삼겹살’ 가장 큰 장점이라는 것을 파악 할 수 있다.
본 연구의 콘텐츠 만족도 분석 시스템은 리뷰에 내포되어 있는 작성자의 의견 정도를 추출하여 자세한 만족도를 분석 할 수 있다는 점, 다양한 콘텐츠들을 대상으로 분석이 가능하다는 점, 대용량의 리뷰데이터들을 빠르고 효율적으로 처리할 수 있다는 점에서 매우 실용적인 분석시스템으로써의 가치가 있다. 본 시스템을 통해 콘텐츠 이용자들은 이용하고자 하는 콘텐츠에 대한 자세한 의견과 전체적인 만족도를 미리 파악할 수 있어 보다 효율적인 의사결정을 할 수 있을 것이며, 콘텐츠 제공자들은 기존 설문조사 방식과 비교해 제공한 콘텐츠에 대한 이용자들의 방대한 의견정보를 좀 더 빠른 시간 내에 명확하고 자세하게 분석 할 수 있어 현재 개선이 필요한 문제의 발견과 지속적인 품질유지 등의 차후 마케팅 전략을 세우는 데 많은 도움이 될 것으로 기대한다.
이렇게 계산된 알고리즘내의 모든 감성 값들은 스택형태의 자료구조에 의해 관리되며, 모든 단어의 감성분석이 완료되면 스택 내에 저장되어있는 양수 값들은 긍정 극성의 합을 저장하는 SLpositives에 (line:12), 음수 값들은 부정극성 합에 절대 값을 주어 SLnegatives에(line:13) 저장되고, 결과적으로 이들은 리커트 5점 척도(line:14)에 적용되어 만족도를 도출하게 된다.
추가된 어휘들은 단어 그래프 생성 시에 초기 시드집합의 각 극성에서 가장 낮은 간선의 수를 가지고 있는 긍정시드어휘 “친절” 17047개 , 부정시드어휘 “남기다”의 10248개의 간선의 수보다 높은 간선의 수를 가지고 있으므로 도메인 내에서 많은 단어들과 밀접성을 가지는 것으로 판단되어 시드집합에 포함되었다.
후속연구
향후 연구로는 감성 사전 구축에 있어 중립의 의미를 갖는 어휘를 처리하는 방법을 연구하여 감성 서술어의 의미를 확장 할 필요가 있으며, 긍정과 부정단어가 고루 쓰이지 않은 말뭉치에 대한 명확한 기준을 찾는 것이 필요하다. 또한 대용량의 리뷰데이터로부터 작성자의 만족도를 도출하는 것뿐만 아니라, 이를 통해 콘텐츠에 대한 욕구, 기대감등을 추론할 수 있는 기능까지 추가된다면 좀 더 지능적인 만족도 분석 시스템이 될 수 있을 것이다.
[9]에서 제안하는 방식은 도메인 특징을 고려한 사전을 구축할 수 있다는 장점이 있으므로 본 논문에서는 [9]를 적용하여 콘텐츠 별 감성사전을 구축한다. 또한 시간이 지남에 따라 신조어, 은어로 인해 시드어휘가 바뀔 수 있다는 가능성을 고려하여 시드어휘를 갱신시키는 방법을 추가로 제안한다.
본 연구의 콘텐츠 만족도 분석 시스템은 리뷰에 내포되어 있는 작성자의 의견 정도를 추출하여 자세한 만족도를 분석 할 수 있다는 점, 다양한 콘텐츠들을 대상으로 분석이 가능하다는 점, 대용량의 리뷰데이터들을 빠르고 효율적으로 처리할 수 있다는 점에서 매우 실용적인 분석시스템으로써의 가치가 있다. 본 시스템을 통해 콘텐츠 이용자들은 이용하고자 하는 콘텐츠에 대한 자세한 의견과 전체적인 만족도를 미리 파악할 수 있어 보다 효율적인 의사결정을 할 수 있을 것이며, 콘텐츠 제공자들은 기존 설문조사 방식과 비교해 제공한 콘텐츠에 대한 이용자들의 방대한 의견정보를 좀 더 빠른 시간 내에 명확하고 자세하게 분석 할 수 있어 현재 개선이 필요한 문제의 발견과 지속적인 품질유지 등의 차후 마케팅 전략을 세우는 데 많은 도움이 될 것으로 기대한다.
향후 연구로는 감성 사전 구축에 있어 중립의 의미를 갖는 어휘를 처리하는 방법을 연구하여 감성 서술어의 의미를 확장 할 필요가 있으며, 긍정과 부정단어가 고루 쓰이지 않은 말뭉치에 대한 명확한 기준을 찾는 것이 필요하다. 또한 대용량의 리뷰데이터로부터 작성자의 만족도를 도출하는 것뿐만 아니라, 이를 통해 콘텐츠에 대한 욕구, 기대감등을 추론할 수 있는 기능까지 추가된다면 좀 더 지능적인 만족도 분석 시스템이 될 수 있을 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
‘희노애락’에 대한 동의어 사전을 이용해 사전을 구축하는 것의 단점은 무엇인가?
먼저 [7]에서는 ‘희노애락’에 대한 동의어 사전을 이용해 사전을 구축하였다. 하지만 이는 신조어에 대한 감성단어를 알 수 없으며, 도메인의 특징을 고려 하지 않아 정확성이 떨어진다는 단점을 가지고 있다. [8] 에서는 평점이 포함된 리뷰에서 평점을 기반으로 긍정/ 부정을 판단하여 사전을 구축한다.
오피니언마이닝이란 무엇인가?
오피니언마이닝은 텍스트를 분석하여 글쓴이의 의견 이나 평가, 태도, 감정 등을 추출해 내는 기법[2]으 로, 텍스트의 정확한 오피니언마이닝을 위해서는 문서에 나타난 의견의 극성을 분석하는 감성분석이 가장 핵심적이다. 현재 감성 분석 기법에는 크게 의견의 의미방향을 분류하는 분야와 언어적 자원을 구축하는 분야가 있다.
텍스트의 정확한 오피니언마이닝을 위해 무엇이 가장 핵심적인가?
오피니언마이닝은 텍스트를 분석하여 글쓴이의 의견 이나 평가, 태도, 감정 등을 추출해 내는 기법[2]으 로, 텍스트의 정확한 오피니언마이닝을 위해서는 문서에 나타난 의견의 극성을 분석하는 감성분석이 가장 핵심적이다. 현재 감성 분석 기법에는 크게 의견의 의미방향을 분류하는 분야와 언어적 자원을 구축하는 분야가 있다.
참고문헌 (11)
Hadoop, [Online] Available http://hadoop.apache.org/
S.M Kim, E Hovy "Extracting opinions, opinion holders, and topics expressed in online news media text", Proceedings of ACL/COLING Workshop on Sentiment and Subjectivity in Text, Australia, 2006 http://www.isi.edu/natural-language/people/hovy/papers/06ACL-WS-opin-topic-holder.pdf
So-young Lee, Kwanho In, Ung-mo Kim "Analysing Product Reviews of Cosmetics Using Opinion Mining" Proc. of the Korea Computer Congress 2013, pp. 362-264 http://www.dbpia.co.kr/Article/NODE02217118
Yoo-sin Kim, Seung-Ryul Jeong "Intelligent VOC Analyzing System Using Opinion Mining" Journal of Intelligent Informaion Systems 19(3), 2013.9, pp.113-125 http://ocean.kisti.re.kr/downfile/volume/kiiss/JJSHBB/2013/v19n3/JJSHBB_2013_v19n3_113.pdf
Seung Youp Lee, Kwan Ho In, Ung Mo Kim "Analyzing University Bulletin Board Data by using Opinion Mining" Journal of KOREA INFORMATION SCIENCE SOCIETY 39(2C), 2012.11, pp. 104-106 www.dbpia.co.kr/Article/NODE02048307
Jae-Young Chang "A Sentiment Analysis Algorithm for Automatic Product Reviews Classification in On-Line Shopping Mall" Journal of Society for e-Business Studies 14(4), 2009.11, pp. 19-33 http://society.kisti.re.kr/sv/SV_svpsbs03VR.do?methoddetail&cn2KJGRBH_2009_v14n4_19&menuid1&subid11
Jong-Hyuk Lee, Won-Sang Lee, Jae-Won Park, Jae-Hyun Choi "The Blog Polarity Classification Techbique using Opinion Mining" Journal of Digital Contents Society 15(4), 2014.8, pp.559-568 http://dx.doi.org/10.9728/dcs.2014.15.4.559
Yean-Ju Oh, Soo-Hoan Chae "Movie Rating Inference by Construction of Movie Sentiment Sentece using Movie comments and ratings" Journal of Korean Society for Internet Information 16(2), 2015.4, pp. 41-48 www.dbpia.co.kr/Article/NODE06291845
Jung-Ho Kim, Yean-Ju Oh, Soo-Hoan Chae "The Construction of a Domain-Specific Sentiment Dictionary Using Graph-based Semi-supervised Learning Method" Korean Journal of the science of emotion & sensibility Vol.18 No.1, 2015 pp.97-104 http://210.101.116.28/W_files/kiss61/1g600854_pv.pdf
LikertScale, [Online], Available http://ko.wikipedia.org/wiki/%EB%A6%AC%EC%BB%A4%ED%8A%B8_%EC%B2%99%EB%8F%84
Korean Lexical Analyzer, [Online], Available nlp.kookmin.ac.kr
※ AI-Helper는 부적절한 답변을 할 수 있습니다.