최근에 사용자에 의한 대량의 텍스트 데이터가 발생하면서 사용자의 정보, 의견 등을 분석하는 오피니언 마이닝이 중요하게 부각되고 있다. 오피니언 마이닝 중 특히 정서 분석은 제품, 사회적 이슈, 정치인에 대한 호감 등에 대한 개인적 의견이나 정서를 분석하여 긍정, 부정이나 행복, 슬픔 등의 정서를 분석하는 연구 분야이다. 정서 분석을 위해서 정서 차원 이론의 정서가와 각성 차원의 2차원 공간을 사용하고, 이 공간에서 정서가 분포하는 영역을 설정하여 매핑하는 방법을 사용한다. 그러나 기존에는 정서의 분포 영역을 임의로 설정하는 문제가 있었다. 본 논문에서는 이 문제를 해결하기 위해, 한국어 정서 단어 목록을 사용해 사용자 설문을 실시하여 2차원 상에 12개 정서의 분포를 구성하였다. 또한 2차원 상의 특정 정서 상태가 여러 개의 정서에 중첩되는 경우, 정서에 소속될 확률을 사용한 룰렛휠 방법을 사용하여 하나의 정서를 선택하는 방법을 제안하였다. 제안한 방법을 사용하여 텍스트에서 정서 단어를 추출하여 텍스트를 정서로 분류할 수 있다.
최근에 사용자에 의한 대량의 텍스트 데이터가 발생하면서 사용자의 정보, 의견 등을 분석하는 오피니언 마이닝이 중요하게 부각되고 있다. 오피니언 마이닝 중 특히 정서 분석은 제품, 사회적 이슈, 정치인에 대한 호감 등에 대한 개인적 의견이나 정서를 분석하여 긍정, 부정이나 행복, 슬픔 등의 정서를 분석하는 연구 분야이다. 정서 분석을 위해서 정서 차원 이론의 정서가와 각성 차원의 2차원 공간을 사용하고, 이 공간에서 정서가 분포하는 영역을 설정하여 매핑하는 방법을 사용한다. 그러나 기존에는 정서의 분포 영역을 임의로 설정하는 문제가 있었다. 본 논문에서는 이 문제를 해결하기 위해, 한국어 정서 단어 목록을 사용해 사용자 설문을 실시하여 2차원 상에 12개 정서의 분포를 구성하였다. 또한 2차원 상의 특정 정서 상태가 여러 개의 정서에 중첩되는 경우, 정서에 소속될 확률을 사용한 룰렛휠 방법을 사용하여 하나의 정서를 선택하는 방법을 제안하였다. 제안한 방법을 사용하여 텍스트에서 정서 단어를 추출하여 텍스트를 정서로 분류할 수 있다.
Recently, a big text data has been produced by users, an opinion mining to analyze information and opinion about users is becoming a hot issue. Of the opinion mining, especially a sentiment analysis is a study for analysing emotions such as a positive, negative, happiness, sadness, and so on analysi...
Recently, a big text data has been produced by users, an opinion mining to analyze information and opinion about users is becoming a hot issue. Of the opinion mining, especially a sentiment analysis is a study for analysing emotions such as a positive, negative, happiness, sadness, and so on analysing personal opinions or emotions for commercial products, social issues and opinions of politician. To analyze the sentiment analysis, previous studies used a mapping method setting up a distribution of emotions using two dimensions composed of a valence and arousal. But previous studies set up a distribution of emotions arbitrarily. In order to solve the problem, we composed a distribution of 12 emotions through carrying out a survey using Korean emotion words list. Also, certain emotional states on two dimension overlapping multiple emotions, we proposed a selection method with Roulette wheel method using a selection probability. The proposed method shows to classify a text into emotion extracting emotion terms from a text.
Recently, a big text data has been produced by users, an opinion mining to analyze information and opinion about users is becoming a hot issue. Of the opinion mining, especially a sentiment analysis is a study for analysing emotions such as a positive, negative, happiness, sadness, and so on analysing personal opinions or emotions for commercial products, social issues and opinions of politician. To analyze the sentiment analysis, previous studies used a mapping method setting up a distribution of emotions using two dimensions composed of a valence and arousal. But previous studies set up a distribution of emotions arbitrarily. In order to solve the problem, we composed a distribution of 12 emotions through carrying out a survey using Korean emotion words list. Also, certain emotional states on two dimension overlapping multiple emotions, we proposed a selection method with Roulette wheel method using a selection probability. The proposed method shows to classify a text into emotion extracting emotion terms from a text.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
그러나 2차원의 특정 영역이 어떤 정서에 해당하는지에 대한 연구가 부족한 실정이다. 따라서 본 논문에서는 정서의 2차원의 각 영역에 해당하는 정서 분포를 사용자 설문을 통해서 구성하며 룰렛휠 방법을 사용하여 정서를 선택하는 방법을 제안한다.
6처럼 중첩되어 있는 부분이 많기 때문에 하나의 정서를 결정하는 방법이 필요하다. 본 논문에서는 하나의 정서를 선택하기 위해서 확률을 기반으로 한 룰렛휠 방법을 제안한다. 룰렛휠 방법은 한 사건에 대해서 서로 다른 여러 개의 발생 확률이 있을 때, 항상 가장 높은 확률을 선택하는 것이 아니라 룰렛을 돌려서 선택하는 방법이다.
이전 연구들에서 정서의 분포 영역을 임의적으로 결정한 것을 해결하기 위해서, 본 논문에서는 정서 단어를 사용자에게 분류하게 하여 정서를 분류하고 정서의 2차원 공간에서 정서가 분포하는 영역을 결정하고자 하였다.
제안 방법
8의 a의 정서 상태는 ‘만족한’의 정서로 결정할 수 있고, b의 정서 상태는 ‘만족한’ 또는 ‘행복한’으로 결정할 수 있으며, c의 정서 상태는 ‘만족한’, ‘행복한’, ‘흥분된’ 중 하나로 결정할 수 있다. 그러나 b나 c의 정서 상태는 둘 이상의 정서가 중첩되어 있기 때문에 본 논문에서는 중첩되어 있는 정서를 결정하기 위해서 각 정서에 소속될 확률을 사용하였다. 왜냐하면 Fig.
Russell은 정서의 차원을 2차원으로 나누었고 행복, 슬픔, 공포 등의 정서는 이 2차원에서 특정한 위치의 분포를 가진다고 보았다. 그러나 정서의 분포는 개인차와 문화적 차이에 따라 조금씩 다르기 때문에 대략적인 정서 분포만 제안했다.
이를 위해 사용자에게 정서 단어를 정서로 분류하는 과제를 실시하였다. 또한 2차원의 정서 공간의 한 정서 상태를 정서로 분류하는 과정에서, 정서 분포가 중첩될 때 소속될 확률을 사용한 룰렛휠 방법을 사용하여 하나의 정서가 선택되게 하였다.
본 논문에서 제안한 방법을 사용하여 텍스트 데이터에서 정서가, 각성 차원으로 이루어진 정서 단어를 추출하여 텍스트를 특정 정서로 분류하는 오피니언 마이닝과 정서 분석에 적용할 수 있다.
본 논문에서는 정서가, 각성의 2차원의 정서 공간을 12개의 정서 분포로 분류하였다. 이를 위해 사용자에게 정서 단어를 정서로 분류하는 과제를 실시하였다.
유사한 정서가 없으면 ‘분류할 수 없음’을 선택하게 하였다. 설문 후 50명이 분류한 정서를 각각 합산하여 각 정서 단어의 분류한 정도를 비율로 계산하였다. 예를 들어, ‘매료되다’라는 정서 단어의 분류 결과는 ‘흥분된’, ‘행복한’, ‘만족한’, ‘분류할 수 없음’이 각각 30.
73)였다. 설문에 소요된 시간은 약 40분이었으며 참가자는 자율적인 신청을 받아 설문에 참여하게 하였으며, 설문이 완료된 후 문화상품권으로 보상하였다.
본 논문에서는 정서가, 각성의 2차원의 정서 공간을 12개의 정서 분포로 분류하였다. 이를 위해 사용자에게 정서 단어를 정서로 분류하는 과제를 실시하였다. 또한 2차원의 정서 공간의 한 정서 상태를 정서로 분류하는 과정에서, 정서 분포가 중첩될 때 소속될 확률을 사용한 룰렛휠 방법을 사용하여 하나의 정서가 선택되게 하였다.
설문 수행 절차는 다음과 같다. 참가자에게 한국어 정서 단어 목록 434개를 순서대로 제시하였고 각 정서 단어를 Russell의 정서 원형 모형에서 선정한 12개의 정서 중 가장 유사한 의미의 정서 하나로 분류하게 하였다. 유사한 정서가 없으면 ‘분류할 수 없음’을 선택하게 하였다.
대상 데이터
정서가는 긍정, 부정의 개념이기 때문에 양수, 음수의 개념으로 정규화하였고, 각성은 완전히 각성이 낮은 상태는 0이지 음수가 아니기 때문에 0에서 2로 정규화하였다. 434개 정서 단어를 하나의 정서로 분류하기 위해서 Russell의 정서 원형 모형에서 12개의 정서를 선정하였다. 선정한 정서는 ‘흥분된’, ‘행복한’, ‘만족한’, ‘차분한’, ‘피곤한’, ‘우울한’, ‘슬픈’, ‘혐오스런’, ‘화난’, ‘불안한’, ‘무서운’, ‘놀란’이었고, ‘각성된’, ‘고조된’, ‘평온한’, ‘긴장을 푼’, ‘무기력한’, ‘속상한’, ‘스트레스 받는’, ‘긴장한’은 다른 정서와 유사하여 구분하기 어려울 것으로 판단되어서 정서에서 제외하였다.
사용된 재료는 박인조와 민경환(2005)의 한국어 정서 단어 목록이다. 이것은 한국어 정서 단어 434개를 선정하여 쾌-불쾌, 활성화 차원의 7점 척도로 평정한 것이다.
참가자는 학부생 50명으로 구성되었다. 남성이 20명, 여성이 30명이었으며 평균나이는 25.
이론/모형
식 1로부터 정서를 결정하기 위해서 룰렛휠 방법을 사용하였다(Fig. 9). 따라서 중첩된 영역에서 발생 확률이 높은 ‘행복한’의 정서가 선택될 확률이 크며, 발생 확률이 낮은 ‘흥분된’의 정서도 선택될 수 있다.
성능/효과
이것은 한국어 정서 단어 434개를 선정하여 쾌-불쾌, 활성화 차원의 7점 척도로 평정한 것이다. 2.1절에서 살펴본 바와 같이 쾌-불쾌 차원은 정서가 차원으로, 활성화 차원은 각성 차원으로 볼 수 있다. 이후의 계산 편의를 위하여 한국어 정서 단어 목록의 정서가 차원은 [-1, +1], 각성 차원은 [0, +2]로 정규화하였다.
이 결과를 통해서 한국어 정서 단어에 있어서 ‘화난’ 등의 정서 단어는 많고 ‘차분한’, ‘피곤한’, ‘공포’ 등의 정서 단어는 적음을 예상할 수 있다.
이 결과를 통해서 한국어 정서 단어에 있어서 ‘화난’ 등의 정서 단어는 많고 ‘차분한’, ‘피곤한’, ‘공포’ 등의 정서 단어는 적음을 예상할 수 있다. 이를 통해 Fig 2의 정서 원형 모형 상에 위치한 정서들이 정서가, 각성의 2차원의 공간상에서 차지하는 영역의 분포를 좀 더 정확히 알 수 있었다.
질의응답
핵심어
질문
논문에서 추출한 답변
정서 분석은 어떤 연구 분야인가?
이러한 오피니언 마이닝 중에서도 정서 분석 (sentiment analysis)은 제품, 사회적 이슈, 정치인에 대한 호감 등에 대한 개인의 의견이나 정서를 분석하여 긍정/부정이나 행복, 슬픔 등의 정서로 분석하는 연구 분야이다. 특히 SNS의 발달로 사용자들이 자신의 의견을 자유롭게 표출할 수 있게 됨에 따라 사용자의 정서 분석은 제품의 마케팅, 기업의 이미지 개선 등의 용도로 이용할 수도 있고 사회적 이슈나 정치인에 대한 의견 등에도 이용할 수 있으며 그 중요성이 점점 커지고 있다.
본 연구에서 정서의 분포 영역을 임의로 설정하는 문제를 해결하기 위해 제안한 방법은?
그러나 기존에는 정서의 분포 영역을 임의로 설정하는 문제가 있었다. 본 논문에서는 이 문제를 해결하기 위해, 한국어 정서 단어 목록을 사용해 사용자 설문을 실시하여 2차원 상에 12개 정서의 분포를 구성하였다. 또한 2차원 상의 특정 정서 상태가 여러 개의 정서에 중첩되는 경우, 정서에 소속될 확률을 사용한 룰렛휠 방법을 사용하여 하나의 정서를 선택하는 방법을 제안하였다. 제안한 방법을 사용하여 텍스트에서 정서 단어를 추출하여 텍스트를 정서로 분류할 수 있다.
오피니언 마이닝은 어떤 분야인가?
특히 트위터, 페이스북 등 사회 연결망 서비스(social network service; SNS)에서 발생하는 데이터의 양도 기하급수적으로 증가하고 있다. 오피니언 마이닝은 이러한 대량의 데이터 중에서 사용자의 쇼핑 정보, 구매 패턴 등 사용자 정보를 분석해서 제품에 대한 긍정/부정 등의 의견을 분석하여 마케팅 등에 활용하기 위해 의미 있는 사용자 정보를 추출해 내는 연구 분야이다. 특히 SNS의 발달과 함께 SNS나 웹 커뮤니티 등에서 발생하는 사용자의 실시간 의견 정보를 추출하는 것도 포함한다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.