[논문]사용자의 정서 단어 분류에 기반한 정서 분류와 선택 방법

이신영; 함준석; 고일주

사용자의 정서 단어 분류에 기반한 정서 분류와 선택 방법
A Classification and Selection Method of Emotion Based on Classifying Emotion Terms by Users 원문보기

감성과학 = Science of emotion & sensibility, v.15 no.1, 2012년, pp.97 - 104

이신영 (숭실대학교 미디어학과) , 함준석 (숭실대학교 미디어학과) , 고일주 (숭실대학교 미디어학과)

초록
AI-Helper

최근에 사용자에 의한 대량의 텍스트 데이터가 발생하면서 사용자의 정보, 의견 등을 분석하는 오피니언 마이닝이 중요하게 부각되고 있다. 오피니언 마이닝 중 특히 정서 분석은 제품, 사회적 이슈, 정치인에 대한 호감 등에 대한 개인적 의견이나 정서를 분석하여 긍정, 부정이나 행복, 슬픔 등의 정서를 분석하는 연구 분야이다. 정서 분석을 위해서 정서 차원 이론의 정서가와 각성 차원의 2차원 공간을 사용하고, 이 공간에서 정서가 분포하는 영역을 설정하여 매핑하는 방법을 사용한다. 그러나 기존에는 정서의 분포 영역을 임의로 설정하는 문제가 있었다. 본 논문에서는 이 문제를 해결하기 위해, 한국어 정서 단어 목록을 사용해 사용자 설문을 실시하여 2차원 상에 12개 정서의 분포를 구성하였다. 또한 2차원 상의 특정 정서 상태가 여러 개의 정서에 중첩되는 경우, 정서에 소속될 확률을 사용한 룰렛휠 방법을 사용하여 하나의 정서를 선택하는 방법을 제안하였다. 제안한 방법을 사용하여 텍스트에서 정서 단어를 추출하여 텍스트를 정서로 분류할 수 있다.

Abstract ▼ AI-Helper

Recently, a big text data has been produced by users, an opinion mining to analyze information and opinion about users is becoming a hot issue. Of the opinion mining, especially a sentiment analysis is a study for analysing emotions such as a positive, negative, happiness, sadness, and so on analysing personal opinions or emotions for commercial products, social issues and opinions of politician. To analyze the sentiment analysis, previous studies used a mapping method setting up a distribution of emotions using two dimensions composed of a valence and arousal. But previous studies set up a distribution of emotions arbitrarily. In order to solve the problem, we composed a distribution of 12 emotions through carrying out a survey using Korean emotion words list. Also, certain emotional states on two dimension overlapping multiple emotions, we proposed a selection method with Roulette wheel method using a selection probability. The proposed method shows to classify a text into emotion extracting emotion terms from a text.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

그러나 2차원의 특정 영역이 어떤 정서에 해당하는지에 대한 연구가 부족한 실정이다. 따라서 본 논문에서는 정서의 2차원의 각 영역에 해당하는 정서 분포를 사용자 설문을 통해서 구성하며 룰렛휠 방법을 사용하여 정서를 선택하는 방법을 제안한다.
6처럼 중첩되어 있는 부분이 많기 때문에 하나의 정서를 결정하는 방법이 필요하다. 본 논문에서는 하나의 정서를 선택하기 위해서 확률을 기반으로 한 룰렛휠 방법을 제안한다. 룰렛휠 방법은 한 사건에 대해서 서로 다른 여러 개의 발생 확률이 있을 때, 항상 가장 높은 확률을 선택하는 것이 아니라 룰렛을 돌려서 선택하는 방법이다.
이전 연구들에서 정서의 분포 영역을 임의적으로 결정한 것을 해결하기 위해서, 본 논문에서는 정서 단어를 사용자에게 분류하게 하여 정서를 분류하고 정서의 2차원 공간에서 정서가 분포하는 영역을 결정하고자 하였다.

제안 방법

8의 a의 정서 상태는 ‘만족한’의 정서로 결정할 수 있고, b의 정서 상태는 ‘만족한’ 또는 ‘행복한’으로 결정할 수 있으며, c의 정서 상태는 ‘만족한’, ‘행복한’, ‘흥분된’ 중 하나로 결정할 수 있다. 그러나 b나 c의 정서 상태는 둘 이상의 정서가 중첩되어 있기 때문에 본 논문에서는 중첩되어 있는 정서를 결정하기 위해서 각 정서에 소속될 확률을 사용하였다. 왜냐하면 Fig.
Russell은 정서의 차원을 2차원으로 나누었고 행복, 슬픔, 공포 등의 정서는 이 2차원에서 특정한 위치의 분포를 가진다고 보았다. 그러나 정서의 분포는 개인차와 문화적 차이에 따라 조금씩 다르기 때문에 대략적인 정서 분포만 제안했다.
이를 위해 사용자에게 정서 단어를 정서로 분류하는 과제를 실시하였다. 또한 2차원의 정서 공간의 한 정서 상태를 정서로 분류하는 과정에서, 정서 분포가 중첩될 때 소속될 확률을 사용한 룰렛휠 방법을 사용하여 하나의 정서가 선택되게 하였다.
본 논문에서 제안한 방법을 사용하여 텍스트 데이터에서 정서가, 각성 차원으로 이루어진 정서 단어를 추출하여 텍스트를 특정 정서로 분류하는 오피니언 마이닝과 정서 분석에 적용할 수 있다.
본 논문에서는 정서가, 각성의 2차원의 정서 공간을 12개의 정서 분포로 분류하였다. 이를 위해 사용자에게 정서 단어를 정서로 분류하는 과제를 실시하였다.
유사한 정서가 없으면 ‘분류할 수 없음’을 선택하게 하였다. 설문 후 50명이 분류한 정서를 각각 합산하여 각 정서 단어의 분류한 정도를 비율로 계산하였다. 예를 들어, ‘매료되다’라는 정서 단어의 분류 결과는 ‘흥분된’, ‘행복한’, ‘만족한’, ‘분류할 수 없음’이 각각 30.
73)였다. 설문에 소요된 시간은 약 40분이었으며 참가자는 자율적인 신청을 받아 설문에 참여하게 하였으며, 설문이 완료된 후 문화상품권으로 보상하였다.
본 논문에서는 정서가, 각성의 2차원의 정서 공간을 12개의 정서 분포로 분류하였다. 이를 위해 사용자에게 정서 단어를 정서로 분류하는 과제를 실시하였다. 또한 2차원의 정서 공간의 한 정서 상태를 정서로 분류하는 과정에서, 정서 분포가 중첩될 때 소속될 확률을 사용한 룰렛휠 방법을 사용하여 하나의 정서가 선택되게 하였다.
설문 수행 절차는 다음과 같다. 참가자에게 한국어 정서 단어 목록 434개를 순서대로 제시하였고 각 정서 단어를 Russell의 정서 원형 모형에서 선정한 12개의 정서 중 가장 유사한 의미의 정서 하나로 분류하게 하였다. 유사한 정서가 없으면 ‘분류할 수 없음’을 선택하게 하였다.

대상 데이터

정서가는 긍정, 부정의 개념이기 때문에 양수, 음수의 개념으로 정규화하였고, 각성은 완전히 각성이 낮은 상태는 0이지 음수가 아니기 때문에 0에서 2로 정규화하였다. 434개 정서 단어를 하나의 정서로 분류하기 위해서 Russell의 정서 원형 모형에서 12개의 정서를 선정하였다. 선정한 정서는 ‘흥분된’, ‘행복한’, ‘만족한’, ‘차분한’, ‘피곤한’, ‘우울한’, ‘슬픈’, ‘혐오스런’, ‘화난’, ‘불안한’, ‘무서운’, ‘놀란’이었고, ‘각성된’, ‘고조된’, ‘평온한’, ‘긴장을 푼’, ‘무기력한’, ‘속상한’, ‘스트레스 받는’, ‘긴장한’은 다른 정서와 유사하여 구분하기 어려울 것으로 판단되어서 정서에서 제외하였다.
사용된 재료는 박인조와 민경환(2005)의 한국어 정서 단어 목록이다. 이것은 한국어 정서 단어 434개를 선정하여 쾌-불쾌, 활성화 차원의 7점 척도로 평정한 것이다.
참가자는 학부생 50명으로 구성되었다. 남성이 20명, 여성이 30명이었으며 평균나이는 25.

이론/모형

식 1로부터 정서를 결정하기 위해서 룰렛휠 방법을 사용하였다(Fig. 9). 따라서 중첩된 영역에서 발생 확률이 높은 ‘행복한’의 정서가 선택될 확률이 크며, 발생 확률이 낮은 ‘흥분된’의 정서도 선택될 수 있다.

성능/효과

이것은 한국어 정서 단어 434개를 선정하여 쾌-불쾌, 활성화 차원의 7점 척도로 평정한 것이다. 2.1절에서 살펴본 바와 같이 쾌-불쾌 차원은 정서가 차원으로, 활성화 차원은 각성 차원으로 볼 수 있다. 이후의 계산 편의를 위하여 한국어 정서 단어 목록의 정서가 차원은 [-1, +1], 각성 차원은 [0, +2]로 정규화하였다.
이 결과를 통해서 한국어 정서 단어에 있어서 ‘화난’ 등의 정서 단어는 많고 ‘차분한’, ‘피곤한’, ‘공포’ 등의 정서 단어는 적음을 예상할 수 있다.
이 결과를 통해서 한국어 정서 단어에 있어서 ‘화난’ 등의 정서 단어는 많고 ‘차분한’, ‘피곤한’, ‘공포’ 등의 정서 단어는 적음을 예상할 수 있다. 이를 통해 Fig 2의 정서 원형 모형 상에 위치한 정서들이 정서가, 각성의 2차원의 공간상에서 차지하는 영역의 분포를 좀 더 정확히 알 수 있었다.

질의응답

핵심어	질문	논문에서 추출한 답변
	정서 분석은 어떤 연구 분야인가?	이러한 오피니언 마이닝 중에서도 정서 분석 (sentiment analysis)은 제품, 사회적 이슈, 정치인에 대한 호감 등에 대한 개인의 의견이나 정서를 분석하여 긍정/부정이나 행복, 슬픔 등의 정서로 분석하는 연구 분야이다. 특히 SNS의 발달로 사용자들이 자신의 의견을 자유롭게 표출할 수 있게 됨에 따라 사용자의 정서 분석은 제품의 마케팅, 기업의 이미지 개선 등의 용도로 이용할 수도 있고 사회적 이슈나 정치인에 대한 의견 등에도 이용할 수 있으며 그 중요성이 점점 커지고 있다.
	본 연구에서 정서의 분포 영역을 임의로 설정하는 문제를 해결하기 위해 제안한 방법은?	그러나 기존에는 정서의 분포 영역을 임의로 설정하는 문제가 있었다. 본 논문에서는 이 문제를 해결하기 위해, 한국어 정서 단어 목록을 사용해 사용자 설문을 실시하여 2차원 상에 12개 정서의 분포를 구성하였다. 또한 2차원 상의 특정 정서 상태가 여러 개의 정서에 중첩되는 경우, 정서에 소속될 확률을 사용한 룰렛휠 방법을 사용하여 하나의 정서를 선택하는 방법을 제안하였다. 제안한 방법을 사용하여 텍스트에서 정서 단어를 추출하여 텍스트를 정서로 분류할 수 있다.
	오피니언 마이닝은 어떤 분야인가?	특히 트위터, 페이스북 등 사회 연결망 서비스(social network service; SNS)에서 발생하는 데이터의 양도 기하급수적으로 증가하고 있다. 오피니언 마이닝은 이러한 대량의 데이터 중에서 사용자의 쇼핑 정보, 구매 패턴 등 사용자 정보를 분석해서 제품에 대한 긍정/부정 등의 의견을 분석하여 마케팅 등에 활용하기 위해 의미 있는 사용자 정보를 추출해 내는 연구 분야이다. 특히 SNS의 발달과 함께 SNS나 웹 커뮤니티 등에서 발생하는 사용자의 실시간 의견 정보를 추출하는 것도 포함한다.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증