소설, 블로그, 채팅 메시지, 상품평 등의 텍스트는 전반적인 정서의 흐름을 가지고 있다. 텍스트 간의 정서 흐름의 유사도를 비교하면 유사한 정서 흐름을 갖는 텍스트를 분류할 수 있고, 상품 추천이나 의견 수집 등에 활용할 수 있다. 본 논문에서는 텍스트에서 정서 단어를 순차적으로 추출하고 쾌-불쾌, 활성화의 2차원으로 분석하여 텍스트의 정서 흐름을 파악하였다. 또한 텍스트의 순차적인 흐름을 시간 차원으로 설정하여 텍스트의 전반적인 정서 흐름인 '지배 정서(dominant emotion)'를 파악하기 위하여 쾌-불쾌, 활성화, 시간의 3차원 공간에서 정서 흐름을 탐색하였다. 또한 이 3차원 공간 안에서 유클리드 거리를 사용하여 지배 정서 흐름의 유사도를 계산함으로써 유사한 정서 흐름을 가지는 텍스트를 분류하는 방법을 제안하였다. 제안한 방법을 통해 한국 근대 단편 소설들을 분석하여 지배 정서를 분석하였고 유사한 지배 정서를 가지는 소설들을 분류하였다.
소설, 블로그, 채팅 메시지, 상품평 등의 텍스트는 전반적인 정서의 흐름을 가지고 있다. 텍스트 간의 정서 흐름의 유사도를 비교하면 유사한 정서 흐름을 갖는 텍스트를 분류할 수 있고, 상품 추천이나 의견 수집 등에 활용할 수 있다. 본 논문에서는 텍스트에서 정서 단어를 순차적으로 추출하고 쾌-불쾌, 활성화의 2차원으로 분석하여 텍스트의 정서 흐름을 파악하였다. 또한 텍스트의 순차적인 흐름을 시간 차원으로 설정하여 텍스트의 전반적인 정서 흐름인 '지배 정서(dominant emotion)'를 파악하기 위하여 쾌-불쾌, 활성화, 시간의 3차원 공간에서 정서 흐름을 탐색하였다. 또한 이 3차원 공간 안에서 유클리드 거리를 사용하여 지배 정서 흐름의 유사도를 계산함으로써 유사한 정서 흐름을 가지는 텍스트를 분류하는 방법을 제안하였다. 제안한 방법을 통해 한국 근대 단편 소설들을 분석하여 지배 정서를 분석하였고 유사한 지배 정서를 가지는 소설들을 분류하였다.
The text such as stories, blogs, chat, message and reviews have the overall emotional flow. It can be classified to the text having similar emotional flow if we compare the similarity between texts, and it can be used such as recommendations and opinion collection. In this paper, we extract emotion ...
The text such as stories, blogs, chat, message and reviews have the overall emotional flow. It can be classified to the text having similar emotional flow if we compare the similarity between texts, and it can be used such as recommendations and opinion collection. In this paper, we extract emotion terms from the text sequentially and analysis emotion terms in the pleasantness-unpleasantness and activation dimension in order to identify the emotional flow of the text. To analyze the 'dominant emotion' which is the overall emotional flow in the text, we add the time dimension as sequential flow of the text, and analyze the emotional flow in three dimensional space: pleasantness-unpleasantness, activation and time. Also, we suggested that a classification method to compute similarity of the emotional flow in the text using the Euclidean distance in three dimensional space. With the proposed method, we analyze the dominant emotion in korean modern short stories and classify them to similar dominant emotion.
The text such as stories, blogs, chat, message and reviews have the overall emotional flow. It can be classified to the text having similar emotional flow if we compare the similarity between texts, and it can be used such as recommendations and opinion collection. In this paper, we extract emotion terms from the text sequentially and analysis emotion terms in the pleasantness-unpleasantness and activation dimension in order to identify the emotional flow of the text. To analyze the 'dominant emotion' which is the overall emotional flow in the text, we add the time dimension as sequential flow of the text, and analyze the emotional flow in three dimensional space: pleasantness-unpleasantness, activation and time. Also, we suggested that a classification method to compute similarity of the emotional flow in the text using the Euclidean distance in three dimensional space. With the proposed method, we analyze the dominant emotion in korean modern short stories and classify them to similar dominant emotion.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
가설 설정
단위 시간을 너무 많게 설정하면 정서의 변화가 복잡하여 전체적인 정서 흐름을 분석하기 어렵고, 반대로 너무 적게 설정하면 정서의 변화가 거의 없어서 정서 흐름을 분석하기 어렵다. 따라서 본 논문에서의 단위 시간 설정은 경험적인 방법에 의해서 해당 텍스트의 정서 흐름을 잘 표현한다고 판단되는 것으로 설정하였다.
정서 단어가 부정어에 의해 수식될 경우 쾌-불쾌 극성이 바뀌지만, 정서 단어에 부정어가 쓰인 비율이 전체 텍스트에서 매우 낮기 때문에 본 논문에서는 정서 단어의 부정에 관해서는 고려하지 않았다.
제안 방법
따라서 본 논문에서는 텍스트에 포함된 정서 단어를 추출하고 정서의 차원 이론(dimensional theory of emotion)을 사용하여 정서 단어를 하위 차원으로 분리한 후 정서를 분석하고, 텍스트 간 정서 흐름의 유사도를 계산하여 유사한 정서 흐름을 가지는 텍스트를 분류하는 방법을 제안한다. 이 방법을 한국 근대 단편 소설에 적용하여 소설들의 정서 흐름을 분석하고 유사한 정서 흐름을 가지는 소설을 분류하는데 적용하였다.
따라서 본 논문에서는 텍스트에 포함된 정서 단어를 추출하고 정서의 차원 이론(dimensional theory of emotion)을 사용하여 정서 단어를 하위 차원으로 분리한 후 정서를 분석하고, 텍스트 간 정서 흐름의 유사도를 계산하여 유사한 정서 흐름을 가지는 텍스트를 분류하는 방법을 제안한다. 이 방법을 한국 근대 단편 소설에 적용하여 소설들의 정서 흐름을 분석하고 유사한 정서 흐름을 가지는 소설을 분류하는데 적용하였다.
이 연구에서 정서 단어 목록의 쾌-불쾌 평정은 학부생 123명에게 설문을 실시하였으며, 쾌 감정 경험과 불쾌 감정 경험에 대한 상황적인 예를 설명하고 단어들이 그러한 정도를 얼마나 잘 함축하고 있는지를 ‘매우 불쾌(1)’에서 ‘매우 쾌(7)’까지 7점 척도에서 평정하게 하였다.
또한 활성화 평정은 다른 학부생 집단 123명에게 설문을 실시하였으며, 활성화 경험과 비활성화 경험에 대한 상황적인 예를 설명하고 단어들이 그러한 정도를 얼마나 잘 함축하고 있는지를 ‘매우 비활성화(1)’에서 ‘매우 활성화(7)’까지 7점 척도에서 평정하게 하였다.
정서 흐름 분석을 위해서는 정서 원형 모형에 사상하여 6가지 기본 정서 중에서 가장 유사한 정서로 변환한다(h). 그 뒤 출력으로 얻은 6가지 기본 정서들을 분석하여 텍스트의 지배 정서와 정서 흐름을 분석한다(i).
이처럼 본 논문에서 제안하는 정서의 계산 모델은 텍스트 입력을 받아 정서 단어를 쾌-불쾌, 활성화 차원으로 분리하여 표상하고 정서에 관한 비교, 계산 등을 수행한 후, 6가지 기본 정서에 사상하는 과정을 거쳐 정서를 출력하는 절차를 거친다. 정서 사상 공간의 설명은 이후의 3.
따라서 본 논문에서는 정서 원형 모형의 개념적 지도를 바탕으로 6가지 기본 정서의 위치를 정하였다. 이를 바탕으로 정서 차원 공간에 위치한 정서 단어들이 6가지 기본 정서 중에서 유클리드 거리가 가장 가까운 정서를 선택하도록 하였다.
따라서 본 논문에서는 정서 원형 모형의 개념적 지도를 바탕으로 6가지 기본 정서의 위치를 정하였다. 이를 바탕으로 정서 차원 공간에 위치한 정서 단어들이 6가지 기본 정서 중에서 유클리드 거리가 가장 가까운 정서를 선택하도록 하였다. 예를 들면, 정서 단어 ‘겁나다’와 가장 가까운 정서는 ‘공포’이고, 정서 단어 ‘매료되다’와 가장 가까운 정서는 ‘행복’이다.
그 뒤 ‘감자’와 나머지 42편 소설 간 정서 흐름의 유사도를 비교하였고, ‘감자’와 가장 유사도가 높은 소설과 낮은 소설의 분석 결과를 나타냈다.
데이터는 형태소를 분석하여 체언과 용언의 기본형을 추출하여 전처리를 하였다. 이를 정서 단어 데이터베이스와 매칭하여 텍스트의 정서 단어들을 추출하였다.
데이터는 형태소를 분석하여 체언과 용언의 기본형을 추출하여 전처리를 하였다. 이를 정서 단어 데이터베이스와 매칭하여 텍스트의 정서 단어들을 추출하였다.
본 논문에서는 텍스트에서 정서 단어를 추출하여 쾌-불쾌, 활성화, 시간의 3차원으로 분석하여 텍스트 간의 지배 정서 흐름의 유사도를 비교하였다. 정보 입력, 정서의 비교/계산, 정서 출력을 갖는 정서의 계산 모형을 제안하였는데, 정서 차원 공간과 정서 사상 공간으로 이루어졌다.
본 논문에서는 텍스트에서 정서 단어를 추출하여 쾌-불쾌, 활성화, 시간의 3차원으로 분석하여 텍스트 간의 지배 정서 흐름의 유사도를 비교하였다. 정보 입력, 정서의 비교/계산, 정서 출력을 갖는 정서의 계산 모형을 제안하였는데, 정서 차원 공간과 정서 사상 공간으로 이루어졌다. 정서 차원 공간은 쾌-불쾌, 활성화, 시간의 3차원 공간에서 정서 흐름의 유사도 비교, 계산을 수행할 수 있으며, 정서 사상 공간은 정서 차원 공간을 정서 원형 모형에 기반한 6가지 기본 정서에 사상함으로써 외적인 정서 상태의 출력을 가질 수 있는 공간이다.
여러 텍스트 간의 지배 정서 흐름의 유사도를 유클리드 거리에 기반하여 계산하는 방법을 제안하였다. 제안한 방법을 한국 근대 단편 소설에 적용하여 지배 정서를 분석하였고 지배 정서가 가장 유사한 텍스트를 분류하였다.
여러 텍스트 간의 지배 정서 흐름의 유사도를 유클리드 거리에 기반하여 계산하는 방법을 제안하였다. 제안한 방법을 한국 근대 단편 소설에 적용하여 지배 정서를 분석하였고 지배 정서가 가장 유사한 텍스트를 분류하였다.
본 논문의 중요한 특징과 의미는 다음과 같다. 첫째, 심리학 분야의 정서 연구에서 많이 사용하는 정서의 차원 이론을 사용하여 정서 흐름의 유사도를 계산하는 인공지능적 연구에 응용하였다. 둘째, 주관적인 정서 연구를 수리적으로 형식화하여 입출력을 정의한 정보처리적 관점에서의 정서의 계산 모형을 제안하였다.
첫째, 심리학 분야의 정서 연구에서 많이 사용하는 정서의 차원 이론을 사용하여 정서 흐름의 유사도를 계산하는 인공지능적 연구에 응용하였다. 둘째, 주관적인 정서 연구를 수리적으로 형식화하여 입출력을 정의한 정보처리적 관점에서의 정서의 계산 모형을 제안하였다. 마지막으로 유클리드 거리에 기반한 지배 정서의 유사도를 계산하여 전반적인 정서의 흐름이 유사한 텍스트를 분류함으로써 주관적인 정서의 변화와 흐름을 계량화하여 정서간의 유사함을 비교할 수 있는 가능성을 제시하였다.
또한 본 논문에서 정서 흐름 분석과 비교를 위해서 시간 차원을 축소하여 단위 시간을 정규화하였는데, 여기서 전체 텍스트를 고정된 크기의 단위 시간을 사용하여 균등한 분할을 하였다. 고정된 크기의 단위 시간을 사용하였을 때의 문제점은 텍스트 내에 다른 빈도로 발생한 정서를 제대로 반영하지 못하는 점이 있다.
대상 데이터
이 연구에서는 서상규(1998)의 연세대학교 언어정보개발연구원의 ‘현대 한국어 어휘 빈도’ 자료집을 기초로 하여 최근 10년 동안에 출판된 신문, 잡지, 소설, 수필, 취미, 교양, 수기, 전기, 국어 교과서, 희곡, 시나리오 등을 대상으로 최종적으로 434개의 정서 단어 목록을 작성하였다.
Russell과 Barrett(1999)의 정서 원형 모형에서 정서의 쾌-불쾌, 활성화 차원만 다루고 있으므로, 본 논문에서는 정서 단어의 차원 선정에 있어서 박인조와 민경환(2005)의 연구의 결과인 한국어 정서 단어 목록에서 쾌-불쾌와 활성화 차원만 사용하여 총 434개의 정서 단어 데이터베이스를 구축하였다(표 1). 박인조와 민경환(2005)의 정서 단어 목록의 각 차원 값은 1에서 7점 사이의 값으로부터 +1에서 -1 사이의 연속된 값으로 정규화하였는데, 이것은 향후의 정서 흐름의 유사도 계산의 편이를 위해서이다.
제안된 방법을 통하여 텍스트의 정서 단어 추출을 통한 정서 분석과 비교를 수행하였다. 사용된 텍스트 데이터는 한국 근대 단편 소설 43편으로 기승전결이 분명하여 정서 흐름을 명확히 알 수 있고 한 편당 내용이 짧아서 분석에 많은 시간이 걸리지 않으며 저작권이 만료되어 원문을 수집하고 사용하기 용이하기 때문에 선택했다.
텍스트 간의 지배 정서의 유사도를 분류하기 위해서 소설 ‘감자’와 나머지 42편의 소설을 비교하였다.
데이터처리
제안된 방법을 통하여 텍스트의 정서 단어 추출을 통한 정서 분석과 비교를 수행하였다. 사용된 텍스트 데이터는 한국 근대 단편 소설 43편으로 기승전결이 분명하여 정서 흐름을 명확히 알 수 있고 한 편당 내용이 짧아서 분석에 많은 시간이 걸리지 않으며 저작권이 만료되어 원문을 수집하고 사용하기 용이하기 때문에 선택했다.
이론/모형
이 연구들에서 사용된 정서를 분류하는 심리학 이론으로는 주로 Plutchik의 정서 팽이(wheel of emotions) 모형을 사용한다(강상우, 박홍민과 서정연, 2010; 윤애선과 권혁철, 2010). 정서 팽이 모형은 정서를 8개의 기본 군으로 분류하고 이것을 4개의 대립 쌍으로 설정하며 정서의 강도를 설정하는데, 공학적인 응용이 쉽기 때문에 많이 사용된다.
형태소 분석은 강승식(2002)의 형태소 분석 라이브러리(KLT 버전 2.10b)를 사용하였다. KLT는 한국어 형태소 분석, 자동색인(색인어 추출), 한글 맞춤법 검사/교정, 복합명사 분해, 한글 자동 띄어쓰기 등의 기능을 제공하며 32비트용 윈도우 및 리눅스에서 동작하며 분석 정확도가 높고 속도가 빠른 장점이 있다.
성능/효과
둘째, 주관적인 정서 연구를 수리적으로 형식화하여 입출력을 정의한 정보처리적 관점에서의 정서의 계산 모형을 제안하였다. 마지막으로 유클리드 거리에 기반한 지배 정서의 유사도를 계산하여 전반적인 정서의 흐름이 유사한 텍스트를 분류함으로써 주관적인 정서의 변화와 흐름을 계량화하여 정서간의 유사함을 비교할 수 있는 가능성을 제시하였다.
본 논문에서 제안한 방법을 응용하여 블로그, 소셜 네트워크 서비스, 채팅 메시지, 휴대 전화 단문 메시지 등에서 정서를 파악하여 사용자의 감성에 맞는 서비스를 제공하는 감성 마케팅에 적용할 수 있으며 쇼핑몰 상품평, 게시판 댓글의 의견 파악 등 오피니언 마이닝에 사용할 수 있다. 또한 소설, 영화 시나리오 등 문학 작품의 정서 흐름을 파악하여 사용자가 원하는 정서의 문학 작품을 추천하거나 검색하는 서비스에 응용할 수 있다.
이를 보안하기 위해서는 텍스트의 전반부와 후반부에 서로 다른 크기의 가변적인 크기의 단위 시간으로 분할하여 매칭된 정서의 빈도를 고려하여 분석하는 것이 도움이 된다. 그러나 본 논문의 주요한 점은 서로 다른 텍스트들의 정서 흐름의 비교와 분류를 하는 것이고, 텍스트들이 각각 매칭된 정서 단어의 빈도가 다르므로 고정된 크기의 단위 시간을 사용하여야 서로 다른 텍스트들의 정서 흐름을 비교할 수 있었다.
또한 본 논문에서 한 단위 시간 안에 발생한 여러 정서는 평균하여 하나의 정서로 사상하는 방법을 사용하였는데, 예를 들어 한 단위 시간 안에 “슬픔”과 “놀람”의 정서가 같은 빈도로 발생하였다면 (그림 6)의 정서 사상 공간 안에서 두 정서의 평균인 “화남”으로 사상된 결과를 보일 수 있다. 그러나 한 단위 시간 안에 여러 개의 정서가 매칭되어 복잡한 흐름을 나타낼 때, 이를 평균한 시간 차원의 정규화를 통해서 정서 흐름을 단순화 하였고, 텍스트에 전반적으로 작용하는 주요한 정서 흐름을 파악할 수 있었다.
본 논문에서는 텍스트 간의 지배 정서 흐름의 유사도를 계산하기 위하여 정서 차원 공간에서 유클리드 거리에 기반한 정서의 거리를 계산하는 방법을 제안하였으나, 유클리드 거리뿐만 아니라 문서의 유사도 계산에 많이 사용하는 코사인 유사도(cosine similarity)나 외곽선의 유사도를 계산하는 외곽선 모멘트(contour moment) 등의 여러 다른 유사도를 계산하는 알고리즘을 적용할 수 있다.
후속연구
또한 정서 사상 공간에서 사용한 6가지의 기본 정서를 확장하면 좀 더 다양하고 구체적인 정서를 출력으로 가질 수 있을 것이다.
본 논문에서 사용한 정서 흐름 분석 방법의 정확도 개선을 위해서 사람이 소설을 읽고 정서 흐름을 평정한 것과의 비교가 필요하다.
질의응답
핵심어
질문
논문에서 추출한 답변
지배 정서란 무엇인가?
본 논문에서는 텍스트에서 정서 단어를 순차적으로 추출하고 쾌-불쾌, 활성화의 2차원으로 분석하여 텍스트의 정서 흐름을 파악하였다. 또한 텍스트의 순차적인 흐름을 시간 차원으로 설정하여 텍스트의 전반적인 정서 흐름인 '지배 정서(dominant emotion)'를 파악하기 위하여 쾌-불쾌, 활성화, 시간의 3차원 공간에서 정서 흐름을 탐색하였다. 또한 이 3차원 공간 안에서 유클리드 거리를 사용하여 지배 정서 흐름의 유사도를 계산함으로써 유사한 정서 흐름을 가지는 텍스트를 분류하는 방법을 제안하였다.
텍스트를 정서적으로 분류하기 위해 필요한 것은?
텍스트를 정서적으로 분류하기 위해서는 텍스트를 형태소 분석하여 단어를 추출하고 그 단어의 정서적 속성을 부여하여 정서적 분류를 한다. 주요한 정서적 속성으로는 긍정/부정 등의 극성을 사용한다(김정호 등, 2010; 윤애선과 권혁철, 2010;황재원과 고영중, 2008).
일반적인 텍스트에 포함되어 있는 정서 단어 분석 방법이 가진 장점은 무엇인가?
이러한 방법의 장점은 컴퓨터 비전이나 음성 인식으로 정서를 인식하는 것보다 텍스트에 포함된 정서 단어의 추출이 쉽고 구체적인 정서를 나타내는 정서 단어가 직접 포함되어 있기 때문에 글쓴이의 정서적 의도를 파악할 수 있다. 또한 최근에는 트위터, 페이스북, 상품평 등의 폭발적인 데이터 증가에 따라 대량의 텍스트를 처리해야 할 필요성이 있는데, 컴퓨터 비전, 음성 인식보다 계산량이 적기 때문에 대량의 텍스트를 빠른 시간 안에 분석할 수 있다.
이 논문을 인용한 문헌
저자의 다른 논문 :
활용도 분석정보
상세보기
다운로드
내보내기
활용도 Top5 논문
해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다. 더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.