감성 강도를 고려한 감성 분석 평가집합 구축 Constructing an Evaluation Set for Korean Sentiment Analysis Systems Incorporating the Category and the Strength of Sentiment원문보기
감성 분석은 블로그와 트위터 같은 다양한 소셜 미디어에서 사용자들이 표현하는 감정의 종류를 분석하고 추출하는 연구이다. 현재 감성 분석 연구는 꾸준히 계속되고 있지만, 한국어의 감성 분석 평가 집합은 아직 없다. 본 논문에서는 감성 분석을 평가할 수 있는 평가집합을 구축한다. 평가집합에서는 사용자의 감성에 대한 극성뿐만 아니라 감성의 종류와 강도까지 고려한 평가집합을 구축하였다. 이를 위해 감성의 종류는 긍정에서 7가지의 범주와 부정에서 15가지의 범주를 나누고, 각 범주별로 1~3까지의 강도를 설정하였다. 또한 각 범주에 속하는 어휘에 대해서도 1~3까지의 강도를 설정하였다. 평가집합의 데이터는 다양한 소셜 미디어에서 3,270 문장을 추출하여 구축하였으며, 각 문장에 대해 5 명이 감성의 종류와 강도를 태깅하였다. 구축한 평가집합에서 5명의 일치도는 극성의 경우 93 %, 감성의 종류는 70 %, 강도는 58 % 로 나타났다. 이는 독일어와 스페인어의 평가 집합 보다 일치도가 높게 나타났다. 이 결과는 제안한 평가 집합이 신뢰할 만한 자원으로 다른 감성 분석 시스템의 평가데이터로 사용될 수 있음을 보여준다.
감성 분석은 블로그와 트위터 같은 다양한 소셜 미디어에서 사용자들이 표현하는 감정의 종류를 분석하고 추출하는 연구이다. 현재 감성 분석 연구는 꾸준히 계속되고 있지만, 한국어의 감성 분석 평가 집합은 아직 없다. 본 논문에서는 감성 분석을 평가할 수 있는 평가집합을 구축한다. 평가집합에서는 사용자의 감성에 대한 극성뿐만 아니라 감성의 종류와 강도까지 고려한 평가집합을 구축하였다. 이를 위해 감성의 종류는 긍정에서 7가지의 범주와 부정에서 15가지의 범주를 나누고, 각 범주별로 1~3까지의 강도를 설정하였다. 또한 각 범주에 속하는 어휘에 대해서도 1~3까지의 강도를 설정하였다. 평가집합의 데이터는 다양한 소셜 미디어에서 3,270 문장을 추출하여 구축하였으며, 각 문장에 대해 5 명이 감성의 종류와 강도를 태깅하였다. 구축한 평가집합에서 5명의 일치도는 극성의 경우 93 %, 감성의 종류는 70 %, 강도는 58 % 로 나타났다. 이는 독일어와 스페인어의 평가 집합 보다 일치도가 높게 나타났다. 이 결과는 제안한 평가 집합이 신뢰할 만한 자원으로 다른 감성 분석 시스템의 평가데이터로 사용될 수 있음을 보여준다.
Sentiment analysis is concerned with extracting and analyzing different kinds of user sentiment expressed in a variety of social media such as blog and twitter. Although sentiment analysis techniques are actively studied for these days, evaluation sets are not developed yet for Korean sentiment anal...
Sentiment analysis is concerned with extracting and analyzing different kinds of user sentiment expressed in a variety of social media such as blog and twitter. Although sentiment analysis techniques are actively studied for these days, evaluation sets are not developed yet for Korean sentiment analysis. In this paper, we constructed an evaluation set for Korean sentiment analysis. To evaluate sentiment analysis systems more throughly, each sentence in our evaluation set is tagged with the polarity of the sentiment as well as the category and the strength of the sentiment. We divide kinds of sentiment into 7 positive categories and 15 negative categories. Each category is given the strength of the sentiment from 1 to 3. Our evaluation set consists of 3,270 sentences extracted from various social media. For each sentence, 5 human taggers assigned the category and the strength of the sentiment expressed in the sentence. The ratio of inter-taggers agreement was 93% in the polarity, 70% in the category, 58% in the strength of sentiment. The ratio of inter-taggers agreement our evaluation set is a bit higher than other evaluation sets developed for German and Spanish. This result shows our evaluation set can be used as a reliable resource for the evaluation of sentiment analysis systems.
Sentiment analysis is concerned with extracting and analyzing different kinds of user sentiment expressed in a variety of social media such as blog and twitter. Although sentiment analysis techniques are actively studied for these days, evaluation sets are not developed yet for Korean sentiment analysis. In this paper, we constructed an evaluation set for Korean sentiment analysis. To evaluate sentiment analysis systems more throughly, each sentence in our evaluation set is tagged with the polarity of the sentiment as well as the category and the strength of the sentiment. We divide kinds of sentiment into 7 positive categories and 15 negative categories. Each category is given the strength of the sentiment from 1 to 3. Our evaluation set consists of 3,270 sentences extracted from various social media. For each sentence, 5 human taggers assigned the category and the strength of the sentiment expressed in the sentence. The ratio of inter-taggers agreement was 93% in the polarity, 70% in the category, 58% in the strength of sentiment. The ratio of inter-taggers agreement our evaluation set is a bit higher than other evaluation sets developed for German and Spanish. This result shows our evaluation set can be used as a reliable resource for the evaluation of sentiment analysis systems.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 절에서는 극성 분류뿐만 아니라 세부 감성 분류를 하기 위한 분류 기준과 범주별 강도(1~3)에 대하여 설명한다. 또한, 각 범주별 어휘 목록들을 기술하고 어휘들 사이의 강도(1~3)와 정도 부사어의 강도(1~3)에 대하여 자세히 살펴보고자 한다.
본 연구에서는 문장의 극성만 나타내는 것이 아니라 어떠한 감정을 표현하는지에 대해서도 세밀하게 태깅 하는 평가집합이다. 따라서 분류의 범주가 너무 많으면 태깅하기 어렵고, 너무 적으면 정확히 어떠한 감정을 나타내려고 하는지 분류하기 어렵다.
그러나 아직까지 정도 부사어에 대한 강도의 등급을 정한 연구는 없었다. 본 연구에서는 정도 부사어에 별도로 강도를 주어 감성어휘의 강도와 정도 부사어의 강도를 더하여 사용할 수 있도록 하였다. 이는 시스템의 성격에 따라 가중치를 더 줄 수도 있고, 뺄 수도 있으며 점수로 계산시 강도3= 0.
그러나 아직까지 한국어에 대한 평가 집합은 존재하지 않는다. 이에 본 논문에서는 동양의 정서에 맞는 공자의 분류체계를 바탕으로 한국어에 적합한 감성 분류 체계를 만들고, 이 분류 체계를 바탕으로 극성 분류 뿐만 아니라 세부 감정 분류, 그리고 각 어휘에 대한 강도와 정도 부사어의 강도까지 나타내는 평가 집합을 구축하고자 한다.
제안 방법
2010년 Julia외 2명은 기존의 영어 상품평 말뭉치를 기반으로 다국어 즉, 영어, 독일어, 스페인어의 상품평 말뭉치를 구축하였다. 각 제품의 상품평가에 대한 자질(평가 대상), 자질의 극성, 그리고 강도를 0~3으로 나누었다. 전문가 2명이 태깅하였고, 독일어의 경우, 2명의 극성 일치도가 75.
본 연구에서는 문장의 극성 뿐만 아니라 세부 감성을 분류하고, 감성의 강도를 정하여 평가집합을 구축하였다. 감성의 분류에서 동양의 정서가 잘 표현될 수 있는 공자의 7가지 감성을 기반으로한 김은영의 논문을 바탕으로 긍정의 세부 분류 7가지 즉, 감동, 기쁨, 자신감, 만족, 호감, 공감, 선의로 분류하였으며, 부정의 세부 분류 15가지 즉, 놀람, 두려움, 반감, 분노, 슬픔, 걱정, 그리움, 바람, 불만, 실망, 후회, 미안함, 서먹함, 심심함, 궁금함으로 분류하였다. 또한 분류에 따라 기본 강도를 정하고, 분류 안의 어휘목록들 간의 강도도 정하여 좀더 세밀한 강도를 나타낼 수 있도록 하였다.
반대로 어려운 문장만 있다면 성능은 좋지 않을 것이다. 그래서 난이도 별로 5개의 그룹으로 나누어 평가집합을 구축하였다. 난이도 설정은 다음과 같다.
그러나 서양의 감성으로써 동양권의 감성인 한국어에 적용하기에는 적합하지 않다. 그러므로 본 논문에서는 동양권의 정서에 맞는 공자의 칠정을 기준으로 분류체계를 설정한다.
또한 분류에 따라 기본 강도를 정하고, 분류 안의 어휘목록들 간의 강도도 정하여 좀더 세밀한 강도를 나타낼 수 있도록 하였다. 그리고 정도 부사어에 대해서도 강도를 정하여 구축된 평가집합을 이용할 경우 사용자에 따라 적응적으로 사용 할 수있도록 하였다. 또한 난이도별로 평가집합을 구축하여 쉬운 문장과 어려운 문장을 적절히 섞어서 사용할 수있도록 하였다.
그리고 정도 부사어에 대해서도 강도를 정하여 구축된 평가집합을 이용할 경우 사용자에 따라 적응적으로 사용 할 수있도록 하였다. 또한 난이도별로 평가집합을 구축하여 쉬운 문장과 어려운 문장을 적절히 섞어서 사용할 수있도록 하였다. 다른 장점은 실세계에서 사용하는 데이터를 이용하여 바로 적용 가능하다는 점이다.
감성의 분류에서 동양의 정서가 잘 표현될 수 있는 공자의 7가지 감성을 기반으로한 김은영의 논문을 바탕으로 긍정의 세부 분류 7가지 즉, 감동, 기쁨, 자신감, 만족, 호감, 공감, 선의로 분류하였으며, 부정의 세부 분류 15가지 즉, 놀람, 두려움, 반감, 분노, 슬픔, 걱정, 그리움, 바람, 불만, 실망, 후회, 미안함, 서먹함, 심심함, 궁금함으로 분류하였다. 또한 분류에 따라 기본 강도를 정하고, 분류 안의 어휘목록들 간의 강도도 정하여 좀더 세밀한 강도를 나타낼 수 있도록 하였다. 그리고 정도 부사어에 대해서도 강도를 정하여 구축된 평가집합을 이용할 경우 사용자에 따라 적응적으로 사용 할 수있도록 하였다.
본 연구에서는 문장의 극성 뿐만 아니라 세부 감성을 분류하고, 감성의 강도를 정하여 평가집합을 구축하였다. 감성의 분류에서 동양의 정서가 잘 표현될 수 있는 공자의 7가지 감성을 기반으로한 김은영의 논문을 바탕으로 긍정의 세부 분류 7가지 즉, 감동, 기쁨, 자신감, 만족, 호감, 공감, 선의로 분류하였으며, 부정의 세부 분류 15가지 즉, 놀람, 두려움, 반감, 분노, 슬픔, 걱정, 그리움, 바람, 불만, 실망, 후회, 미안함, 서먹함, 심심함, 궁금함으로 분류하였다.
심리학에서 정의하는 감성 분류 체계와 이를 이용한 감성 분석의 기존 방법들을 살펴보고, 영어권에서의 평가집합에 대하여 알아본다.
예를 들면, ‘조금 슬프다’나 ‘약간 슬프다’는 ‘울적하다’, ‘우울하다’와 가깝고, ‘아주 슬프다’, ‘매우 슬프다’는 ‘비통하다’, ‘침통하다’와 가깝다고 볼 수 있다. 이러한 정도 부사어의 등급을 이용하여 어휘의 강도를 정하는데 활용 하였다.
이렇게 난이도 별로 나누어진 평가 집합을 사용할 경우 각 그룹에서 문장들을 정한 비율로 적용하여 객관적 으로 얼마나 어려운 문장들을 어느 정도의 정확성으로 분류할 수 있는지 평가 할 수 있도록 하였다.
기존의 연구에서 보듯이 어느 정도 어휘의 강도를 표시할 수 있다. 이를 기반으로 각각의 범주에 3등급의 기본 강도를 정하고, 그 안의 어휘목록들 사이에서도 3등급의 강도를 정하였다. 긍정과 부정의 분류 목록의 강도는 옆의 [표 3]과 같다.
따라서 분류의 범주가 너무 많으면 태깅하기 어렵고, 너무 적으면 정확히 어떠한 감정을 나타내려고 하는지 분류하기 어렵다. 이에 기존의 김은영의 국어 감정동사 연구[4]의 대분류의 범주(만족:2, 불만족:7)의 하위에 있는 소분류의 범주(만족:12, 불만족:34)들을 본 연구에 맞게 재정의 하여, 긍정의 범주 7개, 부정의 범주 15개로 설정하였다.
그러나 상품평 뿐만 아니라 모든 감정을 표현한 문장을 분류하기에는 ‘좋다, 나쁘다’의 2가지 감정으로 나누는 것은 너무 포괄적이며 다른 다양한 감정을 표현해 내지 못한다. 이에 본 논문에서는 감정을 표현한 모든 문장을 분류 할 수 있도록, 극성 뿐만 아니라 다양한 세부감정에 대한 분류를 하였으며, 또한, 세부감정이 어느정도의 강도를 가지고 있는지도 등급을 세밀화 (9등급)하여 평가집합을 구축한다.
실험 데이터로 트위터, 싸이월드 C로그, 네이버의 영화 리뷰 댓글의 데이터 약 23,000문장을 수집하여 그중에서 감성이 있는 문장만 선별하여 3,270문장의 평가집합을 구축하였다. 주제별로는 갤럭시탭, 갤럭시 S2, 무상급식, 아이패드, 전자팔찌, 구글폰, 넥서스폰, 아이폰, 아이패드, 모바일 os, 배터리, 셧다운제, 한미FTA, 그리고 영화는 박쥐와 해운대의 댓글, 주제가 없는 문장 등으로 구별하였다. 평가집합은 아래 [그림 2]와 같이 구축하였다.
평가집합은 한 문장에 대하여 5명이 모두 태깅하는 방법으로 진행하였다. 난이도 그룹 (1)~(4)는 같이 비율로 적용하고, (5) 감성 어휘와 반대 의미를 지니는 그룹은 데이터가 적어 약1%정도 포함하였다.
대상 데이터
실험 데이터로 트위터, 싸이월드 C로그, 네이버의 영화 리뷰 댓글의 데이터 약 23,000문장을 수집하여 그중에서 감성이 있는 문장만 선별하여 3,270문장의 평가집합을 구축하였다. 주제별로는 갤럭시탭, 갤럭시 S2, 무상급식, 아이패드, 전자팔찌, 구글폰, 넥서스폰, 아이폰, 아이패드, 모바일 os, 배터리, 셧다운제, 한미FTA, 그리고 영화는 박쥐와 해운대의 댓글, 주제가 없는 문장 등으로 구별하였다.
성능/효과
극성의 경우 5명 모두 일치하는 경우는 93%이고, 4명이 일치하는 경우가 5%로 나타났으며, 3명이 일치하는 경우는 2%이다. 감성 어휘의 일치도를 보면 5명이 모두 같은 감정을 나타내는 경우는 70%이며, 80% 일치(4명이 같은 감정)의 경우는 13%이고, 60% 일치(3명이 같은 감정이면서 2명이 같은 감정이거나 2명이 모두 다른 감정)인 경우는 11%로 나타났으며, 40% 일치(각각 2명씩 일치하고 1명이 다른 감성 일 때 또는 2명이 일치하고 나머지 3명은 모두 불일치)는 6%로 나타났으며, 모두 다르게 태깅한 경우는 없었다. 감성 강도는 모두 같은 강도를 나타내는 경우는 58%이고, 강도의 차이가 1이 차이 나는 경우는 28%이며, 강도가 2차이가 나는 경우는 13%이다.
난이도가 쉬운 데이터로만 사용하였을 경우, 정확률은 86%, 재현율은 40.3%이며, 난이도를 똑같은 비율로 섞어 평가하였을 때는 정확률 55.6%, 재현율 17.5%로 나타났다. 정확률은 30%이상 차이가 나며, 재현율의 경우 2배 이상 차이가 나는 것을 볼 수 있다.
7%이었고, 본 프로젝트에서는 93%의 일치도를 보였다. 또한 강도 측면에서도 기존 연구의 강도 일치도를 보면 41.3%에 불과하지만 평가셋의 결과는 84.5%의 높은 강도 일치도를 보였다.
문장에서 감성을 추출할 때 한 문장에서 출현하는 모든 감성어휘들을 분류하고 강도를 나타내어 긍정의 어휘들이 많이 나타날수록 강도는 더 높아 지도록 하였다.
후속연구
다른 장점은 실세계에서 사용하는 데이터를 이용하여 바로 적용 가능하다는 점이다. 아직까지 한국어에 대한 평가집합이 없는 상황에서 많은 연구에 초석이 될 것으로 기대된다. 향후 연구로는 젊은 층이 주를 이루는 소셜웹에서는 맞춤법과 띄어쓰기가 맞지 않은 경우가 많으며 그로 인해 전처리 과정이 매우 중요하며, 초성어만 쓰는 경우(예:ㅇㅇ, ㅂㅅ)와 인터넷 용어들이 많이 나타난다.
아직까지 한국어에 대한 평가집합이 없는 상황에서 많은 연구에 초석이 될 것으로 기대된다. 향후 연구로는 젊은 층이 주를 이루는 소셜웹에서는 맞춤법과 띄어쓰기가 맞지 않은 경우가 많으며 그로 인해 전처리 과정이 매우 중요하며, 초성어만 쓰는 경우(예:ㅇㅇ, ㅂㅅ)와 인터넷 용어들이 많이 나타난다. 그리고 계속해서 인터넷 용어들이 새로 만들어지므로 이에 대한 적절한 처리가 필요하다.
질의응답
핵심어
질문
논문에서 추출한 답변
감성이란 무엇인가요?
감성이란 '어떤 현상이나 일에 대하여 일어나는 마음이나 느끼는 기분'이다. 감성 어휘는 객관적 가치 평가보다는 주로 내면이나 주관적 감정 또는 심리가 작용하는 의미 영역을 묘사한 것이다.
감성 어휘란 무엇인가요?
감성이란 '어떤 현상이나 일에 대하여 일어나는 마음이나 느끼는 기분'이다. 감성 어휘는 객관적 가치 평가보다는 주로 내면이나 주관적 감정 또는 심리가 작용하는 의미 영역을 묘사한 것이다. 이러한 감성을 분석한다는 것은 자연언어처리와 전산언어학 그리고 텍스트 분석론을 활용하여 원 자료에서 주관적인 정보를 발견하고 추출하는 과정이다[1].
감성의 분류 체계를 이용하여 감성의 종류를 분석하고 분류하는 연구는 크게 3단계로 나눌 수 있는데 그 3단계는 무엇인가요?
감성의 분류 체계를 이용하여 감성의 종류를 분석하고 분류하는 연구는 크게 세 가지의 단계로 나눌 수 있다. 첫 번째 단계는 감성 정보가 들어 있는 주관적인 생각이나 느낌을 표현하는 문장을 추출하고, 다음 단계에서 문서 또는 문장의 극성(긍정, 부정)을 나눈다. 마지막 단계는 문서 또는 문장이 어느 정도의 주관성을 갖는지 그 강도를 구하는 강도 분류 연구이다[2][3]. 첫 번째 단계인 감성 정보 분류는 감성 분석 분류과정 중에서 아주 기초적인 과정으로서 문장 중에서 가치 있는 감성 정보들을 추출하는 과정이다.
참고문헌 (15)
B. Pang, and L. Lee, "Opinion Mining and Sentiment Analysis," Foundations and Trends in Information Retrieval: Vol.2, No.1-2, pp.1-135, 2008.
P. Harland, "HOW THE BRAIN FEELS," Emotion and Cognition in Neuro-Linguistic Psychotherapy, Rapport, Journal of the Association for NLP (UK), Issue 57, 2002.
R. Plutchik and H. Kellerman, Emotion: Theory, research, and experience: Vol.1, Theories of emotion.1, New York: Academic, 1980.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.