[논문]임베딩 자질을 이용한 대화의 감정 분류

신동원; 이연수; 장정선; 임해창

임베딩 자질을 이용한 대화의 감정 분류
Emotion Classification in Dialogues Using Embedding Features 원문보기

신동원 (고려대학교) , 이연수 ((주)엔씨소프트) , 장정선 ((주)엔씨소프트) , 임해창 (고려대학교)

대화 시스템에서 사용자 발화에 대한 감정 분석은 적절한 시스템 응답과 서비스를 제공하는데 있어 매우 중요한 정보이다. 본 연구에서는 단순한 긍, 부정이 아닌 분노, 슬픔, 공포, 기쁨 등 Plutchick의 8 분류 체계에 해당하는 상세한 감정을 분석 하는 데 있어, 임베딩 모델을 사용하여 기존의 어휘 자질을 효과적으로 사용할 수 있는 새로운 방법을 제안한다. 또한 대화 속에서 발생한 감정의 지속성을 반영하기 위하여 문장 임베딩 벡터와 문맥 임베딩 벡터를 자질로서 이용하는 방법에 대해 제안한다. 실험 결과 제안하는 임베딩 자질은 특히 내용어에 대해 기존의 어휘 자질을 대체할 수 있으며, 데이터 부족 문제를 다소 해소하여 성능 향상에 도움이 되는 것으로 나타났다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구는 이러한 어휘 자질의 데이터 부족 문제, 대량의 학습 데이터 확보에 대한 어려움, 문맥을 통한 감정의 지속성 등의 문제를 풀기 위해 최근 많이 사용되는 워드 임베딩(word embedding) 모델에서 쓰이는 임베딩 벡터(embedding vector)를 감정 분류 모델의 자질로서 사용하는 새로운 방법에 대해 제안한다.
본 연구에서는 기존 에서와 같이 [1] [2] Plutchick 8 의 분류체계[3] - ‘기쁨’ , ‘신뢰’, ‘두려움’, ‘놀람’, ‘슬픔’, ‘혐오’, ‘화남’, ‘기대’ 에 ‘감정 없음’ 을 더한 가지의 분류 체계에 기반을 두어 감정 분석을 하고자 한다.
본 연구에서는 대화 시스템에서 사용자 발화의 감정분석에서 임베딩 모델을 사용하여 기존의 어휘 자질들을 좀 더 효과적으로 활용할 수 있는 단어, 문장 그리고 문맥의 임베딩 자질을 제안하였다.
본 연구에서도 이러한 임베딩 벡터의 특징을 이용하여 앞에서 언급한 어휘 자질 부족 문제를 해소하고자 하되, 학습 데이터를 늘리기 보다는 임베딩 벡터의 자질로서의 활용에 대한 새로운 방법을 제시하여 해결하고자 한다. 또한 연속적인 대화 속에서 이어지는 감정의 지속을 반영하기 위해 문맥 임베딩 자질을 고려하였다.
따라서 자질로 선택된 어휘와 동일한 어휘가 사용되지 않을 경우 감정 분석에 있어 유용한 자질들이 충분히 활용되지 못한다고 볼 수 있다. 이러한 문제를 해결하기 위해 본 연구에서는 워드 임베딩 공간상의 임베딩 벡터를 이용한 자질들을 제안한다.

제안 방법

3장에서 제안한 임베딩 자질들이 성능에 얼마나 영향을 미치는지를 평가하기 위하여 기존 시스템에서 사용되었던 자질들만을 사용했을 때와, 제안한 자질을 추가하였을 때의 성능을 비교하였다.
각 감정이 부착된 학습 데이터에서 이전 연구 에서 제안된 현재 발화 및 전 발화, 전전 발화에서 어휘 자질을 비롯하여 기존 연구들에서 제시되었던 다양한 자질들을 광범위하게 추출한다. 그리고 각 자질과 태깅된 감정 카테고리와의 information gain을 측정한 뒤 자질을 선택한다. 대부분의 자질은 그대로 사용하되 선택된 어휘 자질들 중 uni-gram 자질에 대해서는 제안하는 3 가지 임베딩 자질 함수를 적용하여 자질 값을 계산하거나 새로운 자질을 추가한다.
대화 코퍼스의 감정 태깅은 총 3명의 작업자가 태깅한 결과를 다수결을 통해 1차 감정과 2차 감정을 결정하고, 3자의 결과가 불일치한 5.9%의 발화들에 대해서만 재작업을 수행하였다. 1등 감정에 대해 작업자 3명의 동의율은 48.
그러나 단순히 전 발화만을 고려하는 것이 아니다. 대화가 진행될 때 마다, 문맥 벡터에 이전 발화 문장의 문장 벡터를 가중치를 부여해 더해나감으로써 보다 오래전의 감정을 모두 누적하여 반영하되 시간에 따라 비율을 낮추도록 하였다. 발화 U_j의 문맥 임베딩 자질 f_c의 자질 값 p(f_c, U_j)는 다음과 같이 계산한다.
실제 대화를 수집하는 것은 보안과 프라이버시 문제로 매우 어렵다. 따라서 우리는 영어 회화 코퍼스와 영어 드라마의 한국어 자막 코퍼스를 재가공하여 구어체 대화 코퍼스를 구축하였다. 먼저 자막에서 1:1 대화 부분을 추출한 다음 화자 간 관계 설정을 한 뒤 자연스러운 구어체 대화가 되도록 변환하고 감정을 부착하였다.
본 연구에서도 이러한 임베딩 벡터의 특징을 이용하여 앞에서 언급한 어휘 자질 부족 문제를 해소하고자 하되, 학습 데이터를 늘리기 보다는 임베딩 벡터의 자질로서의 활용에 대한 새로운 방법을 제시하여 해결하고자 한다. 또한 연속적인 대화 속에서 이어지는 감정의 지속을 반영하기 위해 문맥 임베딩 자질을 고려하였다. 임베딩 벡터를 사용하기 위한 본 연구에서 사용한 자질 함수 등에 대해서는 3장에서 자세히 설명하도록 한다.
마지막으로 SMV 기반의 분류 모델을 이용하여 감정 분류기를 학습한다. 그림 1은 제안하는 방법에 대한 시스템 구조이다.
본 연구에서는 대량의 태깅 되지 않은 코퍼스를 이용하여 임베딩 모델을 학습하고 적은 양의 태깅 된 학습 데이터로 어휘 자질을 선별한 후 자질 값으로 임베딩 공간에서의 유사도를 사용하였다. 또 문맥을 통한 지속 감정을 자질로서 반영하기 위해 문장과 문맥을 하나의 임베딩 벡터로 표현하고 이를 자질로 이용한다.
본 연구에서는 대화 속에서 새롭게 발생한 사용자의 발화에 대해 가지 중 하나의 감정을 선택하는 것을 분류 모델을 이용한 다중 분류 문제로 접근한다. 이를 위해 학습 데이터는 두 가지가 필요하다.
본 연구에서는 대화 코퍼스를 대상으로 하여 기존 감정 분류 연구에서 좋은 성능을 보인 을 사용해 분류 SVM기를 학습 시켰으며, 10-fold cross validation을 통해 평가하였다. 임베딩 자질을 적용하기 전에 어휘 자질에 대한 자질 선택 방법은 document frequency(=3)와 information gain(=0.
우선 학습 데이터로부터 자질 선택에 의해 어휘 자질이 선택된다. 우리는 이 선택된 어휘 자질 중 uni-gram 자질에 대해 기존의 바이너리 자질 값 대신, 다음과 같이 각 uni-gram 자질과 학습 데이터의 문장을 구성하는 단어들 간의 코사인 유사도를 계산하여 최대 유사도를 해당 uni-gram 자질의 값으로 사용 한다.
이를 위해 현재 발화나 이전 발화에 나타난 N-gram 자질, 이모티콘, 감성 사전, 관용어 사전 등을 주요 자질로 제안하였다.
임베딩 모델에 사용된 코퍼스는 대량의 뉴스 기사와, 구어체 반영을 위해 수집한 해외 드라마의 한국어 자막 데이터로 구성되어 있다. 임베딩 학습을 위해 한국어 형태소 분석 [15]을 수행 하였으며, 모든 숫자에 대해 0으로 정규화하고 형태소 단위의 토크나이징을 수행 하였다. 임베딩 학습 데이터에 대한 구성은 표 3과 같다.

대상 데이터

실험에서는 임베딩 모델에 사용된 일반 코퍼스와 발화감정 분류기의 학습 및 테스트에 쓰인 대화 코퍼스, 두 종류의 코퍼스가 사용된다. 임베딩 모델에 사용된 코퍼스는 대량의 뉴스 기사와, 구어체 반영을 위해 수집한 해외 드라마의 한국어 자막 데이터로 구성되어 있다.
[1]의 경우 음식, 사랑, 음악과 관련된 대화 시스템에서 사용자 발화의 감정을 분석하고자 하였다. 이 연구에서는 대상이 구어체 대화라는 점을 고려하여 광범위한 n-gram 뿐 아니라 마지막 어미, 관용 현 사전, 이전 발화에서의 분석된 감정 정보 등을 자질로서 사용하였다. [2]의 연구 역시 이와 유사하게 현재 발화, 전 발화, 전전 발화에 대해 광범위한 n-gram을 자질로서 사용하였다.
예를 들어 “아 오늘도 시험이라니”의 경우 한 작업자라도 ‘슬픔’, ‘분노’, ‘싫어함’에 대해 모호성이 있다고 판단하였으며, 각 작업자 간 2차 감정까지의 선택이 서로 달랐다. 이렇게 구축한 전체 감정 부착 코퍼스는 2,307개의 대화 세션, 13,329개의 발화로 구성된다. 이 중 2차 감정을 가진 발화의 수는 전체 4460 개이며 33.
실험에서는 임베딩 모델에 사용된 일반 코퍼스와 발화감정 분류기의 학습 및 테스트에 쓰인 대화 코퍼스, 두 종류의 코퍼스가 사용된다. 임베딩 모델에 사용된 코퍼스는 대량의 뉴스 기사와, 구어체 반영을 위해 수집한 해외 드라마의 한국어 자막 데이터로 구성되어 있다. 임베딩 학습을 위해 한국어 형태소 분석 [15]을 수행 하였으며, 모든 숫자에 대해 0으로 정규화하고 형태소 단위의 토크나이징을 수행 하였다.

이론/모형

전통적으로 LSA[8]나 LDA[9] 방법이 제안되어왔으나 최근 들어 neural network 기반의 언어 모델 학습을 통한 벡터 학습 방법이 좋은 성능을 보여주고 있다[10][11]. 본 연구에서는 [12]에서 제안한 Word2Vec 방법을 사용하였다. Word2Vec은 기존의 neural network 모델에서 hidden layer를 제거함으로써 기존 방식에 비해 성능의 하락 없이 대략 1000배 이상의 빠른 학습 속도를 보여주고 있다.
본 연구에서는 대화 코퍼스를 대상으로 하여 기존 감정 분류 연구에서 좋은 성능을 보인 을 사용해 분류 SVM기를 학습 시켰으며, 10-fold cross validation을 통해 평가하였다. 임베딩 자질을 적용하기 전에 어휘 자질에 대한 자질 선택 방법은 document frequency(=3)와 information gain(=0.001)을 사용하였다.

성능/효과

그러나 uni-gram 자질 대신, 본 연구에서 제안한 단어 임베딩 자질과 문장 임베딩 자질을 추가한 경우 기존 자질을 사용한 경우들과 비교해 모두 accuracy 향상을 보였음을 알 수 있다.
실험 결과, 각 임베딩 자질의 사용이 모두 기존의 감정 분석 시스템에서의 성능 향상에 도움이 되었으며, 제안한 자질들이 감정 분석에 있어 효과적임을 보였다.
[14]의 경우에는 분류 문제에서 대개 발생하는 일부 클래스들에 대한 학습 데이터 부족 문제를 워드 임베딩을 활용한 오버샘플링(over-sampling)을 적용하여 해결을 시도했다. 즉, 학습에 사용될 수 있는 새로운 데이터를 임베딩 벡터의 조합으로 생성함으로써 희소 클래스의 분류 성능을 향상시킬 수 있음을 보였다.

후속연구

향후 연구에서는 임베딩 공간에서의 단어 유사성 및 활용에 대한 깊이 있는 연구와 더불어 uni-gram 이상의 n-gram에 대한 임베딩 자질 활용이 필요하고, 구어체 코퍼스 확장을 통해 신조어 이모티콘 임베딩 자질 등을 반영해야 한다.

핵심어

질문

논문에서 추출한 답변

워드 임베딩이란 무엇인가?

워드 임베딩은 하나의 단어를 일반적으로 수백 개 정도의 저차원의 실수 벡터로 표현하는 것이다. 이러한 단어에 대한 분산화 되고(distributed), 연속적인(continuous) 표현 방식은 단어에 대해 유사도 관점의 분석을 가능하게 하고 다양한 벡터 연산을 통해 관계를 유추할 수 있도록 해준다.

전통적으로 감정에 대한 분류 체계로 주로 사용된 것은 무엇인가?

사용자의 감정 인식, 전달 연구에 관한 연구는 주로 affective computing 분야에서 활발하게 이루어져 왔다. 전통적으로 감정에 대한 분류 체계로는 주로 행복, 슬픔, 화남, 혐오, 놀람, 공포로 이루어진 Ekman의 6 가지 분류 체계[4]가 사용되어 왔으며, 이미지나 영상 등에서 표정을 나타내는 facial landmark point 등을 추출하거나, head pose, eye gaze, prosody, nonlinguistic vocalization (laugh, cry) 등을 이용하여 사용자의 현재 감정 상태를 분류한다[5].

대화 속에서 새롭게 발생한 사용자의 발화에 대해 여러 가지 중 하나의 감정을 선택하는 것을 분류 모델을 이용한 다중 분류 문제로 접근하기 위해 학습 데이터에 필요한 것은 무엇인가?

이를 위해 학습 데이터는 두 가지가 필요하다. 임베딩을 위한 1) 대량의 원시 말뭉치와 2) 9가가지 중 하나의 감정 태그가 정답으로 부착된 소량의 대화 말뭉치이다. 우선 1)을 사용하여 워드 임베딩 모델을 학습시켜 생성한다 그리고 2)를 사용하여 감정 분류기를 학습한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

임베딩 자질을 이용한 대화의 감정 분류
Emotion Classification in Dialogues Using Embedding Features 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

임베딩 자질을 이용한 대화의 감정 분류 Emotion Classification in Dialogues Using Embedding Features 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

임베딩 자질을 이용한 대화의 감정 분류
Emotion Classification in Dialogues Using Embedding Features 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper