[논문]감정어휘 평가사전과 의미마디 연산을 이용한 영화평 등급화 시스템

고민수; 신효필

doi:10.19066/cogsci.2010.21.4.010

감정어휘 평가사전과 의미마디 연산을 이용한 영화평 등급화 시스템
Grading System of Movie Review through the Use of An Appraisal Dictionary and Computation of Semantic Segments 원문보기

인지과학 = Korean journal of cognitive science, v.21 no.4, 2010년, pp.669 - 696

초록
AI-Helper

본 논문은 한 문서의 전체 의미는 각 부분의미의 합성이라는 관점에서 미리 반자동으로 구축된 감정어휘 평가사전을 기반으로 한 시스템을 제안한다. 인간의 의사 결정 과정과 유사한 방식으로 의사 결정 과정을 모델링하려는 노력으로써 본 ARSSA 시스템은 개별 리뷰의 의미값 연산과 자료 분류를 통해 감정 표현이 나타난 영화평 리뷰의 자동 등급화에 대한 연구를 수행한다. 이는 {'평점' : '리뷰'} 이항구조로 이루어진 현재의 평점 부여 형식에서 발생하는 두 변항의 불연속성 문제를 해결해보려는 목적을 가진다. 이는 어휘 의미 합성 과정에서 반영된 추상적 의미들의 합성 함수를 통해 실현될 수 있다. 시스템의 성능 실험에서 네이버 무비에서 확보한 1000개의 리뷰에 대한 10-fold 교차 검증 실험이 수행되었다. 이 실험은 기존에 부여된 평점과 비교하여 감정어휘 평가사전을 이용하였을 때 85%의 F1 Score를 보였다.

Abstract ▼ AI-Helper

Assuming that the whole meaning of a document is a composition of the meanings of each part, this paper proposes to study the automatic grading of movie reviews which contain sentimental expressions. This will be accomplished by calculating the values of semantic segments and performing data classification for each review. The ARSSA(The Automatic Rating System for Sentiment analysis using an Appraisal dictionary) system is an effort to model decision making processes in a manner similar to that of the human mind. This aims to resolve the discontinuity between the numerical ranking and textual rationalization present in the binary structure of the current review rating system: {rate: review}. This model can be realized by performing analysis on the abstract menas extracted from each review. The performance of this system was experimentally calculated by performing a 10-fold Cross-Validation test of 1000 reviews obtained from the Naver Movie site. The system achieved an 85% F1 Score when compared to predefined values using a predefined appraisal dictionary.

주제어

질의응답

핵심어	질문	논문에서 추출한 답변
	의견 극성 분류에 대한 연구 유형을 분류하면?	첫째, 의미 사전에 기반한 방법을 이용하는 연구 유형이다. 본 연구의 경우 유의어 관계가 반영된 감정어휘 평가사전을 구축해서 극성을 판별하고, 명재석(2008) 역시 의미사전을 구축한다는 점에서 본 연구와 비교해볼 수 있다. 본 연구의 경우 Appraisal Theory(White 2005)를 통해 말뭉치로부터 검출된 각 어휘의 유의어 관계에 따라 사전을 구축한 것에 비해, 명재석(2008)에서는 사전을 White(2005)에 근거하여 작성된 Semantic Clause의 형태로 반자동으로 구성한다. 한편 Whitelaw(2005)는 White(2005)에 근거하여 Appraisal Taxonomies를 구축하여 극성을 분석했다. 둘째, 기존의 유의어 사전을 이용해서 의미를 바탕으로 어휘를 확장하여 자질로 이용하는 방법의 연구 유형이다. 의미값 기반 감정어휘 평가사전의 구축 방법은 이 유형에 연관성이 있다. 고영중(2008)은 감정 분류는 문서에 나타나는 단어 형태가 아닌 의미에 기반해야 한다는 점에 입각해서 유의어 관계에 주목했다. 유의어 추출을 위해 영단어 시소러스의 유의어 정보를 이용해 어휘를 확장하고, 대역사전을 이용해 번역하는 방법을 취했다. 이 방법은 유의어 사전을 거쳐서 생성한 유의어 목록을 확보한다는 점에서 해당 사전의 영향을 받게 된다. 영단어 시소러스를 이용하는 방법은 외국어로 기술된 사전의 의미와 단어에 원천적으로 영향을 받고, 대역사전의 오류 및 중의성 문제에 노출될 가능성이 있다. 셋째, 기계 학습을 이용해서 극성을 분류하는 방법의 연구 유형이다. 이는 자동 문서 분류에 가장 일반적으로 이용된다. Pang(2002), Dave(2003)에서와 같이 학습 자료의 평점을 기계 학습 시킨 후 극성을 예측할 수 있다는 것이 특징이다. 이는 정답으로 가정한 자료에서 극성 판별 기준이 되는 평점을 신뢰할 수 없다는 문제점이 있다. 넷째, WordNet과 같은 언어 자원을 활용하여 극성을 분류하는 방법의 연구 유형이다. 이 방법은 WordNet의 유의어, 반어의 관계를 이용하여 형용사의 극성을 예측하는 것이다. Liu(2004)는 유의어 관계의 형용사는 중심이 되는 형용사와 같은 극성을 가질 것이라고 예상했다. Esuli(2006, 2010)는 WordNet Synset과 WordNet Gloss Corpus의 어휘자원을 기반으로 극성 어휘의 정규화된 의미값을 부여하고 중의성 해소를 위해 노력했다. 유의어, 반의어 관계를 이용한다는 점은 감정어휘 평가사전의 주요 구성을 이루고 있는 유의어집합과 연관성이 있다. 이 방법의 문제점은 감정어휘가 문맥적으로 다른 용법을 갖더라도 변경하기 어렵고 기존 언어 자원에 의존하고 있고, WordNet과 같이 검증된 한국어 자원이 없기 때문에 즉시 적용할 수는 없는 방법이라는 점이다. 한국어에서는 본격적인 감정어휘 사전이 없고 현재 이를 구축하려는 노력이 시작되고 있다. 따라서 영화평 어휘를 중심으로 얻어진 어휘를 일반어휘로 확대하여 감정 어휘 사전을 구축한다는 점에서 본 연구의 의의가 있다.1)
	감정어휘 평가사전이란?	감정어휘 평가사전은 특정 기준에 따라 감정표현으로 분류되는 모든 어휘의미값이 저장된 의미사전이다. 특정 기준이란 Appraisal Group(Whitelaw 2005)의 개념을 응용한 의미마디이다.
	고빈도 감정어휘일수록 보여지는 특징은?	감정어휘란 ‘문자의 형태로 인간의 감정을 표현하기 위해 사용되고, 등급화가능성을 갖는다고 판단되는 모든 어휘’라고 정의한다. 고빈도 감정어휘일수록 해당 말뭉치에서 기본 감정표현과 관련된 기능을 한다. 감정표현을 통해 전달하고자 하는 모든 정보는 감정이 포괄하는 몇 가지 하위 영역에 속한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

감정어휘 평가사전과 의미마디 연산을 이용한 영화평 등급화 시스템
Grading System of Movie Review through the Use of An Appraisal Dictionary and Computation of Semantic Segments 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

감정어휘 평가사전과 의미마디 연산을 이용한 영화평 등급화 시스템 Grading System of Movie Review through the Use of An Appraisal Dictionary and Computation of Semantic Segments 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

고민수 (1) 신효필 (9)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

감정어휘 평가사전과 의미마디 연산을 이용한 영화평 등급화 시스템
Grading System of Movie Review through the Use of An Appraisal Dictionary and Computation of Semantic Segments 원문보기

초록
AI-Helper