$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

영어 SentiWordNet을 이용하여 구축한 한국어 감성어휘사전의 성능 평가와 한계 연구
Performance and Limitations of a Korean Sentiment Lexicon Built on the English SentiWordNet 원문보기

한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회, 2016 Oct. 07, 2016년, pp.189 - 194  

신동혁 (한국외국어대학교 언어인지과학과 DICORA) ,  김새롬 (한국외국어대학교 언어인지과학과 DICORA) ,  조동희 (한국외국어대학교 언어인지과학과 DICORA) ,  뉘엔 민디오 (한국외국어대학교 언어인지과학과 DICORA) ,  박순강 (한국외국어대학교 언어인지과학과 DICORA) ,  어건주 (한국외국어대학교 언어인지과학과 DICORA) ,  남지순 (한국외국어대학교 언어인지과학과 DICORA)

초록
AI-Helper 아이콘AI-Helper

본 연구는 다국어 감성사전 및 감성주석 코퍼스 구축 프로젝트인 MUSE 프로젝트의 일환으로 한국어 감성사전을 구축하기 위해 대표적인 영어 감성사전인 SentiWordNet을 이용하여 한국어 감성사전을 구축하는 방법의 의의와 한계점을 검토하는 것을 목적으로 한다. 우선 영어 SentiWordNet의 117,659개의 어휘중에서 긍정/부정 0.5 스코어 이상의 어휘를 추출하여 구글 번역기를 이용해 자동 번역하는 작업을 실시하였다. 그 중에서 번역이 되지 않거나, 중복되는 경우를 제거하고, 언어학 전문가들의 수작업으로 분류해낸 결과 3,665개의 감성어휘를 획득할 수 있었다. 그러나 이마저도 병명이나 순수 감성어휘로 보기 어려운 사례들이 상당수 포함되어 있어 실제 이를 코퍼스에 적용하여 감성어휘를 자동 판별했을 때에 맛집 코퍼스에서의 재현율(recall)이 긍정과 부정에서 각각 47.4%, 37.7%, IT 코퍼스에서 각각 55.2%, 32.4%에 불과하였다. 이와 더불어 F-measure의 경우, 맛집 코퍼스에서는 긍정과 부정의 값이 각각 62.3%, 38.5%였고, IT 코퍼스에서는 각각 65.5%, 44.6%의 낮은 수치를 보여주고 있어, SentiWordNet 기반의 감성사전은 감성사전으로서의 역할을 수행하기에 충분하지 않은 것으로 나타났다. 이를 통해 한국어 감성사전을 구축할 때에는 한국어의 언어적 속성을 고려한 체계적인 접근이 필요함을 역설하고, 현재 한국어 전자사전 DECO에 기반을 두어 보완 확장중인 SELEX 감성사전에 대해 소개한다.

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 사전 및 감성주석 코퍼스 구축 프로젝트’의 일환으로 수행되었다. 그중에서 영어권의 가장 대표적인 감성사전으로 평가되는 SentiWordNet을 이용하여 한국어 감성어휘사전을 구축할 때 나타나는 성과와 그 한계를 고찰하는 것을 목표로 한다.
  • 본 연구에서는 영어 SWN을 이용하여 한국어 감성사전을 구축하는 방법의 의의와 한계점을 검토하고자 한다. 이를 통해 향후 SWN을 사용하고자 하는 연구들과 각 개별 언어의 감성사전을 구축하는 연구들에 하나의 사례연구를 제공할 수 있다는 점에서 기여한다고 생각한다.
  • 여기에서는 현재 구축된 SWN 기반 감성사전의 성능을 검증하기 위해서, 온라인상의 실제 사용자 리뷰 코퍼스를 대상으로 검증을 실시하였다. 사용된 코퍼스는 한국외국어대학교 DICORA 연구센터4)에서 구축된 사용자 IT 리뷰 {PECS-IT-100}와 맛집 리뷰 코퍼스 {PECS-RS-100}에서 각각 1200문장을 임의로 추출한 것으로, 여기서 관찰되는 실제 극성 어휘를 수작업으로 마크업해서 이를 평가셋으로 활용하였다.
  • 이들 연구는 주로 영어권을 중심으로 이루어져 있고, 영어권에서 이루어진 대표적인 감성사전의 성과로는 SentiWordNet[4], SenticNet[5], WordNet-Affect[6] 등이 있다. 이 중에서 가장 대표적으로 인용되고 많이 사용되고 있는 SentiWordNet(이후 SWN)을 이용하여 본 연구의 논의를 진행하고자 한다.
  • 이상에서 본 연구에서는 영어 SWN에 기반을 두어 한국어 감성사전을 구축하는 과정을 살펴보았다. 영어 SWN의 감성어휘 목록을 구글의 자동 번역 기능을 이용하여 한국어 감성어휘 3,665개를 획득할 수 있었고, 일반적으로 사전을 구축하는 데에 오랜 시간과 비용을 요구한다는 점을 감안할 때, 단기간에 1차적인 감성어휘 목록을 구축하는 유용한 방법이라고 판단할 수 있었다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
MUSE 프로젝트란? 본 연구는 다국어 감성사전 및 감성주석 코퍼스 구축 프로젝트인 MUSE 프로젝트의 일환으로 한국어 감성사전을 구축하기 위해 대표적인 영어 감성사전인 SentiWordNet을 이용하여 한국어 감성사전을 구축하는 방법의 의의와 한계점을 검토하는 것을 목적으로 한다. 우선 영어 SentiWordNet의 117,659개의 어휘중에서 긍정/부정 0.
대표적인 영어 감성사전은? 본 연구는 다국어 감성사전 및 감성주석 코퍼스 구축 프로젝트인 MUSE 프로젝트의 일환으로 한국어 감성사전을 구축하기 위해 대표적인 영어 감성사전인 SentiWordNet을 이용하여 한국어 감성사전을 구축하는 방법의 의의와 한계점을 검토하는 것을 목적으로 한다. 우선 영어 SentiWordNet의 117,659개의 어휘중에서 긍정/부정 0.
한국어 감성사전은 무슨 제약을 가지고 있는가? 그러나 영어 SWN을 기반으로 구축된 한국어 감성사전은 몇 가지 제약을 가지고 있었다. 우선 구축된 3,665개의 단어 중 명사 2,409개가 상대적으로 많아 일반적으로 감성을 표현하는 부류로 알려진 용언(동사, 형용사) 부류가 상대적으로 적게 나타났다는 점이 중요한 한계이다. 그나마 구축된 명사도 대부분 병명이나 인명 등 감성 자체를 나타내는 어휘라고 보기 어려운 경우가 상당수 포함되어 있었다.
질의응답 정보가 도움이 되었나요?
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로