$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

자모 및 음절 임베딩 결합을 이용한 오타에 효과적인 한국어 형태소 분석
Effective Korean POS Tagging for Typing Errors Using the Concatenation of Jamo and Syllable Embedding 원문보기

한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회, 2018 Oct. 12, 2018년, pp.574 - 579  

김혜민 (동아대학교 컴퓨터공학과) ,  양선 (동아대학교 컴퓨터공학과) ,  고영중 (동아대학교 컴퓨터공학과)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 한국어 형태소 분석 시스템을 제안하는데, 연구 목표는 오타 없는 문서를 대상으로 한 경우에도 높은 성능을 유지하면서, 동시에 오타가 있는 문서에서도 우수한 성능을 산출하는 것이다. 실험은 크게 두 종류로 나누어서 진행된다. 주 실험인 첫 번째 실험에서는, 자모 임베딩음절 임베딩을 결합(concatenate)한 벡터를 입력으로 Bidirectional LSTM CRFs을 수행함으로써, 세종말뭉치 대상으로 어절 정확도 97%, 그리고 1, 2, 5 어절마다 오타가 출현한 경우에서도 각각 80.09%, 87.53%, 92.49%의 높은 성능을 산출하였다. 추가 실험인 두 번째 실험에서는, 실생활에서 자주 발생하는 오타들을 집계하여 그 중에서 11가지 오타 유형을 선정 후, 각 유형에 대해 변환된 임베딩 벡터를 적용함으로써, 해당 오타를 포함한 문장에서 93.05%의 우수한 성능을 산출하였다.

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 76%의 높은 성능을 산출하였다. 본 논문에서 제안하는 시스템의 첫 번째 목표는 이 성능에 근접하는 것으로, 오타 없는 문서에서 97%대의 성능을 유지하는 것을 목표로 한다.
  • 본 연구는 정제된 문서는 물론이고 오타를 포함한 문장에서도 우수한 형태소 분석 성능을 유지하는 것을 목표로 하며 전체 구성도는 그림 1과 같다.
  • 본 연구는 한국어 형태소 분석에 대한 연구로, 정제된 문서에 대해서 최대한 높은 성능을 유지하면서, 동시에 오타가 있는 문서에도 높은 성능을 산출하기 위해 다양한 실험을 수행한다. 기본적으로는 [3, 4]와 같이 음절단위 벡터를 입력으로 하여 Bidirectional LSTM CRFs(Bi-LSTM-CRF) 모델을 사용한다.
  • 본 연구에서는 자모 임베딩과 음절 임베딩의 결합 및 임베딩 변환을 이용하여 오타 없는 문서와 오타 있는 문서에서 동시에 우수한 성능을 내는 형태소 분석 방법을 제안하고 실험 결과를 보고하였다. 오타 없는 문서에서 97%대의 정확도를 유지하면서, 동시에 오타 있는 문서에서도 최대한 우수한 결과를 내기 위하여 다양한 실험을 수행하였다.
  • 오타는 다양한 경우에서 발생되므로, 이와 같이 임의 오타를 생성하여 수행한 실험은 매우 중요하다고 할 수 있다. 추가로 본 연구에서는, 실생활에서 유독 오타가 많이 발생되는 경우를 집계하여, 그런 오타 유형에 맞춤형으로 대응하는 실험도 수행해보았다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
형태소 분석의 특징이란 무엇인가? 형태소 분석은 가장 기본적이고 필수적인 자연어 처리과정으로, 부정확한 품사 태깅 결과는 개체명 인식, 구문 분석 등을 비롯한 많은 언어 처리 과제의 성능에 치명적인 영향을 미칠 수 있다. 이로 인해 전통적으로 정확한 형태소 분석을 위한 많은 연구가 진행되어 왔으며,최근에는 딥 러닝(deep learning) 모델을 이용하여 형태소 분리 및 품사 태깅 등에서 높은 성능들이 보고되고있다[1-3].
기존 형태소 분석 연구는 무엇을 대상으로 수행되어 왔는가? 그러나 대부분의 기존 형태소 분석 연구는 상당 수준의 정제된 문장들로 구성된 말뭉치(대표적으로 세종 말뭉치)를 대상으로 수행되어 왔다. 하지만 빅 데이터의 중요성이 대두되면서, 웹 문서들과 같이 정제되지 않은 대량의 문서들이 중요한 언어 자원으로 사용되고 있는데, 그 안에는 물론 신문 기사와 정제 과정을 거치는 문서들도 포함되어 있지만, 대부분의 문서들은 별도의 정제 과정 없이 작성된 경우이다.
빅데이터의 중요성이 대두되며 시행된 형태소 분석 연구의 언어 자원들은 어떠한 특성을 가지고 있는가? 그러나 대부분의 기존 형태소 분석 연구는 상당 수준의 정제된 문장들로 구성된 말뭉치(대표적으로 세종 말뭉치)를 대상으로 수행되어 왔다. 하지만 빅 데이터의 중요성이 대두되면서, 웹 문서들과 같이 정제되지 않은 대량의 문서들이 중요한 언어 자원으로 사용되고 있는데, 그 안에는 물론 신문 기사와 정제 과정을 거치는 문서들도 포함되어 있지만, 대부분의 문서들은 별도의 정제 과정 없이 작성된 경우이다. 이로 인해 최근 들어서는 오타 등 문법적 오류를 포함하는 비격식 문서를 대상으로 언어 분석 실험을 수행하는 연구들이 수행되고 있다[4-6].
질의응답 정보가 도움이 되었나요?
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로