$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

한국어 형태소 분석을 위한 3단계 확률 모델
Three-Step Probabilistic Model for Korean Morphological Analysis

정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용, v.38 no.5, 2011년, pp.257 - 268  

이재성 (충북대학교 컴퓨터교육과)

초록
AI-Helper 아이콘AI-Helper

확률 모델을 기반으로 만들어진 형태소 분석기는 형태소 품사 부착 말뭉치의 다양한 언어 현상과 태깅 원칙을 바로 학습할 수 있으므로 다양한 분야에 대한 적응력이 높다. 본 논문에서는 한국어 형태소 분석을 위한 3단계 확률 모델을 제안한다. 이 모델은 분석 단계를 형태소 복원, 분리, 태깅의 3단계로 나누어 독립된 모듈로 처리함으로써 기존의 2단계 확률 모델보다 처리 복잡도를 줄였다 또한, 음절 대신 자소 단위의 처리를 하고, 형태소 전이 확률을 이용하여 형태소 분리를 함으로써 다양한 품사 태깅 원칙을 학습할 수 있도록 했다. 모델의 성능 평가는 세종 계획 프로젝트에서 개발한 문어체 및 구어체 형태소 부착 발뭉치에 대해 실험하였고 기존의 방법들과 비교하였다.

Abstract AI-Helper 아이콘AI-Helper

A morphological analyzer based on probabilistic model can learn easily various language phenomena and tagging principles used in morpheme-tagged corpus, so that it is very portable to various domains. In this paper, we propose a three-step probabilistic model for Korean morphological analysis which ...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 확률 기반 형태소 분석은 3단계로 이루어지므로, 앞 단계의 결과에 영향을 받는다. 따라서 각 단계가 독립적으로 어느 정도의 성능을 갖는지 평가하기 위해, 각 단계별로도 올바른 입력과 출력 정답을 주고 그 결과를 평가한 것이다.
  • 본 논문에서는 한국어 품사 부착 말뭉치로부터 자동으로 확률 기반 형태소 분석기를 만들어 낼 수 있는 3단계 확률 모델을 제안하였다. 이 방법은 한국어 어절이 복잡하게 교착하고 굴절하는 현상을 단계적으로 처리할 수 있도록 한 것으로 형태소 복원, 형태소 분리, 형태소 태깅의 3단계로 구성된다.
  • 본 논문에서는 형태소 분석을 원형 복원, 형태소 분리, 형태소 태깅의 3단계로 명확히 구분하는 새로운 확률 모델을 제안하고 실험한다. 이 방법은 자소 단위로 원형 복원을 하며, 형태소 분리는 어휘 연결 관계를 확률로 계산하여 처리한다.
  • 이 방법의 대표적인 것으로는 tabular 파싱 (parsing) 방법을 사용한 연구를 들 수 있다[3,4]. 이 연구에서는 입력된 어절을 자소열(혹은 음절열)로 바꾸고, 분리 가능한 모든 경우를 검토하여 형태소를 분석해 낸다.

가설 설정

  • 가정1: 한국어 형태소 분석은 복원, 분리, 태깅의 순서로 이루어진다.
  • 가정2: 복원, 분리, 태깅의 각 단계는 확률적으로 서로 독립이다.
  • 주어진 형태소 열(M = mi,n)에 대응되는 확률이 최대인 태그 열(T = 板)을 구하는 바이그램 태깅 모델은 식 (20) 과 같다. 즉, 베이스 규칙을 적용하고, 각 형태소가 서로 독립적이며 형태소는 주어진 태그에서 결정된다고 가정하여 아래와 같은 수식 전개 과정을 통해 나 타낼 수 있다. (단, 松는 어절 경계를 나타내는 태그)
본문요약 정보가 도움이 되었나요?

관련 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로