$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

마코프 체인 밀 음절 N-그램을 이용한 한국어 띄어쓰기 및 복합명사 분리
Korean Word Segmentation and Compound-noun Decomposition Using Markov Chain and Syllable N-gram 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.21 no.3, 2002년, pp.274 - 284  

권오욱 (한국과학기술원 뇌과학연구센터)

초록
AI-Helper 아이콘AI-Helper

한국어 대어휘 연속음성인식을 위한 텍스트 전처리에서 띄어쓰기 오류는 잘못된 단어를 인식 어휘에 포함시켜 언어모델의 성능을 저하시킨다. 본 논문에서는 텍스트 코퍼스의 띄어쓰기 교정을 위하여 한국어 음절 N-그램을 이용한 자동 띄어쓰기 알고리듬을 제시한다. 제시된 알고리듬에서는 주어진 입력음절열은 좌에서 우로의 천이만을 갖는 마코프 체인으로 표시되고 어떤 상태에서 같은 상태로의 천이에서 공백음절이 발생하며 다른 상태로의 천이에서는 주어진 음절이 발생한다고 가정한다. 마코프 체인에서 음절 단위 N-그램 언어모델에 의한 문장 확률이 가장 높은 경로를 찾음으로써 띄어쓰기 결과를 얻는다. 모든 공백을 삭제한 254문장으로 이루어진 신문 칼럼 말뭉치에 대하여 띄어쓰기 알고리듬을 적용한 결과 91.58%의 어절단위 정확도 및 96.69%의 음절 정확도를 나타내었다. 띄어쓰기 알고리듬을 응용한 줄바꿈에서의 공백 오류 처리에서 이 알고리듬은 91.00%에서 96.27%로 어절 정확도를 향상시켰으며, 복합명사 분리에서는 96.22%의 분리 정확도를 보였다.

Abstract AI-Helper 아이콘AI-Helper

Word segmentation errors occurring in text preprocessing often insert incorrect words into recognition vocabulary and cause poor language models for Korean large vocabulary continuous speech recognition. We propose an automatic word segmentation algorithm using Markov chains and syllable-based n-gra...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 대어휘연속음성인식을 위하여 신문기 사 및 방송 뉴스로부터 구한 대규모의 말뭉치를 다룬다. 이러한 말뭉치에서는 고유명사 및 외국어와 같은 미등록 어가 많기 때문에 통계 기반의 접근 방식을 사용하였다.
  • 따라서 실제적인 응용에서는 줄 바꿈에서의 오류 또는 긴 어절의 띄어쓰기 고치기에 사용된다. 여기에서는 실제의 경우에서의 띄어쓰기 성능을 조사하기 위하여 텍스트가 주어질 때 정해진 길이 이상의 어절만을 띄어쓰기 하는 경우와 줄 바꿈 위치에서만 띄어 쓰기 하는 경우의 성능을 조사하였다.

가설 설정

  • 각 노드에서 계산된 가설들 중에서 음절 이력이 동일한 가설들은 가장 높은 누적 로그확률을 갖는 가설만 남기고 나머지는 제거한다. 각 가설에서 최대 누적 로그확률과 누적 로그 확률의 차이가 미리 주어진 빔 크기보다 큰 가설은 제거하고, 시간t에서의 모든 가설 중에서 최대 누적 로그확률을 계산한다.
  • 음절 열로 구성된 한국어의 문장 S=(wi w2 ― 妬) 이 주어져 있을 때 그 문장이 마코프 체인[15, 16]으로부터 발생한다고 가정한다. 공백도 하나의 음절이라고 가정하며, 마코프 체인의 각 천이는 음절을 발생한다. 자신으로 의천이에서는 공백이 발생되고 다른 싱태로의 천이에서 음절이 발생한다.
  • 띄어쓰기 알고리듬을 이용하여 복합명사를 분리하였다. 복합명사는 길이가 4 이상에 대해서만 고려하며 단위 명사는 모두 길이가 2 이상이라고 가정한다. 먼저 최소 어절 길이를2로 제한한 띄어쓰기 알고리듬으로 공백의 위치를 찾은 다음 단위명사가 사전에 존재하는지를 검사한다.
  • 띄어쓰기 정확도는 음절 단위 또는 어절 단위로 표현한다 [5, 6].복합어 및 보조용언은 가능하면 분리됨을 원칙으로 하였다. 띄어쓰기 성능을 조사하기 위하여 텍스트에서 문장 단위로 공백을 모두 제거하고 띄어 쓰기 알고리듬을 적용하였으며 penalty =。을 사용하였다.
  • 그림 3은 띄어쓰기 알고리듬의 설명을 위한 격자 그림이다. 상태s에서 같은 상태로 천이 할 때는 공백이 발생하고, 다른 상태s'에서 상태s로 천이 할 때에는 음절 血 s] 가 발생하며, 从 W I 納, 切2), 0( 也 2 I 納), 力(旳)는주 어져 있다고 가정한다. 각 노드에는 여러 개의 가설들이 저장될 수 있으며, 하나의 가설에는 최근 " 一 1개의 음절 정보(Xt.
  • 음절 열로 구성된 한국어의 문장 S=(wi w2 ― 妬) 이 주어져 있을 때 그 문장이 마코프 체인[15, 16]으로부터 발생한다고 가정한다. 공백도 하나의 음절이라고 가정하며, 마코프 체인의 각 천이는 음절을 발생한다.
  • 대규모 말뭉치에서의 띄어쓰기 오류 교정을 위한 자동 띄어쓰기 알고리듬을 제안하였다. 제안된 알고리듬에서 는 한국어 문장이 마코프 체인으로부터 발생한다고 가정하고 최대 정규 문장 확률을 갖는 경로를 찾음으로써 최적의 공백 삽입 위치를 결정하였다. 미등록 어가 많이 존재하는 신문 칼럼으로부터 추출한 254문장을 사용하여 알고리듬을 테스트하였다.
  • 이러한 말뭉치에서는 고유명사 및 외국어와 같은 미등록 어가 많기 때문에 통계 기반의 접근 방식을 사용하였다. 제안된 알고리듬에서는 주어진 입력음절 열은 좌에서 우로의 천이만을 갖는 마코프 체인으로 표시되고 어떤 상태에서 같은 상태로의 천이에서 공백 음절이 발생하며 다른 상태로의 천이에서는 주어진 음절이 발생한다고 가정하였다. 2개 이상의 공백이 연속으로 나타날 수 없다는 제한 조건 하에서 음절 n-그램에 의한 문장 확률이 최대가 되 는 음절열을 찾음으로써 최적의 띄어쓰기 해를 찾았다.
본문요약 정보가 도움이 되었나요?

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로