$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

어절 내의 형태소 범주 패턴에 기반한 통계적 자동 띄어쓰기 시스템
A Stochastic Word-Spacing System Based on Word Category-Pattern 원문보기

정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용, v.33 no.11, 2006년, pp.965 - 978  

강미영 (부산대학교 컴퓨터공학과) ,  정성원 (부산대학교 컴퓨터공학과) ,  권혁철 (부산대학교 컴퓨터공학과)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 형태소 unigram과 한국어 어절을 형성하는 형태소 범주 패턴에 기반하여 어절을 인식하는 한국어 띄어쓰기 시스템을 구현하였다. 기존에 많이 연구된 통계 정보를 이용한 띄어쓰기 모델은 비교적 짧은 시간에 쉽게 구현할 수 있는 장점이 있지만, 한국어의 형태 유형론적 특성 때문에 발생하는 (ㄱ) 자료부족 문제와 (ㄴ) 메모리 크기 문제에 효과적으로 대처하지 못한다. 본 논문은 이 두 문제를 동시에 해결하기 위해 어절을 구성하고 있는 개별 형태소의 통계 정보와 그 형태소의 범주의 통계 정보를 기반으로 하여 띄어쓰기 후보 어절들을 추천한다. 임의의 후보 어절이 최종의 띄어쓰기 단위인 어절이 될 수 있는 확률은 (ㄱ) 해당 후보 어절 내의 각 형태소 확률과 (ㄴ) 해당 후보 어절을 구성하기 위해 그 형태소의 범주가 다른 형태소 범주와 함께 형성하는 패턴 내에서 차지하는 '범주가중치'를 고려하여 구한다. 해당 '범주가중치'는 (ㄱ) 말뭉치로부터 실제로 관찰된 어절의 확률과 (ㄴ) 후보 어절 내의 개별 형태소의 확률과 (ㄷ) 그 범주 가중치에 의해 추정된 어절 확률 사이의 평균 에러(error mean)가 최저가 되는 방향으로 학습하여 얻어진다.

Abstract AI-Helper 아이콘AI-Helper

This paper implements an automatic Korean word-spacing system based on word-recognition using morpheme unigrams and the pattern that the categories of those morpheme unigrams share within a candidate word. Although previous work on Korean word-spacing models has produced the advantages of easy const...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 더욱이 후보 어절을 확장함으로써 사전의 메모리가 커지는 문제점이 발생하였다. 따라서 본 연구는 (r) 자료 부족 문제와 («-) 메모리 크기 문제를 동시에 해결할 수 있는 형태소 unigram과 형태소 범주 패턴에 기반을 둔 띄어쓰기 기법을 제시한다.
  • 왜냐하면, 어절 띄어쓰기는 어절의 경계를 인식하는 것이지 음절의 경계를 인식하는 것이 아니기 때문이다. 따라서 본 연구의 선행 연구에서는 n-gram의 차수를 늘이지 않고 어절 경계를 인식함으로써 어절 띄어쓰기를 인식론적 관점에서 해결하기 위하여 노력하였다.
  • 범주별 결합 가중치를 반영하기 위하여 형태소 출현확률에 범주별 결합 가증치를 숭수로 두었으며, 이에 관하여는 다음 절에서 논하도록 하겠다. 그림 1은 위 식 (12)와 (13)을 사용한 범주패턴 기반 띄어쓰기 모델의 처리 과정을 도식화한 것이다.
  • 기반으로 계산할 수 있다. 본 논문에서는 이를 위하여 어절을 구성하는 범주 패틴 내에 각 형태소 가속한 범주의 기여도를 기여 가중치로 두고 학습을 이용하여 이 가중치를 얻어낸다.
  • 본 연구에서는 형태소 unigram을 이용한 범주 패턴 기반 한국어 자동 띄어쓰기 모델을 제안하였다. 이를 위하여。) 실제 관측된 어절의 출현 확률과 (Q 형태소와 범주 패턴을 이용하여 추정한 후보 어절의 출현 확률을 간의 차이를 최소화 하는 방향으로 범주 패턴 내 범주가중치를 학습하여 적용하였다.
  • 한국어의 이와 같은 특성을 고려하여 정확한 띄어쓰기를 자동으로 제시함으로써 한국어 문장을 문법적으로 정확한 어절의 나열로 만들기 위하여, 본 연구의 선행연구에서는 어절 unigram 기반의 통계적인 띄어쓰기 모델을 제안하였다. 이 연구에서는 통계적 어절 uni~ gram 기반 접근 방식에서 발견되는 자료부족 문제를 해결하기 위해 통계적 기법인 음절 bigram에 기반하여 어절의 경계에 대한 정보를 보완하고 규칙/지식에 기반하여 후보 어절 제시하는 혼합모델을 제안하였지만, 여전히 데이타 부족문제를 모두 해결할 수는 없었다[6].

가설 설정

  • . 어절 내에 단일 형태소 범주를 가진 패턴 N, ADVt BN, MDQ, MD, PN, HI 은 곧 어절이다. 따라서 이 패턴들은 따로 학습할 필요가 없으므로, 형태소 범주의 결합 가중치를 고려하지 않는다.
  • . 종성에 비、, 从, 初, 리、이 있는 음절은 단어 경계가 되는 공백과 같이 나타날 수 없다.
  • . 초성에 己을 포함하는 음절은 외래어를 제외하고는 단어 경계의 왼쪽에 나타날 수 없다.
  • . 한글의 어순은 자유롭지만, 국부적인 통사 제약은 존재한다. 즉, 특정 어미, 의존명사, 보조 동사 등은 통사 제약 아래 고정적 음절 패턴을 보인다,
  • 음절은 bigram 사용에 그리 큰 어려움이 없었지만, 형태소는 그 종류가 어절에 비해서는 적지만, 음절에 비해서는 엄청난 양이므로 형태소 uni- gram이상은 적용하기 힘들다. 따라서, 본 논문은 형태소가 각각 독립적으로 출현한다는 가정 하에 형태소 unigram을 사용한다.
  • 어절 unigram 모델에서는 문장 내에 각 어절들의 출현이 서로 독립 사건이라고 가정한다. 교착어적인 특성상 한국어는 어절의 배열이 자유롭지만, 문장 구성상 국부적인 통사 제약이 존재하기 때문에 특정 부분에서 고정 음절 패턴을 발견할 수 있다(2.
  • 한 어절은 하나 혹은 여러 개의 형태소로 구성되며, 형태소의 구성은 특별한 범주 패턴을 이루고 있다. 정의 2를 기반으로 본 연구에서는 단일 형태소가 한 어절이 구성하는 경우는 제외하고 2개 이상의 형태소가 한 어절을 구성할 때 어절과 형태소의 관계를 다음과 같이 가정하였다.
본문요약 정보가 도움이 되었나요?

참고문헌 (12)

  1. 강승식, '음절 bigram를 이용한 띄어쓰기 오류의 자동 교정', 음성과학회 논문지, 8권 2호, pp. 83-90, 2001 

  2. 신호철, '형태소 분석기를 이용한 자동 띄어쓰기 시스템 구축에 대한 연구, 한국어학, 12권, pp. 167-186, 2000 

  3. 심광섭, '음절간 상호 정보를 이용한 한국어 자동 띄어쓰기' 정보과학회논문지: 소프트웨어 및 응용, 23권 9호, pp. 991-1000, 1996 

  4. 심철민, 권혁철, '연어 정보에 기반한 한국어 철자 검사와 교정기의 구현', 정보과학회 논문지: 소프트웨어 및 응용, 23권 8호, pp. 776-785, 1996 

  5. 이도길, 이상주, 임희석, 임해창, '한글 문장의 자동 띄어쓰기를 위한 두 가지 통계적 모델' 정보과학회 논문지: 소프트웨어 및 응용, 30권 4호, pp. 358-370, 2003 

  6. Kang, M.Y., Choi S.W. and Kwon, H.CH., 'A Hybrid Approach to Automatic Word-spacing in Korean,' Lecture Notes in Computer Science (LNCS) Vol.3029, pp, 284-294, 2004 

  7. Kang, S.S. and Woo C.W., Automatic Segmentation of Words Using Syllable Bigram Statistics. Proceedings of the 6th Natural Language Processing Pacific Rim Symposium, pp. 729-732, 200l 

  8. Kim, S.N., Nam, H.S. and Kwon, H.CH., 'Correction Methods of Spacing Words for Improving the Korean Spelling and Grammar Checkers,' Proceedings of the 5th Natural Language Processing Pacific Rim Symposium, pp. 415-419, 1999 

  9. Manning, C.D., and Schutze H., 'Foundations of Statistical Natural Language Processing,' The MIT Press, Cambridge, London, 2001 

  10. Sproat R, Shih, C., Gale, W. and Chang, N. 'A Stochastic Finite-State Word-Segmentation Algorithm for Chinese,' Computational Linguistics, Vol.22 No.3, pp. 377-404, 1996 

  11. 21세기 세종계획 국어기초자료 구축, 문화관광부, 2004 

  12. 한국전자통신 연구원, 'ETRI 품사태그 부착 말뭉치(시험판)', 1999 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로