$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

한글 문장의 자동 띄어쓰기를 위한 두 가지 통계적 모델
Two Statistical Models for Automatic Word Spacing of Korean Sentences 원문보기

정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용, v.30 no.3/4, 2003년, pp.358 - 371  

이도길 (고려대학교 컴퓨터학과) ,  이상주 ((주)엔엘피솔루션) ,  임희석 (천안대학교 정보통신학부) ,  임해창 (고려대학교 컴퓨터학과)

초록
AI-Helper 아이콘AI-Helper

자동 띄어쓰기는 문장 내에서 잘못 띄어쓴 어절들을 올바르게 복원하는 과정으로서, 독자에게 글의 가독성을 높이고 문장의 뜻을 정확히 전달하기 위해 매우 중요하다. 기존의 통계 기반 자동 띄어쓰기 접근 방법들은 이전 띄어쓰기 상태를 고려하지 않기 때문에 잘못된 확률 정보에 의한 띄어쓰기를 할 수밖에 없었다. 본 논문에서는 기존의 통계 기반 접근 방법 의 문제점을 해결할 수 있는 두 가지 통계적 띄어쓰기 모델을 제안한다. 제안하는 모델은 자동 띄어쓰기를 품사 부착과 같은 분류 문제(classification problem)로 간주할 수 있다는 착안에 기반하며, 은닉 마르코프 모델을 일반화함으로써 확장된 문맥을 고려할 수 있고 보다 정확한 확률을 추정할 수 있도록 고안되었다. 제안하는 모델과 지금까지 가장 좋은 성능을 보이는 기존의 방법을 비교하기 위해 여러 가지 실험 조건에 따른 다양한 실험을 수행하였고, 오류에 대한 자세한 분석을 제시하고 있다 제안하는 모델을 복합 명사를 고려하는 평가 방식에 적응한 실험 결과, 98.33%의 음절 단위 정확도와 93.06%외 어절단위 정확률을 얻었다.

Abstract AI-Helper 아이콘AI-Helper

Automatic word spacing is a process of deciding correct boundaries between words in a sentence including spacing errors. It is very important to increase the readability and to communicate the accurate meaning of text to the reader. The previous statistical approaches for automatic word spacing do n...

주제어

참고문헌 (20)

  1. E. Charniak, C. Hendrickson, N. Jacobson, and M. Perkowitz, Equations for Part-of-Speech Tagging, In Proceedings of the 11th National Conference on Artificial Intelligence(AAAI-93), pp.784-789, 1993 

  2. B. Merialdo, Tagging English Text with a Probabilistic Model, Computational Linguistics, 20(2), pp.155-172, 1994 

  3. 김진동, 임희석, 임해창, Twoply HMM : 한국어의 특성을 고려한 형태소 단위의 품사 태깅 모델, 한국정보과학회 논문지(B), 제24권, 12호, pp.1502-1512, 1997 

  4. 이상주, 자동 품사 부착을 위한 새로운 통계적 모형, 고려대학교 컴퓨터학과 박사학위논문, 1999 

  5. K. Seymore, A. McCallum, and R. Rosenfeld, Learning Hidden Markov Model Structure for Information Extraction, AAAI 99 Workshop on Machine Learning for Information Extraction, 1999 

  6. D. Bikel, S. Miller, R. Schwartz, and R. Weischedel. NYMBLE: A High-Performance Learning Name-finder, In Proceedings of the Fifth Conference on Applied Natural Language Processing, pp. 194-201, 1997 

  7. 오종훈, 최기선, 은닉마르코프 모델(HMM)을 이용한 과학기술문서에서의 외래어 추출 모델, 제 11회 한글 및 한국어 정보처리 학술발표 논문집, pp.137-141, 1999 

  8. 박봉래, 대용량 한글 텍스트 데이터베이스 맞춤법 오류 교정 시스템의 구현, 고려대학교 전산과학과 석사학위논문, 1995 

  9. 최재혁, 양방향 최장일치법을 이용한 한국어 띄어쓰기 자동 교정 시스템, 제9회 한글 및 한국어 정보처리 학술발표 논문집, pp.145-151, 1997 

  10. 김계성, 이현주, 이상조, 연속 음절 문장에 대한 3단계 한국어 띄어쓰기 시스템, 정보과학회논문지, 제25권 제12호, pp.1838-1844, 1998 

  11. 강승식, 한글 문장의 자동 띄어쓰기, 제10회 한글 및 한국어 정보처리 학술발표 논문집, pp.137-142, 1998 

  12. 강승식, 한글 문장의 자동 띄어쓰기를 위한 어절블록 양방향 알고리즘, 정보과학회논문지, 제27권 제4호, pp.441-447. 2000 

  13. 심광섭, 음절간 상호 정보를 이용한 한국어 자동 띄어쓰기, 정보과학회논문지, 제23권 제9호, pp.991-1000, 1996 

  14. 신중호, 박혁로, 음절 단위 bigram 정보를 이용한 한국어 단어인식모델, 제9회 한글 및 한국어 정보처리학술발표 논문집, pp.255-260, 1997 

  15. 정영미, 이재윤, 한국어 텍스트 처리를 위한 줄 경계 띄어쓰기 복원, 제6회 한국정보관리학회 학술대회 논문집, pp.21-24, 1999 

  16. 전남열, 박혁로, 음절 Bi gram정보를 이용한 한국어 OCR 후처리용 자동 띄어쓰기, 제 12회 한글 및 한국어 정보처리 학술발표 논문집, pp.95-100, 2000 

  17. 강승식, 음절 bigram를 이용한 띄어쓰기 오류의 자동 교정, 음성과학회논문지, 제8권 2호, pp.83-90, 2001 

  18. 21세기 세종계획 국어기초자료 구축, 문화관광부, 1998 

  19. 21세기 세종계획 국어기초자료 구축, 문화관광부, 1999 

  20. 한국전자통신연구원, 품사 부착 말뭉치 구축 지침서, 1999, http://aladin.etri.re.kr/-nlu/STANDARD/ 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로