$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

한국어 품사 부착 말뭉치의 오류 검출 및 수정
Detecting and correcting errors in Korean POS-tagged corpora 원문보기

한국마린엔지니어링학회지 = Journal of the Korean Society of Marine Engineering, v.37 no.2, 2013년, pp.227 - 235  

최명길 (금호마린테크) ,  서형원 (한국한국해양대학교 컴퓨터공학과) ,  권홍석 (한국한국해양대학교 컴퓨터공학과) ,  김재훈 (한국해양대학교 IT공학부)

초록
AI-Helper 아이콘AI-Helper

품사 부착 말뭉치의 품질은 품사 부착기를 개발하는데 있어서 매우 중요한 역할을 수행한다. 그러나 세종 말뭉치를 비롯하여 한국에서 구축된 많은 품사 부착 말뭉치들은 여전히 다양한 형태의 오류를 포함하고 있다. 이런 오류들을 살펴보면 품사 부착 오류는 물론이고 철자 오류, 문자의 삽입 및 삭제 등 매우 다양하다. 본 논문에서는 오류 패턴을 이용하여 품사 부착 오류를 검출하고 이를 효과적으로 수정하는 도구를 개발한다. 제안된 방법과 도구를 이용해서 오류를 수정할 경우 평균 9배 이상 빠르게 오류를 수정할 수 있어서 이 방법이 매우 효과적인 방법임을 확인할 수 있었다.

Abstract AI-Helper 아이콘AI-Helper

The quality of the part-of-speech (POS) annotation in a corpus plays an important role in developing POS taggers. There, however, are several kinds of errors in Korean POS-tagged corpora like Sejong Corpus. Such errors are likely to be various like annotation errors, spelling errors, insertion and/o...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 작업자가 오류를 수정하고 데이터베이스에 저장할 때, 어절과 형태소 분석된 결과가 문자적으로 다를 경우 자동으로 검출하여 오류 패턴으로 등록한다. 문자열이 서로 다르더라도 음운 현상이나 용언의 불규칙 현상이 포함되어 있을 경우에는 오류가 아니므로 이를 작업자가 확인하도록 하였다. 만약 작업자가 실수로 오류 패턴을 저장하였다 하더라도 관리자가 이를 찾아서 수정할 수 있다.
  • 본 논문에서는 세종 형태분석 말뭉치의 오류를 분석하고 그 결과를 바탕으로 오류 검출 방법을 제안하고자 한다[24][25]. 세종 형태분석 말뭉치의 3%에 해당하는 450,000 어절에 대하여 오류를 분석하였으며, 그 결과 29,253개의 오류가 발견되어 대략 6.
  • 본 논문에서는 한국어 품사 부착 말뭉치로부터 오류 유형을 분석하고 그 결과에 따른 오류 수정 방법을 제시하고 효율적으로 수정하기 위한 도구를 개발한다. 본 논문에서 오류 검출 방법으로 형태소 생성에 기반한 오류 패턴을 이용한다.
  • 이와 같은 문제점을 해결하기 위해서 본 논문에서는 품사 부착 말뭉치로부터 오류 유형을 분석하고 그 결과에 따른 오류 수정 방법을 제시하고 효율적으로 수정하기 위한 도구를 개발한다. 본 논문에서 오류 검출 방법으로 형태소 생성에 기반한 오류 패턴을 이용한다.
  • • 학습 편의성: 처음 사용하는 사용자도 도구의 사용에 전혀 부담을 느끼지 않도록 설계되었으며 혹시라도 부족한 점이 있다면 도움말을 참조하도록 하였다. 특히 말풍선을 이용해서 익숙지 않은 UI에 대한 충분한 설명을 제공하도록 노력하였다.

가설 설정

  • 이렇게 정당한 형태소 생성 패턴을 저장하여 품사 부착 말뭉치의 오류를 검출한다. 한국어는 통상적으로 한 어절에 하나의 이상의 형태적 변이가 발생할 수 있으나 본 논문에서는 하나의 형태적 변이만 가능한 것으로 가정하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
품사 부착 말뭉치의 품질은 어떠한 역할을 수행하는가? 품사 부착 말뭉치의 품질은 품사 부착기를 개발하는데 있어서 매우 중요한 역할을 수행한다. 그러나 세종 말뭉치를 비롯하여 한국에서 구축된 많은 품사 부착 말뭉치들은 여전히 다양한 형태의 오류를 포함하고 있다.
언어정보 부착 말뭉치란 무엇인가? 자연언어처리 분야에서는 대량의 학습 자료를 사용해서 보다 쉽고, 지능적이며, 빠르게 시스템을 개발하고 있다. 자연언어처리 분야에서 대량의 학습 자료를 일반적으로 언어정보 부착 말뭉치라고 한다. 한국어 정보처리를 위해도 다양한 말뭉치[1]-[3]가 구축되 었으며, 이 중에 한국어 정보처리 연구자가 쉽게 그리고 널리 이용할 수 있는 말뭉치가 세종 말뭉치[3]이다.
품사 부착 말뭉치들의 오류에는 무엇이 있는가? 그러나 세종 말뭉치를 비롯하여 한국에서 구축된 많은 품사 부착 말뭉치들은 여전히 다양한 형태의 오류를 포함하고 있다. 이런 오류들을 살펴보면 품사 부착 오류는 물론이고 철자 오류, 문자의 삽입 및 삭제 등 매우 다양하다. 본 논문에서는 오류 패턴을 이용하여 품사 부착 오류를 검출하고 이를 효과적으로 수정하는 도구를 개발한다.
질의응답 정보가 도움이 되었나요?

참고문헌 (26)

  1. J.-H. Kim and G. C. Kim, Guideline on Building a Korean Part-of-Speech Tagged Corpus: KAIST Corpus, Technical Report CS-TR-95-99, Department of Computer Science, KAIST, 1995 (in Korean). 

  2. C.-H. Han and N.-R. Han, Part of Speech Tagging Guidelines for Penn Korean Treebank, Technical Report IRCS Report 01-09, Institute for Research in Cognitive Science, University of Pennsylvania, 2001. 

  3. H.-G. Kim, 21st Century Sejong Project - Construction of the Primary Data of the Korean Language, Research Report NIKL 2007-01-10, National Institute of the Korean Language, 2007 (in Korean). 

  4. M. Lee, H. Jung, W.-K. Sung, and D.-I. Park, "Verification of POS tagged corpus,", Proceedings of the 17th Annual Conference on Human and Cognitive Language Technology, pp. 145-150, 2005 (in Korean). 

  5. J.-H. Kim, H.-W. Seo, K.-H. Jeon, and M.-G. Choi, "Error correction methods for Sejong corpus," Proceedings of the KOSME Spring Conference, pp. 435-436. 2010 (in Korean). 

  6. M. Dickinson, Error Detection and Correction in Annotated Corpora. Ph.D. Thesis, The Ohio State University, 2005. 

  7. H. Loftsson, "Correcting a PoS-tagged corpus using three complementary methods," Proceedings of the 12th Conference of the European Chapter of the ACL, pp. 523-531, 2009. 

  8. H. Loftsson, J. H. Yngvason, S. Helgadottir, and E. Rognvaldsson, "Developing a POS-tagged corpus using existing tools," Proceedings of the 12th Conference of the European Chapter of the ACL, pages 523-531, 2009. 

  9. H. van Halteren "The detection of inconsistency in manually tagged text," Proceedings of the 2nd Workshop on Linguistically Interpreted Corpora, 2000. 

  10. M. Dickinson and W. D. Meurers, "Detecting errors in part-of-speech annotation," Proceedings of the 10th conference on European chapter of the Association for Computational Linguistics pp. 107-114. 2003. 

  11. E. Eskin, "Automatic corpus correction with anomaly detection," Proceedings of the 1st Conference of the North American Chapter of the Association for Computational Linguistics pp. 148-153, 2000. 

  12. T. Nakagawa and Y. Matsumoto, "Detecting errors in corpora using support vector machines," Proceedings of the 17th International Conference on Computational Linguistics, pp. 709-715, 2002. 

  13. T. Ule and K. Simov, "Unexpected productions may well be errors", Proceedings of 4th International Conference on Language Resources and Evaluation, pp. 1795-1798, 2004. 

  14. Q. Ma, B.-L. Lu, M. Murata, M. Ichikawa and H. Isahara, "On-line error detection of annotated corpus using modular neural networks," Proceedings of the International Conference on Artificial Neural Networks, pp. 1185-1192, 2001 

  15. R. Reidsma, K. Tomanek, U. Hahn, and A. Rappoport, "Multi-task active learning for linguistic annotations," Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, pp. 861-869, 2008. 

  16. B. G. Chang, K. J. Lee and G. C. Kim, "Design and implement of tree tagging workbench to build a large tree tagged corpus of Korean," Proceedings of the 9th Annual Conference on Human and Cognitive Language Technology, pp. 421-429, 1997 (in Korean). 

  17. Y.-H. Noh, H. A. Lee, and G. C. Kim, "A workbench for domain adaptation of an MT lexicon with a target domain corpus," Proceedings of the 12th Annual Conference on Human and Cognitive Language Technology, pp. 163-168, 2000 (in Korean). 

  18. J.-H. Kim and E.-J. Park, "PPEditor: Semi-automatic annotation tool for Korean dependency structure," The Transaction of the Korean Information Processing Society, vol. 13-B, no. 1, pp. 63-70, 2006 (in Korean). 

  19. D. Day, J. Aberdeen, L. Hirschman, R. Kozierok, P. Robinson, and M. Vilain, "Mixed-initiative development of language processing systems", Proceedings of the Applied Natural Language Processing Conference, pp. 348-355, 1997. 

  20. T. Morton and J. LaCivita, "WordFreak: An open tool for linguistic annotation," Proceedings of the 2003 Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics, pp. 17-18, 2003. 

  21. T. Brants and O. Plaehn, "Interactive corpus annotation," Proceedings of the 2nd International Conference on Language Resources and Engineering, pp. 453-459, 2000. 

  22. S. Chung, T. Kim, D. Hwang, and D.-I. Park, "Morphological generation system in English-Korean Machine Translation System MATES/EK," Proceedings of the Workshop on Research Projects of the Ministry of Science and Technology, pp. 10-13, 1990 (in Korean). 

  23. U. C. Choi, D. U. An, K.-S. Choi, and G. C. Kim, "Design and implementation of Korean generator for English-Korean Machine Translation," Proceedings of the Autumn Conference of KISS, vol. 17, no. 2, pp. 221-224, 1990 (in Korean). 

  24. H.-W. Seo, M.-K. Choi, Y.-R. Nam, H.-S. Kwon, and J.-H. Kim, "TagBench : A tool for building large corpora," Proceedings of the 24th Annual Conference on Human and Cognitive Language Technology, pp. 126-131, 2012 (in Korean). 

  25. M.-G. Choi, Developing a Tool for Detecting and Correcting Errors in Sejong POS Tagged Corpus, Master's Thesis, Department of Computer Engineering, Korea Maritime University, 2012 (in Korean). 

  26. J.-H. Kim, A Study on a Corpus Construction Tool for Machine Translation, Research Report, Electronics and Telecommunications Research Institute (ETRI), 2012. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로