[논문]한국어 품사 부착 말뭉치의 오류 검출 및 수정

최명길; 서형원; 권홍석; 김재훈

doi:10.5916/jkosme.2013.37.2.227

한국어 품사 부착 말뭉치의 오류 검출 및 수정
Detecting and correcting errors in Korean POS-tagged corpora 원문보기

한국마린엔지니어링학회지 = Journal of the Korean Society of Marine Engineering, v.37 no.2, 2013년, pp.227 - 235

최명길 (금호마린테크) , 서형원 (한국한국해양대학교 컴퓨터공학과) , 권홍석 (한국한국해양대학교 컴퓨터공학과) , 김재훈 (한국해양대학교 IT공학부)

초록
AI-Helper

품사 부착 말뭉치의 품질은 품사 부착기를 개발하는데 있어서 매우 중요한 역할을 수행한다. 그러나 세종 말뭉치를 비롯하여 한국에서 구축된 많은 품사 부착 말뭉치들은 여전히 다양한 형태의 오류를 포함하고 있다. 이런 오류들을 살펴보면 품사 부착 오류는 물론이고 철자 오류, 문자의 삽입 및 삭제 등 매우 다양하다. 본 논문에서는 오류 패턴을 이용하여 품사 부착 오류를 검출하고 이를 효과적으로 수정하는 도구를 개발한다. 제안된 방법과 도구를 이용해서 오류를 수정할 경우 평균 9배 이상 빠르게 오류를 수정할 수 있어서 이 방법이 매우 효과적인 방법임을 확인할 수 있었다.

Abstract ▼ AI-Helper

The quality of the part-of-speech (POS) annotation in a corpus plays an important role in developing POS taggers. There, however, are several kinds of errors in Korean POS-tagged corpora like Sejong Corpus. Such errors are likely to be various like annotation errors, spelling errors, insertion and/or deletion of unexpected characters. In this paper, we propose a method for detecting annotation errors using error patterns, and also develop a tool for effectively correcting them. Overall, based on the proposed method, we have hand-corrected annotation errors in Sejong POS Tagged Corpus using the developed tool. As the result, it is faster at least 9 times when compared without using any tools. Therefore we have observed that the proposed method is effective for correcting annotation errors in POS-tagged corpus.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

작업자가 오류를 수정하고 데이터베이스에 저장할 때, 어절과 형태소 분석된 결과가 문자적으로 다를 경우 자동으로 검출하여 오류 패턴으로 등록한다. 문자열이 서로 다르더라도 음운 현상이나 용언의 불규칙 현상이 포함되어 있을 경우에는 오류가 아니므로 이를 작업자가 확인하도록 하였다. 만약 작업자가 실수로 오류 패턴을 저장하였다 하더라도 관리자가 이를 찾아서 수정할 수 있다.
본 논문에서는 세종 형태분석 말뭉치의 오류를 분석하고 그 결과를 바탕으로 오류 검출 방법을 제안하고자 한다[24][25]. 세종 형태분석 말뭉치의 3%에 해당하는 450,000 어절에 대하여 오류를 분석하였으며, 그 결과 29,253개의 오류가 발견되어 대략 6.
본 논문에서는 한국어 품사 부착 말뭉치로부터 오류 유형을 분석하고 그 결과에 따른 오류 수정 방법을 제시하고 효율적으로 수정하기 위한 도구를 개발한다. 본 논문에서 오류 검출 방법으로 형태소 생성에 기반한 오류 패턴을 이용한다.
이와 같은 문제점을 해결하기 위해서 본 논문에서는 품사 부착 말뭉치로부터 오류 유형을 분석하고 그 결과에 따른 오류 수정 방법을 제시하고 효율적으로 수정하기 위한 도구를 개발한다. 본 논문에서 오류 검출 방법으로 형태소 생성에 기반한 오류 패턴을 이용한다.
• 학습 편의성: 처음 사용하는 사용자도 도구의 사용에 전혀 부담을 느끼지 않도록 설계되었으며 혹시라도 부족한 점이 있다면 도움말을 참조하도록 하였다. 특히 말풍선을 이용해서 익숙지 않은 UI에 대한 충분한 설명을 제공하도록 노력하였다.

가설 설정

이렇게 정당한 형태소 생성 패턴을 저장하여 품사 부착 말뭉치의 오류를 검출한다. 한국어는 통상적으로 한 어절에 하나의 이상의 형태적 변이가 발생할 수 있으나 본 논문에서는 하나의 형태적 변이만 가능한 것으로 가정하였다.

제안 방법

• 사용자 중심 인터페이스: 사용자들이 작업할 때 가능하면 적은 노력으로 큰 결과를 얻을 수 있도록 설계하였으며 문장, 어절 형태소 등 언어 정보의 단위에 따라서 각각 다른 작업을 할 수 있도록 설계하였다.
두 번째 실험에서는 세종 형태분석 말뭉치에서 10개의 파일을 임의로 선정해서 숙련된 작업자가 직접 수정하는데 걸리는 시간을 분석해 보았다. 각 파일은 평균 400 문장으로 구성되었으며, 각 파일의 작업 시간은 Table 4와 같다.
또한 작업자가 수정 중에 수정을 완료하지 않고 장시간 자리를 비울 경우, 수정 작업을 완료하지 않고 임시 저장할 수도 있으며(‘deferred’) 제자리로 돌아왔을 때 임시 저장된 문장을 바로 수정할 수 있도록 하였다.
이와 같은 문제점을 해결하기 위해서 본 논문에서는 품사 부착 말뭉치로부터 오류 유형을 분석하고 그 결과에 따른 오류 수정 방법을 제시하고 효율적으로 수정하기 위한 도구를 개발한다. 본 논문에서 오류 검출 방법으로 형태소 생성에 기반한 오류 패턴을 이용한다. 이 방법은 주어진 어절과 형태소 분석 결과의 형태소 생성 결과가 서로 다를 경우, 해당 어절을 오류 가능 어절로 제시하고, 이 어절이 오류이면 오류 패턴을 생성하여 다음에 같은 유형의 오류를 자동으로 검출할 수 있도록 한다.
그중에 하나가 원래의 어절과 다르다면 오류일 가능성이 매우 높다. 본 논문에서 형태소 생성이 목적이 아니므로 직접 형태소를 생성하는 것이 아니라 원래의 어절과 문자열의 차이를 구하고, 그 차이와 주변 문맥이 정당한 형태소 생성이라면 오류로 추정하지 않는다. Table 2에서 그 예를 보여주고 있다.
본 논문에서는 [15]에서 제안한 말뭉치 수정 도구의 요구사항을 만족하도록 설계하였으며 아래와 같이 요약된다.
본 장에서는 개발된 한국어 품사 오류 수정 도구의 성능을 평가하기 위해 세종 형태분석 말뭉치⁴⁾를 대상으로 두 가지 실험을 수행하였다. 첫 번째 실험은 오류 검출에 관한 것이고 두 번째 실험은 오류 수정에 관한 것이다.
여기서 형태소 생성 패턴은 좌우의 한 자소를 형태소 생성 패턴으로 저장한다. 이렇게 정당한 형태소 생성 패턴을 저장하여 품사 부착 말뭉치의 오류를 검출한다. 한국어는 통상적으로 한 어절에 하나의 이상의 형태적 변이가 발생할 수 있으나 본 논문에서는 하나의 형태적 변이만 가능한 것으로 가정하였다.
첫 번째 실험에서 오류 수정 도구를 사용하여 단계적으로 오류 패턴을 개선하는 경우와 작업자가 말뭉치에서 일일이 오류를 검출하는 경우의 시간을 관찰해 보았다. 대상 문장은 100문장이며 3명의 실험자에 의해서 수행되었으며 그 결과는 Table 3과 같다.
오류 수정 방법은 GUI(graphical user interface)를 통하여 수동으로 수정되며 가능한 한 반복적인 작업은 수행하지 않도록 설계되었다. 특히 본 논문에서는 일관성 유지를 위해 데이터베이스를 이용해서 모든 정보를 작업자들이 실시간으로 공유할 수 있도록 하였다.

대상 데이터

첫 번째 실험에서 오류 수정 도구를 사용하여 단계적으로 오류 패턴을 개선하는 경우와 작업자가 말뭉치에서 일일이 오류를 검출하는 경우의 시간을 관찰해 보았다. 대상 문장은 100문장이며 3명의 실험자에 의해서 수행되었으며 그 결과는 Table 3과 같다. Table 3 에서 보는 바와 같이 100문장에서 오류를 작업자가 직접 검출하는 경우, 평균 37분 정도 소요되었으나 오류 수정 도구를 이용한 경우, 평균 4분 정도 소요되 었다.

성능/효과

일반적으로 장시간 동안 말뭉치를 구축하면 작업자 집중도가 크게 떨어져서 오류를 그대로 방치할 가능성이 매우 높다. 본 논문에서 제안된 방법은 대부분의 오류를 시스템이 검출하므로 이 문제가 크게 개선되었다.
본 논문에서는 세종 형태분석 말뭉치의 오류를 분석하고 그 결과를 바탕으로 오류 검출 방법을 제안하고자 한다[24][25]. 세종 형태분석 말뭉치의 3%에 해당하는 450,000 어절에 대하여 오류를 분석하였으며, 그 결과 29,253개의 오류가 발견되어 대략 6.5%의 오류를 포함하고 있음을 알 수 있었다. Table 1에서 그 일부를 보여주고 있다.
위의 두 실험 결과를 보아 본 논문에서 제안된 오류 패턴과 수정 도구는 품사 부착 오류를 수정하는데 매우 유용함을 알 수 있었다. 본 논문은 주로 세종 말뭉치를 대상으로 실험해 보았지만 대부분의 한국어 품사 부착 말뭉치가 비슷한 구조를 가지고 있으므로 다른 한국어 품사 부착 말뭉치에도 그대로 적용할 수 있을 것으로 기대된다.
오류 수정 방법은 GUI(graphical user interface)를 통하여 수동으로 수정되며 가능한 한 반복적인 작업은 수행하지 않도록 설계되었다. 제안된 방법과 도구를 이용해서 오류를 수정할 경우 평균 9배 이상 빠르게 오류를 수정할 수 있어서 이 방법이 매우 효과적인 방법임을 확인할 수 있었다. 특히 본 논문에서는 일관성 유지를 위해 데이터베이스를 이용해서 모든 정보를 작업자들이 실시간으로 공유할 수 있도록 하였다.

후속연구

따라서 완전히 오류를 수정하기 위해서는 새로운 오류 검출 방법이 필요하다. 따라서 향후 연구로서 기계학습 방법을 이용한 오류 검출 방법을 수정 도구에 접목한다면 오류의 검출이 더욱 정확할 뿐 아니라 다양한 오류들을 쉽게 찾을 수 있을 것으로 생각된다.
위의 두 실험 결과를 보아 본 논문에서 제안된 오류 패턴과 수정 도구는 품사 부착 오류를 수정하는데 매우 유용함을 알 수 있었다. 본 논문은 주로 세종 말뭉치를 대상으로 실험해 보았지만 대부분의 한국어 품사 부착 말뭉치가 비슷한 구조를 가지고 있으므로 다른 한국어 품사 부착 말뭉치에도 그대로 적용할 수 있을 것으로 기대된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	품사 부착 말뭉치의 품질은 어떠한 역할을 수행하는가?	품사 부착 말뭉치의 품질은 품사 부착기를 개발하는데 있어서 매우 중요한 역할을 수행한다. 그러나 세종 말뭉치를 비롯하여 한국에서 구축된 많은 품사 부착 말뭉치들은 여전히 다양한 형태의 오류를 포함하고 있다.
	언어정보 부착 말뭉치란 무엇인가?	자연언어처리 분야에서는 대량의 학습 자료를 사용해서 보다 쉽고, 지능적이며, 빠르게 시스템을 개발하고 있다. 자연언어처리 분야에서 대량의 학습 자료를 일반적으로 언어정보 부착 말뭉치라고 한다. 한국어 정보처리를 위해도 다양한 말뭉치[1]-[3]가 구축되 었으며, 이 중에 한국어 정보처리 연구자가 쉽게 그리고 널리 이용할 수 있는 말뭉치가 세종 말뭉치[3]이다.
	품사 부착 말뭉치들의 오류에는 무엇이 있는가?	그러나 세종 말뭉치를 비롯하여 한국에서 구축된 많은 품사 부착 말뭉치들은 여전히 다양한 형태의 오류를 포함하고 있다. 이런 오류들을 살펴보면 품사 부착 오류는 물론이고 철자 오류, 문자의 삽입 및 삭제 등 매우 다양하다. 본 논문에서는 오류 패턴을 이용하여 품사 부착 오류를 검출하고 이를 효과적으로 수정하는 도구를 개발한다.

참고문헌 (26)

J.-H. Kim and G. C. Kim, Guideline on Building a Korean Part-of-Speech Tagged Corpus: KAIST Corpus, Technical Report CS-TR-95-99, Department of Computer Science, KAIST, 1995 (in Korean).
C.-H. Han and N.-R. Han, Part of Speech Tagging Guidelines for Penn Korean Treebank, Technical Report IRCS Report 01-09, Institute for Research in Cognitive Science, University of Pennsylvania, 2001.
H.-G. Kim, 21st Century Sejong Project - Construction of the Primary Data of the Korean Language, Research Report NIKL 2007-01-10, National Institute of the Korean Language, 2007 (in Korean).
M. Lee, H. Jung, W.-K. Sung, and D.-I. Park, "Verification of POS tagged corpus,", Proceedings of the 17th Annual Conference on Human and Cognitive Language Technology, pp. 145-150, 2005 (in Korean).
J.-H. Kim, H.-W. Seo, K.-H. Jeon, and M.-G. Choi, "Error correction methods for Sejong corpus," Proceedings of the KOSME Spring Conference, pp. 435-436. 2010 (in Korean).
M. Dickinson, Error Detection and Correction in Annotated Corpora. Ph.D. Thesis, The Ohio State University, 2005.
H. Loftsson, "Correcting a PoS-tagged corpus using three complementary methods," Proceedings of the 12th Conference of the European Chapter of the ACL, pp. 523-531, 2009.
H. Loftsson, J. H. Yngvason, S. Helgadottir, and E. Rognvaldsson, "Developing a POS-tagged corpus using existing tools," Proceedings of the 12th Conference of the European Chapter of the ACL, pages 523-531, 2009.
H. van Halteren "The detection of inconsistency in manually tagged text," Proceedings of the 2nd Workshop on Linguistically Interpreted Corpora, 2000.
M. Dickinson and W. D. Meurers, "Detecting errors in part-of-speech annotation," Proceedings of the 10th conference on European chapter of the Association for Computational Linguistics pp. 107-114. 2003.
E. Eskin, "Automatic corpus correction with anomaly detection," Proceedings of the 1st Conference of the North American Chapter of the Association for Computational Linguistics pp. 148-153, 2000.
T. Nakagawa and Y. Matsumoto, "Detecting errors in corpora using support vector machines," Proceedings of the 17th International Conference on Computational Linguistics, pp. 709-715, 2002.
T. Ule and K. Simov, "Unexpected productions may well be errors", Proceedings of 4th International Conference on Language Resources and Evaluation, pp. 1795-1798, 2004.
Q. Ma, B.-L. Lu, M. Murata, M. Ichikawa and H. Isahara, "On-line error detection of annotated corpus using modular neural networks," Proceedings of the International Conference on Artificial Neural Networks, pp. 1185-1192, 2001
R. Reidsma, K. Tomanek, U. Hahn, and A. Rappoport, "Multi-task active learning for linguistic annotations," Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, pp. 861-869, 2008.
B. G. Chang, K. J. Lee and G. C. Kim, "Design and implement of tree tagging workbench to build a large tree tagged corpus of Korean," Proceedings of the 9th Annual Conference on Human and Cognitive Language Technology, pp. 421-429, 1997 (in Korean).
Y.-H. Noh, H. A. Lee, and G. C. Kim, "A workbench for domain adaptation of an MT lexicon with a target domain corpus," Proceedings of the 12th Annual Conference on Human and Cognitive Language Technology, pp. 163-168, 2000 (in Korean).
J.-H. Kim and E.-J. Park, "PPEditor: Semi-automatic annotation tool for Korean dependency structure," The Transaction of the Korean Information Processing Society, vol. 13-B, no. 1, pp. 63-70, 2006 (in Korean).

원문보기 상세보기
D. Day, J. Aberdeen, L. Hirschman, R. Kozierok, P. Robinson, and M. Vilain, "Mixed-initiative development of language processing systems", Proceedings of the Applied Natural Language Processing Conference, pp. 348-355, 1997.
T. Morton and J. LaCivita, "WordFreak: An open tool for linguistic annotation," Proceedings of the 2003 Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics, pp. 17-18, 2003.
T. Brants and O. Plaehn, "Interactive corpus annotation," Proceedings of the 2nd International Conference on Language Resources and Engineering, pp. 453-459, 2000.
S. Chung, T. Kim, D. Hwang, and D.-I. Park, "Morphological generation system in English-Korean Machine Translation System MATES/EK," Proceedings of the Workshop on Research Projects of the Ministry of Science and Technology, pp. 10-13, 1990 (in Korean).
U. C. Choi, D. U. An, K.-S. Choi, and G. C. Kim, "Design and implementation of Korean generator for English-Korean Machine Translation," Proceedings of the Autumn Conference of KISS, vol. 17, no. 2, pp. 221-224, 1990 (in Korean).
H.-W. Seo, M.-K. Choi, Y.-R. Nam, H.-S. Kwon, and J.-H. Kim, "TagBench : A tool for building large corpora," Proceedings of the 24th Annual Conference on Human and Cognitive Language Technology, pp. 126-131, 2012 (in Korean).
M.-G. Choi, Developing a Tool for Detecting and Correcting Errors in Sejong POS Tagged Corpus, Master's Thesis, Department of Computer Engineering, Korea Maritime University, 2012 (in Korean).
J.-H. Kim, A Study on a Corpus Construction Tool for Machine Translation, Research Report, Electronics and Telecommunications Research Institute (ETRI), 2012.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증