[논문]XGBoost와 교차검증을 이용한 품사부착말뭉치에서의 오류 탐지

최민석; 김창현; 박호민; 천민아; 윤호; 남궁영; 김재균; 김재훈

doi:10.3745/ktsde.2020.9.7.221

XGBoost와 교차검증을 이용한 품사부착말뭉치에서의 오류 탐지
Detecting Errors in POS-Tagged Corpus on XGBoost and Cross Validation 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.9 no.7, 2020년, pp.221 - 228

최민석 (한국해양대학교 컴퓨터공학과) , 김창현 (한국전자통신연구원) , 박호민 (한국해양대학교 컴퓨터공학과) , 천민아 (한국해양대학교 컴퓨터공학과) , 윤호 (한국해양대학교 컴퓨터공학과) , 남궁영 (한국해양대학교 컴퓨터공학과) , 김재균 (한국해양대학교 컴퓨터공학과) , 김재훈 (한국해양대학교 컴퓨터공학과)

초록
AI-Helper

품사부착말뭉치는 품사정보를 부착한 말뭉치를 말하며 자연언어처리 분야에서 다양한 학습말뭉치로 사용된다. 학습말뭉치는 일반적으로 오류가 없다고 가정하지만, 실상은 다양한 오류를 포함하고 있으며, 이러한 오류들은 학습된 시스템의 성능을 저하시키는 요인이 된다. 이러한 문제를 다소 완화시키기 위해서 본 논문에서는 XGBoost와 교차 검증을 이용하여 이미 구축된 품사부착말뭉치로부터 오류를 탐지하는 방법을 제안한다. 제안된 방법은 먼저 오류가 포함된 품사부착말뭉치와 XGBoost를 사용해서 품사부착기를 학습하고, 교차검증을 이용해서 품사오류를 검출한다. 그러나 오류가 부착된 학습말뭉치가 존재하지 않으므로 일반적인 분류기로서 오류를 검출할 수 없다. 따라서 본 논문에서는 매개변수를 조절하면서 학습된 품사부착기의 출력을 비교함으로써 오류를 검출한다. 매개변수를 조절하기 위해서 본 논문에서는 작은 규모의 오류부착말뭉치를 이용한다. 이 말뭉치는 오류 검출 대상의 전체 말뭉치로부터 임의로 추출된 것을 전문가에 의해서 오류가 부착된 것이다. 본 논문에서는 성능 평가의 척도로 정보검색에서 널리 사용되는 정밀도와 재현율을 사용하였다. 또한 모집단의 모든 오류 후보를 수작업으로 확인할 수 없으므로 표본 집단과 모집단의 오류 분포를 비교하여 본 논문의 타당성을 보였다. 앞으로 의존구조부착 말뭉치와 의미역 부착말뭉치에서 적용할 계획이다.

Abstract ▼ AI-Helper

Part-of-Speech (POS) tagged corpus is a collection of electronic text in which each word is annotated with a tag as the corresponding POS and is widely used for various training data for natural language processing. The training data generally assumes that there are no errors, but in reality they include various types of errors, which cause performance degradation of systems trained using the data. To alleviate this problem, we propose a novel method for detecting errors in the existing POS tagged corpus using the classifier of XGBoost and cross-validation as evaluation techniques. We first train a classifier of a POS tagger using the POS-tagged corpus with some errors and then detect errors from the POS-tagged corpus using cross-validation, but the classifier cannot detect errors because there is no training data for detecting POS tagged errors. We thus detect errors by comparing the outputs (probabilities of POS) of the classifier, adjusting hyperparameters. The hyperparameters is estimated by a small scale error-tagged corpus, in which text is sampled from a POS-tagged corpus and which is marked up POS errors by experts. In this paper, we use recall and precision as evaluation metrics which are widely used in information retrieval. We have shown that the proposed method is valid by comparing two distributions of the sample (the error-tagged corpus) and the population (the POS-tagged corpus) because all detected errors cannot be checked. In the near future, we will apply the proposed method to a dependency tree-tagged corpus and a semantic role tagged corpus.

주제어

표/그림 (12)

그림 Fig. 1. An Example Sentence in Sejong POS-Tagged Corpus
그림 Fig. 2. An Example of Contextual Embedding for the Morpheme '자전거'
그림 Fig. 3. Conceptual Graph for Assumption 1
그림 Fig. 4. Conceptual Graph for Assumption 2
그림 Fig. 5. 3-fold Cross Validation for Error Detection
표 Table 1. The Statistics of Sejong POS-tagged Corpus and Error-annotated Corpus
표 Table 2. Precision and Recall According to the Change of θ₁ and θ₂
표 Table 3. Examples of Undetected Errors
표 Table 4. The Size of Each Embedding
표 Table 5. Threshold Setting for Extended Embedding
표 Table 6. The Results of Error Detection for Sejong POS-tagged Corpus and the Error-tagged Corpus Constructed Manually
그림 Fig. 6. The Graph for the Error Rate Per Tag

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

그러나 오류가 부착된 학습말뭉치가 존재하지 않으므로 일반적인 분류문제로 해결할 수 없다. 따라서본 논문에서는 매개변수를 조절하면서 학습된 품사부착기의출력을 비교함으로써 오류를 검출한다. 매개변수를 조절하기위해서 본 논문에서는 작은 규모의 오류부착말뭉치를 이용한다.
그러나 오류가 부착된 학습말뭉치가 존재하지 않으므로 일반적인 분류문제로 해결할 수 없다. 따라서본 논문에서는 매개변수를 조절하면서 학습된 품사부착기의출력을 비교함으로써 오류를 검출한다. 매개변수를 조절하기위해서 본 논문에서는 작은 규모의 오류부착말뭉치를 이용한다.
본 논문에서는 XGBoost와 교차 검증을 이용하여 이미 구축된 품사부착말뭉치로부터 오류를 탐지하는 방법을 제안한다. 제안된 방법은 먼저 오류가 포함된 품사부착말뭉치와XGBoost를 사용해서 품사부착기를 학습하고, 교차검증을이용해서 품사오류를 검출한다.
본 장에서는 일반적인 오류 검출과 품사부착말뭉치에서 오류 검출에 대해서 간략히 기술할 것이다.
이러한 문제를 다소 완화시키기 위해서 본 논문에서는 교차검증(cross validation)과 XGBoost를 이용하여 이미 구축된 품사부착말뭉치로부터 오류를 탐지하는 방법을 제안한다. 먼저 오류가 포함된 말뭉치와 XGBoost를 이용해서 품사부착기(POS tagger)를 학습하고 교차검증을 이용해서 품사오류를 검출한다.

가설 설정

이런 이유로 앙상불 기반 불일치 방법(Ensemble-based disagreement)은 일반적으로 말뭉치를 구축하면서 발생되는 오류를 검출할 때 주로 사용된다.본 논문에서 완전한 하나의 분류기(XGBoost)가 있다고 가정한다. 이 분류기는 주어진 문맥에 대해 각 품사의 확률 P(t|C) 를출력하고, 이 확률을 내림차순으로 정렬하면 p₁= P(t₁|C),p_{2 =}P(t₁|C) .
3. 이 가정은 일반적으로 분류기의 출력과 부착된 품사가 다를 경우로서 일반적으로 흔히 사용하는 가정이다.

제안 방법

4.2절에서 설정된 θ1과 θ2을 바탕으로 세종말뭉치 전체에대해서 오류 후보를 선택하였다.
4.4 모집단과 표본집단의 오류 분석본 논문에서 제안된 방법의 성능을 평가하기 위하여 표본집단(오류부착말뭉치)의 오류의 비율과 모집단(세종말뭉치)의오류 비율을 비교해 보았다. Table 6은 그 빈도수를 보이며,Fig.
여기서 p는 품사이고,C는 문맥이고, n은 품사의 개수이다. 또한 부착된 품사 t_a의확률이 P(t_a|C) 일 때, 본 논문에서는 다음과 같은 두 가지가정을 전제로 품사 t_a를 오류로 판단한다.
따라서본 논문에서는 매개변수를 조절하면서 학습된 품사부착기의출력을 비교함으로써 오류를 검출한다. 매개변수를 조절하기위해서 본 논문에서는 작은 규모의 오류부착말뭉치를 이용한다. 이 말뭉치는 오류 검출 대상의 전체 말뭉치로부터 임의로추출된 것을 전문가에 의해서 오류가 부착된 것이다.
따라서본 논문에서는 매개변수를 조절하면서 학습된 품사부착기의출력을 비교함으로써 오류를 검출한다. 매개변수를 조절하기위해서 본 논문에서는 작은 규모의 오류부착말뭉치를 이용한다. 이 말뭉치는 오류 검출 대상의 전체 말뭉치로부터 임의로추출된 것을 전문가에 의해서 오류가 부착된 것이다.
이러한 문제를 다소 완화시키기 위해서 본 논문에서는 교차검증(cross validation)과 XGBoost를 이용하여 이미 구축된 품사부착말뭉치로부터 오류를 탐지하는 방법을 제안한다. 먼저 오류가 포함된 말뭉치와 XGBoost를 이용해서 품사부착기(POS tagger)를 학습하고 교차검증을 이용해서 품사오류를 검출한다. 그러나 오류가 부착된 학습말뭉치가 존재하지 않으므로 일반적인 분류문제로 해결할 수 없다.
본 논문에서 제안된 오류 검출 시스템은 크게 세 단계(문맥표상 표현과 품사확률 예측, 기준값 설정, 오류 후보 선택)로구성된다. 이하의 절에서는 각 단계를 자세히 설명할 것이다.
이미 구축된 말뭉치의 오류를 선정해야 하므로 모든 말뭉치를 대상으로 오류를 검출해야 한다. 본 논문에서는 3.2절에서 설정된 기준값을 바탕으로 말뭉치 전체를 교차검증(cross validation) 방법으로 오류 후보를 선택한다. Fig.
7)하기 위해서는 오류가 부착된 말뭉치(error-tagged corpus)가 필요하다. 세종말뭉치로부터 임의로 1,000개의 문장을 추출하여 오류를 수동으로 부착하였다(4.1절 참조). 오류부착말뭉치로부터 재현율(recall)이 최대가 되도록 θ₁과 θ₂를 설정한다.
Table 6에서 세종말뭉치(Sejong POS-tagged)의 오류(Error)는 본 논문에서 제안된 오류 검출 시스템에 의해서 검출된 것이고, 오류부착말뭉치(Error-tagged)의 오류(Error)는수동으로 표시된 것이다. 세종말뭉치에서 1,250,500개의 품사 오류를 검출하여 약 8%를 오류로 검출하였다. 검출된 오류를 일일이 확인하여 오류 여부를 판단해야 하지만 이를 수정하는 일은 너무나 많은 시간과 비용이 소요되어 검출된 오류 중에서 1,000개를 직접 분석해 보았다.
본 논문에서는 XGBoost와 교차 검증을 이용하여 이미 구축된 품사부착말뭉치로부터 오류를 탐지하는 방법을 제안한다. 제안된 방법은 먼저 오류가 포함된 품사부착말뭉치와XGBoost를 사용해서 품사부착기를 학습하고, 교차검증을이용해서 품사오류를 검출한다. 그러나 오류가 부착된 학습말뭉치가 존재하지 않으므로 일반적인 분류문제로 해결할수 없다.
제안된 오류 검출 시스템은 크게 문맥표상의 표현(contextembedding representation)과 품사확률(probability ofPOS)의 예측, 기준값의 설정(threshold setting), 오류 후보의 선택(error candidate selection)으로 구성된다. 문맥표상은 오류 주변의 문맥을 벡터로 표현한 것이며, 여기서 문맥은 주어진 형태소 주변의 형태소와 품사를 말한다.
확장표상A는 품사의 오류를 탐지하기 위하여 형태소에 대한 품사분포를 추가했고 확장표상B는 오탈자 오류를 탐지하기 위하여 기본 문맥에 포함하는 어절의 표상을 추가했다. 확장표상C와 확장표상D는 과분석 오류를 탐지하기 위하여 앞 어절의 표상과 뒤 어절의 표상을 추가하였다. 모든 표상는 기본 문맥 표상과 같이 FastText를 이용해서 학습하였으며, 각 표상의 크기는 Table 4와 같다.

대상 데이터

세종말뭉치에서 1,250,500개의 품사 오류를 검출하여 약 8%를 오류로 검출하였다. 검출된 오류를 일일이 확인하여 오류 여부를 판단해야 하지만 이를 수정하는 일은 너무나 많은 시간과 비용이 소요되어 검출된 오류 중에서 1,000개를 직접 분석해 보았다. 그 결과, 29개가정답을 오류로 판단하여(false alarm) 오탐률(false positiverate)은 2.
실험을 위해서 본 논문에서는 품사부착말뭉치로 널리 사용되는 세종말뭉치[18]을 사용하며, 이 말뭉치에는 다양한 형태의 오류들이 있다[21]. Table 1은 사용된 세종말뭉치와 3.

이론/모형

2절 참조). 각 형태소와 품사의표상은 FastText[19]를 이용해서 학습할 것이다. FastText는 주변 단어와 단어의 부분 단어(subword)를 이용하여 미등록어 문제에 좀 더 좋은 결과를 보여주는 장점이 있다.
확장표상C와 확장표상D는 과분석 오류를 탐지하기 위하여 앞 어절의 표상과 뒤 어절의 표상을 추가하였다. 모든 표상는 기본 문맥 표상과 같이 FastText를 이용해서 학습하였으며, 각 표상의 크기는 Table 4와 같다.
이 말뭉치는 오류 검출 대상의 전체말뭉치로부터 임의로 추출된 것을 전문가에 의해서 오류가부착된 것이다. 본 논문에서는 성능 평가의 척도로 정보검색에서 널리 사용되는 정밀도와 재현율을 사용하였다. 또한 모집단의 모든 오류 후보를 수작업으로 확인할 수 없으므로 표본 집단과 모집단의 오류 분포를 비교하여 본 논문의 타당성을 보였다.
오류 검출이란 전체 데이터에서 다른 형태의 데이터를 찾는 것을 말하며[8], 오류 검출(anomaly detection or errordetection) 방법은 NN(nearest neighbor) 기반 방법[9], 스펙트럴(spectual) 기반 방법[10], 군집화(clustering) 기반 방법[11] 등이 있으며 최근에는 앙상블 방법[12]도 연구되고 있다. 본연구에서 사용될 XGBoost(eXtreme Gradient Boosting)[13]는앙상블 방법의 일종이다. 앙상블(ensemble)이란 여러 개의모델을 학습하여 다음 결과 예측 시 여러 모델의 결과를 종합하여 사용하는 방법이다[14].

성능/효과

검출된 오류를 일일이 확인하여 오류 여부를 판단해야 하지만 이를 수정하는 일은 너무나 많은 시간과 비용이 소요되어 검출된 오류 중에서 1,000개를 직접 분석해 보았다. 그 결과, 29개가정답을 오류로 판단하여(false alarm) 오탐률(false positiverate)은 2.9%로 매우 정확하게 판단하고 있음을 알 수 있었다.
본 논문에서는 성능 평가의 척도로 정보검색에서 널리 사용되는 정밀도와 재현율을 사용하였다. 또한 모집단의 모든 오류 후보를 수작업으로 확인할 수 없으므로 표본 집단과 모집단의 오류 분포를 비교하여 본 논문의 타당성을 보였다.

후속연구

앞으로 의존구조부착 말뭉치와 의미역 부착말뭉치에서 적용할 계획이며 반지도학습 방법으로 말뭉치를 구축할 때도같은 방법으로 적용할 계획이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	품사부착말뭉치란 무엇인가?	품사부착말뭉치는 품사정보를 부착한 말뭉치를 말하며 자연언어처리 분야에서 다양한 학습말뭉치로 사용된다. 학습말뭉치는 일반적으로 오류가 없다고 가정하지만, 실상은 다양한 오류를 포함하고 있으며, 이러한 오류들은 학습된 시스템의 성능을 저하시키는 요인이 된다.
	오류가 부착된 학습말뭉치가 존재하지 않으므로 어떤 방법으로 해결하였는가?	그러나 오류가 부착된 학습말뭉치가 존재하지 않으므로 일반적인 분류기로서 오류를 검출할 수 없다. 따라서 본 논문에서는 매개변수를 조절하면서 학습된 품사부착기의 출력을 비교함으로써 오류를 검출한다. 매개변수를 조절하기 위해서 본 논문에서는 작은 규모의 오류부착말뭉치를 이용한다.
	오류 검출의 방법에는 어떤 것들이 있는가?	오류 검출이란 전체 데이터에서 다른 형태의 데이터를 찾는 것을 말하며[8], 오류 검출(anomaly detection or errordetection) 방법은 NN(nearest neighbor) 기반 방법[9], 스펙트럴(spectual) 기반 방법[10], 군집화(clustering) 기반 방법[11] 등이 있으며 최근에는 앙상블 방법[12]도 연구되고 있다. 본연구에서 사용될 XGBoost(eXtreme Gradient Boosting)[13]는앙상블 방법의 일종이다.

참고문헌 (23)

J. Kim and G. Kim, Building a Korean Part-of-speech Tagged Corpus: KAIST Corpus, CS-TR-95-99, 1995. (in Korean).
M. Lee, H. Jung, W. Sung, and D. Park, "Verification of POS Tagged Corpus," in Proceedings. of the 31th Annual Conference on Human and Cognitive Language Technology, pp.145-150, 2005. (in Korean).
M. Choi, H. Seo, H. Kwon, and J. Kim, "Detecting and Correcting Errors in Korean POS-tagged Corpora," Journal of the Korean Society of Marine Engineering, Vol.37, No.1, pp.227-235, 2013 (in Korean).
E. Eskin, "Detecting Errors Within a Corpus using Anomaly Detection," in Proceedings of the 1st North American Chapter of the Association for Computational Linguistics Conference, pp.148-153, 2000.
Q. Ma, B. Lu, M. Murata, M. Ichikawa, and H. Isahara, "On-line Error Detection of Annotated Corpus using Modular Neural Networks," Lecture Notes in Computer Science, Vol.2130, pp.1185-1195, 2001.
T. Nakagawa and Y. Matsumoto, "Detecting Errors in Corpora using Support Vector Machines," in Proceedings of the 19th International Conference on Computational Linguistics, pp.1-7, 2002.
M. Dickinson, "Detection of Annotation Errors in Corpora," Language and Linguistics Compass, Vol.9, No.3, pp. 119-138, 2015.

상세보기
V. Chandola, A. Banerjee, and V. Kumar, "Anomaly Detection: Survey," in Proceedings of ACM Computing Surveys, Vol.41, No.3, p.15, 2009.
S. Bybers and A. E. Raftery, "Nearest-neighbor Clutter Removal for Estimating Features in Spatial Point," in Proceedings Journal of the American Statistical Association, Vol.93, No.442, pp.572-584, 1998.
A. Agovic, A. Banerjee, A. R. Ganguly, and V. Protopescu, "Anomaly Detection in Transportation Corridors using Manifold Embedding," in Proceedings of the 1st International Workshop on Knowledge Discovery from Sensor Data, pp.435-455, 2007.
D. Yu, G. Sheikholeslami, and A. Zhang, "Findout: Finding Outliers in Very Large Datasets," in Proceedings of Knowledge and Information Systems, Vol.4, No.4, pp. 387-412, 2002.

상세보기
I. Rehbein, "POS Error Detection in Automatically Annotated Corpora," in Proceedings of the 8th Linguistic Annotation Workshop, pp.20-28, 2014.
C. Tianqi and G. Carlos, "XGBoost : A Scalable Tree Boosting System," in Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Vol.16, pp.785-794, 2016.
T. G. Thomas, "Ensemble Methods in Machine Learning," in Proceedings of Multiple Classifier Systems. MCS 2000. Lecture Notes in Computer Science, Vol. 1857, 2000.
L. Breiman, "Random Forests," Machine Learning, Vol.45, pp.5-32, 2001.
J.-H. Kim, H.-W. Seo, G.-H. Jeon, and M.-G. Choi, "Error Correction Methods for Sejong Corpus," in Proceedings of the Joint Conference on Marine Engineering and Navigation and Port Research, pp.435-436, 2010 (in Korean).
N. Kang, E. M. van Mulligen, and J. A. Kors, "Training Text Chunkers on a Silver Standard Corpus: Can Silver Replace Gold?," BMC Bioinformatics, Vol.13, No.1, pp.17-22, 2012.

상세보기
CORPUS, Sejong, 21st Century Sejong Project, The National Institue of the Korean Language, 2010 (in Korean).
P. Bojanowski, E. Grave, A. Joulin, and T. Mikolov, "Enriching Word Vectors with Subword Information," Transactions of the Association for Computational Linguistics, Vol.5, pp.135-146, 2017.

상세보기
M. Cheon, C. Kim, J. Kim, E. Noh, K. Sung, and M. Song, "Automated Scoring System for Korean Short-answer Question using Predictability and Unanimity," KIPS Transaction Software and Data Engineering, Vol.5, No.11, pp.527-534, 2016.

원문보기 상세보기
J. Hong and J. Cha, "Error Correction of Sejong Morphological Annotation Corpora using Part-of-speech tagger and Frequency Information," Journal of KISS : Software and Applications, Vol.40, No.7, pp.417-428, 2013.
M. P. Marcus, B. Santorini, and M. A. Marcinkiewicz, "Building a Large Annotated Corpus of English: The Penn Treebank," Computational Linguistics, Vol.19, No.2. pp. 313-330, 1993.

상세보기
S. Kullback, Information Theory and Statistics, Dover Publications, 1968.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증