최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.9 no.7, 2020년, pp.221 - 228
최민석 (한국해양대학교 컴퓨터공학과) , 김창현 (한국전자통신연구원) , 박호민 (한국해양대학교 컴퓨터공학과) , 천민아 (한국해양대학교 컴퓨터공학과) , 윤호 (한국해양대학교 컴퓨터공학과) , 남궁영 (한국해양대학교 컴퓨터공학과) , 김재균 (한국해양대학교 컴퓨터공학과) , 김재훈 (한국해양대학교 컴퓨터공학과)
Part-of-Speech (POS) tagged corpus is a collection of electronic text in which each word is annotated with a tag as the corresponding POS and is widely used for various training data for natural language processing. The training data generally assumes that there are no errors, but in reality they in...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
품사부착말뭉치란 무엇인가? | 품사부착말뭉치는 품사정보를 부착한 말뭉치를 말하며 자연언어처리 분야에서 다양한 학습말뭉치로 사용된다. 학습말뭉치는 일반적으로 오류가 없다고 가정하지만, 실상은 다양한 오류를 포함하고 있으며, 이러한 오류들은 학습된 시스템의 성능을 저하시키는 요인이 된다. | |
오류가 부착된 학습말뭉치가 존재하지 않으므로 어떤 방법으로 해결하였는가? | 그러나 오류가 부착된 학습말뭉치가 존재하지 않으므로 일반적인 분류기로서 오류를 검출할 수 없다. 따라서 본 논문에서는 매개변수를 조절하면서 학습된 품사부착기의 출력을 비교함으로써 오류를 검출한다. 매개변수를 조절하기 위해서 본 논문에서는 작은 규모의 오류부착말뭉치를 이용한다. | |
오류 검출의 방법에는 어떤 것들이 있는가? | 오류 검출이란 전체 데이터에서 다른 형태의 데이터를 찾는 것을 말하며[8], 오류 검출(anomaly detection or errordetection) 방법은 NN(nearest neighbor) 기반 방법[9], 스펙트럴(spectual) 기반 방법[10], 군집화(clustering) 기반 방법[11] 등이 있으며 최근에는 앙상블 방법[12]도 연구되고 있다. 본연구에서 사용될 XGBoost(eXtreme Gradient Boosting)[13]는앙상블 방법의 일종이다. |
J. Kim and G. Kim, Building a Korean Part-of-speech Tagged Corpus: KAIST Corpus, CS-TR-95-99, 1995. (in Korean).
M. Lee, H. Jung, W. Sung, and D. Park, "Verification of POS Tagged Corpus," in Proceedings. of the 31th Annual Conference on Human and Cognitive Language Technology, pp.145-150, 2005. (in Korean).
M. Choi, H. Seo, H. Kwon, and J. Kim, "Detecting and Correcting Errors in Korean POS-tagged Corpora," Journal of the Korean Society of Marine Engineering, Vol.37, No.1, pp.227-235, 2013 (in Korean).
E. Eskin, "Detecting Errors Within a Corpus using Anomaly Detection," in Proceedings of the 1st North American Chapter of the Association for Computational Linguistics Conference, pp.148-153, 2000.
Q. Ma, B. Lu, M. Murata, M. Ichikawa, and H. Isahara, "On-line Error Detection of Annotated Corpus using Modular Neural Networks," Lecture Notes in Computer Science, Vol.2130, pp.1185-1195, 2001.
T. Nakagawa and Y. Matsumoto, "Detecting Errors in Corpora using Support Vector Machines," in Proceedings of the 19th International Conference on Computational Linguistics, pp.1-7, 2002.
M. Dickinson, "Detection of Annotation Errors in Corpora," Language and Linguistics Compass, Vol.9, No.3, pp. 119-138, 2015.
V. Chandola, A. Banerjee, and V. Kumar, "Anomaly Detection: Survey," in Proceedings of ACM Computing Surveys, Vol.41, No.3, p.15, 2009.
S. Bybers and A. E. Raftery, "Nearest-neighbor Clutter Removal for Estimating Features in Spatial Point," in Proceedings Journal of the American Statistical Association, Vol.93, No.442, pp.572-584, 1998.
A. Agovic, A. Banerjee, A. R. Ganguly, and V. Protopescu, "Anomaly Detection in Transportation Corridors using Manifold Embedding," in Proceedings of the 1st International Workshop on Knowledge Discovery from Sensor Data, pp.435-455, 2007.
D. Yu, G. Sheikholeslami, and A. Zhang, "Findout: Finding Outliers in Very Large Datasets," in Proceedings of Knowledge and Information Systems, Vol.4, No.4, pp. 387-412, 2002.
I. Rehbein, "POS Error Detection in Automatically Annotated Corpora," in Proceedings of the 8th Linguistic Annotation Workshop, pp.20-28, 2014.
C. Tianqi and G. Carlos, "XGBoost : A Scalable Tree Boosting System," in Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Vol.16, pp.785-794, 2016.
T. G. Thomas, "Ensemble Methods in Machine Learning," in Proceedings of Multiple Classifier Systems. MCS 2000. Lecture Notes in Computer Science, Vol. 1857, 2000.
J.-H. Kim, H.-W. Seo, G.-H. Jeon, and M.-G. Choi, "Error Correction Methods for Sejong Corpus," in Proceedings of the Joint Conference on Marine Engineering and Navigation and Port Research, pp.435-436, 2010 (in Korean).
N. Kang, E. M. van Mulligen, and J. A. Kors, "Training Text Chunkers on a Silver Standard Corpus: Can Silver Replace Gold?," BMC Bioinformatics, Vol.13, No.1, pp.17-22, 2012.
CORPUS, Sejong, 21st Century Sejong Project, The National Institue of the Korean Language, 2010 (in Korean).
P. Bojanowski, E. Grave, A. Joulin, and T. Mikolov, "Enriching Word Vectors with Subword Information," Transactions of the Association for Computational Linguistics, Vol.5, pp.135-146, 2017.
J. Hong and J. Cha, "Error Correction of Sejong Morphological Annotation Corpora using Part-of-speech tagger and Frequency Information," Journal of KISS : Software and Applications, Vol.40, No.7, pp.417-428, 2013.
M. P. Marcus, B. Santorini, and M. A. Marcinkiewicz, "Building a Large Annotated Corpus of English: The Penn Treebank," Computational Linguistics, Vol.19, No.2. pp. 313-330, 1993.
S. Kullback, Information Theory and Statistics, Dover Publications, 1968.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.