[논문]개체명 인식 코퍼스 생성을 위한 지식베이스 활용 기법

박영민; 김예진; 강상우; 서정연

doi:10.19066/cogsci.2016.27.1.002

개체명 인식 코퍼스 생성을 위한 지식베이스 활용 기법
Automatic Training Corpus Generation Method of Named Entity Recognition Using Knowledge-Bases 원문보기

인지과학 = Korean journal of cognitive science, v.27 no.1, 2016년, pp.27 - 41

박영민 (서강대학교 컴퓨터공학과) , 김예진 (서강대학교 컴퓨터공학과) , 강상우 (서강대학교 컴퓨터공학과) , 서정연 (서강대학교 컴퓨터공학과)

초록
AI-Helper

개체명 인식은 미리 정의된 개체 범주로 텍스트의 요소를 분류하는 과정을 의미하며 최근 주목 받고 있는 음성 비서 서비스 등 다양한 응용 분야에 널리 활용되고 있다. 본 논문에서는 지식베이스를 사용하여 개체명 인식 코퍼스를 자동으로 생성하는 방법을 제안한다. 지식베이스의 종류에 따라 두 가지 방법을 적용하며 그 중 첫 번째 방법은 위키피디아를 기반으로 위키피디아 본문의 문장에 개체명 표지를 부착하여 학습 코퍼스를 생성하는 방법이다. 두 번째 방법은 인터넷으로부터 다양한 형태의 문장을 수집하고 다양한 개체들 간의 관계를 데이터베이스에 보유 중인 프리베이스를 이용하여 개체명 표지를 부착하는 방법으로 학습 코퍼스를 생성한다. 자동 생성된 학습 코퍼스의 질과 본 논문에서 제안하는 학습 코퍼스 자동 생성 기법을 평가하기 위해 두 가지로 실험했다. 첫 번째, 다른 형태의 지식베이스인 위키피디아와 프리베이스(Freebase)를 기반으로 생성된 학습 코퍼스의 표지 부착 성능을 수동으로 측정하여 코퍼스의 질을 평가하였다. 두 번째, 각 코퍼스로 학습된 개체명 인식 모델의 성능을 통해 제안하는 학습 코퍼스 자동 생성 기법의 실용성을 평가하였다. 실험을 통해 본 방법이 타당함을 증명하였으며 특히 실제 응용에서 많이 사용되는 웹 데이터 환경에서 의미 있는 성능 향상을 보여주었다.

Abstract ▼ AI-Helper

Named entity recognition is to classify elements in text into predefined categories and used for various departments which receives natural language inputs. In this paper, we propose a method which can generate named entity training corpus automatically using knowledge bases. We apply two different methods to generate corpus depending on the knowledge bases. One of the methods attaches named entity labels to text data using Wikipedia. The other method crawls data from web and labels named entities to web text data using Freebase. We conduct two experiments to evaluate corpus quality and our proposed method for generating Named entity recognition corpus automatically. We extract sentences randomly from two corpus which called Wikipedia corpus and Web corpus then label them to validate both automatic labeled corpus. We also show the performance of named entity recognizer trained by corpus generated in our proposed method. The result shows that our proposed method adapts well with new corpus which reflects diverse sentence structures and the newest entities.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

거리 통제는 관계 추출에 대표적으로 이용되는 학습 기법으로 지도 학습과 준지도 학습 방법의 몇 가지 이점들을 결합한 방법이다. 본 연구에서는 거리 통제 학습 기법을 개체명 인식에 적용하여 개체명 표지를 지식베이스 기반으로 다량의 텍스트 데이터에 부착하는 방법을 제안한다.

제안 방법

위키피디아 본문의 모든 문장 추출은 Evan Jones의 Extracting Text from Wikipedia(wikipedia2text)를 이용한다(Evan, 2009). XML 형태의 파일에는 위키피디아의 페이지에는 텍스트 이외의 그림, 표 등의 정보가 포함되어 있으므로 wikipedia2text를 이용하여 모든 페이지로부터 텍스트 이외의 정보를 제거한 데이터를 추출한다. 추출 후에는 텍스트를 문장 단위로 분할하기 위해 WikiXMLSAXParser²⁾를 이용한다.
실험 데이터는 ontoNotes⁵⁾에서 제공하는 태깅된 데이터 약 1M개의 문장과 위키피디아 기반 방법으로 태깅한 약 1M개 문장 그리고 프리베이스 기반 방법으로부터 태깅한 약 6k 문장이다. 개체명 인식을 위한 모델은 ontoNotes 데이터로만 학습시킨 ontoNotes 모델, 위키피디아로부터 추출한 문장으로 학습시킨 Wikipedia 모델, 웹으로부터 추출한 문장들로 학습시킨 프리베이스 모델, 세가지 영역의 학습 코퍼스의 모두 학습시킨 All 모델들로 총 4개의 개체명 인식 모델을 생성하였다. 이때 코퍼스 중 각 영역별로 200문장씩, 총 600문장을 추출하여 수동 태깅 후 테스트 문장으로 사용하였다.
본 논문에서 제안하는 전체 시스템의 구조는 (그림 1)과 같이 지식베이스를 기반으로 크게 위키피디아 기반 방법과 프리베이스 기반 방법으로 구분된다. 위키피디아(en.
현재 프리베이스는 인명, 기관명, 지명뿐만 아니라 영화명, 음악명 등 다양한 개체들 간의 관계가 수집되는 중이며 2015년 6월 기준으로 약 29억개의 개체로 구성되어 있다. 본 논문에서는 먼저 프리베이스의 관계에서 인명(PER), 기관명(ORG), 지명(LOC)의 개체를 포함하고 있는 관계들 중 각 개체별로 인스턴스를 많이 보유하고 있는 상위 N개의 관계를 선택한다. 상위 N개의 관계를 추출하기 위해 프리베이스 이지(Freebase Easy)³⁾를 사용하며 프리베이스 이지의 Query를 인스턴스 타입 즉 개체명 타입으로 입력하면 입력한 타입이 포함된 관계들을 결과로 얻을 수 있다.
본 논문에서는 지식베이스를 활용하여 자동으로 개체명 인식 코퍼스를 생성하는 두 가지 방법을 제안하였다. 첫 번째 방법은 위키피디아 문서들의 태깅정보를 이용하는 방법으로서 비교적 높은 정확률을 보여주었다.
본 장에서는 지식베이스에 따른 개체명 태깅 성능과 추출된 코퍼스에 의해 학습된 개체명 인식 모델에 대한 성능을 비교 평가한다. 실험 데이터는 ontoNotes⁵⁾에서 제공하는 태깅된 데이터 약 1M개의 문장과 위키피디아 기반 방법으로 태깅한 약 1M개 문장 그리고 프리베이스 기반 방법으로부터 태깅한 약 6k 문장이다.
개체명 태깅은 사람의 수작업을 통한 태깅이나 소량의 태깅된 데이터로부터 태깅되지 않은 데이터를 자동 태깅시키는 부트스트래핑(Bootstrapping) 태깅 방법 또는 지식베이스(Knowledge Base)를 이용한 태깅 방법을 이용한다. 이로부터 태그가 부착된 학습 코퍼스를 얻은 후 특징을 추출하고 이를 분류기를 통해 학습시켜 개체명 인식 모델을 생성한다. 생성된 개체명 인식 모델에 새로운 데이터가 입력되면 모델은 개체명 태그가 부착된 결과를 내놓게 된다.

대상 데이터

본 장에서는 지식베이스에 따른 개체명 태깅 성능과 추출된 코퍼스에 의해 학습된 개체명 인식 모델에 대한 성능을 비교 평가한다. 실험 데이터는 ontoNotes⁵⁾에서 제공하는 태깅된 데이터 약 1M개의 문장과 위키피디아 기반 방법으로 태깅한 약 1M개 문장 그리고 프리베이스 기반 방법으로부터 태깅한 약 6k 문장이다. 개체명 인식을 위한 모델은 ontoNotes 데이터로만 학습시킨 ontoNotes 모델, 위키피디아로부터 추출한 문장으로 학습시킨 Wikipedia 모델, 웹으로부터 추출한 문장들로 학습시킨 프리베이스 모델, 세가지 영역의 학습 코퍼스의 모두 학습시킨 All 모델들로 총 4개의 개체명 인식 모델을 생성하였다.
개체명 인식을 위한 모델은 ontoNotes 데이터로만 학습시킨 ontoNotes 모델, 위키피디아로부터 추출한 문장으로 학습시킨 Wikipedia 모델, 웹으로부터 추출한 문장들로 학습시킨 프리베이스 모델, 세가지 영역의 학습 코퍼스의 모두 학습시킨 All 모델들로 총 4개의 개체명 인식 모델을 생성하였다. 이때 코퍼스 중 각 영역별로 200문장씩, 총 600문장을 추출하여 수동 태깅 후 테스트 문장으로 사용하였다. 추출된 600개의 테스트 문장 중 특히 웹에서 추출한 200문장은 기존의 개체명 인식 코퍼스에 비해 새로운 언어현상, 새로운 개체명들이 포함되기 때문에 제안하는 모델의 장점을 측정하는데 효과적이라고 할 수 있다.

이론/모형

개체명 인식을 위한 학습 코퍼스 생성 방법으로는 다양한 방법이 연구되고 있으며, 대표적인 기계 학습 방법으로는 지도, 준지도, 거리 통제 방법이 있다. 개체명 태깅은 사람의 수작업을 통한 태깅이나 소량의 태깅된 데이터로부터 태깅되지 않은 데이터를 자동 태깅시키는 부트스트래핑(Bootstrapping) 태깅 방법 또는 지식베이스(Knowledge Base)를 이용한 태깅 방법을 이용한다. 이로부터 태그가 부착된 학습 코퍼스를 얻은 후 특징을 추출하고 이를 분류기를 통해 학습시켜 개체명 인식 모델을 생성한다.
이 외에 거리 통제를 사용하여 관계 추출 분야와 다른 방향으로 진행된 연구가 다양하다. 두 개체 사이의 의미관계에 시간 개념을 도입하는데 Garrido의 연구에서 거리 통제 기법을 사용하였으며, Surdeanu는 특정 관계의 다양한 정답 요소를 인정하여 2개 이상의 정답을 부여할 수 있는 방식의 접근을 통한 연구를 진행하였다(Garrido et al., 2012; Surdeanu et al., 2012). 또한 Surdeanu는 같은 접근 방식을 슬롯 채우기 문제(Slot Filling Task)에도 적용하여 성능 향상의 효과를 거두었다(Surdeanu et al.
따라서 본 논문에서는 기존의 개체명 인식 모델 중 뛰어난 성능을 제공하는 것으로 알려진 CRFs(Conditional Random Fields)를 사용한다(심광섭, 2011; McCallum & Li, 2003).
매개변수 Λ는 MLE(Maximum Likelihood Estimation)를 사용하여 구하는데, 다른 알고리즘 보다 수렴 속도가 빠른 BFGS(Broyden Fletcher Goldfarb Shanno)알고리즘이 주로 사용된다.
2번은 지식베이스에 따라 두 가지 방향으로 진행되는 학습 코퍼스 생성 방법을 나타낸다. 위키피디아 본문의 모든 문장 추출은 Evan Jones의 Extracting Text from Wikipedia(wikipedia2text)를 이용한다(Evan, 2009). XML 형태의 파일에는 위키피디아의 페이지에는 텍스트 이외의 그림, 표 등의 정보가 포함되어 있으므로 wikipedia2text를 이용하여 모든 페이지로부터 텍스트 이외의 정보를 제거한 데이터를 추출한다.
본 논문에서 제안하는 전체 시스템의 구조는 (그림 1)과 같이 지식베이스를 기반으로 크게 위키피디아 기반 방법과 프리베이스 기반 방법으로 구분된다. 위키피디아(en.wikipedia.org)를 기반으로 생성하는 방법은 규칙 기반 반자동 태깅을 이용하며 프리베이스(www.freebase.com)를 기반으로 생성하는 방법은 관계 기반 자동 태깅을 이용한다. (그림 2)는 본 논문에서 제안하는 코퍼스 자동 생성의 예를 보여준다.

성능/효과

또한 <표 4>는 테스트 문장 중 한 문장의 모든 개체명을 정확하게 맞춘 수의 비율이다. 개체명 인식 모델의 ontoNotes 코퍼스의 경우 사람이 직접 태깅한 학습 코퍼스로 내부 데이터로만 성능을 평가한 경우 모든 개체 분류에서 90%이상의 성능을 보였다. 하지만 위키피디아와 웹으로부터 추출한 문장들과 함께 테스트한 결과 성능이 현저히 떨어짐을 볼 수 있다.
이 방법은 기존의 수동 태깅이나 위키피디아와 비교하여 최근에 생성된 문장에서 더 좋은 성능을 보여주었다. 또한 수동 태깅된 ontoNotes와 위키피디아, 프리베이스 모델의 코퍼스를 모두 합쳤을 때 가장 높은 성능을 보여주는 것으로 제안하는 방법이 수동 코퍼스의 단점을 보완해준다는 것을 확인하였다.
하지만 프리베이스 모델은 웹에서 추출한 문장에 대해서는 가장 높은 성능을 보여주었기 때문에 의미 있는 문장들이 수집되었다고 할 수 있다. 마지막으로 세 코퍼스를 모두 합하여 학습한 All 모델의 성능은 가장 높은 F₁-Measure를 보여주었는데 이것은 제안 방법이 수동 태깅 코퍼스의 단점을 어느 정도 보완해 줄 수 있다고 할 수 있다.
제안 방법으로 생성된 코퍼스로 학습한 모델들은 재현율(Recall)은 다소 낮았으나 평균적으로 약 94% 이상의 높은 정확률(Precision)을 보였다.
제안하는 코퍼스 생성 기법이 효과적이라는 것을 증명하기 위해서는 생성된 코퍼스를 기존의 개체명 인식 모델의 학습에 적용시켰을 때 성능 향상이 있음을 보여야 한다. 따라서 본 논문에서는 기존의 개체명 인식 모델 중 뛰어난 성능을 제공하는 것으로 알려진 CRFs(Conditional Random Fields)를 사용한다(심광섭, 2011; McCallum & Li, 2003).
본 논문에서는 지식베이스를 활용하여 자동으로 개체명 인식 코퍼스를 생성하는 두 가지 방법을 제안하였다. 첫 번째 방법은 위키피디아 문서들의 태깅정보를 이용하는 방법으로서 비교적 높은 정확률을 보여주었다. 두 번째 방법은 거리 통제를 적용하여 프리베이스를 이용해 웹에서 수집된 문장에 태깅을 하는 방법이다.
이때 코퍼스 중 각 영역별로 200문장씩, 총 600문장을 추출하여 수동 태깅 후 테스트 문장으로 사용하였다. 추출된 600개의 테스트 문장 중 특히 웹에서 추출한 200문장은 기존의 개체명 인식 코퍼스에 비해 새로운 언어현상, 새로운 개체명들이 포함되기 때문에 제안하는 모델의 장점을 측정하는데 효과적이라고 할 수 있다.

후속연구

거리 통제 기반 방법은 문장에서 한 개의 개체명만 출현하거나, 서로 관계가 없는 개체명이 출현한 경우 태깅을 하지 못한다는 문제가 있다. 향후 지속적인 연구를 통해 이러한 문제를 해결한다면 수동 태깅에 가까운 성능을 제공하는 개체명 인식 코퍼스를 생성할 수 있을 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	거리 통제 방식을 이용하면 지도 학습에서의 어떤 단점을 극복할 수 있는가?	거리 통제는 새롭게 제안된 준지도 학습 방법으로 사전에 구축된 지식베이스 (Knowledge Base)의 정보들을 참조하여 훈련 데이터 셋에 대한 정답을 반자동으로 태깅하여 학습을 진행하는 방법이다. 이러한 방식을 이용하여 지도 학습에서의 단점인 훈련된 사람이 수작업으로 태깅해야 하는 비용 및 시간을 절약할 수 있다. 거리 통제는 다양한 자연어처리 분야에 응용할 수 있으며 특히 관계 추출 코 퍼스 생성 분야에서 뛰어난 성능을 보여주었다(Mintz, 2009).
	개체명이란 무엇인가?	개체명(Named Entity)은 인명, 기관명, 지명 등과 같이 고유명사나 일반적인 사전에 등록되지 않은 단어를 의미한다. 이는 정보 추출(Information Extraction)의 응 용 분야에서 사용되고 있으며 1990년대 정보추출 연구 학술대회인 MUC-6(Sixth Message Underst 유래되었다.
	개체 명 태깅에 이용되는 태깅 방법은?	개체명 인식을 위한 학습 코퍼스 생성 방법으로는 다양한 방법이 연구되고 있으며, 대표적인 기계 학습 방법으로는 지도, 준지도, 거리 통제 방법이 있다. 개체 명 태깅은 사람의 수작업을 통한 태깅이나 소량의 태깅된 데이터로부터 태깅되지 않은 데이터를 자동 태깅시키는 부트스트래핑(Bootstrapping) 태깅 방법 또는 지식베이스(Knowledge Base)를 이용한 태깅 방법을 이용한다. 이로부터 태그가 부착된 학습 코퍼스를 얻은 후 특징을 추출하고 이를 분류기를 통해 학습시켜 개체명 인식 모델을 생성한다.

참고문헌 (14)

심광섭 (2011). CRF를 이용한 한국어 자동 띄어쓰기. 인지과학, 22(2), 217-233.
Asahara, M., & Matsumoto, Y. (2003). Japanese named entity extraction with redundant morphological analysis. Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, 8-15.
Bikel, D. M., Miller, S., Schwartz, R., & Weischedel, R. (1997). Nymble: a high-performance learning name-finder. Proceedings of the fifth conference on Applied natural language processing, 194-201.
Blum, A. (2015). Semi-supervised Learning. Springer, 1-7.
Borthwick, A., Sterling, J., Agichtein, E., & Grishman, R. (1998). NYU: Description of the MENE named entity system as used in MUC-7. Proceedings of the 7th Seventh Message Understanding Conference.
Evan J. (2009). Generating a plain text corpus from Wikipedia(Wikipedia2text), http://blog.afterthedeadline.com/2009/12/04/generating-a-plain-text-corpus-from-wikipedia/
Garrido, G., Penas, A., Cabaleiro, B., & Rodrigo, A. (2012). Temporally anchored relation extraction. Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, 107-116.
Godbole, V., Liu, W., & Togneri, R. (2015). An Investigation of Neural Embeddings for Coreference Resolution. Computational Linguistics and Intelligent Text Processing, 241- 251.
McCallum, A., & Li, W. (2003). Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons. Proceedings of the seventh conference on Natural language learning at HLT-NAACL, 188-191.
Mintz, M., Bills, S., Snow, R., & Jurafsky, D. (2009). Distant supervision for relation extraction without labeled data. Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP, 1003-1011.
Peng, F., Feng, F., & McCallum, A. (2004). Chinese segmentation and new word detection using conditional random fields. Proceedings of the 20th international conference on Computational Linguistics, Article No.562.
Sekine, S. (1998). NYU: Description of the Japanese NE system used for MET-2. Proceedings of the 7th Message Understanding Conference.
Surdeanu, M., McClosky, D., Tibshirani, J., Bauer, J., Chang, A. X., Spitkovsky, V. I., & Manning, C. D. (2010). A simple distant supervision approach for the TAC-KBP slot filling task. Proceedings of Text Analysis Conference Workshop.
Surdeanu, M., Tibshirani, J., Nallapati, R., & Manning, C. D. (2012). Multi-instance multi-label learning for relation extraction. Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 455-465.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

개체명 인식 코퍼스 생성을 위한 지식베이스 활용 기법
Automatic Training Corpus Generation Method of Named Entity Recognition Using Knowledge-Bases 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

개체명 인식 코퍼스 생성을 위한 지식베이스 활용 기법 Automatic Training Corpus Generation Method of Named Entity Recognition Using Knowledge-Bases 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

박영민 (2) 강상우 (8) 서정연 (43)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

개체명 인식 코퍼스 생성을 위한 지식베이스 활용 기법
Automatic Training Corpus Generation Method of Named Entity Recognition Using Knowledge-Bases 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper