[논문]기계학습 기반 개체명 인식을 위한 사전 자질 생성

김재훈; 김형철; 최윤수

doi:10.1633/jim.2010.41.2.031

기계학습 기반 개체명 인식을 위한 사전 자질 생성
Feature Generation of Dictionary for Named-Entity Recognition based on Machine Learning 원문보기

정보관리연구 = Journal of information management, v.41 no.2, 2010년, pp.31 - 46

김재훈 (한국해양대학교 컴퓨터공학과) , 김형철 (한국해양대학교 컴퓨터공학과) , 최윤수 (한국과학기술정보연구원 정보기술연구실)

초록
AI-Helper

오늘날 정보 추출의 한 단계로서 개체명 인식은 정보검색 분야 뿐 아니라 질의응답과 요약 분야에서 매우 유용하게 사용되고 있다. 개체명은 일반 단어와 달리 다양한 문서에서 꾸준히 생성되고 변화되고 있다. 이와 같은 개체명의 특성 때문에 여러 응용 시스템에서 미등록어 문제가 야기된다. 본 논문에서는 이런 미등록어 문제를 해결하기 위해 기계학습 기반 개체명 인식 시스템을 위한 새로운 자질 생성 방법을 제안한다. 일반적으로 기계학습 기반 개체명 인식 시스템은 단어 단위의 자질을 사용하므로 구절 단위의 개체명을 그대로 자질로 사용할 수 없다. 이 문제를 해결하기 위해 본 논문에서는 새로운 구절 단위의 정보를 단어 단위의 자질로 변환하는 자질 생성 방법을 제안하였다. 이 방법으로 개체명 사전과 WordNet을 개체명 인식의 자질로 사용할 수 있었다. 그 결과 영어 개체명 시스템은 F1 점수의 약 6%가 향상되었고 오류의 약 38%가 줄어들었다.

Abstract ▼ AI-Helper

Now named-entity recognition(NER) as a part of information extraction has been used in the fields of information retrieval as well as question-answering systems. Unlike words, named-entities(NEs) are generated and changed steadily in documents on the Web, newspapers, and so on. The NE generation causes an unknown word problem and makes many application systems with NER difficult. In order to alleviate this problem, this paper proposes a new feature generation method for machine learning-based NER. In general features in machine learning-based NER are related with words, but entities in named-entity dictionaries are related to phrases. So the entities are not able to be directly used as features of the NER systems. This paper proposes an encoding scheme as a feature generation method which converts phrase entities into features of word units. Futhermore, due to this scheme, entities with semantic information in WordNet can be converted into features of the NER systems. Through our experiments we have shown that the performance is increased by about 6% of F1 score and the errors is reduced by about 38%.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 과 같이 구절 단위의 개체명에서 발생되는 모든 중의성을 단어 단위의 자질에 표현하는 방법을 제안하여 개체명 사전의 모든 개체명을 자질로 사용할 수 있도록 하였다.
본 논문에서는 기계학습 기반 개체명 인식 시스템을 위한 새로운 자질 생성 방법을 제안한다. 이 자질 생성 방법은 여러 가지 중의성을 가진 다양한 자질을 생성할 수 있었으며 본 논문에서는 두 가지 영역에 적용해 보았다.
본 절에서는 CRF를 이용한 영어 개체명 인식 시스템에 대해서 살펴보고, 새로운 자질 생성 방법에 대해서 기술한다. 본 논문에서 제안된 자질 생성 방법은 개체명의 단어 단위 자질 생성과 WordNet 기반 의미 정보의 자질 생성 방법을 기술한다.
하나는 본 논문에서 제안된 자질 생성 방법이 개체명 인식 시스템에서 얼마나 유용한지를 살펴보는 것이고, 다른 하나는 의미 속성이 개체명 인식에 어떤 영향을 미치는지를 살펴보는 것이다. 본 절에서는 실험 환경으로 말뭉치의 구성과 성능 척도에 대해 살펴보고 제안된 자질 생성 방법의 유용성을 평가할 것이다.
하지만, 단어 단위의 학습이 이루어지는 기계학습의 특징상 구절 단위로 이루어져 있는 개체명 사전 정보를 쉽게 적용할 수는 없다. 이 문제를 개선하기 위해 본 논문에서는 구절 단위의 사전 정보를 이용해서 단어 단위의 자질을 생성하는 방법을 제안한다. 이와 같은 방법으로 생성된 자질의 유용성을 보이기 위해 기계학습 기반 개체명 인식 시스템을 구성하고 생성된 자질을 이용해서 성능이 향상됨을 보였다.

제안 방법

본 논문에서 제안된 영어 개체명 인식기는 CRF를 기반으로 구현하였다. <표 7>은 본 논문에서 제안된 영어 개체명 인식기의 성능을 보이고 있다.
본 절에서는 CRF를 이용한 영어 개체명 인식 시스템에 대해서 살펴보고, 새로운 자질 생성 방법에 대해서 기술한다. 본 논문에서 제안된 자질 생성 방법은 개체명의 단어 단위 자질 생성과 WordNet 기반 의미 정보의 자질 생성 방법을 기술한다.
WordNet에는 많은 의미 정보를 포함하고 있으며(Miller 1995), 의미 정보는 개체명 인식에 많은 도움을 준다(Wattarujeekrit 2005; Han and Zhao 2009). 본 논문에서는 WordNet의 의미 정보를 개체명의 자질로 사용한다. WordNet을 개체명 인식에 사용한 연구는 몇 개 있었으나(Magnini et al 2002; Negri and Magnini 2004) 본 연구에서처럼 직접 자질로 이용한 경우는 없었다.
2000). 본 논문에서는 앞에서 언급한 모든 말뭉치를 사용하지 않고 OntoNote 말뭉치에서 WSJ 부분만 사용하였다. 왜냐하면 OntoNote(WSJ)는 Penn Treebank에 문장 분리, 토큰 분리, 품사 등의 정보가 부착되어 있기 때문에 정확한 정보를 사용할 수 있기 때문이다.
이와 같은 방법으로 생성된 자질의 유용성을 보이기 위해 기계학습 기반 개체명 인식 시스템을 구성하고 생성된 자질을 이용해서 성능이 향상됨을 보였다. 성능 향상을 위하여 직접 구성한 개체명 사전과 WordNet을 이용하였다.
본 논문에서는 기계학습 기반 개체명 인식 시스템을 위한 새로운 자질 생성 방법을 제안한다. 이 자질 생성 방법은 여러 가지 중의성을 가진 다양한 자질을 생성할 수 있었으며 본 논문에서는 두 가지 영역에 적용해 보았다. 하나는 개체명 사전의 개체명을 단어 단위의 자질로 생성하였고 또 다른 하나는 WordNet의 의미 정보에 적용하여 단어 단위의 자질을 생성하였다.
그 결과 WordNet의 3단계 혹은 4단계에 속하는 의미 집합이 선정 되었으며, <표 5>는 본 논문에서 선정된 기본 의미 집합이다. 이와 같은 기본 의미 집합을 이용하여 WordNet에 포함된 모든 단어에 대하여 자질을 생성하였다. WordNet 단어의 자질은 어떤 기본 의미가 포함되는지를 표시하며 하나의 단어는 여러 개의 의미를 동시에 포함할 수 있다.
개체명 사전을 만들기 위한 개체명은 크게 2가지 방법을 이용하여 수집하였다. 첫 번째 방법은 개체명이 부착된 말뭉치에서 정규표현식 등을 이용하여 수집하였으며, 두 번째는 Wikipedia⁹⁾에 존재하는 개체명들을 수작업으로 직접 수집하였다. <표 7>에 수집된 개체명 수가 표시되어 있다.

대상 데이터

본 연구에서는 3장에서 기술한 것처럼 OntoNote2(WSJ) 말뭉치를 사용하였다. 전체 말뭉치는 30만8,736 어절로 구성되어 있으며, 문장 분리, 단어 분리, 품사, 기저구, 개체명 정보가 부착되어 있다.
이 말뭉치를 2:1의 비율로 나누어서 각각 학습과 실험 말뭉치로 사용하였다. 학습 말뭉치는 20만3,715 단어로 구성되었으며 약 8,600개의 개체명이 포함되어 있다. 이 크기는 실용적인 개체명 인식 시스템을 구현하기에는 충분한 크기가 아니라고 생각한다.

이론/모형

이러한 문제를 해결하기 위해 조건부 모델(Conditional Model)이 적용된 최대 엔트로피 모델(Maximum Entropy Markov Model: MEMM)이 개발되었다(Ratnaparkhi 1997). MEMM은 HMM의 문제를 해결하였고, 대부분의 경우, HMM보다 좋은 성능을 보였다.
학습 알고리즘은 앞서 기술했던 CRF를 이용하였으며 본 논문에서 사용된 자질들은 와 같다.

성능/효과

<표 3>은 개체명 사전을 자질 생성의 예를 보여준다.⁵⁾ 개체명에 속한 단어(개체명 단어)는 5개의 문자(BIPLO)로 자질값을 표현하였다. 각 문자의 의미는 <표 4>에서 자세히 설명하고 있다.
이러한 문제를 해결하기 위해 조건부 모델(Conditional Model)이 적용된 최대 엔트로피 모델(Maximum Entropy Markov Model: MEMM)이 개발되었다(Ratnaparkhi 1997). MEMM은 HMM의 문제를 해결하였고, 대부분의 경우, HMM보다 좋은 성능을 보였다. 그러나 유한 상태 모델을 사용함으로써 label bias 문제를 야기하였다(Lafferty et al.
하나는 개체명 사전의 개체명을 단어 단위의 자질로 생성하였고 또 다른 하나는 WordNet의 의미 정보에 적용하여 단어 단위의 자질을 생성하였다. 그 결과 영어 개체명 인식 시스템에서 F1점수의 약 6%가 향상되었고 오류의 약 38%가 줄어들었다. 따라서 본 논문에서 제안된 자질 생성 방법은 개체명 인식에 매우 적합한 방법임을 알 수 있었으며 개체명 사전과 WordNet의 의미 정보가 개체명 인식에 매우 유용한 자질임을 알 수 있었다.
그 결과 영어 개체명 인식 시스템에서 F1점수의 약 6%가 향상되었고 오류의 약 38%가 줄어들었다. 따라서 본 논문에서 제안된 자질 생성 방법은 개체명 인식에 매우 적합한 방법임을 알 수 있었으며 개체명 사전과 WordNet의 의미 정보가 개체명 인식에 매우 유용한 자질임을 알 수 있었다.
이 성능은 기본 시스템에 대해 F1-점수의 약 6%가 개선되었으며 오류의 약 38%가 줄었다. 또한 이 성능은 개체명 사전만 추가했을 경우에 비해 F1-점수의 약 2%가 개선되었으며 오류의 약 16%가 줄었다. 이 결과는 WordNet의 의미 정보가 개체명 인식 시스템에서 매우 유용한 자질로 사용될 수 있음을 알 수 있었다.
또한 이 성능은 개체명 사전만 추가했을 경우에 비해 F1-점수의 약 2%가 개선되었으며 오류의 약 16%가 줄었다. 이 결과는 WordNet의 의미 정보가 개체명 인식 시스템에서 매우 유용한 자질로 사용될 수 있음을 알 수 있었다.
MUC-6 이후 개체명에 대한 연구가 꾸준히 진행되었으며 CoNLL(Conference on Computational Natural Language Learning)2002²⁾와2003³⁾을 통해서 더욱 많은 발전이 있었다. 이 대회에 참가한 대부분의 시스템은 기계학습 방법을 이용하였으며 영어의 경우에 약 89%의 정확률을 보인다. 기계학습 방법에서는 주로 BIO 태그(B: 개체명의 시작, I: 개체명의 중간, O: 관계없음)(Ramshaw, L.
<표 8>의 “WordNet 사전 적용”은 <표 2>의 기본 자질과 개체명 사전의 자질 뿐 아니라 WordNet의 의미 정보 자질을 추가한 개체명 인식 시스템의 성능이다. 이 성능은 기본 시스템에 대해 F1-점수의 약 6%가 개선되었으며 오류의 약 38%가 줄었다. 또한 이 성능은 개체명 사전만 추가했을 경우에 비해 F1-점수의 약 2%가 개선되었으며 오류의 약 16%가 줄었다.
이 성능은 F1-점수의 약 2%가 향상되었으며 오류의 약 27%가 줄었다. 이는 본 논문에서 제안된 자질 생성 방법이 합리적이며 개체명 인식 시스템에서 매우 유용한 자질로 사용 되고 있음을 알 수 있었다. <표 8>의 “WordNet 사전 적용”은 <표 2>의 기본 자질과 개체명 사전의 자질 뿐 아니라 WordNet의 의미 정보 자질을 추가한 개체명 인식 시스템의 성능이다.
이 문제를 개선하기 위해 본 논문에서는 구절 단위의 사전 정보를 이용해서 단어 단위의 자질을 생성하는 방법을 제안한다. 이와 같은 방법으로 생성된 자질의 유용성을 보이기 위해 기계학습 기반 개체명 인식 시스템을 구성하고 생성된 자질을 이용해서 성능이 향상됨을 보였다. 성능 향상을 위하여 직접 구성한 개체명 사전과 WordNet을 이용하였다.

후속연구

앞으로 실용적인 개체명 인식 시스템으로 개발하기 위해서 다양한 형식의 학습 말뭉치 확장 방법이 연구되어야 할 것이다. 또한 WordNet의 의미 정보를 좀 더 많은 단어에 적용하기 위한 방법이 연구되어야 할 것이다. 예를 들면 여러 가지의 굴절(inflection) 현상에 무관하게 같은 자질이 생성되어야 할 것이다.
2004). 또한 인식된 개체명을 분류할 때 개체명을 이루고 있는 단어 각각의 속성들을 이용한다면 좀 더 나은 인식률을 기대할 수 있을 것이다. 하지만, 단어 단위의 학습이 이루어지는 기계학습의 특징상 구절 단위로 이루어져 있는 개체명 사전 정보를 쉽게 적용할 수는 없다.
앞으로 실용적인 개체명 인식 시스템으로 개발하기 위해서 다양한 형식의 학습 말뭉치 확장 방법이 연구되어야 할 것이다. 또한 WordNet의 의미 정보를 좀 더 많은 단어에 적용하기 위한 방법이 연구되어야 할 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	명확한 개체명 인식을 위해 과거와 현재 사용하는 방법은 무엇인가?	개체명 인식이 어려운 이유는 새로운 개체명이 꾸준히 만들어지고 있기 때문에 사전에 모든 개체명을 등록할 수 없다는 점과 같은 단어로 구성된 개체명이 문맥에 따라 다른 개체명으로 해석될 수 있는 중의성이 발생할 수 있다는 점이다. 이러한 문제점을 고려하여 개체명을 인식하기 위하여 예전에는 규칙에 기반한 방법을 많이 사용하였으며(Ravin and Wacholder 1996; Brin, 1998; Liu et al. 2006) 현재는 학습 말뭉치를 이용한 기계학습 방법을 많이 사용한다(Bikel et al. 1997; Borthwick 1998; Asahara and Matsumoto 2003; McCallum and Li 2003).
	개체명이란 무엇인가?	개체명(Named-entity: NE)이란 문서에서 나타나는 고유한 의미를 가지는 명사나 숫자 표현과 같이 고유한 성질의 표현을 말하며 인명(Person: PER), 지명(Location: LOC), 기관명(Organization: ORG)과 같은 이름 표현, 날짜나 시간과 같은 시간 표현, 금액이나 퍼센트와 같은 수치 표현으로 구분할 수 있다 (Chinchor et al. 1999).
	개체명은 어떻게 구분될 수 있는가?	개체명(Named-entity: NE)이란 문서에서 나타나는 고유한 의미를 가지는 명사나 숫자 표현과 같이 고유한 성질의 표현을 말하며 인명(Person: PER), 지명(Location: LOC), 기관명(Organization: ORG)과 같은 이름 표현, 날짜나 시간과 같은 시간 표현, 금액이나 퍼센트와 같은 수치 표현으로 구분할 수 있다 (Chinchor et al. 1999).

참고문헌 (34)

김형철, 김재훈, 최윤수. 2009. 접사 정보를 이용한 영어 미등록어의 품사부착 성능개선. 한글 및 한국어 정보처리 학술대회 발표 논문집, 21(2009): 186-190.
이창기, 황이규, 오효정, 임수종, 허정, 이충희, 김현진, 왕지현, 장명길. 2006. Conditional Random Fields를 이용한 세부 분류 개체명 인식. 한글 및 한국어 정보처리 학술대회 발표논문집, 18(2006): 268-272.
최윤수, 정창후, 최성필, 류범종, 김재훈. 2009. 대용량 자원 기반 과학기술 핵심개체 탐지에 관한 정보추출기술 통합에 관한 연구. 정보관리연구, 40(4): 1-22.

원문보기 상세보기
Ananiadoua, S., Friedman, C., and Tsujii, J. 2004. "Introduction: named entity recognition in biomedicine." Journal of Biomedical Informatics, 37(6): 393-395.

상세보기
Asahara, M. and Matsumoto, Y. 2003. "Japanese named entity extraction with redundant morphological analysis." Proceedings of the Human Language Technology Conference - North American chapter of the Association for Computational Linguistics, 8-15.
Baluja, S., Mittal, V. and Sukthankar, R. 2000. "Applying machine learning for high performance named-entity extraction." Proceedings of the Conference of the Pacific Association for Computational Linguistics, 365-378.
Bikel, D. M., Miller, S., Schwartz, R., and Weischedel, R. 1997. "Nymble: a High-performance learning name-finder." Proceedings of the Conference on Applied Natural Language Processing, 194-201.
Black, W. and Vasilakopoulos, A. 2002. "Language independent named entity classification by modified transformation- based learning and by decision tree induction." Proceedings of the 6th Conference on Natural Language Learning, 159-162.
Borthwick, A., Sterling, J., Agichtein, E., and Grishman, R. 1998. "NYU: Description of the MENE named entity system as used in MUC-7." Proceedings of the 7th Message Understanding Conference.
Boutsis, S., Demiros, I., Giouli, V., Liakata, M., Papageorgiou, H. and Piperidis, S. 2000. "A system for recognition of named entities in Greek." Lecture Notes in Computer Science, 1835: 424-435.
Brin, S. 1998. "Extracting patterns and relations from the World Wide Web." Proceedings of WebDB Workshop at 6th International Conference on Extending Database Technology, 172-183.
Chinchor, N., Brown, E., Ferro, L. and Robinson, P. 1999. Named Entity Recognition Task Definition, version 1.4.
Cohen, W. 2004. "Exploiting dictionaries in named entity extraction: Combining semi-Markov extraction processes and data integration methods." Proceedings of KDD, 89-98.
Egorov, S., Yuryev, A. and Daraselia, N. 2004. "A simple and practical dictionary- based approach for identification of proteins in medline abstracts." The Journal of the American Medical Informatics Association, 11(3): 174-178.

상세보기
Fu, G. and Luke, K.-K. 2005. "Chinese named entity recognition using lexicalized HMMs." ACM SIGKDD Explorations Newsletter, 7(1): 19-25.

상세보기
Grishman, R. and Sundheim, B. 1996. "Message understanding conference - 6: A brief history." Proceedings of the 16th International Conference on Computational Linguistics, 466 -471.
Han, X. and Zhoa, J. 2009. "Named entity disambiguation by leveraging wikipedia semantic knowledge." Proceeding of the 18th ACM conference on Information and Knowledge Management, 215-224.
Hovy, E., Marcus, M., Palmer, M., Ramshaw, L. and Weischedel, R. 2006. "OntoNotes: The 90% solution." Proceedings of Proceedings of the Human Language Technology Conference of the NAACL, 57-60.
Kim Sang, E. F. T. and de Meulder, F. 2003. "Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition." Proceedings of the seventh conference on Natural Language Learning, 142-147.
Lafferty, J., McCallum, A. and Pereira, F. 2001. "Conditional random fields: Probabilistic models for segmenting and labeling sequence data." Proceedings of the 18th International Conference on Machine Learning, 282-289.
Liu, H., Hu, Z. Z., Torii, M., Wu, C., and Friedman, C. 2006. "Quantitative assessment of dictionary-based protein named entity tagging." Journal of the American Medical Informatics Association, 13(5): 497-507.

상세보기
Magnini, B., Negri, M., Prevete, R., and Taney H. 2002. "A WordNet-based approach to named entities recognition." Proceedings of the International Conference On Computational Linguistics(on SEMANET: Building and Using Semantic Networks), 1-7.
McCallum, A. and Li, W. 2003. "Early results for named entity recognition with conditional random fields, features induction and web-enhanced lexicons." Proceedings of the Conference on Computational Natural Language Learning, 188-191.
Miller, G. A. 1995. "WordNet: A lexical database for English." Communications of the ACM, 38(11): 39-41.

상세보기
Nadeau, D. and Sekine, S. 2007. "A survey of named entity recognition and classification." Journal of Linguisticae Investigationes, 30(1): 3-26.

상세보기
Negri, M. and Magnini, B. 2004. "Using WordNet predicates for multilingual named entity recognition." Proceedings of The Second Global WordNet Conference, 169-174.
Poibeau, T. 2003. "The multilingual named entity recognition framework." Proceedings of the 10th Conference on European Chapter of the Association for Computational Linguistics, 155-158.
Rabiner. L. R. 1989. "A tutorial on hidden Markov models and selected applications in speech recognition." Proceedings of the IEEE, 77(2): 257-286.

상세보기
Ramshaw, L. A. and Marcus, M. P. 1995. "Text chunking using transformation-based learning." Proceedings of the Third ACL Workshop on Very Large Corpora, 82-94.
Ratnaparkhi, A. 1997. A Simple Introduction to Maximum Entropy Models for Natural Language Processing. University of Pennsylvania Institute for Research in Cognitive Science Technical Report No. IRCS-97-08.
Ravin, Y. and Wacholder, N. 1996. Extracting Names from Natural-Language Text. IBM Research Report RC 2033.
Lise Getoor and Ben Taskar. 2007. Introduction to Statistical Relational Learning. Cambridge, Mass: MIT Press.
Utsuro, T., Sassano, M. and Uchimoto, K. 2002, "Combining outputs of multiple Japanese named entity chunkers by stacking." Proceedings of the Conference on Empirical Methods in Natural Language Processing, 281-288.
Wattarujeekrit, T. 2005. Exploring Semantic Roles for Named Entity Recognition in the Molecular Biology Domain. Ph.D. diss., Department of Informatics, School of Multidisciplinary Sciences, The Graduate University for Advanced Studies.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증