$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

기계학습 기반 개체명 인식을 위한 사전 자질 생성
Feature Generation of Dictionary for Named-Entity Recognition based on Machine Learning 원문보기

정보관리연구 = Journal of information management, v.41 no.2, 2010년, pp.31 - 46  

김재훈 (한국해양대학교 컴퓨터공학과) ,  김형철 (한국해양대학교 컴퓨터공학과) ,  최윤수 (한국과학기술정보연구원 정보기술연구실)

초록
AI-Helper 아이콘AI-Helper

오늘날 정보 추출의 한 단계로서 개체명 인식은 정보검색 분야 뿐 아니라 질의응답과 요약 분야에서 매우 유용하게 사용되고 있다. 개체명은 일반 단어와 달리 다양한 문서에서 꾸준히 생성되고 변화되고 있다. 이와 같은 개체명의 특성 때문에 여러 응용 시스템에서 미등록어 문제가 야기된다. 본 논문에서는 이런 미등록어 문제를 해결하기 위해 기계학습 기반 개체명 인식 시스템을 위한 새로운 자질 생성 방법을 제안한다. 일반적으로 기계학습 기반 개체명 인식 시스템은 단어 단위의 자질을 사용하므로 구절 단위의 개체명을 그대로 자질로 사용할 수 없다. 이 문제를 해결하기 위해 본 논문에서는 새로운 구절 단위의 정보를 단어 단위의 자질로 변환하는 자질 생성 방법을 제안하였다. 이 방법으로 개체명 사전과 WordNet을 개체명 인식의 자질로 사용할 수 있었다. 그 결과 영어 개체명 시스템은 F1 점수의 약 6%가 향상되었고 오류의 약 38%가 줄어들었다.

Abstract AI-Helper 아이콘AI-Helper

Now named-entity recognition(NER) as a part of information extraction has been used in the fields of information retrieval as well as question-answering systems. Unlike words, named-entities(NEs) are generated and changed steadily in documents on the Web, newspapers, and so on. The NE generation cau...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 과 같이 구절 단위의 개체명에서 발생되는 모든 중의성을 단어 단위의 자질에 표현하는 방법을 제안하여 개체명 사전의 모든 개체명을 자질로 사용할 수 있도록 하였다.
  • 본 논문에서는 기계학습 기반 개체명 인식 시스템을 위한 새로운 자질 생성 방법을 제안한다. 이 자질 생성 방법은 여러 가지 중의성을 가진 다양한 자질을 생성할 수 있었으며 본 논문에서는 두 가지 영역에 적용해 보았다.
  • 본 절에서는 CRF를 이용한 영어 개체명 인식 시스템에 대해서 살펴보고, 새로운 자질 생성 방법에 대해서 기술한다. 본 논문에서 제안된 자질 생성 방법은 개체명의 단어 단위 자질 생성과 WordNet 기반 의미 정보의 자질 생성 방법을 기술한다.
  • 하나는 본 논문에서 제안된 자질 생성 방법이 개체명 인식 시스템에서 얼마나 유용한지를 살펴보는 것이고, 다른 하나는 의미 속성이 개체명 인식에 어떤 영향을 미치는지를 살펴보는 것이다. 본 절에서는 실험 환경으로 말뭉치의 구성과 성능 척도에 대해 살펴보고 제안된 자질 생성 방법의 유용성을 평가할 것이다.
  • 하지만, 단어 단위의 학습이 이루어지는 기계학습의 특징상 구절 단위로 이루어져 있는 개체명 사전 정보를 쉽게 적용할 수는 없다. 이 문제를 개선하기 위해 본 논문에서는 구절 단위의 사전 정보를 이용해서 단어 단위의 자질을 생성하는 방법을 제안한다. 이와 같은 방법으로 생성된 자질의 유용성을 보이기 위해 기계학습 기반 개체명 인식 시스템을 구성하고 생성된 자질을 이용해서 성능이 향상됨을 보였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
명확한 개체명 인식을 위해 과거와 현재 사용하는 방법은 무엇인가? 개체명 인식이 어려운 이유는 새로운 개체명이 꾸준히 만들어지고 있기 때문에 사전에 모든 개체명을 등록할 수 없다는 점과 같은 단어로 구성된 개체명이 문맥에 따라 다른 개체명으로 해석될 수 있는 중의성이 발생할 수 있다는 점이다. 이러한 문제점을 고려하여 개체명을 인식하기 위하여 예전에는 규칙에 기반한 방법을 많이 사용하였으며(Ravin and Wacholder 1996; Brin, 1998; Liu et al. 2006) 현재는 학습 말뭉치를 이용한 기계학습 방법을 많이 사용한다(Bikel et al. 1997; Borthwick 1998; Asahara and Matsumoto 2003; McCallum and Li 2003).
개체명이란 무엇인가? 개체명(Named-entity: NE)이란 문서에서 나타나는 고유한 의미를 가지는 명사나 숫자 표현과 같이 고유한 성질의 표현을 말하며 인명(Person: PER), 지명(Location: LOC), 기관명(Organization: ORG)과 같은 이름 표현, 날짜나 시간과 같은 시간 표현, 금액이나 퍼센트와 같은 수치 표현으로 구분할 수 있다 (Chinchor et al. 1999).
개체명은 어떻게 구분될 수 있는가? 개체명(Named-entity: NE)이란 문서에서 나타나는 고유한 의미를 가지는 명사나 숫자 표현과 같이 고유한 성질의 표현을 말하며 인명(Person: PER), 지명(Location: LOC), 기관명(Organization: ORG)과 같은 이름 표현, 날짜나 시간과 같은 시간 표현, 금액이나 퍼센트와 같은 수치 표현으로 구분할 수 있다 (Chinchor et al. 1999).
질의응답 정보가 도움이 되었나요?

참고문헌 (34)

  1. 김형철, 김재훈, 최윤수. 2009. 접사 정보를 이용한 영어 미등록어의 품사부착 성능개선. 한글 및 한국어 정보처리 학술대회 발표 논문집, 21(2009): 186-190. 

  2. 이창기, 황이규, 오효정, 임수종, 허정, 이충희, 김현진, 왕지현, 장명길. 2006. Conditional Random Fields를 이용한 세부 분류 개체명 인식. 한글 및 한국어 정보처리 학술대회 발표논문집, 18(2006): 268-272. 

  3. 최윤수, 정창후, 최성필, 류범종, 김재훈. 2009. 대용량 자원 기반 과학기술 핵심개체 탐지에 관한 정보추출기술 통합에 관한 연구. 정보관리연구, 40(4): 1-22. 

  4. Ananiadoua, S., Friedman, C., and Tsujii, J. 2004. "Introduction: named entity recognition in biomedicine." Journal of Biomedical Informatics, 37(6): 393-395. 

  5. Asahara, M. and Matsumoto, Y. 2003. "Japanese named entity extraction with redundant morphological analysis." Proceedings of the Human Language Technology Conference - North American chapter of the Association for Computational Linguistics, 8-15. 

  6. Baluja, S., Mittal, V. and Sukthankar, R. 2000. "Applying machine learning for high performance named-entity extraction." Proceedings of the Conference of the Pacific Association for Computational Linguistics, 365-378. 

  7. Bikel, D. M., Miller, S., Schwartz, R., and Weischedel, R. 1997. "Nymble: a High-performance learning name-finder." Proceedings of the Conference on Applied Natural Language Processing, 194-201. 

  8. Black, W. and Vasilakopoulos, A. 2002. "Language independent named entity classification by modified transformation- based learning and by decision tree induction." Proceedings of the 6th Conference on Natural Language Learning, 159-162. 

  9. Borthwick, A., Sterling, J., Agichtein, E., and Grishman, R. 1998. "NYU: Description of the MENE named entity system as used in MUC-7." Proceedings of the 7th Message Understanding Conference. 

  10. Boutsis, S., Demiros, I., Giouli, V., Liakata, M., Papageorgiou, H. and Piperidis, S. 2000. "A system for recognition of named entities in Greek." Lecture Notes in Computer Science, 1835: 424-435. 

  11. Brin, S. 1998. "Extracting patterns and relations from the World Wide Web." Proceedings of WebDB Workshop at 6th International Conference on Extending Database Technology, 172-183. 

  12. Chinchor, N., Brown, E., Ferro, L. and Robinson, P. 1999. Named Entity Recognition Task Definition, version 1.4. 

  13. Cohen, W. 2004. "Exploiting dictionaries in named entity extraction: Combining semi-Markov extraction processes and data integration methods." Proceedings of KDD, 89-98. 

  14. Egorov, S., Yuryev, A. and Daraselia, N. 2004. "A simple and practical dictionary- based approach for identification of proteins in medline abstracts." The Journal of the American Medical Informatics Association, 11(3): 174-178. 

  15. Fu, G. and Luke, K.-K. 2005. "Chinese named entity recognition using lexicalized HMMs." ACM SIGKDD Explorations Newsletter, 7(1): 19-25. 

  16. Grishman, R. and Sundheim, B. 1996. "Message understanding conference - 6: A brief history." Proceedings of the 16th International Conference on Computational Linguistics, 466 -471. 

  17. Han, X. and Zhoa, J. 2009. "Named entity disambiguation by leveraging wikipedia semantic knowledge." Proceeding of the 18th ACM conference on Information and Knowledge Management, 215-224. 

  18. Hovy, E., Marcus, M., Palmer, M., Ramshaw, L. and Weischedel, R. 2006. "OntoNotes: The 90% solution." Proceedings of Proceedings of the Human Language Technology Conference of the NAACL, 57-60. 

  19. Kim Sang, E. F. T. and de Meulder, F. 2003. "Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition." Proceedings of the seventh conference on Natural Language Learning, 142-147. 

  20. Lafferty, J., McCallum, A. and Pereira, F. 2001. "Conditional random fields: Probabilistic models for segmenting and labeling sequence data." Proceedings of the 18th International Conference on Machine Learning, 282-289. 

  21. Liu, H., Hu, Z. Z., Torii, M., Wu, C., and Friedman, C. 2006. "Quantitative assessment of dictionary-based protein named entity tagging." Journal of the American Medical Informatics Association, 13(5): 497-507. 

  22. Magnini, B., Negri, M., Prevete, R., and Taney H. 2002. "A WordNet-based approach to named entities recognition." Proceedings of the International Conference On Computational Linguistics(on SEMANET: Building and Using Semantic Networks), 1-7. 

  23. McCallum, A. and Li, W. 2003. "Early results for named entity recognition with conditional random fields, features induction and web-enhanced lexicons." Proceedings of the Conference on Computational Natural Language Learning, 188-191. 

  24. Miller, G. A. 1995. "WordNet: A lexical database for English." Communications of the ACM, 38(11): 39-41. 

  25. Nadeau, D. and Sekine, S. 2007. "A survey of named entity recognition and classification." Journal of Linguisticae Investigationes, 30(1): 3-26. 

  26. Negri, M. and Magnini, B. 2004. "Using WordNet predicates for multilingual named entity recognition." Proceedings of The Second Global WordNet Conference, 169-174. 

  27. Poibeau, T. 2003. "The multilingual named entity recognition framework." Proceedings of the 10th Conference on European Chapter of the Association for Computational Linguistics, 155-158. 

  28. Rabiner. L. R. 1989. "A tutorial on hidden Markov models and selected applications in speech recognition." Proceedings of the IEEE, 77(2): 257-286. 

  29. Ramshaw, L. A. and Marcus, M. P. 1995. "Text chunking using transformation-based learning." Proceedings of the Third ACL Workshop on Very Large Corpora, 82-94. 

  30. Ratnaparkhi, A. 1997. A Simple Introduction to Maximum Entropy Models for Natural Language Processing. University of Pennsylvania Institute for Research in Cognitive Science Technical Report No. IRCS-97-08. 

  31. Ravin, Y. and Wacholder, N. 1996. Extracting Names from Natural-Language Text. IBM Research Report RC 2033. 

  32. Lise Getoor and Ben Taskar. 2007. Introduction to Statistical Relational Learning. Cambridge, Mass: MIT Press. 

  33. Utsuro, T., Sassano, M. and Uchimoto, K. 2002, "Combining outputs of multiple Japanese named entity chunkers by stacking." Proceedings of the Conference on Empirical Methods in Natural Language Processing, 281-288. 

  34. Wattarujeekrit, T. 2005. Exploring Semantic Roles for Named Entity Recognition in the Molecular Biology Domain. Ph.D. diss., Department of Informatics, School of Multidisciplinary Sciences, The Graduate University for Advanced Studies. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로