$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램
Named Entity Recognition and Dictionary Construction for Korean Title: Books, Movies, Music and TV Programs 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.3 no.7, 2014년, pp.285 - 292  

박용민 (충북대학교 디지털정보융합학과) ,  이재성 (충북대학교 소프트웨어학과)

초록
AI-Helper 아이콘AI-Helper

개체명 인식은 정보검색 시스템, 질의응답 시스템, 기계번역 시스템 등의 성능을 향상시키기 위하여 사용된다. 개체명 인식은 일반적으로 PLOs(인명, 지명, 기관명)을 대상으로 하며, 주로 미등록어와 고유명사로 이루어져 있기 때문에 고유명사나 미등록어는 중요한 개체명 후보로 쓰일 수 있다. 하지만 도서명, 영화명, 음악명, TV프로그램명과 같은 제목 개체명은 PLO와는 달리 단어부터 문장까지 매우 다양한 형태를 지니고 있어서 개체명 인식이 쉽지 않다. 본 논문에서는 뉴스 기사문을 이용하여 제목 개체명을 빠르게 인식하고 자동으로 사전을 구축하는 방법을 제안한다. 먼저 특수기호로 묶인 어절을 추출하고, 주변 문맥 단어 및 단어 거리를 이용하여 SVM으로 제목 후보들을 추출하였다. 이렇게 추출된 제목 후보들은 상호 정보량을 가중치로 SVM을 이용해 제목 유형을 분류하였다.

Abstract AI-Helper 아이콘AI-Helper

A named entity recognition method is used to improve the performance of information retrieval systems, question answering systems, machine translation systems and so on. The targets of the named entity recognition are usually PLOs (persons, locations and organizations). They are usually proper nouns...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 33%로 매우 낮은 성능을 보였다. 따라서 논문에서는 영화 관련 데이터베이스를 이용하거나 자주 상영되는 영화명을 학습시킬 것을 권장하고 있다.
  • 이렇게 제목과 같이 형태의 다양성으로 인하여 개체명 경계 인식이 불분명할 경우에는 사전을 구축하여 사전 매칭으로 해결하는 것이 효과적이다[4,5]. 따라서 본 논문에서는 도서, 영화, 음악, TV프로그램의 제목 개체명에 대한 특징을 살펴보고, 뉴스 기사문을 이용하여 새롭게 생성되는 제목 개체명을 실시간으로 인식하며, 사전으로 구성하는 방법을 제안한다.
  • 따라서 본 논문에서는 사전 구성의 정확률을 높이기 위하여 뉴스 기사문 내에 2회 이상 등장하는 제목 후보들만을 이용하여 제목 개체명 인식 및 사전 구성을 하였다. 전체 제목 개체명으로 이루어진 정답 집합으로 평가하였을 때 사전 구성 성능은 재현율(Recall) 21.
  • 본 논문에서는 뉴스 기사문 중 특수기호 사이에 중심어가 포함된 각각의 문장을 하나의 문서로 보았다. 또한 제목 개체명 유형별 단어들의 상호정보량을 가중치로 사용하고, 다중 분류 기계학습 도구인 SVMmulticlass를 이용하여 학습 및 실험을 하였다.
  • 본 논문에서는 뉴스 기사문에서 도서, 영화, 음악, TV프로그램에 해당하는 새로운 제목 개체명을 추출하여 사전을 구축하는 방법을 제안하였다.
  • 본 논문에서는 뉴스 기사문에서 특수기호 사이에 존재하는 어절을 대상으로 제목을 식별하고, 주변 문맥 단어로 제목의 유형(도서명, 영화명, 음악명, TV프로그램명)을 분류하는 방법을 제안한다. 전체적인 과정은 그림 1과 같다.
  • 본 논문에서는 일반 문서에 비해 정규화된 형식으로 이루어진 뉴스 기사문에서 제목 개체명이 가지는 특성을 분석하였으며, 이를 이용해 제목 개체명 추출과 제목 개체명 사전을 생성하기 위한 방법을 제안한다.

가설 설정

  • 제목 개체명 유형 분류는 특수기호 사이 어절이 모두 도서, 영화, TV프로그램의 제목 개체명인 것을 가정한 후, 개체명 유형 분류에 대한 성능을 측정하였다.
  • 특히, 하나의 문서 내에 2회 이상 등장하는 제목 개체명 후보는 동일한 제목 유형만을 가진다고 가정하고 후처리를 진행하였다. 예를 들어, ‘변호인’이라는 제목 개체명 후보가 한 문서에서 4번 등장하였고, 3개는 ‘영화’로, 1개는 ‘TV프로그램’으로 분류되었을 경우 개수가 많은 ‘영화’로 개체명 태깅을 하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
개체명 인식을 활용하면 어떠한 시스템에서 이점을 발휘할 수 있는가? 개체명 인식을 활용하면 기계번역 시스템에서 중의성을 가지는 단어들로 인한 번역 오류를 줄일 수 있고, 질의응답 시스템에서는 질의문에 포함된 개체명 정보를 활용함으로써 질의 의도에 부합하는 정답을 찾아낼 수 있다. 이렇듯 개체명 인식은 자연어처리에 있어서 핵심적인 기능이고, 정보검색, 질의응답, 기계번역 등 각 시스템의 성능 향상에 큰 역할을 한다[2].
개체명 인식은 어떻게 분류되는가? 개체명 인식은 개체명이 될 수 있는 후보를 찾는 개체명 경계 인식과 찾은 개체명 후보를 인명, 지명, 조직명 등으로 분류하는 개체명 유형 분류로 나뉜다. 개체명은 주로 미등록어와 고유명사로 이루어져 있기 때문에 개체명 후보 추출에 있어서 고유명사나 미등록어는 중요한 개체명 후보로 쓰일 수 있다.
제목 개체명(Title Named Entity)을 인식하는 것이 형식의 개체명에 비해 어려운 이유는 무엇인가? 하지만 도서명, 영화명, 음악명, TV프로그램명 등과 같은 제목 개체명(Title Named Entity)을 인식하는 것은 기존의 인명, 지명, 조직명과 같은 형식의 개체명에 비해 상대적으로 어렵다[3]. 그 이유는 첫째, 제목 개체명은 단어부터 문장까지 매우 다양한 형태를 지니고 있다. 인명, 지명, 조직명이 보통 하나의 단어나 두세 개 정도의 어절로 구성되어 있는 것과 비교할 때, 제목 개체명은 단어부터 명사구, 또는 문장에 이르기까지 형태가 매우 다양하다. 둘째, 제목 개체명은 다른 종류의 개체명이 되는 경우도 있다. 예를 들어, ‘스티브잡스’는 사람 이름이면서 도서명이기도 하고, ‘베를린’은 지역명이면서 영화명이기도 하다. 셋째, 제목 개체명은 개체명 인식에 사용할 수 있는 특징적인 내부 자질이 존재하지 않는다. 일반적으로 ‘특별시’나 ‘광역시’, ‘국립공원’ 등과 같은 접미사는 해당 단어를 지명으로 인식할 수 있는 결정적인 단서가 될 수 있다. 하지만 제목 개체명은 다양한 형식으로 인하여 내부에 제목 개체명만의 특징을 지니지 않는다.
질의응답 정보가 도움이 되었나요?

참고문헌 (20)

  1. Seong-Won Kim, Dong-Yul Ra, "Korean Named Entity Recognition Using Two-level Maximum Entropy Model,"Proc. of the KIISE Symosium, Vol.2, No.1, pp.81-86, 2008. 

  2. Changki Lee, Myung-Gil Jang, "Named Entity Recognition with Structural SVMs and Pegasos algorithm," Proc. of KSCS Congnitive Science, Vol.21, No.4, pp.655-667, 2010. 

  3. Joo-Young Lee, Young-In Song, Hae-Chang Rim, "Title Named Entity Recognition based on Automatically Constructed Context Patterns and Entity Dictionary," Proc. of the KIISE Conference, The 16th Annual Conference on Human & Cognitive Language Technology, pp.40-45, 2004. 

  4. Black, W., F. Rinaldi and D. Mowatt, "Facile: Description Of The Ne System Used For Muc-7," in Proceedings of the 7th Message Understanding Conference, 1998. 

  5. Chen H., Y. Ding, S. Tsai and G. Bian, "Description of the NTU System Used for MET2," in Proceedings of 7th Message Understanding Conference, 1998. 

  6. Aberdeen, J., J. D. Burger, D. S. Day, L. Hirschman, P. Robinson and M. B. Vilain, "MITRE : Description Of The Alembic System Used For MUC-6," in Proceedings of 6th Message Understanding Conference, pp.141-155, 1995. 

  7. Borthwick, A., J. Sterling, E. Agichtein and R. Grishman, "NYU : Description of the MENE Named Entity System as Used in MUC-7," in Proceedings of 7th Message Understanding Conference, 1998. 

  8. Merchant, R. and M. E. Okurowski, "The multilingual entity task (MET) overview," in Proceeding TIPSTER'96 Proceedings of a workshop on held at Vienna, pp.445-447, 1996. 

  9. Sekine, S. and Y. Eriguchi, "Japanese named entity extraction evaluation : analysis of results," in Proceeding COLING'00 Proceedings of the 18th conference on Computational linguistics - Vol.2, pp.1106-1110, 2000. 

  10. Kyung Hee Lee, Ju Ho Lee, Myung Seok Choi, Gil Chang Kim, "Study on Named Entity Recognition in Korean Text," Proc. of the KIISE Conference, The 12th Annual Conference on Human & Cognitive Language Technology, pp.292-299, 2000. 

  11. Yi-Gyu Hwang, Hyun-Sook Lee, Eui-Sok Chung, Bo-Hyun Yun, Sang-Kyu Park, "Korean Named Entity Recognition Based on Supervised Learning Using Named Entity Construction Principles," Proc. of the KIISE Conference, The 14th Annual Conference on Human & Cognitive Language Technology, pp.111-117, 2002. 

  12. Hae-Suk Jang, Kyu-Cheol Jung, Jin Kwan Lee, Kihong Park, "Recognition of Korean Place Names on the Internet by Using the Rules of Dictionary Use," Proc. of the KSII Fall Conference, Vol.6, No.1, pp.397-400, 2005. 

  13. Yi-Gyu Hwang, Bo-Hyun Yun, "HMM-based Korean Named Entity Recognition," Proc. of the KIPS Transaction Vol.10(B), No.2, pp.229-236, 2003. 

  14. Changki Lee, Yi-Gyu Hwang, Hyo-Jung Oh, Soojung Lim, Jeong Heo, Chung-Hee Lee, Hyeon-Jin Kim, Ji-Hyun Wang, Myung-Gil Jang, "Fine-Grained Named Entity Recognition using Conditional Random Fields for Question Answering," Proc. of the KIISE Conference, The 18th Annual Conference on Human & Cognitive Language Technology, pp.268-272, 2006. 

  15. Lai, A., "Movie Title Recognition in E-Mail," Stanford University Natural Language Processing, CS224N Final Project, 2009. 

  16. Young-Min Park, Sang-woo Kang, Byoung-Kyu Yoo, Jung-Yun Seo, "Title Named Entity Recognition using Wikipedia and Making Acronym," Proc. of the KIISE Korea Computer Congress, pp.637-639, 2013. 

  17. Vapnik, V. N., The nature of statistical learning theory, Springer, 1995. 

  18. Dumais, S., J. Platt and D. Heckerman, "Inductive Learning Algorithms and Representations for Text Categorization," in Proceeding of ACM-CIKM '98, pp.148-155, 1998. 

  19. Crammer, K., Y. Singer, "On the Algorithmic Implementation of Multiclass Kernel-based Vector Machines," Journal of Machine Learning Research 2, pp.265-292, 2001. 

  20. Peng H., F. Long and C. Ding, "Feature Selection Based on Mutual Information: Criteria of Max- Dependency, Max- Relevance, and Min-Redundancy," Pattern Analysis and Machine Intelligence, IEEE Transactions on Vol.27, Issue 8, pp.1226-1238, 2005. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로