$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

개체중의성해소에서 의미관련도 활용 효과 분석: 한국어 위키피디아를 사용하여
An Effect of Semantic Relatedness on Entity Disambiguation: Using Korean Wikipedia 원문보기

한국지능시스템학회 논문지 = Journal of Korean institute of intelligent systems, v.25 no.2, 2015년, pp.111 - 118  

강인수 (경성대학교 공과대학 컴퓨터공학부)

초록
AI-Helper 아이콘AI-Helper

개체 링킹은 텍스트에 출현하는 개체 표현을 위키피디아 등의 지식베이스 항목으로 연결하는 작업이다. 동일한 개체 표현을 공유하는 서로 다른 개체들의 존재로 인해 개체 링킹에서는 개체 표현의 중의성을 해소할 필요가 있다. 개체 중의성 해소를 위한 최근 연구에서는 공기 개체 의미관련도를 중심으로 개체 출현 선험 확률와 공기 용어 정보 등을 결합하는 시도들이 주류를 형성하고 있다. 그러나 의미관련도의 왕성한 활용에도 불구하고 의미관련도 기반 방법이 개체중의성해소에 미치는 순수 효과를 분석 제시한 연구는 찾기 힘들다. 이 연구는 NGD, PMI, Jaccard, Dice, Simpson 등 서로 다른 의미관련도 지표의 차이, 공기개체집합 내 중의성 정도의 차이, 개별적/집단적 중의성해소 방식의 차이의 세 가지 관점에서 의미관련도 기반 개체중의성해소 방법들을 한국어 위키피디아 데이터를 사용하여 실험적으로 평가한 결과를 제시한다.

Abstract AI-Helper 아이콘AI-Helper

Entity linking is to link entity's name mentions occurring in text to corresponding entities within knowledge bases. Since the same entity mention may refer to different entities according to their context, entity linking needs to deal with entity disambiguation. Most recent works on entity disambig...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 이 연구에서는 개체중의성해소와 관련하여 의미관련도 활용 기법의 순수 효과를 비교 제시하고 분석한다. 이를 위해 거의 대부분의 기존 연구에서 사용된 의미관련도 지표인 NGD(Normalized Google Distance)를 포함하여 PMI(Pointwise Mutual Information), Jaccard, Simpson, Dice와 같은 다양한 의미관련도 지표를 사용하여 개별적/집단적 의미관련도 기반 방법들이 개체중의성해소에 미치는 영향을 살핀다.
  • 이 연구에서는 공기 개체들의 의미관련도에 기반한 개체중의성해소 기법의 평가를 공기개체집합의 중의성 정도의 차이, 의미관련도 지표의 차이, 개별적/집단적 중의성해소 방식의 차이 관점에서 한국어 위키피디아 데이터를 대상으로 시도하였다. 그 결과 실험에 사용된 각 의미관련도 기반 중의성해소 방법들은, 개별적 중의성해소방식과 Simpson 지표의 결합을 제외하면, 그 자체로 MFS 베이스라인의 성능을 능가하여 의미관련도 기반 중의성해소의 유용성을 보였다.
  • 테스트셋의 각 문서는 최소 50개 이상의 개체 표현에 대해 이미 정답 의미(즉, 위키피디아 URL 링크)가 부착되어 있다. 이 연구에서는 이들 의미 부착된 개체 표현에 대해 5.1절의 다양한 개체중의성해소기법들을 적용한 성능을 평가한다. 따라서 성능 평가 지표로 다음의 두 가지 정확률(accuracy)를 사용한다.

가설 설정

  • (3) 입력 텍스트의 각 개체 표현 t에 대해 t의 모든 가능한 의미들에 해당하는 (G의) 노드들 중 Pagerank 점수가 최대인 노드에 해당하는 의미를 t의 의미로 결정한다.
  • 입력 문서 D에 출현한 개체 표현들의 집합 T={t1, t2 , ... , tn }에 대해 개체중의성해소를 수행한다고 가정하고 개체 표현 t i 의 가능한 후보 의미(위키피디아의 경우 위키피디아 페이지에 대한 웹 URL 링크가 의미에 해당함)들의 집합은 링크(link)들의 집합 (set)이라는 의미로 lset(ti )로 표현하기로 한다. 현재 개체중 의성해소 대상인 목표 개체 표현을 t(∊T)라고 가정하면 t의 개체중의성해소를 위한 개별적 개체중의성해소 절차를 다음 식으로 정의한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
개체 링킹이란 무엇인가? 개체 링킹(entity linking)은 텍스트에 출현하는 개체 표현(entity mention)을 지식베이스(예: 위키피디아) 내의 해당 개체 항목에 대응시키는 작업이다[1]. 예를 들어 다음 예문 텍스트에 출현한 개체 표현 ‘시카고’는, 미국 일리노이 주에 위치한 도시 시카고를 의미하므로 개체 링킹을 위키피디아 지식베이스로 연결하는 경우, 웹 URL 개체 "http://ko.
개채 링킹에서 개체 표현의 중의성을 해소해야되는 이유는 무엇인가? 개체 링킹은 텍스트에 출현하는 개체 표현을 위키피디아 등의 지식베이스 항목으로 연결하는 작업이다. 동일한 개체 표현을 공유하는 서로 다른 개체들의 존재로 인해 개체 링킹에서는 개체 표현의 중의성을 해소할 필요가 있다. 개체 중의성 해소를 위한 최근 연구에서는 공기 개체 의미관련도를 중심으로 개체 출현 선험 확률와 공기 용어 정보 등을 결합하는 시도들이 주류를 형성하고 있다.
개체 표현의 의미기여도의 총합에 기반하여 의미를 결정하는 방식에서의 의미기여도는 어떻게 계산되는가? Ferragina와 Scaiella는 중의성 개체를 포함한 전체 공기 개체를 사용하여, 목표 개체 표현의 각 후보 의미에 대해 공기하는 각 개체 표현의 의미기여도의 총합에 기반하여 의미를 결정하는 방식을 제안하였다. 이 때 의미기여도는 개체선험확률을 가중치로 사용한 의미관련도의 가중 평균으로 계산된다[4]. Ratinov 등은 개체선험확률, 지역문맥유사도, 개체쌍 의미관련도 자질의 중요도를 링크부착말뭉치로부터 학습한 분류기를 통해 개별적 개체중의성해소를 시도하였다[7].
질의응답 정보가 도움이 되었나요?

참고문헌 (22)

  1. X. Han, L. Sun, J. Zhao, "Collective entity linking in web text: a graph-based method," Proceeding of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval, 2011 

  2. O. Medelyan, I. H. Witten, D. Milne, "Topic indexing with Wikipedia," Proceedings of the Wikipedia and AI workshop at AAAI-08, 2008. 

  3. D. N. Milne, I. H. Witten, "Learning to link with Wikipedia," Proceedings of the 17th ACM Conference on Information and Knowledge Management, 2008. 

  4. P. Ferragina, U. Scaiella, "TAGME: on-the-fly annotation of short text fragments (by Wikipedia entities)," Proceedings of the 19th ACM Conference on Information and Knowledge Management, 2010. 

  5. S. Kulkarni, A. Singh, G. Ramakrishnan, S. Chakrabarti, "Collective annotation of Wikipedia entities in web text," Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2009. 

  6. J. Hoffart, M. A. Yosef, I. Bordino, H. Furstenau, M. Pinkal, M. Spaniol, B. Taneva, S. Thater, G. Weikum, "Robust disambiguation of named entities in text," Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, 2011. 

  7. L. Ratinov, D. Roth, D. Downey, M. Anderson, "Local and global algorithms for disambiguation to Wikipedia," Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, 2011. 

  8. R. Mihalcea, A. Csomai, "Wikify!: linking documents to encyclopedic knowledge," Proceedings of the 16th ACM Conference on Information and Knowledge Management, 2007. 

  9. D. Bollegala, Y. Matsuo, M. Ishizuka, "Measuring semantic similarity between words using web search engines," Proceedings of the 16th International Conference on World Wide Web, 2007. 

  10. A. Islam, E. E. Milios, V. Keselj, "Comparing word relatedness measures based on Google n-grams," Proceedings of COLING 2012: Posters, 2012. 

  11. C. Li, A. Sun, A. Datta, "A generalized method for word sense disambiguation based on Wikipedia," Proceedings of the 33rd European Conference on IR Research, 2011. 

  12. I. Kang, S. Kang, "A single-step machine learning approach to link detection in Wikipedia: NTCIR Crosslink-2 Experiments at KSLP," Proceedings of the 10th NTCIR Conference, 2013. 

  13. S. Kang, "English-Korean cross-lingual link discovery using link probability and named entity recognition", Journal of The Korean Institute of Intelligent Systems, vol. 23, no. 3, pp. 191-195, 2013. 

  14. S. Hassan, R. Mihalcea, "Semantic relatedness using salient semantic analysis," Proceedings of the 25th AAAI Conference on Artificial Intelligence, 2011. 

  15. R. Cilibrasi, P. M. B. Vitanyi, "The Google similarity distance", Available: http://arxiv.org/pdf/cs/0412098.pdf, 2004, [Accessed: October 29, 2014] 

  16. J. Gracia, R. Trillo, M. Espinoza, E. Mena, "Querying the web: a multiontology disambiguation method," Proceedings of the 6th International Conference on Web Engineering, 2006. 

  17. K. W. Church, P. Hanks, "Word association norms, mutual information, and lexicography," Computational Linguistics, vol. 16, no. 1, pp. 22-29, 1990. 

  18. P. Jaccard, "Nouvelles recherches sur la distribution florale," Bull. Soc. Vaud. Sci. Nat., vol. 44, pp. 223-270, 1908. 

  19. G. G. Simpson, "Notes on the measurement of faunal resemblance," American Journal of Science, vol. 258a, pp. 300-311, 1960. 

  20. L. R. Dice, "Measures of the amount of ecologic association between species," Ecology, vol. 26, pp. 297-302, 1945. 

  21. S. Brin, L. Page, "The anatomy of a large-scale hypertextual Web search engine," Computer Networks, vol. 30, pp. 107-117, 1998. 

  22. R. Navigli, "Word sense disambiguation: a survey," ACM Computing Surveys, vol. 41, no. 2, 2009. 

LOADING...
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로