개체 링킹은 텍스트에 출현하는 개체 표현을 위키피디아 등의 지식베이스 항목으로 연결하는 작업이다. 동일한 개체 표현을 공유하는 서로 다른 개체들의 존재로 인해 개체 링킹에서는 개체 표현의 중의성을 해소할 필요가 있다. 개체 중의성 해소를 위한 최근 연구에서는 공기 개체 의미관련도를 중심으로 개체 출현 선험 확률와 공기 용어 정보 등을 결합하는 시도들이 주류를 형성하고 있다. 그러나 의미관련도의 왕성한 활용에도 불구하고 의미관련도 기반 방법이 개체중의성해소에 미치는 순수 효과를 분석 제시한 연구는 찾기 힘들다. 이 연구는 NGD, PMI, Jaccard, Dice, Simpson 등 서로 다른 의미관련도 지표의 차이, 공기개체집합 내 중의성 정도의 차이, 개별적/집단적 중의성해소 방식의 차이의 세 가지 관점에서 의미관련도 기반 개체중의성해소 방법들을 한국어 위키피디아 데이터를 사용하여 실험적으로 평가한 결과를 제시한다.
개체 링킹은 텍스트에 출현하는 개체 표현을 위키피디아 등의 지식베이스 항목으로 연결하는 작업이다. 동일한 개체 표현을 공유하는 서로 다른 개체들의 존재로 인해 개체 링킹에서는 개체 표현의 중의성을 해소할 필요가 있다. 개체 중의성 해소를 위한 최근 연구에서는 공기 개체 의미관련도를 중심으로 개체 출현 선험 확률와 공기 용어 정보 등을 결합하는 시도들이 주류를 형성하고 있다. 그러나 의미관련도의 왕성한 활용에도 불구하고 의미관련도 기반 방법이 개체중의성해소에 미치는 순수 효과를 분석 제시한 연구는 찾기 힘들다. 이 연구는 NGD, PMI, Jaccard, Dice, Simpson 등 서로 다른 의미관련도 지표의 차이, 공기개체집합 내 중의성 정도의 차이, 개별적/집단적 중의성해소 방식의 차이의 세 가지 관점에서 의미관련도 기반 개체중의성해소 방법들을 한국어 위키피디아 데이터를 사용하여 실험적으로 평가한 결과를 제시한다.
Entity linking is to link entity's name mentions occurring in text to corresponding entities within knowledge bases. Since the same entity mention may refer to different entities according to their context, entity linking needs to deal with entity disambiguation. Most recent works on entity disambig...
Entity linking is to link entity's name mentions occurring in text to corresponding entities within knowledge bases. Since the same entity mention may refer to different entities according to their context, entity linking needs to deal with entity disambiguation. Most recent works on entity disambiguation focus on semantic relatedness between entities and attempt to integrate semantic relatedness with entity prior probabilities and term co-occurrence. To the best of my knowledge, however, it is hard to find studies that analyze and present the pure effects of semantic relatedness on entity disambiguation. From the experimentation on Korean Wikipedia data set, this article empirically evaluates entity disambiguation approaches using semantic relatedness in terms of the following aspects: (1) the difference among semantic relatedness measures such as NGD, PMI, Jaccard, Dice, Simpson, (2) the influence of ambiguities in co-occurring entity mentions' set, and (3) the difference between individual and collective disambiguation approaches.
Entity linking is to link entity's name mentions occurring in text to corresponding entities within knowledge bases. Since the same entity mention may refer to different entities according to their context, entity linking needs to deal with entity disambiguation. Most recent works on entity disambiguation focus on semantic relatedness between entities and attempt to integrate semantic relatedness with entity prior probabilities and term co-occurrence. To the best of my knowledge, however, it is hard to find studies that analyze and present the pure effects of semantic relatedness on entity disambiguation. From the experimentation on Korean Wikipedia data set, this article empirically evaluates entity disambiguation approaches using semantic relatedness in terms of the following aspects: (1) the difference among semantic relatedness measures such as NGD, PMI, Jaccard, Dice, Simpson, (2) the influence of ambiguities in co-occurring entity mentions' set, and (3) the difference between individual and collective disambiguation approaches.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이 연구에서는 개체중의성해소와 관련하여 의미관련도 활용 기법의 순수 효과를 비교 제시하고 분석한다. 이를 위해 거의 대부분의 기존 연구에서 사용된 의미관련도 지표인 NGD(Normalized Google Distance)를 포함하여 PMI(Pointwise Mutual Information), Jaccard, Simpson, Dice와 같은 다양한 의미관련도 지표를 사용하여 개별적/집단적 의미관련도 기반 방법들이 개체중의성해소에 미치는 영향을 살핀다.
이 연구에서는 공기 개체들의 의미관련도에 기반한 개체중의성해소 기법의 평가를 공기개체집합의 중의성 정도의 차이, 의미관련도 지표의 차이, 개별적/집단적 중의성해소 방식의 차이 관점에서 한국어 위키피디아 데이터를 대상으로 시도하였다. 그 결과 실험에 사용된 각 의미관련도 기반 중의성해소 방법들은, 개별적 중의성해소방식과 Simpson 지표의 결합을 제외하면, 그 자체로 MFS 베이스라인의 성능을 능가하여 의미관련도 기반 중의성해소의 유용성을 보였다.
테스트셋의 각 문서는 최소 50개 이상의 개체 표현에 대해 이미 정답 의미(즉, 위키피디아 URL 링크)가 부착되어 있다. 이 연구에서는 이들 의미 부착된 개체 표현에 대해 5.1절의 다양한 개체중의성해소기법들을 적용한 성능을 평가한다. 따라서 성능 평가 지표로 다음의 두 가지 정확률(accuracy)를 사용한다.
가설 설정
(3) 입력 텍스트의 각 개체 표현 t에 대해 t의 모든 가능한 의미들에 해당하는 (G의) 노드들 중 Pagerank 점수가 최대인 노드에 해당하는 의미를 t의 의미로 결정한다.
입력 문서 D에 출현한 개체 표현들의 집합 T={t1, t2 , ... , tn }에 대해 개체중의성해소를 수행한다고 가정하고 개체 표현 t i 의 가능한 후보 의미(위키피디아의 경우 위키피디아 페이지에 대한 웹 URL 링크가 의미에 해당함)들의 집합은 링크(link)들의 집합 (set)이라는 의미로 lset(ti )로 표현하기로 한다. 현재 개체중 의성해소 대상인 목표 개체 표현을 t(∊T)라고 가정하면 t의 개체중의성해소를 위한 개별적 개체중의성해소 절차를 다음 식으로 정의한다.
제안 방법
이를 위해 거의 대부분의 기존 연구에서 사용된 의미관련도 지표인 NGD(Normalized Google Distance)를 포함하여 PMI(Pointwise Mutual Information), Jaccard, Simpson, Dice와 같은 다양한 의미관련도 지표를 사용하여 개별적/집단적 의미관련도 기반 방법들이 개체중의성해소에 미치는 영향을 살핀다. 또한 의미관련도 계산에 사용되는 공기 개체 집합의 중의성 정도의 차이가 개체중의성해소에 미치는 영향을 분석한다.
그러나 전체 비중의성 개체 집합의 부분만을 사용하는 경우 어떠한 비중의성 개체들이 선택되느냐에 따라 목표 개체의 중의성해소 성능의 차이가 발생할 수 있다. 이러한 점을 감안하여 Fig. 2에서는 x축의각 크기에 대해 해당 크기만큼의 임의 선택된 비중의성 개체들을 사용하여 중의성해소를 수행하는 절차를 10회 반복한 성능들의 평균을 표시하였다.
Kulkarni 등은 개체중의성해소문제를 선형계획법(linear programming) 문제나 Hill-climbing 문제의 해를 구하는 방식으로 고려하여 집단적 개체중의성해소를 시도하였다[5]. 이를 위해 개체선험확률, 공기 용어정보에 기반한 지역문맥유사도, 공기 개체들의 의미관련도들을 활용하였다. Han 등은 Pagerank 알고리즘을 통해 집단적 개체중의성해소를 시도하였다[1].
이 연구에서는 개체중의성해소와 관련하여 의미관련도 활용 기법의 순수 효과를 비교 제시하고 분석한다. 이를 위해 거의 대부분의 기존 연구에서 사용된 의미관련도 지표인 NGD(Normalized Google Distance)를 포함하여 PMI(Pointwise Mutual Information), Jaccard, Simpson, Dice와 같은 다양한 의미관련도 지표를 사용하여 개별적/집단적 의미관련도 기반 방법들이 개체중의성해소에 미치는 영향을 살핀다. 또한 의미관련도 계산에 사용되는 공기 개체 집합의 중의성 정도의 차이가 개체중의성해소에 미치는 영향을 분석한다.
실험에서는 순수 의미관련도 기반 개체중의성해소 기법의 성능을 한국어 위키피디아를 대상으로 평가한다. 이를 위해 중의성/비 중의성 공기 개체 집합 활용의 차이, 서로 다른 의미관련도 지표 사용의 차이, 그리고 개별적, 집단적 중의성해소기법의 차이의 세 가지 측면을 고려한다. 전술한 세 가지 각 측면의 모든 가능성의 조합으로부터 실험에 사용될 각 개체중의성해소기법의 명칭을 명명한다(Table 1 참조).
대상 데이터
실험에서는 순수 의미관련도 기반 개체중의성해소 기법의 성능을 한국어 위키피디아를 대상으로 평가한다. 이를 위해 중의성/비 중의성 공기 개체 집합 활용의 차이, 서로 다른 의미관련도 지표 사용의 차이, 그리고 개별적, 집단적 중의성해소기법의 차이의 세 가지 측면을 고려한다.
평가용 테스트셋 구축을 위해 Milne 등[3]의 연구를 따라 한국어 위키피디아 dump(2014년 3월)로부터 50개 이상의 위키피디아 링크를 갖는 위키피디아 페이지 500개를 무작위 추출하였다. 테스트셋에 포함된 500개 문서를 제외한 나머지 위키피디아 문서 집합은 의미관련도 계산을 위한 의미부착말뭉치로 고려하였다.
이론/모형
(2) G에 Pagerank 알고리즘[21]을 적용한다. 이후 G의 각 노드는 Pagerank 점수가 부여되어 있다.
이 연구에서는 서로 다른 의미관련도 지표의 차이를 함께 고려하기 위해, Bollegala 등이 단어 관련도 지표 연구에 사용한[9], NGD, PMI, Jaccard, Simpson, Dice 지표들을 선택하였다.
이 연구에서는 집단적 개체중의성해소 방법론으로 Han 등[1]의 방법 일부를 사용하며 그 절차는 다음과 같다.
성능/효과
Fig. 2에서 단일 비중의성 개체의 사용은, U-NGDn-M_S, U-NGDn-PR 각 방법에 대해 이미 90% 이상의 중의성 해소 성능을 보였으며, 비중의성 개체의 전체 집합이 적용된 성능 대비 96% 성능 수준을 보였다. 전체적으로, 보다 많은 비중의성 개체들의 사용은 중의성 해소 성능을 점증적으로 향상시켰으며, 대량의 비중의성 개체들이 적용된 구간에 비해 소량의 비중의성 개체 적용 구간에서 더 큰 폭의 성능 향상을 가져왔다.
이 연구에서는 공기 개체들의 의미관련도에 기반한 개체중의성해소 기법의 평가를 공기개체집합의 중의성 정도의 차이, 의미관련도 지표의 차이, 개별적/집단적 중의성해소 방식의 차이 관점에서 한국어 위키피디아 데이터를 대상으로 시도하였다. 그 결과 실험에 사용된 각 의미관련도 기반 중의성해소 방법들은, 개별적 중의성해소방식과 Simpson 지표의 결합을 제외하면, 그 자체로 MFS 베이스라인의 성능을 능가하여 의미관련도 기반 중의성해소의 유용성을 보였다. 또한 NGD1, NGDn 혹은 PMI 의미관련도 지표와 결합된 집단적 중의성해소 기법은 공기 개체 집합의 중의성 정도에 무관하게 거의 일정한 중의성해소성능을 보여 의미관련도에 기반한 중의성해소의 적절한 방안으로 판단되었다.
3은 개별적 중의성해소기법 Max_Sum과 집단적 중의 성해소기법 PageRank에 대해, 비중의성/중의성/전체 공기 개체 집합을 적용한 각 경우의 중의성해소 성능을 서로 다른 의미관련도 지표들에 대해 비교한 것이다. 그 결과는 대체로 비중의성, 전체, 중의성 공기 개체 집합 적용 순으로 성능이 감소하였다.
또한 Fig. 3에서 중의성이 있는 공기 개체만을 사용한 경우에도 성능의 저하는 크지 않았으며 Max_Sum 방식과 Simpson 함수를 결합한 경우를 제외한 모든 경우에서 MFS 베이스라인 이상의 성능을 보였다. 특히 개별적 개체중의성해소기법에 비해 집단적 중의성해소기법은 중의성 공기 개체의 추가로 인한 성능 저하가 크지 않았다.
그 결과 실험에 사용된 각 의미관련도 기반 중의성해소 방법들은, 개별적 중의성해소방식과 Simpson 지표의 결합을 제외하면, 그 자체로 MFS 베이스라인의 성능을 능가하여 의미관련도 기반 중의성해소의 유용성을 보였다. 또한 NGD1, NGDn 혹은 PMI 의미관련도 지표와 결합된 집단적 중의성해소 기법은 공기 개체 집합의 중의성 정도에 무관하게 거의 일정한 중의성해소성능을 보여 의미관련도에 기반한 중의성해소의 적절한 방안으로 판단되었다. 특히 비중의성 공기 개체 들에 전적으로 의존하는 경우에도 NGDn 지표는 개별적/집단적 중의성해소방식에 무관하게 소량의 비중의성 개체만으로도 MFS 베이스라인의 성능 수준을 확보할 수 있음을 보였다.
예를 들어 x축의 U-M_S는 비중의성 공기개체집합과 개별적 중의성해소기법 Max_Sum을 결합한 것을 의미한다. 전체적으로 의미관련도 지표들은 NGDn, NGD1, PMI, Dice, Jaccard, Simpson 순으로 중의성해소 성능의 차이를 보여 기존 연구에서의 NGD 지표의 왕성한 활용을 지지하는 결과를 보였다. 한편 상대적 성능 저하가 두드러진 Simpson 지표를 제외하면 NGDn, NGD1, PMI 지표 그룹들과 Dice, Jaccard 지표 그룹들은 각각 그룹 내에서 비슷한 성능을 보였다.
2에서 단일 비중의성 개체의 사용은, U-NGDn-M_S, U-NGDn-PR 각 방법에 대해 이미 90% 이상의 중의성 해소 성능을 보였으며, 비중의성 개체의 전체 집합이 적용된 성능 대비 96% 성능 수준을 보였다. 전체적으로, 보다 많은 비중의성 개체들의 사용은 중의성 해소 성능을 점증적으로 향상시켰으며, 대량의 비중의성 개체들이 적용된 구간에 비해 소량의 비중의성 개체 적용 구간에서 더 큰 폭의 성능 향상을 가져왔다. 특히 Fig.
수치적으로 1%의 차이는 미미하게 해석될 수 있으나 이 결과는 다음 두 가지 측면에서 큰 의미를 갖는다. 첫째, MFS 베이스라인은 개체중의성해소와 밀접히 관련된 기존 WSD 연구에서조차 그 성능을 능가하는 기법의 고안이 쉽지 않을 만큼[22] 강력한 베이스라인이라는 점이다. 둘째, Table 2의 의미관련도 기반 기법들은 MFS 정보를 활용하지 않고 MFS의 성능을 능가하였다는 점이다.
전체적으로, 보다 많은 비중의성 개체들의 사용은 중의성 해소 성능을 점증적으로 향상시켰으며, 대량의 비중의성 개체들이 적용된 구간에 비해 소량의 비중의성 개체 적용 구간에서 더 큰 폭의 성능 향상을 가져왔다. 특히 Fig. 2의 결과로부터 NGDn 지표와 결합된 의미관련도 기반 방법들은 5개 미만의 비중 의성 개체만으로도 MFS 베이스라인의 성능 수준을 확보할 수 있음을 알 수 있다.
또한 NGD1, NGDn 혹은 PMI 의미관련도 지표와 결합된 집단적 중의성해소 기법은 공기 개체 집합의 중의성 정도에 무관하게 거의 일정한 중의성해소성능을 보여 의미관련도에 기반한 중의성해소의 적절한 방안으로 판단되었다. 특히 비중의성 공기 개체 들에 전적으로 의존하는 경우에도 NGDn 지표는 개별적/집단적 중의성해소방식에 무관하게 소량의 비중의성 개체만으로도 MFS 베이스라인의 성능 수준을 확보할 수 있음을 보였다.
질의응답
핵심어
질문
논문에서 추출한 답변
개체 링킹이란 무엇인가?
개체 링킹(entity linking)은 텍스트에 출현하는 개체 표현(entity mention)을 지식베이스(예: 위키피디아) 내의 해당 개체 항목에 대응시키는 작업이다[1]. 예를 들어 다음 예문 텍스트에 출현한 개체 표현 ‘시카고’는, 미국 일리노이 주에 위치한 도시 시카고를 의미하므로 개체 링킹을 위키피디아 지식베이스로 연결하는 경우, 웹 URL 개체 "http://ko.
개채 링킹에서 개체 표현의 중의성을 해소해야되는 이유는 무엇인가?
개체 링킹은 텍스트에 출현하는 개체 표현을 위키피디아 등의 지식베이스 항목으로 연결하는 작업이다. 동일한 개체 표현을 공유하는 서로 다른 개체들의 존재로 인해 개체 링킹에서는 개체 표현의 중의성을 해소할 필요가 있다. 개체 중의성 해소를 위한 최근 연구에서는 공기 개체 의미관련도를 중심으로 개체 출현 선험 확률와 공기 용어 정보 등을 결합하는 시도들이 주류를 형성하고 있다.
개체 표현의 의미기여도의 총합에 기반하여 의미를 결정하는 방식에서의 의미기여도는 어떻게 계산되는가?
Ferragina와 Scaiella는 중의성 개체를 포함한 전체 공기 개체를 사용하여, 목표 개체 표현의 각 후보 의미에 대해 공기하는 각 개체 표현의 의미기여도의 총합에 기반하여 의미를 결정하는 방식을 제안하였다. 이 때 의미기여도는 개체선험확률을 가중치로 사용한 의미관련도의 가중 평균으로 계산된다[4]. Ratinov 등은 개체선험확률, 지역문맥유사도, 개체쌍 의미관련도 자질의 중요도를 링크부착말뭉치로부터 학습한 분류기를 통해 개별적 개체중의성해소를 시도하였다[7].
참고문헌 (22)
X. Han, L. Sun, J. Zhao, "Collective entity linking in web text: a graph-based method," Proceeding of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval, 2011
O. Medelyan, I. H. Witten, D. Milne, "Topic indexing with Wikipedia," Proceedings of the Wikipedia and AI workshop at AAAI-08, 2008.
D. N. Milne, I. H. Witten, "Learning to link with Wikipedia," Proceedings of the 17th ACM Conference on Information and Knowledge Management, 2008.
P. Ferragina, U. Scaiella, "TAGME: on-the-fly annotation of short text fragments (by Wikipedia entities)," Proceedings of the 19th ACM Conference on Information and Knowledge Management, 2010.
S. Kulkarni, A. Singh, G. Ramakrishnan, S. Chakrabarti, "Collective annotation of Wikipedia entities in web text," Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2009.
J. Hoffart, M. A. Yosef, I. Bordino, H. Furstenau, M. Pinkal, M. Spaniol, B. Taneva, S. Thater, G. Weikum, "Robust disambiguation of named entities in text," Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, 2011.
L. Ratinov, D. Roth, D. Downey, M. Anderson, "Local and global algorithms for disambiguation to Wikipedia," Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, 2011.
R. Mihalcea, A. Csomai, "Wikify!: linking documents to encyclopedic knowledge," Proceedings of the 16th ACM Conference on Information and Knowledge Management, 2007.
D. Bollegala, Y. Matsuo, M. Ishizuka, "Measuring semantic similarity between words using web search engines," Proceedings of the 16th International Conference on World Wide Web, 2007.
A. Islam, E. E. Milios, V. Keselj, "Comparing word relatedness measures based on Google n-grams," Proceedings of COLING 2012: Posters, 2012.
C. Li, A. Sun, A. Datta, "A generalized method for word sense disambiguation based on Wikipedia," Proceedings of the 33rd European Conference on IR Research, 2011.
I. Kang, S. Kang, "A single-step machine learning approach to link detection in Wikipedia: NTCIR Crosslink-2 Experiments at KSLP," Proceedings of the 10th NTCIR Conference, 2013.
S. Kang, "English-Korean cross-lingual link discovery using link probability and named entity recognition", Journal of The Korean Institute of Intelligent Systems, vol. 23, no. 3, pp. 191-195, 2013.
S. Hassan, R. Mihalcea, "Semantic relatedness using salient semantic analysis," Proceedings of the 25th AAAI Conference on Artificial Intelligence, 2011.
R. Cilibrasi, P. M. B. Vitanyi, "The Google similarity distance", Available: http://arxiv.org/pdf/cs/0412098.pdf, 2004, [Accessed: October 29, 2014]
J. Gracia, R. Trillo, M. Espinoza, E. Mena, "Querying the web: a multiontology disambiguation method," Proceedings of the 6th International Conference on Web Engineering, 2006.
K. W. Church, P. Hanks, "Word association norms, mutual information, and lexicography," Computational Linguistics, vol. 16, no. 1, pp. 22-29, 1990.
P. Jaccard, "Nouvelles recherches sur la distribution florale," Bull. Soc. Vaud. Sci. Nat., vol. 44, pp. 223-270, 1908.
G. G. Simpson, "Notes on the measurement of faunal resemblance," American Journal of Science, vol. 258a, pp. 300-311, 1960.
L. R. Dice, "Measures of the amount of ecologic association between species," Ecology, vol. 26, pp. 297-302, 1945.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.