[논문]유저 모델과 실시간 뉴스 스트림을 사용한 트윗 개체 링킹

정소윤; 박영민; 강상우; 서정연

doi:10.19066/cogsci.2015.26.4.003

유저 모델과 실시간 뉴스 스트림을 사용한 트윗 개체 링킹
Entity Linking For Tweets Using User Model and Real-time News Stream 원문보기

인지과학 = Korean journal of cognitive science, v.26 no.4, 2015년, pp.435 - 452

정소윤 (서강대학교 컴퓨터공학과) , 박영민 (서강대학교 컴퓨터공학과) , 강상우 (서강대학교 컴퓨터공학과) , 서정연 (서강대학교 컴퓨터공학과)

초록
AI-Helper

최근 개체 링킹에 대한 연구들은 지식 베이스를 외부 자원으로 사용하여 실세계의 지식과 의미적인 관련도를 통해 중의성을 해소하는데 중점을 두고 있다. 지식 베이스를 사용한 개체 링킹은 신문기사나 블로그 포스트 등에서는 좋은 성능을 보이지만, 마이크로블로그에서는 짧은 텍스트 길이와 지식 베이스에 존재하지 않는 주제를 다루는 특성 때문에 비교적 낮은 성능을 보인다. 본 논문에서는 140자가 되지 않는 짧은 텍스트 내에서 실시간으로 빠르게 정보를 공유하는 특성을 가지는 마이크로블로그에서 나타나는 개체명의 중의성을 해소하는 방법을 제안한다. 제안하는 방법은 지식 베이스만 사용하는 개체 링킹의 한계를 극복하기 위해 마이크로블로그 사용자 기록과 뉴스 기사를 이용하고, 지식 베이스에 존재하는 특정 엔트리로 개체 링킹을 수행한다. 본 논문에서는 개체명을 포함하는 한국어 트윗을 추출하여 데이터를 구축하였다. 성능 평가는 정확도 지표(시스템이 정답으로 판정한 데이터 개수/전체 데이터 개수)를 사용하였으며, 제안하는 시스템은 구축한 데이터에서 기존 지식 베이스만 사용한 개체 링킹 시스템보다 높은 67.7%의 정확도를 나타내었다.

Abstract ▼ AI-Helper

Recent researches on Entity Linking(EL) have attempted to disambiguate entities by using a knowledge base to handle the semantic relatedness and up-to-date information. However, EL for tweets using a knowledge base is still unsatisfactory, mainly because the tweet data are mostly composed of short and noisy contexts and real-time issues. The EL system the present work builds up links ambiguous entities to the corresponding entries in a given knowledge base via exploring the news articles and the user history. Using news articles, the system can overcome the problem of Wikipedia coverage (i.e., not handling real-time issues). In addition, given that users usually post tweets related to their particular interests, the current system referring to the user history robustly and effectively works with a small size of tweet data. In this paper, we propose an approach to building an EL system that links ambiguous entities to the corresponding entries in a given knowledge base through the news articles and the user history. We created a dataset of Korean tweets including ambiguous entities randomly selected from the extracted tweets over a seven-day period and evaluated the system using this dataset. We use accuracy index(number of correct answer given by system/number of data set) The experimental results show that our system achieves a accuracy of 67.7% and outperforms the EL methods that exclusively use a knowledge base.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 3가지 스코어링 모델인 문맥 모델, 유저 모델 그리고 이슈 모델을 통합하는 링킹 모델로 이루어진 개체 링킹 시스템을 제안하였다. Charton, E.
, 2014). 본 논문에서는 실시간으로 일어나는 사건들에 대한 소통이 많이 이루어지는 트윗의 특성을 고려하여 기존 연구에서 사용되지 않았던 뉴스 기사를 외부 자원으로 사용함으로써 트윗 개체 링킹의 성능을향상시킨다.
본 논문에서는 지식 베이스 뿐 만 아니라, 이슈 모델링과 유저 모델링을 통해 트윗에서의 개체 링킹을 제안한다. 본 논문의 구성은 다음과 같다.

가설 설정

신문 기사 속 작은따옴표는 이름 표시 기능을 가지는데, 요컨대 이름 표시를 할 때는 신문사마다 약간의 차이가 있으나, 책 이름, 영화 이름, 음반 이름, 드라마 이름 등이 작은따옴표로 묶일 수 있다(이동혁, 2008). 그러므로 개체 생성 모듈은 뉴스 기사의 작은따옴표로 명시된 용어들을 의미 있는 개체명이라 가정하고, 모두 링크로 생성한다. 개체 생성 모듈은 링크 생성 규칙에 따라 각 기사 마다 링크를 생성하고, 표 1은 개체 생성규칙과 그림 5의 예제에서 개체가 생성된 예제를 보여준다.
유저 모델은 이러한 특성을 이해하여 사용자의 행동과 관심분야를 다루기 위해 사용자의 이전 트윗 기록을 모두 사용한다. 이 때, 사용자의 이전 트윗에서 나타나는 개체명들에 대해 사용자는 관심과 흥미를 가지고 있다고 가정한다.

제안 방법

KAURI는 사용자의 이전 모든 트윗에서 나타난 모든 개체명들을 사용자 토픽 모델링을 통해 그래프를 구축하여 중의성을 해소한다. 그래프의 노드 집합으로, 과거 사용자의 모든 트윗으로부터 모든 개체명에 대응하는 개체표현 노드들과 개체명의 모든 가능한 지식 베이스에 존재하는 후보 개체에 대응하는 개체 노드들을 생성하였다. 노드 간 엣지 가중치로는 개체표현 노드와 개체 노드 사이에 지역 문맥 유사도를 설정하고, 개체노드 간에 의미 관련도를 설정하였다.
그래프의 노드 집합으로, 과거 사용자의 모든 트윗으로부터 모든 개체명에 대응하는 개체표현 노드들과 개체명의 모든 가능한 지식 베이스에 존재하는 후보 개체에 대응하는 개체 노드들을 생성하였다. 노드 간 엣지 가중치로는 개체표현 노드와 개체 노드 사이에 지역 문맥 유사도를 설정하고, 개체노드 간에 의미 관련도를 설정하였다. 또 다른 연구에서 사용자의 이전 트윗의 분석을 통한 유저모델과 문맥 모델(contextual model)의 하이브리드 방식으로 개체명의 중의성을 해소하는 방법을 제안되었다(Bansal, R.
형태소분석기를 사용하였다. 또한 실험을 진행하기 전에 모든 트윗 데이터와 위키피디아 문서의 불필요한 데이터들을 삭제하는 전처리 작업을 실시하였다.
본 논문에서 실험 대상은 위키피디아 동명이인 문서 내에서 중의성을 갖는 사람 개체명이며 실험을 위하여 위키피디아 카테고리 정보를 이용하여 동명이인 개체명 사전을 구축하였다.
본 논문에서 제안하는 시스템은 트윗 사용자의 관심 분야와 실시간 사회적 이슈, 그리고 트윗 발언 내의 문맥적 정보를 고려하는 방법을 적용한다. 제안하는 시스템은 그림 2와 같이 세 가지 모델로 구성된다.
본 연구에서는 한국어 트윗에 대한 개체 링킹 방법을 개체명 인식 단계에서는 전통적인 n-gram 용어들 중 개체명 사전에 해당하는 것들만 추출하는 방식을 사용하였고, 개체 중의성 해소 단계에서 트윗의 특성에 맞는 3가지 모델들을 제안함으로써 트윗 개체명 중의성 해소에 초점을 맞추고 있다.
이슈모델에서 사용되는 뉴스기사는 중의성 개체명을 포함하는 트윗이 등록된 날짜를 기준으로 전 후 3일 동안의 분량을 수집하였고(k=3), α, β 그리고 Γ값은 실험 데이터에 의존적인 매개 변수로 실험적으로 결정하였다.
제안한 시스템은 위키피디아와 같은 지식베이스에서 다루지 않는 사소한 사건이나 실시간 사건들을 뉴스 기사를 외부 자원으로 사용하여 한계를 극복하고, 사용자 기록을 사용하여 사용자 관심 분야를 고려했다. 본 논문은 중의성 해소 단계에서 기존의 개체 링킹 방법보다 좋은 성능을 냈지만, 개체명 인식 단계에서 사용하는 방법은 전통적으로 사용되는 n-gram 용어들 중 개체명 사전에 해당하는 것들만 추출하는 방식을 사용하여 발생하는 오류가 중의성 해소 단계에 서도 적용되어 정확도에 영향을 미치는 현상을 가지고 있다.
(2006)의 연구는 처음으로 위키피디아 카테고리 정보를 가지고 의미 관련도를 이용한 유사도 측정법을 정의하였다. 중의성을 가지는 개체명 주변 용어들과 위키피디아 문서 내에 나타나는 용어들의 tf-idf cosine similarity를 이용하여 개체 의미 관련도를 제안하고, 위키피디아 카테고리 정보를 사용하여 성능을 개선했다. Cucerzan, S.
(2009)는 Pagerank 알고리즘을 통해 집단적 개체중의성해소를 시도하였다. 중의성을 가지는 개체명을 포함하는 문서 내 각 개체명에 노드들과 개체명의 모든 가능한 지식 베이스 내 개체명에 대응하는 개체 노드들을 생성하였고, 노드 간 edge 가중치로 개체명 노드와 지식베이스 내 개체명 노드 사이에 지역 문맥 유사도를 설정하고, 개체노드 간에 개체 쌍의 의미 관련도를 계산하였다. 또한 개체명이 지식 베이스 내 개체명과 동일하게 나타나지 않는 개체명 표현을 구축하여 개체명 인식 오류를 줄여 개체 중의성 해소의 성능을 높인 연구가 최근 발표되었다(Charton, E.
하지만 이슈 모델이 “드라마”, “영화”, “배우”라는 개체명을 추출함으로써 “조인성”이 “조인성 (배우)”로 링킹 될 수 있도록 하였다.

대상 데이터

수집된 트윗들 중 동명이인 개체명 사전에 존재하는 개체명이 포함된 트윗들을 선별하였다²⁾. 선별 방법으로는 신뢰성 검증을 위해 3명의 실험자가 동명이인 중 정답을 태깅할 수 있는 트윗을 대상으로 하였으며 총 248개의 한국어 트윗 데이터를 구축하였다. 수집된 248개의 트윗 데이터 내에 나타난 248명의 동명이인 개체명에는 총 33개 이름의 동명이인이 나타났고, 33개의 이름은 수집된 트윗 데이터에서는 평균 3.
실험 데이터 구축을 위하여 최근 트윗을 활발히 이용하는 300명의 트윗 사용자당 사용자 당 50~60개씩, 총 16367개의 트윗을 수집하였다. 수집된 트윗들 중 동명이인 개체명 사전에 존재하는 개체명이 포함된 트윗들을 선별하였다²⁾. 선별 방법으로는 신뢰성 검증을 위해 3명의 실험자가 동명이인 중 정답을 태깅할 수 있는 트윗을 대상으로 하였으며 총 248개의 한국어 트윗 데이터를 구축하였다.
실험 데이터 구축을 위하여 최근 트윗을 활발히 이용하는 300명의 트윗 사용자당 사용자 당 50~60개씩, 총 16367개의 트윗을 수집하였다. 수집된 트윗들 중 동명이인 개체명 사전에 존재하는 개체명이 포함된 트윗들을 선별하였다²⁾.
사용자 모델은 중의성을 해소하고자 하는 개체명을 포함한 트윗을 게시한 사용자의 모든 트윗 기록들을 수집하여 중의성을 해소한다. 이슈 모델은 위키피디아에서 다루지 않는 자질을 외부 자원인 뉴스 기사부터 추출한다. 링킹 모델은 세 모델의 스코어를 통합하여 가장 점수가 높은 개체 후보로 개체명을 링킹한다.

데이터처리

표 2에서는 본 논문에서 제안하는 시스템의 성능을 평가하기 위하여 정확도 지표(시스템이 정답으로 판정한 데이터 개수/전체 데이터 개수)를 사용하였으며 각 시스템이 추가 될 때마다 성능을 비교하여 보여준다. 지식 베이스만 사용한 문맥 모델을 베이스라인으로 하여 제안하는 모델들이 각각 추가 되었을 때, 성능이 현저히 증가하였고 최종 시스템 성능은 67.

이론/모형

전체 시스템을 위한 지식 베이스는 한국어 위키피디아를 사용하였고, 이슈 모델에서 뉴스기사와 위키피디아 문서의 형태소 분석을 위하여 “Jhannanum”3) 형태소분석기를 사용하였다.

성능/효과

(2014)의 연구에서 제안한 “mutual relation score” 방법을 한국어 트윗 데이터에서 비교 모델로 채택하였고, 트윗의 특성을 반영하는 유저 모델과 이슈 모델이 추가됨에 따라 성능이 향상되었음을 알 수 있다.
제안한 시스템은 위키피디아와 같은 지식베이스에서 다루지 않는 사소한 사건이나 실시간 사건들을 뉴스 기사를 외부 자원으로 사용하여 한계를 극복하고, 사용자 기록을 사용하여 사용자 관심 분야를 고려했다. 본 논문은 중의성 해소 단계에서 기존의 개체 링킹 방법보다 좋은 성능을 냈지만, 개체명 인식 단계에서 사용하는 방법은 전통적으로 사용되는 n-gram 용어들 중 개체명 사전에 해당하는 것들만 추출하는 방식을 사용하여 발생하는 오류가 중의성 해소 단계에 서도 적용되어 정확도에 영향을 미치는 현상을 가지고 있다.
선별 방법으로는 신뢰성 검증을 위해 3명의 실험자가 동명이인 중 정답을 태깅할 수 있는 트윗을 대상으로 하였으며 총 248개의 한국어 트윗 데이터를 구축하였다. 수집된 248개의 트윗 데이터 내에 나타난 248명의 동명이인 개체명에는 총 33개 이름의 동명이인이 나타났고, 33개의 이름은 수집된 트윗 데이터에서는 평균 3.45명의 동명이인이 관측되었고 위키피디아 문서 내에서는 평균적으로 4.75명의 동명이인이 관측되었다. 이슈모델에서 사용되는 뉴스기사는 중의성 개체명을 포함하는 트윗이 등록된 날짜를 기준으로 전 후 3일 동안의 분량을 수집하였고(k=3), α, β 그리고 Γ값은 실험 데이터에 의존적인 매개 변수로 실험적으로 결정하였다.
표 3에서는 이슈 모델의 뉴스 기사를 정답 위키피디아 페이지에 정확하게 링크하는지 측정한 결과는 보여준다. 수집된 836개 뉴스기사는 2명의 실험자가 교차검증을 통하여 직접 뉴스기사 제목에 나타난 중의성을 가지는 개체명을 태깅하여 실험하고 정확도를 측정한 결과 70.2%의 정확도를 보였다.
7%을 보였다. 실험 데이터에서 중의성을 가지는 개체명이 평균적으로 4.75명의 동명이인을 나타내는 점을 고려하면 높은 정확도를 보였다.
, 2014). 유저 모델링을 통한 개체 링킹은단순 지식 베이스만 사용한 성능보다 트윗 개체 링킹에서 더 좋은 성능을 나타내었다.
표 2에서는 본 논문에서 제안하는 시스템의 성능을 평가하기 위하여 정확도 지표(시스템이 정답으로 판정한 데이터 개수/전체 데이터 개수)를 사용하였으며 각 시스템이 추가 될 때마다 성능을 비교하여 보여준다. 지식 베이스만 사용한 문맥 모델을 베이스라인으로 하여 제안하는 모델들이 각각 추가 되었을 때, 성능이 현저히 증가하였고 최종 시스템 성능은 67.7%을 보였다. 실험 데이터에서 중의성을 가지는 개체명이 평균적으로 4.

후속연구

이슈 모델에서는 뉴스 기사에서 개체를 뽑는 과정에서의 좀 더 일반적인 규칙과 방법이 필요하며, 뉴스 기사와 위키피디아 문서를 연결하는 방법에 대한 연구가 필요하다. 또한 한국어 이외에 영어 데이터에서도 제안한 방법을 적용할 계획이다.
향후 과제로는 유저 모델에서 트윗의 해시태그와 같은 자질의 추가에 대해 고려할 것이다. 또한 현재 연구에서는 개체명 인식 시에 좌최장일치법을 사용하고 어절 uni-gram과 bi-gram을 자질로 사용하여 인식하는데, 확률 모델의 사용 등의 추가적인 실험을 통해 성능 향상을 기대 할 수 있다. 이슈 모델에서는 뉴스 기사에서 개체를 뽑는 과정에서의 좀 더 일반적인 규칙과 방법이 필요하며, 뉴스 기사와 위키피디아 문서를 연결하는 방법에 대한 연구가 필요하다.
향후 과제로는 유저 모델에서 트윗의 해시태그와 같은 자질의 추가에 대해 고려할 것이다. 또한 현재 연구에서는 개체명 인식 시에 좌최장일치법을 사용하고 어절 uni-gram과 bi-gram을 자질로 사용하여 인식하는데, 확률 모델의 사용 등의 추가적인 실험을 통해 성능 향상을 기대 할 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	개체 링킹은 어떠한 작업인가?	정보 추출의 한 분야인 개체명 인식과, 인식된 개체명을 특정 개체에 링킹하는 연구들은 방대한 정보 속에서 의미 있는 지식을 추출하기 위해 활발히 시도되고 있다. 개체 링킹(EntityLinking)은 텍스트에 출현한 개체명을 위키피디아와 같은 지식 베이스의 특정 엔트리1)에 대응시키는 작업이다.
	트윗의 특성은 무엇인가?	예를 들면 대표적인 마이크로블로그 서비스 중 트윗에서의 연구가 활발하다. 트윗은 사용자들이 실시간으로 140자 이내의 트윗이라는 글을 쓰는 행위를 통해 의사소통하는 공간이며 트윗은 개인의 관심 분야나 일상생활, 사회적 이슈 등의 주제에 대해 실시간으로 빠르게 전파되는 특성을 지닌다(Java, A. et al.
	짧고 비정형적인 텍스트 내에서의 개체 링킹에 대한 연구 중 해외의 대표적인 예는 무엇인가?	최근에는 신문 기사와 같은 정형화된 텍스트 내에서의 개체 링킹 뿐 만 아니라,짧고 비정형적인 텍스트 내에서의 개체 링킹에 대한 연구가 해외에서 활발히 진행되고 있다. 예를 들면 대표적인 마이크로블로그 서비스 중 트윗에서의 연구가 활발하다. 트윗은 사용자들이 실시간으로 140자 이내의 트윗이라는 글을 쓰는 행위를 통해 의사소통하는 공간이며 트윗은 개인의 관심 분야나 일상생활, 사회적 이슈 등의 주제에 대해 실시간으로 빠르게 전파되는 특성을 지닌다(Java, A.

참고문헌 (14)

김영식, 함영균, 김지성, 황도삼, 최기선 (2014). 한국어 텍스트의 개체 URI 탐지: 품사 태깅 독립적 개체명 인식과 중의성 해소, 제26회 한글 및 한국어 정보처리 학술대회 논문집, 100-106.
이동혁 (2008). 신문기사 속 작은따옴표의 기능. 우리말연구, (23), 139-162.
Bansal, R., Panem, S., Gupta, M. & Varma, V. (2014). EDIUM: Improving Entity Disambiguation via User Modeling. Journal of Advances in Information Retrieval, 8416, 418-423.

상세보기
Bunescu, R. C. & Pasca, M. (2006). Using Encyclopedic Knowledge for Named entity Disambiguation. Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics, 6, 9-16.
Charton, E., Meurs, M. J., Jean-Louis, L. & Gagnon, M. (2014). Mutual Disambiguation for Entity Linking. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, 476-481.
Cucerzan, S. (2007). Large-Scale Named Entity Disambiguation Based on Wikipedia Data. Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 7, 708-716.
Derczynski, L., Maynard, D., Rizzo, G., van Erp, M., Gorrell, G., Troncy, R.,Bontcheva, K. (2015). Analysis of named entity recognition and linking for tweets. Journal of Information Processing and Management 51, 32-49

상세보기
Java, A., Song, X., Finin, T. & Tseng, B. (2007). Why We Twitter: Understanding Microblogging Usage and Communities. Proceedings of the 9th WebKDD and 1st SNA-KDD workshop on Web mining and social network analysis, 56-65.
Shen, W., Wang, J., Luo, P. & Wang, M. (2013). Linking Named Entities in Tweets with Knowledge Base via User Interest Modeling. Proceedings of the 19th SIGKDD international conference on Knowledge Discovery and Data mining, 68-76.
Kang, S., Kim, H., Kang, H. K. & Seo, J. (2014). Lightweight morphological analysis model for smart home applications based on natural language interfaces. International Journal of Distributed Sensor Networks, 2014, 1-9.
Liu, X., Zhang, S., Wei, F. & Zhou, M. (2011). Recognizing Named Entities in Tweets. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, 1, 359-369.
Han, X. & Zhao, J. (2009). Named Entity Disambiguation by Leveraging Wikipedia Semantic Knowledge. Proceedings of the 18th Conference on Information and Knowledge Management, 215-224.
Mihalcea, R. & Csomai, A. (2007). Wikify!: Linking Documents to Encyclopedic Knowledge. Proceedings of the 16th conference on Conference on Information and Knowledge Management, 233-242.
Milne, D. & Witten, I. H. (2008). Learning to Link with Wikipedia. Proceedings of the 18th Conference on Information and Knowledge Management, 215-224.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증