본 논문에서는 다국어 뉴스에 대해서 '시간' 요소와 '언어 공간' 요소를 사건 어휘의 가중치 계산에 반영하는 다국어 사건 연결 탐색하는 방법을 제안한다. 시간의 흐름과 다국어 공간상에서 어휘의 분포 특성을 어휘의 가중치로 반영하여 사건 중심 어휘에 변별력을 줌으로써 같은 사건을 다루는 문서를 탐색하도록 한다. 시간상에서 어휘가중치는 전체 시간의 모든 문서집합에서의 어휘 분포와 특정 시간의 문서집합에서의 어휘 분포를 비교함으로써 계산하고, 그 특정 시간의 어휘의 가중치로 표현한다. 두 개의 언어는 하나의 언어에서보다 더 많은 정보를 줄 수 있기 때문에, 각 언어공간에서 어휘의 중요도를 측정하고, 다국어 처리에서 다른 언어 공간에서의 정보를 참조함으로써 언어 공간에서의 참조 역할을 하도록 한다. 본 논문의 실험에서는 같은 기간의 한국어와 일본어 신문기사에 대해서 사건 연결 탐색 성능을 평가하였다. 일반적인 가중치 기법인 tfidf 가중치 기법과의 비교 평가에서, 제안 방법이 단일언어 문서쌍에 대한 사건 연결 탐색은 $14.3{\%}$, 다국어 문서쌍에 대한 사건 연결 탐색에서는 $16.7{\%}$의 성능 향상을 보였다. 제안한 가중치 요소에 대한 유효성을 검증하기 위해, 공간 밀집도를 측정하였는데, 같은 사건을 나타내는 문서들의 그룹에서는 높은 밀집도를 나타냈고, 서로 다른 사건을 나타내는 문서들의 그룹에서는 낮은 밀집도를 나타냈다. 이 결과를 통해서 시간과 공간 요소를 반영한 사건 어휘 가중치 방법이 단일언어 사건 연결 탐색뿐만 아니라 다국어 사건 연결 탐색에 효과적이라고 볼 수 있다.
본 논문에서는 다국어 뉴스에 대해서 '시간' 요소와 '언어 공간' 요소를 사건 어휘의 가중치 계산에 반영하는 다국어 사건 연결 탐색하는 방법을 제안한다. 시간의 흐름과 다국어 공간상에서 어휘의 분포 특성을 어휘의 가중치로 반영하여 사건 중심 어휘에 변별력을 줌으로써 같은 사건을 다루는 문서를 탐색하도록 한다. 시간상에서 어휘가중치는 전체 시간의 모든 문서집합에서의 어휘 분포와 특정 시간의 문서집합에서의 어휘 분포를 비교함으로써 계산하고, 그 특정 시간의 어휘의 가중치로 표현한다. 두 개의 언어는 하나의 언어에서보다 더 많은 정보를 줄 수 있기 때문에, 각 언어공간에서 어휘의 중요도를 측정하고, 다국어 처리에서 다른 언어 공간에서의 정보를 참조함으로써 언어 공간에서의 참조 역할을 하도록 한다. 본 논문의 실험에서는 같은 기간의 한국어와 일본어 신문기사에 대해서 사건 연결 탐색 성능을 평가하였다. 일반적인 가중치 기법인 tfidf 가중치 기법과의 비교 평가에서, 제안 방법이 단일언어 문서쌍에 대한 사건 연결 탐색은 $14.3{\%}$, 다국어 문서쌍에 대한 사건 연결 탐색에서는 $16.7{\%}$의 성능 향상을 보였다. 제안한 가중치 요소에 대한 유효성을 검증하기 위해, 공간 밀집도를 측정하였는데, 같은 사건을 나타내는 문서들의 그룹에서는 높은 밀집도를 나타냈고, 서로 다른 사건을 나타내는 문서들의 그룹에서는 낮은 밀집도를 나타냈다. 이 결과를 통해서 시간과 공간 요소를 반영한 사건 어휘 가중치 방법이 단일언어 사건 연결 탐색뿐만 아니라 다국어 사건 연결 탐색에 효과적이라고 볼 수 있다.
In this paper, we propose a novel approach which models multilingual story link detection by adapting the features such as timelines and multilingual spaces as weighting components to give distinctive weights to terms related to events. On timelines term significance is calculated by comparing term ...
In this paper, we propose a novel approach which models multilingual story link detection by adapting the features such as timelines and multilingual spaces as weighting components to give distinctive weights to terms related to events. On timelines term significance is calculated by comparing term distribution of the documents on that day with that on the total document collection reported, and used to represent the document vectors on that day. Since two languages can provide more information than one language, term significance is measured on each language space and used to refer the other language space as a bridge on multilingual spaces. Evaluating the method on Korean and Japanese news articles, our method achieved $14.3{\%}\;and\;16.7{\%}$ improvement for mono- and multi-lingual story pairs, and for multilingual story pairs, respectively. By measuring the space density, the proposed weighting components are verified with a high density of the intra-event stories and a low density of the inter-events stories. This result indicates that the proposed method is helpful for multilingual story link detection.
In this paper, we propose a novel approach which models multilingual story link detection by adapting the features such as timelines and multilingual spaces as weighting components to give distinctive weights to terms related to events. On timelines term significance is calculated by comparing term distribution of the documents on that day with that on the total document collection reported, and used to represent the document vectors on that day. Since two languages can provide more information than one language, term significance is measured on each language space and used to refer the other language space as a bridge on multilingual spaces. Evaluating the method on Korean and Japanese news articles, our method achieved $14.3{\%}\;and\;16.7{\%}$ improvement for mono- and multi-lingual story pairs, and for multilingual story pairs, respectively. By measuring the space density, the proposed weighting components are verified with a high density of the intra-event stories and a low density of the inter-events stories. This result indicates that the proposed method is helpful for multilingual story link detection.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
각 문서는 어휘들의 공기 관계를 반영하기 위해서, 어휘들의 노드들과 어휘들 사이의 공기 관계를 나타내는 간선으로 하는 공기 관계 정보를 표현하였다. 공기 관계에서 높은 가중치를 갖는 어휘와 높은 빈도로 같이 발생하는 어휘들은 서로에게 영향을 주도록 하여, 문서가 다루는 사건을 기술하는 사건 어휘들에 변별력을 높여주기 위한 것이다.
각 문서는 어휘들의 공기 관계를 반영하기 위해서, 어휘들의 노드들과 어휘들 사이의 공기 관계를 나타내는 간선으로 하는 공기 관계 정보를 표현하였다. 공기 관계에서 높은 가중치를 갖는 어휘와 높은 빈도로 같이 발생하는 어휘들은 서로에게 영향을 주도록 하여, 문서가 다루는 사건을 기술하는 사건 어휘들에 변별력을 높여주기 위한 것이다. 각 노드는 사건 어휘의 시간과 다국어 공간에서의 특성에 기반하여 다음과 같이 계산한다.
본 논문에서는 다국어 뉴스 기사에 대해서 시간 및 다국어 공간에서의 어휘 분포 특성을 이용하여 가중치를 적용한 방법이 한국어와 일본어 뉴스 기사에 대한 다국어 사건 연결 탐색에서 효과적임을 보았다. 이러한 결과는 뉴스 기사 에서 사건을 나타내는 어휘의 빈도 분포가 사건의 발생과 전개 등 시간의 흐름에 따라 크게 변화하고 있고, 다국어 공간에서도 사건에 대한 그 나라의 관심 정도에 따라 차이가 있다고 볼 수 있겠다.
본 논문에서는 다국어 사건 연결 탐색을 위해서 뉴스 기사에 나타나는 어휘를 사건의 관점에서 중요도를 측정하기 위해 시간 요소와 다국어 공간요소를 어휘의 가중치 측정 요소로 반영하는 방법을 제안한다. 시간 및 다국어 공간에서 어휘 분포에 따라 사건을 나타내는 어휘들의 가 중치에 변별력을 줌으로써, 두 문서가 같은 사건을 다루는지 관련도 측정 시 영향을 미칠 수 있도록 한다.
본 논문에서는 사건을 기술하는 어휘들에 대해 변별적인 가중치를 부여하기 위해서 시간과 다국어 공간에서의 어휘 분포를 가중치 계산의한 요소로서 이용하였다.
본 논문에서는 한국어와 일본어 뉴스 기사에 대해서 다룬다. 다국어 문서에 대해서 같은 사건을 다루는지를 탐색하기 위해서는 같은 언어 공간으로 변환을 해야 한다.
본 연구의 실험에서는 한국어와 일본어 뉴스 기사로 구성된 다국어 사건 연결 탐색 실험 집합에 대해서 평가하였다.
가설 설정
. 사건 어휘의 다국어 공간에서의 분포 비교 : 어떠한 사건에 대해 신문이나 방송에서 보도되는 양의 정도는 사건의 중요도로 볼 수 있는데, 이는 각 나라마다 그 나라에 중요하거나 관심 있는 사건인가에 따라 다를 것이다. 따라서 다른 언어 공간에서의 어휘의 분포를 참조함으로써 다국어에 대해서 같은 사건을 다루는지 탐색에 도움이 될 수 있다.
제안 방법
본 연구에서 제안한 가중치 기법이 한국어, 일본어, 다국어 문서에서의 모든 밀도 측정에서 tfidf 가중치기법 보다 낮은 값을 갖고, 클러스터들 사이의 거리는 각 클러스터 내부의 문서들 사이의 거리보다 더 큰 값을 갖는다.[표 8]에 나타난 것과 같이, 제안 가중치 기법은 사건 클러스터내부의 밀도를 최대화 시키고, 사건 클러스터 사이의 밀도를 최소화시킴으로써 공간밀도를 줄였다. 따라서 제안된 가중치 기법에 의한[표 6]과[표 7]에서의 성능 향상은 문서 공간에서 감소된 밀도와 연관이 있음을 보여준다고 할 수 었다.
각 뉴스 기사 문서를 표현하기 위해 문서에 나타나는 어 휘들에 대해서 품사 태깅을 거쳐서 명사, 고유명사, 형용사와 동사를 선택하였다. 또한, 사건을 구성하는 주요 개체를 인식하기 위해[사람], [조직], [나라], [지역], [시간]을 나타내는 개체를 인식하여 표현한다.
각 문서의 어휘들은 일본어 품사 태거 시스템인 차센 (ChaSen)[12] 을 이용하여 추출하였다. 한국어 문서 공간에서 나타난 어휘는 193, 730개이고, 일본어 문서 공간에서 나타난 어휘는 353210개였다.
각 사건을 다루고 있는 뉴스 기사에 대한 정답 평가는 한 국어와 일본어 각 언어에 대해 각 두 명의 평가자가 평가를 하였다. 13개의 사건에 대해 5, 902개의 문서를 평가하였는데, 이는 사람이 다양한 키워드를 넣어 정보검색을 여러 번 수행하여 사건과 관련이 높은 기사들을 추출한 것이다.
[표 6]은 단일언어 사건 연결 탐색의 실험결과를 보여준다. 각 언어에 대해서 적용했을 때의 차이가 있는지를 비교하기 위해서, 한국어 뉴스 기사와 일본어 뉴스 기사를 분리해서 같은 사건을 탐색하는 성능을 분석했다. 또한 한국어와 일본어 뉴스 기사를 모두 포함한 전체 뉴스 기사에 대한 한국어-한국어 문서 쌍의 사건 연결 탐색, 한국어-일본어 사건 연결 탐색, 일본어-일본어 사건 연결 탐색 성능을 살펴보았다.
다국어 사건 연결 탐색을 하기 위해서, 기계 번역기를 이용하여 다국어 언어 공간을 하나의 공간으로 변환하였다. 언어1에서 언어 2 또는 그 반대로, 언어변환을 통해서 하나의 언어로 표현된 다국어 공간으로 표현하고, 각 어휘는 사건 어휘 특성에 기반해서 가중치를 계산한다.
두 개 이상의 언어 공간은 하나의 언어 공간에서보다 더 많은 정보를 제공할 수 있기 때문에, 본 논문에서는 다국어 언어 공간을 합쳐서 어휘의 분포를 계산하지 않고, 서로 다른 언어공간에서 어휘의 분포를 각각 측정하여 중요도로 계산(sTimeG&Q〃丿, wTime(t, tO, l2), wTime(t, tO, 13), ...) 하고, 같은 시간대에서의 다른 언어 공간에서의 가장 높은 값을 반영한다.
각 언어에 대해서 적용했을 때의 차이가 있는지를 비교하기 위해서, 한국어 뉴스 기사와 일본어 뉴스 기사를 분리해서 같은 사건을 탐색하는 성능을 분석했다. 또한 한국어와 일본어 뉴스 기사를 모두 포함한 전체 뉴스 기사에 대한 한국어-한국어 문서 쌍의 사건 연결 탐색, 한국어-일본어 사건 연결 탐색, 일본어-일본어 사건 연결 탐색 성능을 살펴보았다. 사건 연결 탐색에서 유사도에 대한 임계치를 0.
여기서 '사건 어휘'는 뉴스 기사에서 다루는 사건의 핵심 역할을 하는 주요 어휘를 지칭한다. 또한, 사건은 두 개 이상의 어휘로 표현되므로(예를 들어, '김일성 사망', '고베지진', '김선일 씨 피살' 등), 각 문서에서 자주 같이 발생하는 이웃 어휘들의 공기 빈도수(co-occurrence frequency)를 반영하여 가중치에 서로 영향을 주도록 하였다. 어휘 가중 치로 표현된 문서 벡터들에 대해서 유사도 측정을 해서 같은 사건을 다루는지를 결정하였다.
카이제곱은 두 사건의 독립성 여부를 판단하는 통계적 방식 [16] 으로, 문서 범주화에서 각 범주를 대표하는 중요한 어휘(자질)를 추출하는데 많이 이용하고 있다[15]. 문서범주 화에서의 범주는 문서의 '주제'로 구분이 되는데 비해, 본 논문에서의 범주는 뉴스가 쓰여진 날짜에 해당하는 '시간' 범주로 보고, 어휘 t와 시간 범주 坦의 독립 정도를 측정하였다. 두 사건이 독립적이라면 그 어휘는 시간상에서 중요한 영향을 미치지 않는다고 판단한다.
각 문서는 어휘들의 공기 관계를 측정하여 자주 같이 나타나는 어휘들의 가중치에 상호 영향을 주도록 하였다. 사건 어휘와 어휘들의 관계를 이용하여 가중치를 부여한 문서들에 대해서 두 문서의 관련도를 측정하여 같은 사건을 다루는지를 결정하였다.
각 문서는 수식(免에서 계산된 어휘의 가중치 벡터로 표현을 한다. 사건 연결 탐색에서 두 문서가 같은 사건을 다루는지를 측정하기 위해서 두 문서 벡터에 대한 코사인계수 를 계산한다. 유사도에 대한 임계치에 따라 같은 사건 또는 다른 사건을 다룬다고 판단을 한다.
시간 및 다국어 공간에서 어휘의 분포 특성을 이용하여 어휘의 가중치를 부여한 것의 사건 탐색 성능을 비교 평가하기 위해 일반적으로 어휘의 가중치 계산에 많이 이용되고 있는 어휘 빈도수(小와 역문서 빈도수(i負에 의한 가중치 계산의 성능과 비교 평가를 하였다.
시간 및 다국어 공간에서 어휘의 분포를 이용하여 가중치를 계산하여 사건 연결 탐색 방법이 유효한지를 보기 위해, 한국어 뉴스 기사와 일본어 뉴스 기사로 구성된 다국어 테스트 컬렉션을 이용하여 평가를 하였다.
시스템의 성능 평가는 정확률, 재현률, 누락률, 오류률, 마이크로 평균 Fl (micro-average Fl) 으로 측정하였다.
또한, 사건은 두 개 이상의 어휘로 표현되므로(예를 들어, '김일성 사망', '고베지진', '김선일 씨 피살' 등), 각 문서에서 자주 같이 발생하는 이웃 어휘들의 공기 빈도수(co-occurrence frequency)를 반영하여 가중치에 서로 영향을 주도록 하였다. 어휘 가중 치로 표현된 문서 벡터들에 대해서 유사도 측정을 해서 같은 사건을 다루는지를 결정하였다. 본 연구는 다음과 같은 관찰/가정에 기반해서 다국어 사건 연결 탐색에 접근하고 있다.
어휘의 표현 단위는 명사의 나열이나 구 단위로 표현되어 자주 나타나는 것을 사건 표현의한 단위로 다루기 위해, 문장에 나타난 모든 어휘들의 가능한 조합(n-gram)으로 추출하였다. 예를 들어, “북한 김일성 주석 사망'의 문장에 대해서 가능한 어휘 표현은 다음과 같다 : '북한', '김일 성', '주석', '사망', '북한-김일성', '김일성_주석', '주석_사망', '북한-김일성_주석-사망', '김일성_주석-사망', '북한_김일성- 주석' 등이.
연구[2]는 TDT2002 평가대회에서 사건 연결 탐색을 위해서 두 뉴스 기사가 같은 사건을 다루는지의 유사도 측정을 하는데 있어서, 20여 가지의 유사도 측정기법을 적용하여 계산하고, 그 유사도 값들을 조합하여 사건 연결 탐색을 수행하였다. 연구(3)은 뉴스 기사를 표현하기 위해 명사, 동사, 형용사, 복합명사 등을 추출하였고, 문서의 길이에 따른 유사도 값의 차이를 줄이기 위해서, 문서 길이를 확장하는 방법을 이용하였다. 단일언어나 다국어에서 사건 연결 탐색을 위해서는 임계치에 차이를 둔 정도이다.
사건 탐색 및 추적연구에서 대부분의 접근 방법은 기존의 문서 내용 중심적 문제인 문서클러스터링 (document clustering)과 문서 범주화 (text categorization)0)] 대한 접근 방법과 별로 다르지 않다. 연구[2]는 TDT2002 평가대회에서 사건 연결 탐색을 위해서 두 뉴스 기사가 같은 사건을 다루는지의 유사도 측정을 하는데 있어서, 20여 가지의 유사도 측정기법을 적용하여 계산하고, 그 유사도 값들을 조합하여 사건 연결 탐색을 수행하였다. 연구(3)은 뉴스 기사를 표현하기 위해 명사, 동사, 형용사, 복합명사 등을 추출하였고, 문서의 길이에 따른 유사도 값의 차이를 줄이기 위해서, 문서 길이를 확장하는 방법을 이용하였다.
제안한 방법의 가중치 계산의 성능 결과를 검증하기 위해, 문서 공간밀도(document space density)를 측정하였다. 색인 성능과 문서 공간밀도 사이의 상호관계 분석에서, 연구 [14] 는 클러스터 된 공간에서 각 클러스터 내부적(intra-cluster)으로 는 밀집되어 있고, 클러스터들 사이의 거리(inter-cluster)는 먼 형태로 표현되어 있을 때 가장 좋은 검색 성능을 갖는 것을 보였다.
추출된 어휘에 대해서, 시간상에서 '어느 한 시점'에서의 어휘 분포와 '어느 연속적인 시간'에서의 어휘 분포를 상대적으로 비교함으로써 한 시점에서의 중요하게 다뤄지는 사건의 어휘를 파악한다. 이때, '어느 한 시점'을 그날 하루의 뉴스 기사들로 하고, '어느 연속적인 시간'을 예전부터 '그날까지'의 모든 뉴스 기사들로 하여, 어휘의 중요도는 카 이 제곱(的으로 계산한다.
다국어 문서에 대해서 같은 사건을 다루는지를 탐색하기 위해서는 같은 언어 공간으로 변환을 해야 한다. 한국어와 일본어 뉴스 기사의 언어 공간을 하나로 하기 위해, 한국어-일본어 문서 번역기[1기를 이용하여 한국어를 일본어로 변환하였다.
대상 데이터
평가를 위한 기준은 LDC (Linguistic Data Consortium)에서 TDT2 테스트컬렉션을 구축하기 위해 정의한 것을 따랐다. 다국어 사건 연결 탐색을 위해서 관련이 있는 사건의 쌍1, 731, 419개와 관련이 없는 사건의 쌍5, 224, 891개에 대해서 평가를 하였다.
1998년 1월의 사건 탐색을 위해서는 그 이전의 뉴스가 필요하다. 따라서 1994년 7월에서 1995년 6월까지 보도된 뉴스를 통계 정보를 위해 이용하였다.
문서 집합은 한국어와 일본어 신문 기사로 구성되어 있는데, 한국어는 인터넷에 보도된 뉴스 기사를 수집한 것이고, 일본어는 마이니치 신문 기사이다. 문서의 날짜는 1998년 1월에서 1998년 6월까지 보도된 것으로, 문서의 개수는 한국어는 40, 000개, 일본어는 61, 637개이다.
문서 집합은 한국어와 일본어 신문 기사로 구성되어 있는데, 한국어는 인터넷에 보도된 뉴스 기사를 수집한 것이고, 일본어는 마이니치 신문 기사이다. 문서의 날짜는 1998년 1월에서 1998년 6월까지 보도된 것으로, 문서의 개수는 한국어는 40, 000개, 일본어는 61, 637개이다. 1998년 1월의 사건 탐색을 위해서는 그 이전의 뉴스가 필요하다.
본 실험의 사건 탐색에서 다룬 사건은[표 4]에 나타난 13개로 구성되어 있는데, 이는 TDT2 테스트 컬렉션에 포함된 사건의 일부이다. 같은 시기에 한국어, 일본어, 영어로 보도된 뉴스 기사에 대한 다국어 사건 탐색을 위해 이를 이용한 것인더】, 현재 본 논문에서는 한국어와 일본어에 대해서만 실험을 한 것이다.
데이터처리
. 사건 클러스터 사이의 밀도(Inter-event density : Den~ siylnterO : 클러스터 중심들의 쌍(G와 G)에 대해서 유사도를 계산해서 평균한다. 공간밀도 비율 계산에서 요소 y로 한다.
이론/모형
매일 보도되는 뉴스 기사에 대한 사건 탐색이기 때문에, 그날 뉴스 기사가 추가될 때마다, 가중치 계산에서 사용되는 문서 빈도수는 점진적으로 계산하는 점진적 문서 빈도수 (incremental document frequency)를 적용하였다. 개체 인식을 위해서는 일본어 품사태거인 차센 시스템의 결과를 이용하는 개체인식 시스템인 NExT[13]을 이용하였다.
각 클러스터의 중심벡터와 전체문서 집합의 중심벡터를 문서공간밀도를 다음과 같이 측정한다. 공간밀도 계산에서 유사도 계산을 하는데 코사인 계수 측정을 이용하였다.
매일 보도되는 뉴스 기사에 대한 사건 탐색이기 때문에, 그날 뉴스 기사가 추가될 때마다, 가중치 계산에서 사용되는 문서 빈도수는 점진적으로 계산하는 점진적 문서 빈도수 (incremental document frequency)를 적용하였다. 개체 인식을 위해서는 일본어 품사태거인 차센 시스템의 결과를 이용하는 개체인식 시스템인 NExT[13]을 이용하였다.
그중에서 3, 875개가 사건을 다루는 기사로 평가되었다. 평가를 위한 기준은 LDC (Linguistic Data Consortium)에서 TDT2 테스트컬렉션을 구축하기 위해 정의한 것을 따랐다. 다국어 사건 연결 탐색을 위해서 관련이 있는 사건의 쌍1, 731, 419개와 관련이 없는 사건의 쌍5, 224, 891개에 대해서 평가를 하였다.
성능/효과
35까지 변화시켜서 가장 좋은 성능을 보일 때의 결과이다. 본 논문에서 제안한 시간 및 다국어 공간에서 사건 어휘 분포를 고려한 가중치 기법(eegt)。] 일반적 가중 치 계산기법(血女)에 비해 마이크로평균 F1에서 14.3% 성능 향상을 보였다.
[표 7]은 다국어 공간에서의 어휘 분포 비교를 적용한 것이 다국어 사건 탐색에서 유용했는지를 보기 위한 것으로, 한국어-일본어 뉴스 기사 쌍에 대해서 같은 사건을 다루는지를 탐색하는 실험을 하였다. 다국어 공간을 고려한 것 (수식 (3) 을 적용이 마이크로 평균 F1에서 0.766을 나타냈고, 다국어 공간을 고려하지 않은 것 (수식 (3) 을 적용하지 않음)이 0.6719를 나타내서, 다국어 요소를 적용함으로써 14.1% 성능 향상을 보이고 있다. 이러한 결과를 통해서 다국어 공간에서 어휘 분포의 차이를 나타내는 정보를 참조하여 반영하는 것은 효과적이다고 할 수 있다.
[표 8]에 나타난 것과 같이, 제안 가중치 기법은 사건 클러스터내부의 밀도를 최대화 시키고, 사건 클러스터 사이의 밀도를 최소화시킴으로써 공간밀도를 줄였다. 따라서 제안된 가중치 기법에 의한[표 6]과[표 7]에서의 성능 향상은 문서 공간에서 감소된 밀도와 연관이 있음을 보여준다고 할 수 었다.
본 연구에서 제안한 가중치 기법이 한국어, 일본어, 다국어 문서에서의 모든 밀도 측정에서 tfidf 가중치기법 보다 낮은 값을 갖고, 클러스터들 사이의 거리는 각 클러스터 내부의 문서들 사이의 거리보다 더 큰 값을 갖는다.[표 8]에 나타난 것과 같이, 제안 가중치 기법은 사건 클러스터내부의 밀도를 최대화 시키고, 사건 클러스터 사이의 밀도를 최소화시킴으로써 공간밀도를 줄였다.
실험결과를 통해서, 같은 사건을 다루는 뉴스 기사를 탐색하기 위해서, 사건 뉴스 기사에 나타나는 어휘의 시간 및 다국어 공간에서의 분포 특성을 이용하여 가중치를 계산하여 사건과 관련된 어휘의 가중치에 변별력을 줌으로써 사건 탐색에서의 관련도 계산에 영향을 주도록 한 것이 효과적임을 볼 수 있다.
1% 성능 향상을 보이고 있다. 이러한 결과를 통해서 다국어 공간에서 어휘 분포의 차이를 나타내는 정보를 참조하여 반영하는 것은 효과적이다고 할 수 있다.
(그림 4)는 사건 연결 탐색의 결정에서 임계치에 따른 성능의 변화를 나타낸다. 전체 임계치에 대해서 제안한 방법이 tfidf 방법을 능가함을 볼 수 있다.
제안한 가중치 기법에 의한 문서 벡터에서는 일부 어휘의 가중치가 다른 어휘들에 비해서 뚜렷하게 높은 가중치를 갖고 대부분은 아주 작은 값을 갖는 것을 볼 수 있었다. 문서 벡터의 어휘들의 가중치에 변별력이 있기 때문에, 이들은 두 문서의 사건 연결 탐색에서 유사도 측정에서도 그 영향을 미치게 된다.
후속연구
본 논문에서는 단순히 tfidf 가중치기법과 제안방법 의 성능을 비교하였는데, 향후 연구로 은닉변수 모델 (latent variable mod이)과 은닉의 미 커 널(latent semantic kernel)과 같은 방식과의 비교 분석을 통해서 다국어 뉴스에서의 사건 어휘 추출에 대한 모델 개선이 필요하다.
이러한 현상은 같은 나라 안에서도 신문/방송사마다 같은 사건에 대한 보도 관점이 다른 경우에 나타난다. 앞으로 계속 연구가 필요한 부분으로, 여러 나라에서 보도된 다국어 뉴스 기사에서 탐색 된 어떤 사건에서, 그 문서들 관점을 서로 비교 평가할 수 있다면, 어떤 사건에 대한 국가/민족/문화의 시각의 차이에 대한 정보를 제공할 수 있어, 서로 다른 국가나 문화를 이해하는데 도움이 될 것이다.
참고문헌 (17)
Fiscus, J., Doddington, G., Garofolo, J. and Martin, A. 1999. NIST' s 1998 topic detection and tracking evaluation (TDT2). Proc. of DARPA Broadcast News Workshop
Carbonell, J., Yang, Y., Brown, R., Zhang, J. and Ma, N. 2002. New event & link detection at CMU for TDT 2002. Proc. of Topic Detection and Tracking (TDT-2002) Evaluations
Chen, Y and Chen, H. 2002. NLP and IR approaches to monolingual and multilingual link detection. Proc. of 19th International Conference on Computational Linguistics
Fukumoto, F. and Suzuki, Y. 2000. Event tracking based on domain dependency. Proc. of 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval
Swan, R. and Allan, J. 2000. Automatic generation of overview timelines. Proc. of 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR 2000)
Eichmann, D. 2002. Tracking & detection using entities and noun phrases. Proc. of Topic Detection and Tracking(TDT-2002) Workshop
Yang, Y., Zhang, J., Carbonell, J. and Jin, C. Topic-conditioned novelty detection. Proc. of the International Conference on Knowledge Discovery and Data Mining, Edmonton(KDD 2002)
Lam, W. and Huang, R. 2002. Link detection for multilingual new for the TDT2002 evaluation. Proc. of Topic Detection and Tracking(TDT-2002) Workshop
Levow, G- A. and Oard, DW. 2000. Translingual topic detection: applying lessons from the MEI project. Proc. of Topic Detection and Tracking(TDT-2000) Workshop
He, D., Park, H-R., Murray, G., Subotin, M. and Oard, DW. 2002. TDT-2002 topic tracking at Maryland: first experiments. Proc. of Topic Detection and Tracking (TDT-2002) Workshop
Leek, T., Jin, H., Sista, S. and Schwartz, R. 1999. The BBN crosslingual topic detection and tracking system. Proc. of Topic Detection and Tracking (TDT-1999) Workshop
Matsumoto, Y., Kitauchi, A., Yamashita, T., Hirano, Y., Matsuda, H., Takaoka, K. and Asahara, M. 2002. Morphological analysis system ChaSen version 2.2.9. Nara Institute of Science and Technology
Masui, F., Suzuki, N. and Hukumoto, J. 2002. Named entity extraction(NExT) for text processing development. Proc. of 8th time annual meeting of The Association for Natural Language Processing(In Japanese). http : //www.ai.info.mie-u.ac.jp/next/
Salton, G., Wong, A and Yang, C.S. 1975. A vector space model for automatic indexing. Communications of the ACM, 18(11)
Yang, Y., Pedersen J.P. 1997. A Comparative Study on Feature Selection in Text Categorization Proceedings of the Fourteenth International Conference on Machine Learning(ICML' 97)
Devore, J.L. 1995. Probability and Statistics for Engineering and the Sciences. Morgan Kaufmann Publishers, Inc., 4th edition
ChangshinSoft. 2001. ezTrans Korean-to-Japanese/Japanese-to-Korean machine translation system
※ AI-Helper는 부적절한 답변을 할 수 있습니다.