[학위논문]한국어 위키피디아와 분류기술을 이용한 개체명 자동 추출 및 중요도 측정 Automatic Extraction Named Entities and Importance Measure Using Korean Wikipedia and Classification Method원문보기
오늘날 위키피디아는 전 세계적으로 많은 사람들이 이용하는 개방형 백과사전이다. 위키피디아는 수많은 편집자들에 의해 작성되기 때문에 빠른 시간에 방대한 양의 정보가 축적되고 있으며 축적되는 정보의 신뢰성 또한 매우 높다. 본 논문에서는 이러한 장점을 가진 위키피디아의 여러 가지 세부정보를 이용하여 한국어 개체명 사전을 자동으로 구축하는 방법을 제안한다. 먼저, 위키피디아의 각 개체의 분류정보를 사용하여 분류체계를 생성한다. 생성된 분류체계에 위키피디아 개체를 자동으로 ...
오늘날 위키피디아는 전 세계적으로 많은 사람들이 이용하는 개방형 백과사전이다. 위키피디아는 수많은 편집자들에 의해 작성되기 때문에 빠른 시간에 방대한 양의 정보가 축적되고 있으며 축적되는 정보의 신뢰성 또한 매우 높다. 본 논문에서는 이러한 장점을 가진 위키피디아의 여러 가지 세부정보를 이용하여 한국어 개체명 사전을 자동으로 구축하는 방법을 제안한다. 먼저, 위키피디아의 각 개체의 분류정보를 사용하여 분류체계를 생성한다. 생성된 분류체계에 위키피디아 개체를 자동으로 매핑 시킨 다음, 지지 벡터 기계를 이용하여 개체명 타입을 부여하고, 분류체계의 불확실성을 계산한다. 다음으로, 임계값 이상의 불확실성을 가는 분류체계를 제거하고, 개체명을 순위화 함으로써 정확률이 높은 개체명 사전을 구축한다. 본 논문에서 제안하는 방법으로 구축된 개체 명 사전은 개체 명 순위화를 통하여 상위 40%를 추출하였을 때 89.36%의 정확률 을 보였고, 실제 개체 명 인식에서는 이미 구축된 개체 명 사전으로만 개체명을 인식하는 것 보다 약 5%의 성능 향상을 보였다.
오늘날 위키피디아는 전 세계적으로 많은 사람들이 이용하는 개방형 백과사전이다. 위키피디아는 수많은 편집자들에 의해 작성되기 때문에 빠른 시간에 방대한 양의 정보가 축적되고 있으며 축적되는 정보의 신뢰성 또한 매우 높다. 본 논문에서는 이러한 장점을 가진 위키피디아의 여러 가지 세부정보를 이용하여 한국어 개체명 사전을 자동으로 구축하는 방법을 제안한다. 먼저, 위키피디아의 각 개체의 분류정보를 사용하여 분류체계를 생성한다. 생성된 분류체계에 위키피디아 개체를 자동으로 매핑 시킨 다음, 지지 벡터 기계를 이용하여 개체명 타입을 부여하고, 분류체계의 불확실성을 계산한다. 다음으로, 임계값 이상의 불확실성을 가는 분류체계를 제거하고, 개체명을 순위화 함으로써 정확률이 높은 개체명 사전을 구축한다. 본 논문에서 제안하는 방법으로 구축된 개체 명 사전은 개체 명 순위화를 통하여 상위 40%를 추출하였을 때 89.36%의 정확률 을 보였고, 실제 개체 명 인식에서는 이미 구축된 개체 명 사전으로만 개체명을 인식하는 것 보다 약 5%의 성능 향상을 보였다.
Nowadays, Wikipedia is open encyclopedia to use a lot of people in the world. As Wikipedia assembles immense humean konwledge from thousands of volunteer editors, it is stroing vary amount of information in quick time and it's reliability is also high. In this paper, we propose to automatically cons...
Nowadays, Wikipedia is open encyclopedia to use a lot of people in the world. As Wikipedia assembles immense humean konwledge from thousands of volunteer editors, it is stroing vary amount of information in quick time and it's reliability is also high. In this paper, we propose to automatically construct Korean named entity dictionaries using the several features of Wikipedia with these advantage. First, we generate class hierarchies using the category links from each article of Wikipedia. Second, the titles of each article are mapped to the class hierarchies, and assign to named entity type using support vector machine. Third, we calculate entropy of the node in the class hierarchies. Fourth, by removing the class hierarchies which have the higher entropy value than threshold, and by ranking the named entity is constructed for Named entity Editionaries with high precision performance. Our named entity dictionaries showed the precision of 89.36% in top 40%, and named entity recognition achieved to improve about 5% performance than only ETRI named entity dictionary.
Nowadays, Wikipedia is open encyclopedia to use a lot of people in the world. As Wikipedia assembles immense humean konwledge from thousands of volunteer editors, it is stroing vary amount of information in quick time and it's reliability is also high. In this paper, we propose to automatically construct Korean named entity dictionaries using the several features of Wikipedia with these advantage. First, we generate class hierarchies using the category links from each article of Wikipedia. Second, the titles of each article are mapped to the class hierarchies, and assign to named entity type using support vector machine. Third, we calculate entropy of the node in the class hierarchies. Fourth, by removing the class hierarchies which have the higher entropy value than threshold, and by ranking the named entity is constructed for Named entity Editionaries with high precision performance. Our named entity dictionaries showed the precision of 89.36% in top 40%, and named entity recognition achieved to improve about 5% performance than only ETRI named entity dictionary.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.