[논문]한국어 위키피디아와 분류기술을 이용한 개체명 자동 추출 및 중요도 측정

배상준

[학위논문] 한국어 위키피디아와 분류기술을 이용한 개체명 자동 추출 및 중요도 측정
Automatic Extraction Named Entities and Importance Measure Using Korean Wikipedia and Classification Method 원문보기

배상준 (동아대학교 대학원 컴퓨터공학과 국내석사)

초록 ▼
AI-Helper

오늘날 위키피디아는 전 세계적으로 많은 사람들이 이용하는 개방형 백과사전이다. 위키피디아는 수많은 편집자들에 의해 작성되기 때문에 빠른 시간에 방대한 양의 정보가 축적되고 있으며 축적되는 정보의 신뢰성 또한 매우 높다. 본 논문에서는 이러한 장점을 가진 위키피디아의 여러 가지 세부정보를 이용하여 한국어 개체명 사전을 자동으로 구축하는 방법을 제안한다. 먼저, 위키피디아의 각 개체의 분류정보를 사용하여 분류체계를 생성한다. 생성된 분류체계에 위키피디아 개체를 자동으로 매핑 시킨 다음, 지지 벡터 기계를 이용하여 개체명 타입을 부여하고, 분류체계의 불확실성을 계산한다. 다음으로, 임계값 이상의 불확실성을 가는 분류체계를 제거하고, 개체명을 순위화 함으로써 정확률이 높은 개체명 사전을 구축한다. 본 논문에서 제안하는 방법으로 구축된 개체 명 사전은 개체 명 순위화를 통하여 상위 40%를 추출하였을 때 89.36%의 정확률 을 보였고, 실제 개체 명 인식에서는 이미 구축된 개체 명 사전으로만 개체명을 인식하는 것 보다 약 5%의 성능 향상을 보였다.

Abstract ▼ AI-Helper

Nowadays, Wikipedia is open encyclopedia to use a lot of people in the world. As Wikipedia assembles immense humean konwledge from thousands of volunteer editors, it is stroing vary amount of information in quick time and it's reliability is also high. In this paper, we propose to automatically construct Korean named entity dictionaries using the several features of Wikipedia with these advantage. First, we generate class hierarchies using the category links from each article of Wikipedia. Second, the titles of each article are mapped to the class hierarchies, and assign to named entity type using support vector machine. Third, we calculate entropy of the node in the class hierarchies. Fourth, by removing the class hierarchies which have the higher entropy value than threshold, and by ranking the named entity is constructed for Named entity Editionaries with high precision performance. Our named entity dictionaries showed the precision of 89.36% in top 40%, and named entity recognition achieved to improve about 5% performance than only ETRI named entity dictionary.

Keyword

학위논문 정보

저자	배상준
학위수여기관	동아대학교 대학원
학위구분	국내석사
학과	컴퓨터공학과
발행연도	2011
총페이지	vi,40장
키워드	개체명 사전 개체명 인식 개체명 추출 개체명 순위화 분류체계 위키피디아 정보 추출
언어	kor
원문 URL	http://www.riss.kr/link?id=T12437481&outLink=K
정보원	한국교육학술정보원

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명(한글), 저자명(한글), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문) 관리번호, 논문명(한글), 논문명(영문), 저자명(한글), 저자명(영문), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문)
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[학위논문] 한국어 위키피디아와 분류기술을 이용한 개체명 자동 추출 및 중요도 측정
Automatic Extraction Named Entities and Importance Measure Using Korean Wikipedia and Classification Method 원문보기

초록 ▼
AI-Helper

Abstract ▼ AI-Helper

Keyword

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[학위논문] 한국어 위키피디아와 분류기술을 이용한 개체명 자동 추출 및 중요도 측정 Automatic Extraction Named Entities and Importance Measure Using Korean Wikipedia and Classification Method 원문보기

초록 ▼ 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

Keyword

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[학위논문] 한국어 위키피디아와 분류기술을 이용한 개체명 자동 추출 및 중요도 측정
Automatic Extraction Named Entities and Importance Measure Using Korean Wikipedia and Classification Method 원문보기

초록 ▼
AI-Helper