[국가R&D연구보고서]자동문서범주화 성능 향상을 위한 바이그램 알고리즘 개발 Development of a bigram algorithm to enhance automated text categorization원문보기
보고서 정보
주관연구기관
대전대학교 Daejeon University
연구책임자
이찬도
보고서유형
최종보고서
발행국가
대한민국
언어
한국어
발행년월
2003-05
과제시작연도
2002
주관부처
과학기술부
과제관리전문기관
한국과학재단 Korea Science and Engineering Foundtion
등록번호
TRKO200900070638
과제고유번호
1350017545
사업명
목적기초연구사업
DB 구축일자
2013-04-18
키워드
자동문서범주화.인공지능.정보검색.기계학습.자연어 처리.Automated text categorization.Artificial Intelligence.Information search and retrieval.Machine Learning.Natural Language Processing.
초록▼
본 연구는 바이그램을 이용하여 자동문서범주화 성능을 향상시키는 알고리즘의 개 발을 목표로 한다. 구체적으로는 - 기존 문서범주화 알고리즘의 장단점 비교 - 바이그램 알고리즘의 개선 - 한글문서의 범주화를 위한 자질추출 알고리즘 개발 - 알고리즘의 실험 및 평가 를 세부목표로 한다. 인터넷의 폭발적인 확장에 따라 문서를 포함한 컨텐츠 또한 기하급수적으로 늘고 있으며, 효과적인 정보 관리 및 검색을 위해서는 내용별 분류작업이 필요하다. 이를 수작업으로 처리할 경우에는 막대한 경비가 들고 일관성이 결여될 가능성이 높으므 로, 컴퓨터가 자
본 연구는 바이그램을 이용하여 자동문서범주화 성능을 향상시키는 알고리즘의 개 발을 목표로 한다. 구체적으로는 - 기존 문서범주화 알고리즘의 장단점 비교 - 바이그램 알고리즘의 개선 - 한글문서의 범주화를 위한 자질추출 알고리즘 개발 - 알고리즘의 실험 및 평가 를 세부목표로 한다. 인터넷의 폭발적인 확장에 따라 문서를 포함한 컨텐츠 또한 기하급수적으로 늘고 있으며, 효과적인 정보 관리 및 검색을 위해서는 내용별 분류작업이 필요하다. 이를 수작업으로 처리할 경우에는 막대한 경비가 들고 일관성이 결여될 가능성이 높으므 로, 컴퓨터가 자동으로 분류, 관리하는 자동문서범주화가 필요하다. 자동문서범주화 과정은 크게 자질추출과정, 범주화 학습과정, 범주할당과정으로 나뉘는데, 본 연구에서는 자질추출과정에 중점을 두고, 어떻게 자질을 추출했을 때 시스템의 성능을 향상시킬 수 있는가를 연구하고자 한다. 최근의 일반적인 연구동 향은 핵심어 기반기술인데, 본 연구에서는 개별 단어보다 더 많은 의미를 내포하는 바이그램 추출 알고리즘을 개발하고자 한다. 본 연구가 추구하는 바이그램을 이용한 방법은 관련연구들과 차별성과 독창성 을 가지고 있다. 첫째, 개별 단어를 바이그램으로 대치하는 것이 아니라 개별 단어 에 바이그램을 추가함으로써 바이그램이 가지고 있는 의미애매성 해소 능력을 활 용한다. 둘째, 탐색공간을 줄이기 위해 추가하는 바이그램수를 전체 단어수의 2%내 로 엄격히 선정한다. 셋째, 바이그램 선정기준으로서는 document frequency, term frequency 뿐만 아니라 information gain을 사용한다. 넷째, 한글 문서에 대한 범주 화를 행한다. 연구방법으로는 문헌 연구를 통하여 국내외의 관련 알고리즘을 심도 있게 비교 ?분석하여 알고리즘의 개선책을 찾아내고, 이를 바탕으로 알고리즘을 구현, 한글 문서에 적용하여 향상된 결과를 측정한다. 자동문서범주화 기술의 응용분야는 문서검색을 위한 인덱싱, 텍스트에서 특정 내용 추출, 웹페이지 분류, 메일의 필터링 등 다양하다. 자동문서범주화의 성능을 개선할 수 있는 원천기술은 웹페이지 검색엔진, 메일 프로그램, 데이터베이스 엔진 등에 탑재되어 사용자에게 향상된 서비스를 제공할 수 있을 것이다.
Abstract▼
The purpose of the study is to develop a bigram algorithm to enhance text categorization. Specifically, the study aims to analyze the related algorithms, to improve the bigram algorithm, and to perform experiments on texts in Korean. To fulfill the purpose of the research, the following studies were
The purpose of the study is to develop a bigram algorithm to enhance text categorization. Specifically, the study aims to analyze the related algorithms, to improve the bigram algorithm, and to perform experiments on texts in Korean. To fulfill the purpose of the research, the following studies were done: (1) we performed extensive analyses on the so-called standard algorithms. (2) we developed an efficient bigram extraction algorithm and implemented it. (3) we applied it on the documents in English and in Korean, and measured the performances. To study the performances of our bigram algorithm, we performed experiments on the English documents (Reuters-21578) and the Korean documents (Korean-web corpus). The results show that our algorithm is very effective in extracting bigrams which are good indicators of known concepts, such as "computer+science." Even though the number of bigrams were small relative to the keywords, bigrams ranked higher when both bigrams and keywords were sorted according to information gain. Analysis of bigrams show that they improve the overall quality of features. To find out the role of bigrams, we trained the Naive Bayes classifiers using both keywords and bigrams as features. The results show that recall values were higher than those of keywords alone. Break-even points and F1 values improved in most documents, especially when documents were classified along the large classes. We can safely conclude that text classification using keywords and bigrams together is more efficient than using only keywords.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.