[보고서]자동문서범주화 성능 향상을 위한 바이그램 알고리즘 개발

이찬도

[국가R&D연구보고서] 자동문서범주화 성능 향상을 위한 바이그램 알고리즘 개발
Development of a bigram algorithm to enhance automated text categorization 원문보기

보고서 정보
주관연구기관	대전대학교 Daejeon University
연구책임자	이찬도
보고서유형	최종보고서
발행국가	대한민국
언어	한국어
발행년월	2003-05
과제시작연도	2002
주관부처	과학기술부
과제관리전문기관	한국과학재단 Korea Science and Engineering Foundtion
등록번호	TRKO200900070638
과제고유번호	1350017545
사업명	목적기초연구사업
DB 구축일자	2013-04-18
키워드	자동문서범주화.인공지능.정보검색.기계학습.자연어 처리.Automated text categorization.Artificial Intelligence.Information search and retrieval.Machine Learning.Natural Language Processing.

초록 ▼

본 연구는 바이그램을 이용하여 자동문서범주화 성능을 향상시키는 알고리즘의 개 발을 목표로 한다. 구체적으로는 - 기존 문서범주화 알고리즘의 장단점 비교 - 바이그램 알고리즘의 개선 - 한글문서의 범주화를 위한 자질추출 알고리즘 개발 - 알고리즘의 실험 및 평가 를 세부목표로 한다. 인터넷의 폭발적인 확장에 따라 문서를 포함한 컨텐츠 또한 기하급수적으로 늘고 있으며, 효과적인 정보 관리 및 검색을 위해서는 내용별 분류작업이 필요하다. 이를 수작업으로 처리할 경우에는 막대한 경비가 들고 일관성이 결여될 가능성이 높으므 로, 컴퓨터가 자동으로 분류, 관리하는 자동문서범주화가 필요하다. 자동문서범주화 과정은 크게 자질추출과정, 범주화 학습과정, 범주할당과정으로 나뉘는데, 본 연구에서는 자질추출과정에 중점을 두고, 어떻게 자질을 추출했을 때 시스템의 성능을 향상시킬 수 있는가를 연구하고자 한다. 최근의 일반적인 연구동 향은 핵심어 기반기술인데, 본 연구에서는 개별 단어보다 더 많은 의미를 내포하는 바이그램 추출 알고리즘을 개발하고자 한다. 본 연구가 추구하는 바이그램을 이용한 방법은 관련연구들과 차별성과 독창성 을 가지고 있다. 첫째, 개별 단어를 바이그램으로 대치하는 것이 아니라 개별 단어 에 바이그램을 추가함으로써 바이그램이 가지고 있는 의미애매성 해소 능력을 활 용한다. 둘째, 탐색공간을 줄이기 위해 추가하는 바이그램수를 전체 단어수의 2%내 로 엄격히 선정한다. 셋째, 바이그램 선정기준으로서는 document frequency, term frequency 뿐만 아니라 information gain을 사용한다. 넷째, 한글 문서에 대한 범주 화를 행한다. 연구방법으로는 문헌 연구를 통하여 국내외의 관련 알고리즘을 심도 있게 비교 ?분석하여 알고리즘의 개선책을 찾아내고, 이를 바탕으로 알고리즘을 구현, 한글 문서에 적용하여 향상된 결과를 측정한다. 자동문서범주화 기술의 응용분야는 문서검색을 위한 인덱싱, 텍스트에서 특정 내용 추출, 웹페이지 분류, 메일의 필터링 등 다양하다. 자동문서범주화의 성능을 개선할 수 있는 원천기술은 웹페이지 검색엔진, 메일 프로그램, 데이터베이스 엔진 등에 탑재되어 사용자에게 향상된 서비스를 제공할 수 있을 것이다.

Abstract ▼

The purpose of the study is to develop a bigram algorithm to enhance text categorization. Specifically, the study aims to analyze the related algorithms, to improve the bigram algorithm, and to perform experiments on texts in Korean. To fulfill the purpose of the research, the following studies were done: (1) we performed extensive analyses on the so-called standard algorithms. (2) we developed an efficient bigram extraction algorithm and implemented it. (3) we applied it on the documents in English and in Korean, and measured the performances. To study the performances of our bigram algorithm, we performed experiments on the English documents (Reuters-21578) and the Korean documents (Korean-web corpus). The results show that our algorithm is very effective in extracting bigrams which are good indicators of known concepts, such as "computer+science." Even though the number of bigrams were small relative to the keywords, bigrams ranked higher when both bigrams and keywords were sorted according to information gain. Analysis of bigrams show that they improve the overall quality of features. To find out the role of bigrams, we trained the Naive Bayes classifiers using both keywords and bigrams as features. The results show that recall values were higher than those of keywords alone. Break-even points and F1 values improved in most documents, especially when documents were classified along the large classes. We can safely conclude that text classification using keywords and bigrams together is more efficient than using only keywords.

목차 Contents

Ⅰ. 연구계획 요약문...3
1. 국문요약문...3
Ⅱ. 연구결과 요약문...4
1. 국문요약문...4
2. 영문요약문...5
Ⅲ. 연구내용...6
1. 서론...6
1.1 연구 배경...6
1.2 연구 범위...7
1.3 연구 목표...7
2. 연구방법 및 이론...8
2.1 문서분류기의 종류...8
2.2 국내의 관련연구...9
2.3 해외의 관련연구...10
2.4 관련연구의 비교...12
2.5 개선된 바이그램 추출 알고리즘...12
2.6 선행연구...13
2.7 실험 corpus...14
2.8 실험 환경...14
3. 결과 및 고찰...15
4. 결론...19

과제명(ProjectTitle) :	-
연구책임자(Manager) :	-
과제기간(DetailSeriesProject) :	-
총연구비 (DetailSeriesProject) :	-
키워드(keyword) :	-
과제수행기간(LeadAgency) :	-
연구목표(Goal) :	-
연구내용(Abstract) :	-
기대효과(Effect) :	-

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 제목(한글), 저자명(한글), 발행일자, 전자원문, 초록(한글), 초록(영문) 관리번호, 제목(한글), 제목(영문), 저자명(한글), 저자명(영문), 주관연구기관(한글), 주관연구기관(영문), 발행일자, 총페이지수, 주관부처명, 과제시작일, 보고서번호, 과제종료일, 주제분류, 키워드(한글), 전자원문, 키워드(영문), 입수제어번호, 초록(한글), 초록(영문), 목차
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국가R&D연구보고서] 자동문서범주화 성능 향상을 위한 바이그램 알고리즘 개발
Development of a bigram algorithm to enhance automated text categorization 원문보기

초록 ▼

Abstract ▼

목차 Contents

참고문헌 (25)

연구과제 타임라인

관련 콘텐츠

원문 보기

이 보고서와 함께 이용한 콘텐츠

연관된 기능

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국가R&D연구보고서] 자동문서범주화 성능 향상을 위한 바이그램 알고리즘 개발 Development of a bigram algorithm to enhance automated text categorization 원문보기

초록 ▼

Abstract ▼

목차 Contents

참고문헌 (25)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

이 보고서와 함께 이용한 콘텐츠

연관된 기능

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[국가R&D연구보고서] 자동문서범주화 성능 향상을 위한 바이그램 알고리즘 개발
Development of a bigram algorithm to enhance automated text categorization 원문보기