[논문]의미정보의 효율적인 분류를 위한 계층적 중복 문서 클러스터링

강동혁; 주길홍; 이원석

문제 정의

문서에서 단어가중처를 산출하는 방법은 TF*IDF(term frequency inversed document frequency)"] 공식이 많이 사용된다. TF*nDF 공식에서는 문서 수가 많으면 많을수록 IDF 값이 가중치를 결정하는데 큰 비중을 차지하므로, 본 논문에서는 IDF 값이 일정 범위를 넘지 않도록 조종한 TF*NIDF(term frequency normalized inversed document frequency) 공식을 제안한다. 따라서, 문서 d에서 단어 4의 가중치 甘血塩는 식(3)과 같다.
본 논문에서눈 문서 클러스터링의 정확도를 높이고자, 불용어를 판별하여 제거하는 불용어 제거 알고리즘을 제안하였다. 二 리고, TF*IDF 공식이 갖는 약점을 극복하기 위해, TF*NIDF 공식을 제안하여 단어가중치를 산출하였다.
본 논문에서는 문서 클러스터링 의정 확도를 높이기 위해 통계적인 기법으로 불용어를 찾아 제거하는 불용어 제거 알고리즘을 제안한다. 그리고, 기존의 문서 클러스터링 알고리즘이 갖는 한계를 극복하기 위해 하나의 문서가 유사한 주제를 갖는 여러 클러스터에 포함되는 계층적 중복 문서 클러스터링 (HODC, hierarchical overlapping document clustering) 알고리즘을 제 안 한다.

제안 방법

문서 클러스터링 실험에서는 경제 분야의 신문 기사 1000건에 대하여 기존의 HAC 방법과 본 논문에서 제안하고 있는 HODC 방법을 비교하는 실험을 수행하였匸" 표2는 MinParte 03으로 설정하였을 때, MzTiCoh에 따라서 HAC 알고리즘과 HODC 알고리즘에 의해 생성되는 클러스터의 개수와 두 문서 이상 포함하고 있는 클러스터들의 평균 문서 수, 클러스터의 평간 응집도, 그리고 중복되어 클러스터에 포함된 문서 수를 조사한 것이다.
본 논문에서눈 문서 클러스터링의 정확도를 높이고자, 불용어를 판별하여 제거하는 불용어 제거 알고리즘을 제안하였다. 二 리고, TF*IDF 공식이 갖는 약점을 극복하기 위해, TF*NIDF 공식을 제안하여 단어가중치를 산출하였다. 또한, 문서가 연관된 주제의 여러 클러스터에 중복적으로 포함되는 계층적 중복 문서 클러스터 링 알고리즘을 제안하였디.
본 논문에서는 문서 클러스터링 의정 확도를 높이기 위해 통계적인 기법으로 불용어를 찾아 제거하는 불용어 제거 알고리즘을 제안한다. 그리고, 기존의 문서 클러스터링 알고리즘이 갖는 한계를 극복하기 위해 하나의 문서가 유사한 주제를 갖는 여러 클러스터에 포함되는 계층적 중복 문서 클러스터링 (HODC, hierarchical overlapping document clustering) 알고리즘을 제 안 한다. 또한, 문서 클러스터링에 필요한 단어가중치를 산출하기 위해 기존의 TF*IDF 공식을 수정한 TF*NIDF 단어가중치 산출 방법을 제안한다.
다음으로, 단어가중치를 토대로 문서의 키워드를 선택한다. 단 어가 중치의 평균값을 구하여 단어가중치가 평간■값 이상인 단어 들을 키워드로 선정하고, 선정된 키워드들의 가중치를 다음의 코사인 정규화 식을 통해 정규화한다.
그리고, 기존의 문서 클러스터링 알고리즘이 갖는 한계를 극복하기 위해 하나의 문서가 유사한 주제를 갖는 여러 클러스터에 포함되는 계층적 중복 문서 클러스터링 (HODC, hierarchical overlapping document clustering) 알고리즘을 제 안 한다. 또한, 문서 클러스터링에 필요한 단어가중치를 산출하기 위해 기존의 TF*IDF 공식을 수정한 TF*NIDF 단어가중치 산출 방법을 제안한다.
二 리고, TF*IDF 공식이 갖는 약점을 극복하기 위해, TF*NIDF 공식을 제안하여 단어가중치를 산출하였다. 또한, 문서가 연관된 주제의 여러 클러스터에 중복적으로 포함되는 계층적 중복 문서 클러스터 링 알고리즘을 제안하였디..
먼저, 클러스터링율 수행할 문서들을 대상으로 명사를 추출한다. 본 논문에서는 형 태소 분석 기인 HAM[3]을 사용하여 명사들을 추출하였다.
본 논문에서는 형 태소 분석 기인 HAM[3]을 사용하여 명사들을 추출하였다. 명사 추출 후, 해싱 기법을- 이용한 불용어 제거 알고리즘을 통해 불용어를 판별하여 제거한다. 불용어 제거를 위해 문서들이 정치, 경제, 사회, 과학 등과 같은 대주제들로 분류되어 있다고 가정하고, 이렇게 분류되어 있는 문서의 집합을 사이트(site)라고 한다.
먼저, 클러스터링율 수행할 문서들을 대상으로 명사를 추출한다. 본 논문에서는 형 태소 분석 기인 HAM[3]을 사용하여 명사들을 추출하였다. 명사 추출 후, 해싱 기법을- 이용한 불용어 제거 알고리즘을 통해 불용어를 판별하여 제거한다.
불용어를 제거한 후, 남아있는 단어들을 대상으로 난어가중치 를 계산한다. 문서에서 단어가중처를 산출하는 방법은 TF*IDF(term frequency inversed document frequency)"] 공식이 많이 사용된다.
추출된 명사를 대상으로 불용어 제거 알고리즘울 이용하여, 불용어 제거 실험을 수행하였다. 이 실험에 사용된 대부분의 단어들이 문서 지지도가 0.

대상 데이터

본 논문에서 제안하고 있는 불용어 제거 알고리즘, 계층적 중 복 문서 클러스터링 알고리즘을 실제 문서 들을 대상으로 실험을 수행하였다. 실험을 위해 야후! 코리아 뉴스[5]에서 제공홍卜고 있는 신문 기사 중에서 경제, IT, 정치, 사회 등 10개 분야(사이트)의 기사를 추풀하여 사용하였고, HAM을 이용하여 명사롤 추출하였다.
본 논문에서 제안하고 있는 불용어 제거 알고리즘, 계층적 중 복 문서 클러스터링 알고리즘을 실제 문서 들을 대상으로 실험을 수행하였다. 실험을 위해 야후! 코리아 뉴스[5]에서 제공홍卜고 있는 신문 기사 중에서 경제, IT, 정치, 사회 등 10개 분야(사이트)의 기사를 추풀하여 사용하였고, HAM을 이용하여 명사롤 추출하였다. 표1은 실험에 사용된 데이터의 특성 올 나타낸 것이다.

이론/모형

이때 미뢰 작성한 불용어 목록에 의해 일부 단어들을 제거한다. 명사 추출 후, 문서의 유사도를 기반으로 문서 클러스터링 알고리즘을 적용한다.
불용어 제거 실험에서는 불용어 제거 알고리즘을 적용하여 불 용어를 판별하였다. 문서 클러스터링 실험에서는 기존의 HAC 알고리즘과 본 논문에서 제안하는 HODC 알고리즘으로 경제 분야 신문 기사들의 클러스터링을 수행하여 71 결과를 비교하여, 문서가 중복적으로 클러스터에 포함되는 것을 허용함으로써 HODC 알고리즘이 다양한 주제별로 의미정보들을 효율적으로 분류할 수 있음을 확인하였다

성능/효과

불용어 제거 실험에서는 불용어 제거 알고리즘을 적용하여 불 용어를 판별하였다. 문서 클러스터링 실험에서는 기존의 HAC 알고리즘과 본 논문에서 제안하는 HODC 알고리즘으로 경제 분야 신문 기사들의 클러스터링을 수행하여 71 결과를 비교하여, 문서가 중복적으로 클러스터에 포함되는 것을 허용함으로써 HODC 알고리즘이 다양한 주제별로 의미정보들을 효율적으로 분류할 수 있음을 확인하였다

후속연구

본 논문에서 제안하는 불 용어 제거 알고리즘을 적용하기 위해서는 문서들을 미리 대주제로 분류해야 하는 단점을 가지고 있다. 이틀 ' 해결하기 위해서 클러스터링을 수행한 후, 클러스터링된 문서들을 토대로 불용어 제거 알고리즘을 수행하여 불용어를 판별하는 방법이 이용될 수 있을 것이다. 그리고, 불 용어 제거 알고리즘과 계층적 중복문서 클러스터링 알고리즘은 모두 주어진 문서집합을 토대로 수행되므로, 새로운 문서들이 추가되었을 때, 처음부터 다시 각 알고리즘을 수행해야 하는 문제점을 안고 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

의미정보의 효율적인 분류를 위한 계층적 중복 문서 클러스터링
Hierarchical Overlapping Document Clustering for Efficient Categorization of Semantic Information 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

의미정보의 효율적인 분류를 위한 계층적 중복 문서 클러스터링 Hierarchical Overlapping Document Clustering for Efficient Categorization of Semantic Information 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

의미정보의 효율적인 분류를 위한 계층적 중복 문서 클러스터링
Hierarchical Overlapping Document Clustering for Efficient Categorization of Semantic Information 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper