[논문]도메인 불용어 제거를 통한 효율적인 텍스트 마이닝 기법

송재선; 주길홍; 이원석

문제 정의

본 논문에서는 문서 클러스터링의 정 확도를 높이 기위한 불용어 제거 방법과 응집도와 참여도를 고려한 문서 클러스터링 방법을 제안하였다. 제안된 도메인별 불용어 제거 알고리즘의 성능을 시험하기 위해 도메인 지지도와 문서지지도의 변화에 따른 정확도 변화 실험을 수행하였으며, 응집도와 참여도를 고려한 클러스터링 방법의 실험을 위해 일반적으로 쓰이는 문서 클러스터링 알고리즘과 비교 실험을 수행하였고, 도메인 레벨의 깊이가 깊을 수록 다른 알고리즘에 비해 높은 정확성을 보여 주었다.
그러나 이러한 방법들은 문서클러스터링에 사용되는 데이터의 특성에 따라 성능이 크게 좌우되며, 카테고리의 계층적 관계를 표현 할 수 없는 문제점 이 있다. 이에 본 논문에서는 문서집 합을 계층적 관계를 갖는 여러 도메인으로 분류하고, 각 도메인에 따른 문서의 불용어를 판별하며, 불용어가 제거된 문서들로 응집도와 참여도를 고려한 문서 클러스터링 방법을 제 안한다.

제안 방법

각 문서들에 대해 불용어 제거와 가중치 산출및 문서 정규화 과정을 수행한 후 문서간의 유사도를 비교하기 위하여 문서의 특성을 벡터 값으로 표현 한다. 본 논문에서는 계층적 중복 문서 클러스터링⑹ 에서 사용된 유사도와 응집도, 참여도의 개념을 사용한다.
두 값은 상호 보완적인.관계를 가지므로 식⑸와 같은 두 값을 조합한 정확성과 재현율 분기점 (Precision-Recall Break Even Point)을 사용하여 문서 클러스터링의 정확성을 측정한다. 이하에서 정확성과 재현율 분기점을 BEP로 표현한다.
본 논문에서는 계층적 중복 문서 클러스터링⑹ 에서 사용된 유사도와 응집도, 참여도의 개념을 사용한다.
알고리즘을 수행하기 위해 도메인의 깊이가 1인 세 개의 카테고리( News, Business, Sports)를 미리 정의하여 불용어 제거와 문서클러스터링 실험을 수행하며, 카테고리를 기준으로 생성된 클러스터들의 유사성을 각 레벨 별로 비교한다.

대상 데이터

YAHOO![기에서 제공하는 카테고리 서비스를 대상으로 실험을 수행하였으며, 실험 데이터의 특성은 표 ].과 같다.

이론/모형

따라서 생성된 기본 클러스터에 결합되지 않은 문서를 결합하기 위하여 [단계 5~6]을 수행하는 혼합적 인 클러스터링 방법을 사용한다.
실험에 사용된 척도는 CSIM척도 외에 정보 검색 분야에서 널리 사용되는 정확도(Precision)과 재현율 (RecaU)[8]을 사용하여 효율성을 평가하는 방법을 사용한다. 정확도는 분류된 문서중에서 적합한 문서의 수를 나타낸 값으로, 부적합한 문서를 찾지 않는 능력을 나타내며, 재현율은 전체 적합한 문서 중에서 올바르게 분류된 문서수의 값으로서 적합한 문서를 검색해 내는 능력을 측정한다.

성능/효과

실험은 다음과 같다. 불용어를 제거하는 최소 도메인지지도와 최소 문서지지도, 표준 편차의 값은 각각 0.8, 0.5, 0.1 로 정하였으며, 이 값은 레벨1 에서 불용어를 판별한 값중에서 정확성이 가장 높을 경우의 값이匸土 그림 2는 도메인 레벨 2에서의 BEP 값을 나타낸 것으로 최소 참여도 값이 0.6 최소 응집도 값이일 경우 가장 높은 정확성을 나타내었다. 응집도는 클러스터의 결합 정도를 나타내므로 레벨 2에서는 클러스터를 느슨하게 구성 할 수록 더 높은 정확성을 보인다.
결과이다. 실험결과 단일연결 방법 (SL) 과 Ward의 방법 (WARD)은 비슷한 성능을 나타내었으며, 본 논문에서 제안한 알고리즘(DHODC)와 집단연결 방법(GAL)의 정확성이 높게 나왔다. 이는 논문에서 제안된 응집도의 개념과 집단 평균 연결 방법의 유사도 개념이 유사하기 때문으로 보이며, 참여도를 고려한 본 알고리즘의 정확성이 높다는 것을 알 수 있다.
실험결과 단일연결 방법 (SL) 과 Ward의 방법 (WARD)은 비슷한 성능을 나타내었으며, 본 논문에서 제안한 알고리즘(DHODC)와 집단연결 방법(GAL)의 정확성이 높게 나왔다. 이는 논문에서 제안된 응집도의 개념과 집단 평균 연결 방법의 유사도 개념이 유사하기 때문으로 보이며, 참여도를 고려한 본 알고리즘의 정확성이 높다는 것을 알 수 있다.
1 일 경우 정확성이 크게 떨어지며, 이는 분리 되어야 할 여러 클러스터들이 결합되어 정확성이 낮아지게 된다. 잠여도의 값이 높을수록 더 높은 정확성을 보이며, 이는 기본 클러스터의 구성 단계에서 정확한 클러스터가 생성될수록 높은 성능을 보임을 나타낸다. 도메인의 레벨이 깊어질수록 정확성이 높은 최소응집도의 값이 낮아 지며, 이는 의미적으로 명확하게 클러스터가 분류되었음을 나타낸다.
클러스터링 방법을 제안하였다. 제안된 도메인별 불용어 제거 알고리즘의 성능을 시험하기 위해 도메인 지지도와 문서지지도의 변화에 따른 정확도 변화 실험을 수행하였으며, 응집도와 참여도를 고려한 클러스터링 방법의 실험을 위해 일반적으로 쓰이는 문서 클러스터링 알고리즘과 비교 실험을 수행하였고, 도메인 레벨의 깊이가 깊을 수록 다른 알고리즘에 비해 높은 정확성을 보여 주었다. 본 논문에서 제안하는 알고리즘은 문서의 집합이 크게 변경될 경우 문서 클러스터링을 재수행해야 하기때문에 문서의 수가 증가함에 따라 효율적으로 대처할 수 있는 점진적 문서 클러스터링방법에 관한 연구가 진행되어야 할 것이다.
불용어로 판별될 가능성이 높다. 즉 도메인 지지도 값과 문서지지도 값이 높을 수록, 또한 문서 지지도 값의 편차가 적을 수록 불용어로 판별될 가능성이 크다. 따라서 다음과 같은 단계에 의해 불용어를 판별하여 제거한다.

후속연구

제안된 도메인별 불용어 제거 알고리즘의 성능을 시험하기 위해 도메인 지지도와 문서지지도의 변화에 따른 정확도 변화 실험을 수행하였으며, 응집도와 참여도를 고려한 클러스터링 방법의 실험을 위해 일반적으로 쓰이는 문서 클러스터링 알고리즘과 비교 실험을 수행하였고, 도메인 레벨의 깊이가 깊을 수록 다른 알고리즘에 비해 높은 정확성을 보여 주었다. 본 논문에서 제안하는 알고리즘은 문서의 집합이 크게 변경될 경우 문서 클러스터링을 재수행해야 하기때문에 문서의 수가 증가함에 따라 효율적으로 대처할 수 있는 점진적 문서 클러스터링방법에 관한 연구가 진행되어야 할 것이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국내논문] 도메인 불용어 제거를 통한 효율적인 텍스트 마이닝 기법
An Efficient Text Mining method based on Domain Stopword Elimination 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국내논문] 도메인 불용어 제거를 통한 효율적인 텍스트 마이닝 기법 An Efficient Text Mining method based on Domain Stopword Elimination 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[국내논문] 도메인 불용어 제거를 통한 효율적인 텍스트 마이닝 기법
An Efficient Text Mining method based on Domain Stopword Elimination 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper