[논문]정보검색 기술을 이용한 비지도 학습 기반 문서 분류 시스템 개발

노대욱; 이수용; 나동열

문제 정의

본 논문에서는 문서분류기의 개발을 위하여 원시말뭉치와 씨앗 정보만을 이용하는 준-비지도 학습 기법을제안하였다. 각 범주의 범주명을 구성하는 한 두 단어를씨앗 단어로 이용하여 해당 범주를 대표하는 단어들을부트스트래핑 기법으로 학습하고 그 단어들의 가중치를조정하여 범주를 대표하는 벡터들을 생성하였다.
본 논문의 연구에서는 정보검색에서 각 문서가 벡터로 표현되는 것처럼 각 범주들을 문서와 같이 벡터로 가능한 한 정확하게 나타내고(이를 범주 대표 벡터라 함) 이 대표 벡터들을 사용하여 정보검색에서처럼 cosine 계수 등과 같은 비교 기법을 이용하여 문서를 분류하는 것이다. n리고 이를 이용하여 MLC를 생성한다.
본 절에서는 비지도 학습의 두 단계 중 앞의 것인 스텝 1에서 수행하는 범주마다에 대한 대표 단어들 및 그들의 가중치를 학습하는 기법을 살펴본다. 대표 벡터를 구하기 위해 먼저 가중치가 0이 아닌 단어들 즉 대표단어들 및 그들의 가중치를 구해야 한다.
있다. 이러한 최적의 시스템과 비교하여 우리의 방법에 의해 개발된 시스템이 어느 정도 성능을 보이는 지 알아 보는 것이 본 실험의 목적이다.
이에 따라 본 논문에서는 새로운 비지도 학습기법을소개한다. 본 논문의 연구에서는 정보검색에서 각 문서가 벡터로 표현되는 것처럼 각 범주들을 문서와 같이 벡터로 가능한 한 정확하게 나타내고(이를 범주 대표 벡터라 함) 이 대표 벡터들을 사용하여 정보검색에서처럼 cosine 계수 등과 같은 비교 기법을 이용하여 문서를 분류하는 것이다.

가설 설정

그렇다면 단어 X에 대하여 스텝 2에서 매우 낮은 가중치를 받은 사실을 이용할 수는 없을까? 만약 스텝 1 을 다시 한번 더 수행하도록 하고 그 과정에서 元가 스텝 2에서 매우 나쁜 가중치를 받은 사실을 고려하여 가능하면 다른 단어 보다 먼저 대표 단어로 학습되지 못하도록 한다면 X가 학습될 가능성을 낮출 수 있을 것이다. h 에폭의 스텝 1(즉 3.1 절에서 설명한 작업 단계)에서 특정 범주에 대하여 단어 X가 학습된다고 가정하자. 만약 X가 이 범주에 대해 좋지 않은 단어라면 같은 에폭의 스텝 2 단계(3.
시스템은 또한 미리 정해진 범주를 가지고 있다고 가정한다. 각 범주는 범주 레이블로 나타내지나 순서화된범주 집합 C 안에서 이 범주 레이블이 차지하는 위치로나타낼 수도 있다(ICI는 전체 범주의 수) :
이범주와 관련이 깊을 가능성이 많다. 즉 X 와 / 와의 관계를 고려할 때 y 가 더욱 중요할수록(즉 y 의 가중치가클수록), 그리고 X와 y 사이의 관련도가 클수록 X 의 범주 c에 대한 관련도도 커질 것이다. 위의 식 (9)는 이러한 생각을 반영한 식이다.

제안 방법

각 범주의 범주명을 구성하는 한 두 단어를씨앗 단어로 이용하여 해당 범주를 대표하는 단어들을부트스트래핑 기법으로 학습하고 그 단어들의 가중치를조정하여 범주를 대표하는 벡터들을 생성하였다. 이 때가중치를 업데이트 시키는 방법으로 정보 검색 시스템에서 많이 사용하는 문서 출현 빈도를 응용하였고, 이과정을 반복함으로써 성능을 향상 시키도록 하였다.
그러나 우리는 학습의 편리성을 위하여 각 범주마다그 범주를 대표할 만한 단어들을 학습하도록 하였다. 이런 단어를 범주 대표 단어라 부른다.
이러한 입력 데이타를 이용하여 먼저 비지도 학습 기법을 통하여 각 범주에 대한정보를 학습한다. 그리고 이를 이용하여 원시 말뭉치의각 문서를 분류하여 범주 레이블을 부착한다. 이 결과로기계-표지-부착 말뭉치(machine-labeled corpus; MLC) 를 얻는다.
결국 비지도 학습의 일차적인목표는 범주 대표 단어들을 학습하는 문제이다. 그리고대표 단어 들 사이에도 중요도의 차이가 있으므로 그중요도를 나타내는 값인 대표 단어의 가중치도 학습하도록 한다.
따라서 우리는 20 Newsgroups 데이타셋 만에 의한실험으로 우리 시스템의 성능을 측정하도록 하였다. 특히 우리는 20 newgroups 데이타셋 중에서도 bydate version을 사용하였다⑹.
위해서 우리는 여러가지 임계치。를 변화시켜 가면서 성능을 측정하는 실험을 하였다. 실험 결과 400 개의단어를 학습하는 것이 가장 성능이 좋은 것으로 관찰되었다.
모듈 1의 두 단계를 반복하여 수행함으로써 많은 성능의 향상을 얻을 수 있음을 실험을 통하여 관찰하였다 (표 5 참조). 이것은 스텝 2의 결과를 다른 에폭의 스텝 1에게 피드백하여 줌으로써 새로운 단어를 학습할 때 좋지 않은 것들은 될수록 늦게 학습하거나 아예 학습되지 않게 하는 효과를 거둘 것이라는 우리의 추측을 뒷받침하는 결과이다.
지도학습을 하게 된다. 본 논문에서는 지도학습 알고리즘으로 현재 문서 분류 시스템에서 가장 높은 성능을 보이는 SVM을 선택하였고, 다중 분류가 가능한 Libsvm-2.81 버전1)을 사용하였으며, 이때 RBF 커널 (kernel)을 사용하였다. 여기에서 7 값은 디폴트(default) 값을 그냥 이용하였고, C 값은 0-1000 사이에서 5씩 증가시키면서 최적의 값을 찾았다.
일반적인 문서 분류기에서는 자질의 수를 줄이기 위하여 자질 선택 (feature selection)과정을 거친다. 우리의 경우는 말뭉치에서 단어가 나타난 전체 발생 횟수(total term frequency)가 특정 횟수 이하인 경우와 단어가 나타난문서의 수(document frequency)가 특정 수 이상인 것들을 제거하는 간단한 방법만을 사용하였다.
각 범주의 범주명을 구성하는 한 두 단어를씨앗 단어로 이용하여 해당 범주를 대표하는 단어들을부트스트래핑 기법으로 학습하고 그 단어들의 가중치를조정하여 범주를 대표하는 벡터들을 생성하였다. 이 때가중치를 업데이트 시키는 방법으로 정보 검색 시스템에서 많이 사용하는 문서 출현 빈도를 응용하였고, 이과정을 반복함으로써 성능을 향상 시키도록 하였다. 실험 결과 기존의 다른 연구 결과보다 높은 성능을 나타내는 것을 확인할 수 있었고, 11범주에 대한 실험을 통하여 정답문서로 훈련한 SVM 문서분류기와 성능 차이가 거의 없음을 확인할 수 있었다.
씨앗(seed) 단어들이다. 이러한 입력 데이타를 이용하여 먼저 비지도 학습 기법을 통하여 각 범주에 대한정보를 학습한다. 그리고 이를 이용하여 원시 말뭉치의각 문서를 분류하여 범주 레이블을 부착한다.
이를 위해 우리는 20개의 범주 중 각 범주간의 중복되는 정도가 낮은 11개의 범주를 선택하였다2 이 때공정한 성능의 비교를 위해 동일한 훈련 말뭉치와 테스트 말뭉치를 사용하였고 같은 자질집합(feature)을 사용하였다.
이를 이용하여 씨앗 단어에서 출발하여 범주에대한 대표성이 있는 단어들과 그 가중치를 수집한다. 둘째 특징은 이렇게 하여 만들어진 범주 대표 벡터를 이용하여 문서를 분류한 다음 그 결과를 이용하여 각 대표 단어들에 대한 보다 더 정확한 가중치를 구하는 단계(가중치 갱신 단겨】)를 두었다는 점이다.
그 결과 C = 10일 때 최고의 성능을 얻을 수 있었다. 입력 데이타는 앞서 말한 약 12, 222개의 단어를 정보 검색 시스템에서 주로 사용되는 식 (14)과 같은 적절한 용어 가중치 계산 방법을 이용하여 가중치를 조절하여 입력하였다.
이 문제를 해결하기 위해서우리는 다음과 같은 생각을 이용한다. 즉 어떤 범주 c 에 대하여 스텝 1에서 너무 일반적인 단어 X를 대표단어로 학습하였다 하자. (실제로 이 단어는 대표 단어로학습되어서는 안될 단어라고 하자.

대상 데이터

본 실험에서는 Gliozzo[6]과의 성능 비교를 위해서 그들이 사용한 실험 데이타를 그대로 이용하였다. 그들은 전체 데이타를 훈련과 실험 부위로 나누는 위치를 변화시키면서 실험하여 그 평균을 구하는 cross validation 실험은 수행하지 않았다.

이론/모형

더 많은. 대표 단어들을 학습하기 위해 평균 상호정보 (average mutual information)® 이용했다. 를 범주 c에 대한 대표 단어들의 집합이라고 하고 처음에 Yc = &라고 설정한 후 부트스트래핑 과정에서 더 많은 대표단어들을 학습하여 K.
본 논문의 첫째 특징은 비지도 학습 단계에서 평균상호정보(average mutual information) 개념을 사용한것이다. 이를 이용하여 씨앗 단어에서 출발하여 범주에대한 대표성이 있는 단어들과 그 가중치를 수집한다.
모듈 2는 대부분의 기존 연구에서와 같이 문서 분류에서 좋은 성능을 보이는 어떠한 지도학습 알고리즘을 사용하여도 무방하다. 우리는 최근에 가장 많이 이용되고 있는 지도학습알고리즘인 Support Vector Machine(SVM)을 사용하였다[6]. 모듈 2의 결과로 얻는 문서 분류 시스템이 우리가 얻는 최종적인 문서 분류기이다.
씨앗 정보로는 아주 작은 양의 수동 태깅말뭉치를 제공하는 것을 시도하였다[4, 5]. 이들 연구에서는 원시 말뭉치를 이용하기 위해 Expectation Maximization 알고리즘을 응용하는 기법을 사용하였다.

성능/효과

실험 결과 기존의 다른 연구 결과보다 높은 성능을 나타내는 것을 확인할 수 있었고, 11범주에 대한 실험을 통하여 정답문서로 훈련한 SVM 문서분류기와 성능 차이가 거의 없음을 확인할 수 있었다. 그러나 20개의 범주를 모두 사용하였을 경우 범주간의 중복되는 부분이 성능을 저하시킴을 확인할 수 있었다. 향후 각 범주간예중복이 존재하거나 100% 정확하지 않은 훈련 데이타에대해서도 높은 성능을 낼 수 있는 연구가 필요하다.
그러나 아직 대표 단어들에 대한 최적의 가중치를 찾은 것은 아니다. 스텝 1의 학습을 수행한 결과를 살펴보면 매우 일반적인 단어들이 많이 학습 될 수 되며 그들의 u 값 또한 매우 높게 결정된 것을 관찰할 수 있었다. 예를 들면 다음 표에서 , alt.
이때 연속되는 두 에폭의 문서 분류 결과를 비교하여 변화가 작다면 반복은 끝난다. 실험 결과 3번의 반복을 거치면 좋은 성능을 내는 시스템을 얻을 수 있음이 관찰되었다.
성능을 측정하는 실험을 하였다. 실험 결과 400 개의단어를 학습하는 것이 가장 성능이 좋은 것으로 관찰되었다. 하지만 200 개를 넘으면 거의 최상의 성능에 매우 근접하는 결과를 얻을 수 있었다.
이 때가중치를 업데이트 시키는 방법으로 정보 검색 시스템에서 많이 사용하는 문서 출현 빈도를 응용하였고, 이과정을 반복함으로써 성능을 향상 시키도록 하였다. 실험 결과 기존의 다른 연구 결과보다 높은 성능을 나타내는 것을 확인할 수 있었고, 11범주에 대한 실험을 통하여 정답문서로 훈련한 SVM 문서분류기와 성능 차이가 거의 없음을 확인할 수 있었다. 그러나 20개의 범주를 모두 사용하였을 경우 범주간의 중복되는 부분이 성능을 저하시킴을 확인할 수 있었다.
세째 특징은 이 과정을 반복시킴으로써 더욱 성능이 향상되도록 한 점이다. 실험을 통하여 본 논문에서제안한 비지도 학습 기법이 다른 연구에서 제안한 비지도 학습 기법보다 우수한 성능을 나타냄을 확인할 수 있었다.
둘째 특징은 이렇게 하여 만들어진 범주 대표 벡터를 이용하여 문서를 분류한 다음 그 결과를 이용하여 각 대표 단어들에 대한 보다 더 정확한 가중치를 구하는 단계(가중치 갱신 단겨】)를 두었다는 점이다. 이 가중치 갱신을 위해서 정보검색에서 자주 사용되는 tf-idf 개념을이용하였다[9丄 그 결과 보다 정확한 대표 벡터를 얻게함으로써 문서 분류 성능을 대폭 향상시키는 것을 관찰하였다. 세째 특징은 이 과정을 반복시킴으로써 더욱 성능이 향상되도록 한 점이다.
이들도 우리와 유사하게 두 단계의 학습을 하는데, 그들이 사용한 LSKlatent semantic indexing)와 GM (Gaussian mixture) 이론은 이해하기 쉽지 않고 복잡한반면, 우리는 단어간의 상호 정보량과 문서 출현빈도등과 같이 단순한 개념을 사용함에도 더욱 향상된 결과를나타내는 것을 확인할 수 있었다.
표 2에서 확인할 수 있듯이 모듈 2의 최종 결과 즉, 모듈 1에서 기계가 레이블을 붙인 말뭉치로 학습한 SVM분류기와 사람이 제공한 정답 레이블로 학습한 SVM(purbSVM)은 성능의 차이가 거의 없음을 확인할 수 있었다.
각 범주마다 학습할 대표 단어들의 수에 대한 임계치。를 얼마로 하여야 할지는 어려운 문제이다. 현재로서 400 인 경우에 가장 좋은 성능을 얻을 수 있음을 실험을 통해 알 수 있었다.

후속연구

즉 스텝 2는 대표 단어의 제거 기능은 없고 단지 가중치를 보다 정확한 것으로 갱신하여 주는 기능은 있다. 그렇다면 단어 X에 대하여 스텝 2에서 매우 낮은 가중치를 받은 사실을 이용할 수는 없을까? 만약 스텝 1 을 다시 한번 더 수행하도록 하고 그 과정에서 元가 스텝 2에서 매우 나쁜 가중치를 받은 사실을 고려하여 가능하면 다른 단어 보다 먼저 대표 단어로 학습되지 못하도록 한다면 X가 학습될 가능성을 낮출 수 있을 것이다. h 에폭의 스텝 1(즉 3.
그러나 20개의 범주를 모두 사용하였을 경우 범주간의 중복되는 부분이 성능을 저하시킴을 확인할 수 있었다. 향후 각 범주간예중복이 존재하거나 100% 정확하지 않은 훈련 데이타에대해서도 높은 성능을 낼 수 있는 연구가 필요하다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

정보검색 기술을 이용한 비지도 학습 기반 문서 분류 시스템 개발
Developing a Text Categorization System Based on Unsupervised Learning Using an Information Retrieval Technique 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (23)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

정보검색 기술을 이용한 비지도 학습 기반 문서 분류 시스템 개발 Developing a Text Categorization System Based on Unsupervised Learning Using an Information Retrieval Technique 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (23)

이 논문을 인용한 문헌

저자의 다른 논문 :

이수용 (5) 나동열 (8)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

정보검색 기술을 이용한 비지도 학습 기반 문서 분류 시스템 개발
Developing a Text Categorization System Based on Unsupervised Learning Using an Information Retrieval Technique 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper