[논문]퍼지추론 기반 대표 키워드 추출방법의 성능 평가

노순억; 김병만; 오상엽; 이현아

문제 정의

하지만 ⑵의 방법은 사용자가 피드백하는 문서가 소수이며 긍정적인 문서만 피드백한다는 가정 하에서 제안되었다. 따라서, 본 논문에서는 [2]의 방법을 다수의 문서가 주어진 경우와 부정적 문서도 같이 주어진 경우로 확장하여 그 유용성을 확인하고자 하였다. 이를 위해 GIS (Generalized Instance Set) 알고리즘 [10, 11]에 [2]의 방법을 적용시켜 그 성능을 평가하였다.
본 논문에서는 소수의 긍정적 문서 집합을 대상으로 문서들의 내용을 대표하는 중요 용어들을 추출하고 이들의 가중치를 부여하는 문제를 해결하기 위한 방법인 퍼지 추론 및 용어 발생 빈도 수의 유사성을 이용한 가중치 재산정 접근 방법을 GIS 알고리즘에 적용시켜 문서분류 성능을 비교해 보았다. GIS 알고리즘에 적용시켜 봄으로써 소수 학습 문서 집합을 대상으로 한다는 제약성을 극복할 수 있었으며 긍정적 문서들만을 일반화에 사용한 실험에서 나은 성능을 보여줌으로써 성능 향상의 가능성을 확인할 수 있었다.
위 실험을 통하여 본 방법은 적당수 (10 ~ 30개)의 관련문서가 주어진 경우 좋은 성능을 보임을 확인할 수 있었다. 본 실험에서는 사용자로부터 더 많은 수의 관심 문서들이 주어진 경우를 고려하여 위 방법의 성능을 확인하고자 하였다. 우선 다수 의 문서 집합에 대한 위 방법의 성능을 살펴본 후 문서들을 여러 개의 소수 문서 집합들로 분할한 뒤 각각에 대해 위 방법을 적용시키는 방법에 대한 성능을 살펴보았다.

가설 설정

[2]에서는 학습 문서에 퍼지 추론을 적용시켜 초기 중요 단어들을 추출하고 이 단어들을 초기 질의어로 간주하여 기존의 질의 자동 확장 방법을 적용시켜 중요도를 재산정하는 방법을 제안하였고 실험을 통해 그 유용성을 확인하였다. 하지만 ⑵의 방법은 사용자가 피드백하는 문서가 소수이며 긍정적인 문서만 피드백한다는 가정 하에서 제안되었다. 따라서, 본 논문에서는 [2]의 방법을 다수의 문서가 주어진 경우와 부정적 문서도 같이 주어진 경우로 확장하여 그 유용성을 확인하고자 하였다.

제안 방법

GIS 분류기를 이용한 실험에서는 GIS 알고리즘의 일반화 함수 (Generalization function) 에 Rocchio, Widrow- Hoff 그리고 본 제안 방법을 적용시킬 수 있다. GIS 알고리즘의 일반화 함수에 사용된 k 값으로 10 에서 150 사이의 10 단위로 선택한 총 15개의 k 값들을 선택하고 각각에 대해 분류 실험을 수행하였다.
RKEF의 유용성을 평가하기 위해 다양한 실험을 하였다. RKEF 방법이 원래 소수의 관심문서가 주어진 경우에 맞추어 제안된 방법이기 때문에 먼저, 소수의 긍정적 문서가 주어진 경우의 Roccio와 Widrow-Hoff 방법과의 성능을 비교하였다. 그리고, 다수의 긍정적 문서가 주어졌을 경우의 적용 방안과 그 성능 평가를 하였다.
RKEF 방법이 원래 소수의 관심문서가 주어진 경우에 맞추어 제안된 방법이기 때문에 먼저, 소수의 긍정적 문서가 주어진 경우의 Roccio와 Widrow-Hoff 방법과의 성능을 비교하였다. 그리고, 다수의 긍정적 문서가 주어졌을 경우의 적용 방안과 그 성능 평가를 하였다. 마지막으로 부정적 문서까지 고려할 경우의 적용 방안과 성능 평가도 하였다.
본 논문에서는 바로 이 일반화 과정의 한 방법으로 [2]의 방법을 사용하였다. 그리고, 이 일반화(generalization) 과정에 Rocchio와 Widrow-Hoff 방법도 적용시켜 상대적 성능 비교를 하였다.
우선 전자의 경우 클러스터링 레벨을 미리 결정해야만 하고 후자의 경우 또한 분할되어 생성될 문서 그룹 즉 클러스터 개수 (K)를 미리 결정해야만 하는 제약들이 있다. 따라서 본 실험에서는 앞에서 열거한 일반적인 분류 방법을 사용하지 않고 문서 분류 쪽에서 좋은 성능을 보이고 있는 GIS(Generalized Instance Set) 방법에 본 방법을 적용시켰다.
25 이었다. 따라서, 부정적 문서들을 포함한 실험에서는 이를 변경하여 사용하였다. 즉, Rocchio의 경우 a = 0, P = 1, X = 1, Widrow-Hoff 의 경우 n = 0.
본 논문에서 다루는 내용은 문서 자동 분류에서 문서 범주의 대표용어를 구성하는 문제와 유사하다. 따라서, 이번 장에서는 다양한 문서 분류 방법 -Decision tree, Decision rule, Neural network, Rocchio, Widrow-Hoff, k-NN, GIS, SVM 등 [1, 3, 4, 5, 6, 7, 9] - 중에서 학습 문서 집합의 중심 벡터를 구성하는 분류 방법인 Rocchio와 Widrow- Hoff 그리고 이들을 이용하는 GIS(Generalized Instance Set) 방법[3, 10, 11]에 대해서 살펴본다.
그리고, 다수의 긍정적 문서가 주어졌을 경우의 적용 방안과 그 성능 평가를 하였다. 마지막으로 부정적 문서까지 고려할 경우의 적용 방안과 성능 평가도 하였다.
본 실험에서는 사용자로부터 더 많은 수의 관심 문서들이 주어진 경우를 고려하여 위 방법의 성능을 확인하고자 하였다. 우선 다수 의 문서 집합에 대한 위 방법의 성능을 살펴본 후 문서들을 여러 개의 소수 문서 집합들로 분할한 뒤 각각에 대해 위 방법을 적용시키는 방법에 대한 성능을 살펴보았다.
이는 다수의 문서 집합에 대해서는 문서들을 그룹핑한 후 각각의 그룹에 대해서 RKEF 방법을 적용해야 함을 의미한다. 이러한 목적으로 본 논문에서는 GIS 알고리즘과 RKEF 방법을 결합시켜 사용 하였다.
RKEF 방법은 처음부터 긍정적 문서만 주어진다는 가정 하에 제안되었다. 하지만, 본 논문에서는 퍼지 추론 방법과 연관 피드백 방법을 그대로 유지한 채 부정적 문서까지 고려할 경우의 성능 평가를 시도하였다. 식 6은 학습 문서 집합 중에서 부정적 문서집합을 해당 범주의 대표 벡터를 구성 하는데 사용하기 위해서 본 실험에서 사용된 계산식이다.
식 6은 학습 문서 집합 중에서 부정적 문서집합을 해당 범주의 대표 벡터를 구성 하는데 사용하기 위해서 본 실험에서 사용된 계산식이다. 핵심적인 초기 대표 용어 집합을 퍼지 추론을 통해서 긍정적 문서 집합과 부정적 문서 집 합으로부터 개별적으로 추출하여 용어 가중치 재산정에 사용하였다. GIS 알고리즘을 적용하여 클러스터를 생성할 경우 그 클러스터 안에는 일반적으로 긍정적 문서와 부정적 문서를 모두 포함하며 문서의 수는 몇몇 클러스터를 제외하고는 인수로 주어진 k가 된다.

대상 데이터

실험 시 사용된 조정 상수는 앞 실험과 동일하다. 그렇지만, 실험 대상 범주는 앞 실험에서 설명한 90개의 범주에서 다수의 학습 문서들을 가진 상위 20개의 범주를 선택하였다. GIS 분류기를 이용한 실험에서는 GIS 알고리즘의 일반화 함수 (Generalization function) 에 Rocchio, Widrow- Hoff 그리고 본 제안 방법을 적용시킬 수 있다.
실험 문서 집합으로는 Reuters-21578을 선택하였다 [13], 본 논문에서는 Reuters-21578의 TOPICS 범주들을 선택하였으며 ApteMod 버전을 사용했고 라벨이 없는 문서들은 제외시켰다. 실험 대상으로 소수 예제 문서 집합들을 준비하고자 테스트 문서 집합과 학습 문서 집합에 적어도 하나의 문서를 각각 포함하고 있는 범주(category)들을 선택(총 90개)한 후 이중에서 학습 문서 개수가 10개~30개인 범주 21개를 마지막으로 선별했다.
실험 문서 집합으로는 Reuters-21578을 선택하였다 [13], 본 논문에서는 Reuters-21578의 TOPICS 범주들을 선택하였으며 ApteMod 버전을 사용했고 라벨이 없는 문서들은 제외시켰다. 실험 대상으로 소수 예제 문서 집합들을 준비하고자 테스트 문서 집합과 학습 문서 집합에 적어도 하나의 문서를 각각 포함하고 있는 범주(category)들을 선택(총 90개)한 후 이중에서 학습 문서 개수가 10개~30개인 범주 21개를 마지막으로 선별했다.
테스트 문서 집합은 3019개의 문서들을 포함하고 있다. 용어의 역문헌 빈도수(IDF)값을 구하기 위해 90개의 범주들에 속하는 7770개의 학습 문서 집합으로부터 문서 빈도수 정보를 이용하였다. 사용자는 자신의 관심 사항에 부합하는 긍정적 문서 집합(positive documents)만을 제공한다는 가정하에 알고리즘 수행시 부정적 문서 (negative documents) 들의 정보 이용은 모두 제외시켰다.
테스트 문서 집합은 3019개의 문서들을 포함하고 있다. 용어의 역문헌 빈도수(IDF)값을 구하기 위해 90개의 범주들에 속하는 7770개의 학습 문서 집합으로부터 문서 빈도수 정보를 이용하였다.

데이터처리

비교 대상 알고리즘에 사용된 벡터들의 가중치는 용어의 TFxIDF로 계산하였다[1]. 실험시 사용된 조정 상수(parameter)들의 설정값들은 [1, 1이에서 사용한 값을 이용하였다.

이론/모형

그렇지만, 실험 대상 범주는 앞 실험에서 설명한 90개의 범주에서 다수의 학습 문서들을 가진 상위 20개의 범주를 선택하였다. GIS 분류기를 이용한 실험에서는 GIS 알고리즘의 일반화 함수 (Generalization function) 에 Rocchio, Widrow- Hoff 그리고 본 제안 방법을 적용시킬 수 있다. GIS 알고리즘의 일반화 함수에 사용된 k 값으로 10 에서 150 사이의 10 단위로 선택한 총 15개의 k 값들을 선택하고 각각에 대해 분류 실험을 수행하였다.
GIS는 학습 문서 집합에 대한 일반화(generalization) 과정을 통해 문서 그룹들을 형성하고 이 그룹의 대표 문서(generalized instance)를 생성한 후 k-NN 알고리즘 ⑸을 적용하는 방법이다. 본 논문에서는 바로 이 일반화 과정의 한 방법으로 [2]의 방법을 사용하였다. 그리고, 이 일반화(generalization) 과정에 Rocchio와 Widrow-Hoff 방법도 적용시켜 상대적 성능 비교를 하였다.
이 경우에 발생되는 문제점은 제공된 문서 집합으로부터 사용자를 대신해서 대표 용어를 추출하고 이들에게 어느 정도의 중요도를 부여할 것인가이다. 이러한 접근 방법의 하나로 본 연구자는 퍼지 추론을 이용한 방법을 제시하였다 [2].
따라서, 본 논문에서는 [2]의 방법을 다수의 문서가 주어진 경우와 부정적 문서도 같이 주어진 경우로 확장하여 그 유용성을 확인하고자 하였다. 이를 위해 GIS (Generalized Instance Set) 알고리즘 [10, 11]에 [2]의 방법을 적용시켜 그 성능을 평가하였다.

성능/효과

본 논문에서는 소수의 긍정적 문서 집합을 대상으로 문서들의 내용을 대표하는 중요 용어들을 추출하고 이들의 가중치를 부여하는 문제를 해결하기 위한 방법인 퍼지 추론 및 용어 발생 빈도 수의 유사성을 이용한 가중치 재산정 접근 방법을 GIS 알고리즘에 적용시켜 문서분류 성능을 비교해 보았다. GIS 알고리즘에 적용시켜 봄으로써 소수 학습 문서 집합을 대상으로 한다는 제약성을 극복할 수 있었으며 긍정적 문서들만을 일반화에 사용한 실험에서 나은 성능을 보여줌으로써 성능 향상의 가능성을 확인할 수 있었다. 향후 부정적 문서 집합을 고려한 퍼지 추론 방법에 대한 연구가 진행된다면 더 나은 성능을 기대할 수 있을 것으로 보인다.
표 4는 다수의 학습 문서 집합을 가진 상위 20개의 범주들에 대하여 RKEF만을 사용했을 경우의 성능과 GIS 방법rhk 결합했을 경우의 성능을 함께 보여주고 있다. 결과를 살펴보면 다수의 문서 집합 에 퍼지 추론 기반 방법을 소수의 문서 집합에 적용할 때와 마찬가지로 동일하게 그대로 적용하기 보다는 다수의 문서 집합을 여러 개의 소수의 문서 집합들로 그룹화하는 GIS 방법과 함께 사용하 는 것이 보다 효과적임을 알 수 있다.
표 2는 다수의 학습 문서를 가진 상위 20개의 범주들에 대한 문서 분류 성능을 보여주고 있다. 결과를 살펴보면 퍼지 추론과 연관 피드백 방법을 결합시킨 방법(RKEF)의 성능이 Rocchio 와 Widrow- Hoff 의 성능들과 큰 차이를 보여주고 있지 않다. 이는 다수의 문서 집합에 대해서는 문서들을 그룹핑한 후 각각의 그룹에 대해서 RKEF 방법을 적용해야 함을 의미한다.
위 실험을 통하여 본 방법은 적당수 (10 ~ 30개)의 관련문서가 주어진 경우 좋은 성능을 보임을 확인할 수 있었다. 본 실험에서는 사용자로부터 더 많은 수의 관심 문서들이 주어진 경우를 고려하여 위 방법의 성능을 확인하고자 하였다.
RKEF, 즉 퍼지추론과 연관 피드백 방법을 결합시킨 방법의 결과는 표 1과 같다. 표 1을 살펴보면 RKEF이 다른 비교 방법들보다 나은 성능을 보여주고 있음을 확인할 수 있다. 실험에 사용한 문서 분류가 소수의 문서 (10 ~ 30개)로 구성되었음을 주지하기 바란다.
표 3은 GIS 알고리즘의 일반화 함수에서 긍정적 문서들만을 사용했을 경우, 위의 k 값들에 대한 실험 결과들 중에서 일반화 과정에 사용된 방법별로 각 범주별 가장 좋은 성능값들을 선택해서 보여주고 있다. 표 3의 결과를 살펴보면 GIS 알고리즘의 일반화 함수에서 긍정적 문서들만을 사용했을 경우 다른 비교 방법들에 비해서 RKEF가 향상된 성능을 보여주고 있음을 확인할 수 있다.

후속연구

GIS 알고리즘에 적용시켜 봄으로써 소수 학습 문서 집합을 대상으로 한다는 제약성을 극복할 수 있었으며 긍정적 문서들만을 일반화에 사용한 실험에서 나은 성능을 보여줌으로써 성능 향상의 가능성을 확인할 수 있었다. 향후 부정적 문서 집합을 고려한 퍼지 추론 방법에 대한 연구가 진행된다면 더 나은 성능을 기대할 수 있을 것으로 보인다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

퍼지추론 기반 대표 키워드 추출방법의 성능 평가
Performance Evaluation of the Extractiojn Method of Representative Keywords by Fuzzy Inference 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

퍼지추론 기반 대표 키워드 추출방법의 성능 평가 Performance Evaluation of the Extractiojn Method of Representative Keywords by Fuzzy Inference 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

노순억 (3) 김병만 (63) 오상엽 (3) 이현아 (15)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

퍼지추론 기반 대표 키워드 추출방법의 성능 평가
Performance Evaluation of the Extractiojn Method of Representative Keywords by Fuzzy Inference 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper