[논문]휴리스틱을 이용한 kNN의 효율성 개선

이재문

doi:10.3745/kipstb.2003.10b.6.719

휴리스틱을 이용한 kNN의 효율성 개선
An Improvement Of Efficiency For kNN By Using A Heuristic 원문보기

정보처리학회논문지. The KIPS transactions. Part B. Part B, v.10B no.6, 2003년, pp.719 - 724

초록
AI-Helper

이 논문은 kNN의 정확도의 손실 없이 kNN의 효율성을 개선하는 휴리스틱을 제안한다. 제안된 휴리스틱은 kNN 실행 시간의 주요 요소인 두 문서간 유사성 계산을 최소화하는 것이다. 이것을 위하여 본 논문은 유사성의 상한값을 계산하는 방법과 훈련 문서를 정렬하는 방법을 제안한다. 제안된 휴리스틱을 문서 분류 프레임？인 AI :: Categorizer 상에서 구현하였으며, 잘 알려진 로이터-21578 데이터를 사용하여 기존의 kNN과 비교하였다. 성능 비교의 결과로부터 제안된 휴리스틱을 적용한 방법이 기존의 kNN보다 실행 속도측면에서 약 30∼40%의 개선 효과가 있음을 알 수 있었다.

Abstract ▼ AI-Helper

This paper proposed a heuristic to enhance the speed of kNN without loss of its accuracy. The proposed heuristic minimizes the computation of the similarity between two documents which is the dominant factor in kNN. To do this, the paper proposes a method to calculate the upper limit of the similarity and to sort the training documents. The proposed heuristic was implemented on the existing framework of the text categorization, so called, AI :: Categorizer and it was compared with the conventional kNN with the well-known data, Router-21578. The comparisons show that the proposed heuristic outperforms kNN about 30∼40% with respect to the execution time.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

kNN의 성능 분석의 목적은 시간 복잡도 계산과 잘 알려 진 데이터를 사용하여 실제 실행 시간을 측정하여 kNN 방 법의 병목 현상을 주는 요소가 무엇인지를 보이는 것이다. 먼저 kNN의 시간 복잡도를 계산하기로 한다.
따라서 정확한 유사성을 계산하지 않아도 유사성이 클 가능성이 있는 문서를 먼저 처리하도록 학습 문서를 정렬하여야 할 필요가 있다. 본 논문에서는 이를 위하여 용어-문서목록의 사용을 제안한다. 용어-문서 목록에 근거하여 학습문서를 정렬하고 그 정렬된 순서에 따라 스텝 4를 실행하도록 알고리즘을 개선한다.
본 논문은 kNN의 효율성 개선을 위하여 하나의 휴리스틱을 제안하였다. 제안된 휴리스틱은 유사성의 상한값을 이용하여 유사성의 계산을 가능한 최소화하는 것이다.
본 논문은 비교적 실시간적인 특성이 적은 학습 단계에서 많은 처리를 하게 함으로써 분류 단계에서 보다 효율적으로 동작하도록 하여 kNN의 실행 속도를 향상 시키는 방법을 제안한다.
따라서 상대적으로 분류 단계에서 많은 작업을 해야 하고 결과적으로 실행 속도가 매우 느리다. 본 논문은 이러한 kNN의 단점을 보완하여 분류 단계의 실행 속도를 높이는 것에 관한 연구이다. kNN 은 하나의 시험 문서에 대하여 모든 학습 문서와 유사성을 계산한다.
따라서 kNNe 학습 문서의 수가 증가하면, 그 증가하는 비율에 따라 분류 단계의 속도는 느려지게 된다. 본 논문은 휴리스틱을 적용하여 학습 문서와의 유사성 계산을 가능한 최소화함으로써 실행 속도를 높이는 것이다. 물론 이러한 과정에서 kNN의 정확도에 대한 어떠한 희생도 없다.

가설 설정

이 함수를 효율적으로 실행하기 위해서는 두 문서에 대한 CNT를 알아야 한다. 시험 문서 d에 대해서는 스텝 1에서 찾아졌으며, 학습문서 d, 에 대해서는 학습 단계에서 찾아진다고 가정한다. com- pute_maximal_similarity( d, d)에서 는 특별히 이 들을 찾는 과정은 없으며, 따라서 이 함수의 시간 복잡도는。(1)이 된다.

제안 방법

제안한 알고리즘은 잘 알려진 AI ..: Cat- egorizer 프레임웍상에서 구현되었으며, 성능의 우수성을 보이기 위하여 기존의 kNN와 실행 속도측면에서 비교되었다. 성능 비교의 결과는 제안한 알고리즘이 30~40%까지 기존의 kNW보다 우수함을 보였다.
본 논문에서는 이를 위하여 용어-문서목록의 사용을 제안한다. 용어-문서 목록에 근거하여 학습문서를 정렬하고 그 정렬된 순서에 따라 스텝 4를 실행하도록 알고리즘을 개선한다. 용어-문서 목록이란 전체 학습 문서에 대하여 용어별 그 용어를 포함하는 문서의 목록을 말한다.
AI::Categorizer는 객체 지향 문서 분류 프레임웤으로 문서 분류에 필요한 다양한 기능 및 일반적으로 잘 알려진 문서 분류 알고리즘의 구현을 제공한다. 이 프레임웤을 사용함으로써 문서의 토큰화, 벡터 모델 차원 축소등 부수적인 구현을 생략할 수 있었으며, 실험을 위해서 AI:: Categorizer:: Learner 객체로부터 상속된 kNN, BkNN, EkNN만 구현 하였다. 실험은 펜티움IV 512MB의 리눅스 시스템 상에서 실행되었으며, 사용한 데이터는 2장에서 설명한 것과 같이 로이터-21578 ApteMod 버전이다.
kNNe 분류 집합, 학습 문서 집합, 시험 문서 및 상수 *를 입력받는다. 이러한 입력으로부터 모든 학습 문서에 대하여 시험 문서와의 유사성을 계산하여 유사성이 가장 큰 k개의 학습 문서를 선택하고, 선택된 학습 문서가 속하는 분류들에 대하여 등급을 정하여 이들을 출력한다. 다음은 [1, 2, 10]에서 제시한 내용을 기초로한 kNN에 대한 기술이다.
제안된 휴리스틱은 유사성의 상한값을 이용하여 유사성의 계산을 가능한 최소화하는 것이다. 이를 위하여 용어-문서 목록을 이용하였으며, 이 용어-문서 목록을 학습 단계에서 생성하도록 함으로써 분류 단계를 효율적으로 실행하도록 하였다. 제안한 알고리즘은 잘 알려진 AI .
제안하였다. 제안된 휴리스틱은 유사성의 상한값을 이용하여 유사성의 계산을 가능한 최소화하는 것이다. 이를 위하여 용어-문서 목록을 이용하였으며, 이 용어-문서 목록을 학습 단계에서 생성하도록 함으로써 분류 단계를 효율적으로 실행하도록 하였다.
제안된 휴리스틱의 효과를 보이기 위하여 kNN, BkNN, Ek炒心을 구현하여 그 성능을 측정하였다. 구현의 효율성 및 일반성을 위하여 [1이에서 개발한 AI:: Categorizer 프레임웍을 사용하였다.

대상 데이터

실험은 펜티움IV 512MB의 리눅스 시스템 상에서 실행되었으며, 사용한 데이터는 2장에서 설명한 것과 같이 로이터-21578 ApteMod 버전이다. 시험 문서는 10, 788 문서로부터 임의적으로 선택한 788개의 문서로 고정하였으며, 학습 문서는 10가지 다른 데이터를 시험 문서를 제외한 10, 000 문서로부터 임의적으로 선택하였다. 학습 문서는 DXK로 표시되는데 이것의 의미는 이 학습 문서에는 X천개의 문선가 학습 문서로 사용되었다는 것이다.
kNN의 실행 시간을 측정하기 위해서 Apte- Mod는 하나의 시험 문서 집합과 다수의 학습 문서 집합으로 나누어 졌다. 시험 문서로는 ApteMod로부터 788개의 문서가 임의적으로 선택되었으며, 나머지 10, 000개의 문서는 학습 문서로써 사용되었다. 학습 문서는 포함된 문서의 수에 따라 10종류로 나뉘었다.
이 프레임웤을 사용함으로써 문서의 토큰화, 벡터 모델 차원 축소등 부수적인 구현을 생략할 수 있었으며, 실험을 위해서 AI:: Categorizer:: Learner 객체로부터 상속된 kNN, BkNN, EkNN만 구현 하였다. 실험은 펜티움IV 512MB의 리눅스 시스템 상에서 실행되었으며, 사용한 데이터는 2장에서 설명한 것과 같이 로이터-21578 ApteMod 버전이다. 시험 문서는 10, 788 문서로부터 임의적으로 선택한 788개의 문서로 고정하였으며, 학습 문서는 10가지 다른 데이터를 시험 문서를 제외한 10, 000 문서로부터 임의적으로 선택하였다.
실험을 위하여 사용된 데이터는 로이터-21578 ApteMod 버전[8]이다. 이것은 약 40M 바이트의 데이터로 10, 788 뉴스 문서로 구성되어 있다.

이론/모형

구현하여 그 성능을 측정하였다. 구현의 효율성 및 일반성을 위하여 [1이에서 개발한 AI:: Categorizer 프레임웍을 사용하였다. AI::Categorizer는 객체 지향 문서 분류 프레임웤으로 문서 분류에 필요한 다양한 기능 및 일반적으로 잘 알려진 문서 분류 알고리즘의 구현을 제공한다.
즉 D1K는 1,000개의 학습 문서가 있는 문서 집합을 의미한다. 실험은 펜티움IV 1GMB 메모리를 가진 리눅스 시스템에서 수행되었으며, 문서 분류를 위하여 사용된 프레임웤은 [10, 12]에서 개발된 객체지향 문서 분류 프레임웤을 이용하였다.

성능/효과

본 논문에서 제안하는 기본 개념은 매우 간단한다. 2.1 절의 마지막에서 주어진 예제를 다시 한번 관찰하면, di, d$ 과의 유사성은 최종 결과를 도출하는데 있어 아무런 영향을 미치지 못하였다. 즉, 이것은 이들의 유사성은 계산할 필요도 없었다는 것을 의미한다.
: Cat- egorizer 프레임웍상에서 구현되었으며, 성능의 우수성을 보이기 위하여 기존의 kNN와 실행 속도측면에서 비교되었다. 성능 비교의 결과는 제안한 알고리즘이 30~40%까지 기존의 kNW보다 우수함을 보였다.

참고문헌 (12)

Y. Yang, 'Expert Network : Effective and efficient learning from human decisions in text categorization and retrieval,' In 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 1994
S.T. Dumais, J. Platt, D. Heckerman, and M. Sahami, 'Inductive learning algorithms and representations for text categorization,' In CIKN
Y. Yang and X. Liu, 'A re-examination of text categorization methods,' In 22nd Annual International ACM SIGIR Congerence on Reseaech and Development in Information Retrieval, Berkley, August, 1999
Calvo, R.A. and H.A. Ceccatto, 'Intelligent Document Classification,' Intelligent Data Analysis, 4(5), 2000

상세보기
Calvo, R.A., 'Classifying financial news with neural networs,' In 6th Australian Document Symposium, p.6, December, 2001
Tom Ault and Y. Yang, 'kNN, Rocchio and Metrics for Information Fitering at TREC-10,' In The 10th Text Retrieval Conference(TREC-10), NIST, 2001
Y. Yang, 'A Study on Thresholding Strategies for Text Categorization,' In 24th Annual Intermational ACM SIGIR Conference on Research and Development in Information Retrieval, New York, 2001
Reuters-21578 Document Collection, http://about.reuters.com/researchandstandards/corpus
Sebastiani F., 'Machine learning in automated text categorization,' ACM Computing Surveys, 34(1), pp.1-47, 2002

상세보기
Williams K. and R.A. Calvo, 'A Framework for Text Categorization,' 7th Australian Document Computing Symposium, December, 2002
김한준, '텍스트 마이닝 기술을 적용한 대용량 온라인 문서데이터의 계층적 조직화 기법,' 서울대학교 대학원 박사학위 논문, 2002
Calvo, R.A. and J.M. Lee, 'Coping with the News: the machine learning way,' The 9th Australian Workd Wide Web Conference(AUSWEB 03), 2003

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증