[논문]단어간 연관성을 사용한 kNN 알고리즘

전승룡; 이재문; 오하령

단어간 연관성을 사용한 kNN 알고리즘
kNN Alogrithm by Using Relationship with Words 원문보기

전승룡 (한성대학교 멀티미디어공학과) , 이재문 (한성대학교 멀티미디어공학과) , 오하령 (국민대학교 전자공학과)

본 논문은 연관규칙탐사 기술에서 사용되는 빈발항목집합과 동일한 개념으로 문서분류의 문서에서 빈발단어집합을 정의하고, 이를 사용하여 문서분류 방법으로 잘 알려진 kNN에 적용하였다. 이를 위하여 하나의 문서는 여러 개의 문단으로 나뉘어졌으며, 각 문단에 나타나는 단어들의 집합을 트랜잭션화하여 빈발단어집합을 찾을 수 있도록 하였다. 제안한 방법은 AI::Categorizer 프레임워크에서 구현되었으며 로이터-21578 데이터를 사용하여 학습문서의 크기에 따라 그 정확도가 측정되었다. 정확도의 측정된 결과로 부터 제안된 방법이 기존의 방법에 비하여 정확도를 개선한다는 사실을 알 수 있었다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

)를 계산하기 위하여 사용되는 문서의 <단어, 가중치> 목록이다. 따라서 본 논문에서는 kNN 알고리즘에서 문서를 벡터화할 때 <빈발단어집합, 가중치> 목록을 찾는 방법만 제시하기로 한다.
이것의 이유는 문서에서 단어간의 가중치를 계산하는 것이 쉽지 않기 때문이다. 본 논문에서는 연관규칙탐사 기술에서 사용되는 빈발항목집합과 동일한 개념으로 문서분류의 문서에서 빈발단어집합을 정의하고, 이를 사용하여 단어간 가중치를 계산하여 kNN의 정확도를 개선하는 기법을 제안하고자 한다.
이것의 이유는 문서에서 단어간의 가중치를 계산하는 것이 쉽지 않기 때문이다. 본 논문에서는 연관규칙탐사 기술에서 사용되는 빈발항목집합과 동일한 개념으로 문서분류의 문서에서 빈발단어집합을 정의하고, 이를 사용하여 단어간 가중치를 계산하여 kNN의 정확도를 높이고자 하는 것이다. 이를 위하여 연관규칙탐사 등 데이터마이닝에서 사용하는 빈발항목집합(Large Item Sets)[6, 7]과 동일한 개념의 빈발단어집합을 정의하고 이를 이용하여 단어간 가중치를 계산한다.

제안 방법

본 논문은 연관규칙탐사 기술에서 사용되는 빈발 항목집합을 변형하여 문서분류의 문서에서 빈발단어 집합을 정의하였고, 이를 잘 알려진 kNN에 적용하여 이 방법의 정확도를 개선하였다. 이를 위하여 하나의 문서를 여러 개의 문단으로 나누었으며, 각 문단에 나타나는 단어들의 집합을 트랜잭션화하여 빈발단어집합을 찾을 수 있도록 하였다.
또한 로이터-21578 데이터를 사용하여 그 정확도가 측정되었다. 실험은 학습문서의 크기를 변화 하면서 기존의 kNN와 제안한 방법의 정확도를 측정하였다. 실험으로부터 마이크로 측정에서는 두 방법이 거의 유사한 정확도를 나타내었고, 매크로 측정에서는 제안한 방법이 많은 정확도 개선을 준다는 것을 알 수 있었다.
이를 위하여 연관규칙탐사 등 데이터마이닝에서 사용하는 빈발항목집합(Large Item Sets)[6, 7]과 동일한 개념의 빈발단어집합을 정의하고 이를 이용하여 단어간 가중치를 계산한다. 이를 위하여 문서에서의 빈발단어집합을 정의하고, 연관 규칙탐사에서의 빈발항목집합을 찾는 방법을 이용하여 빈발단어집합을 찾는 방법을 제안하였다. 제안된 알고리즘은 잘 알려진 문서분류 프레임워크상에서 구현되었으며, 로이터-21578 데이터를 사용하여 실험되었다.
본 논문에서는 연관규칙탐사 기술에서 사용되는 빈발항목집합과 동일한 개념으로 문서분류의 문서에서 빈발단어집합을 정의하고, 이를 사용하여 단어간 가중치를 계산하여 kNN의 정확도를 높이고자 하는 것이다. 이를 위하여 연관규칙탐사 등 데이터마이닝에서 사용하는 빈발항목집합(Large Item Sets)[6, 7]과 동일한 개념의 빈발단어집합을 정의하고 이를 이용하여 단어간 가중치를 계산한다. 이를 위하여 문서에서의 빈발단어집합을 정의하고, 연관 규칙탐사에서의 빈발항목집합을 찾는 방법을 이용하여 빈발단어집합을 찾는 방법을 제안하였다.
본 논문은 연관규칙탐사 기술에서 사용되는 빈발 항목집합을 변형하여 문서분류의 문서에서 빈발단어 집합을 정의하였고, 이를 잘 알려진 kNN에 적용하여 이 방법의 정확도를 개선하였다. 이를 위하여 하나의 문서를 여러 개의 문단으로 나누었으며, 각 문단에 나타나는 단어들의 집합을 트랜잭션화하여 빈발단어집합을 찾을 수 있도록 하였다. 제안한 방법은 기존의 잘 알려진 문서분류 프레임워크에서 구현되었다.
이를 위하여 하나의 문서를 여러 개의 문단으로 나누었으며, 각 문단에 나타나는 단어들의 집합을 트랜잭션화하여 빈발단어집합을 찾을 수 있도록 하였다. 제안한 방법은 기존의 잘 알려진 문서분류 프레임워크에서 구현되었다. 또한 로이터-21578 데이터를 사용하여 그 정확도가 측정되었다.

대상 데이터

본 논문에서는 마이크로 F1, 매크로 F1만 측정하였으며, 각각 이들을 miF1 , maF1로 표기한다. 기존의 kNN을 kNNo로 표시하며 제안한 알고리즘을 kNNp 로 표시한다.
이를 위하여 제안된 알고리즘을 [2]에서 개발한 AI::Categorizer 프레임워크를 사용하여 구현하였다. 실험에 사용한 데이터는 로이터-21578 ApteMod 버전[4]이다. 총 10,788개의 문서로 구성된 로이터-21578 데이터는 중 시험 문서로 788개를 선택하고, 나머지 10,000개의 문서를 임의적으로 선택하여 학습문서(DxK) 생성하였다.
이를 위하여 문서에서의 빈발단어집합을 정의하고, 연관 규칙탐사에서의 빈발항목집합을 찾는 방법을 이용하여 빈발단어집합을 찾는 방법을 제안하였다. 제안된 알고리즘은 잘 알려진 문서분류 프레임워크상에서 구현되었으며, 로이터-21578 데이터를 사용하여 실험되었다. 실험을 통하여 제안된 알고리즘이 기존의 kNN보다 정확도를 개선한다는 사실을 알 수 있었다.
실험에 사용한 데이터는 로이터-21578 ApteMod 버전[4]이다. 총 10,788개의 문서로 구성된 로이터-21578 데이터는 중 시험 문서로 788개를 선택하고, 나머지 10,000개의 문서를 임의적으로 선택하여 학습문서(DxK) 생성하였다. 여기서 DxK란 x천개의 문서로 학습문서가 구성되었다는 것을 의미한다.

데이터처리

제안된 알고리즘과 기존의 알고리즘을 문서분류의 실험 데이터로 잘 알려진 로이터-21578 데이터를 사용하여 실험을 통하여 성능을 비교 한다[1, 4]. 이를 위하여 제안된 알고리즘을 [2]에서 개발한 AI::Categorizer 프레임워크를 사용하여 구현하였다.

이론/모형

문서 분류에서 정확도의 측정은 [1]에서 설명한 전통적인 방법을 사용하였다. 즉, 리콜(R:Recall), 정밀도(P:Precision)를 각 분류별로 측정하여 평균을 구하는 매크로 방법와 전체에 대하여 측정하는 마이크로 방법을 사용하였다.
빈발단어집합을 찾는 방법으로 [7]에서 제시한 Partition 방법을 사용한다. 이 방법은 비교적 구현이 쉽고, 모든 데이터베이스를 메모리에 상주하여야 하므로 비교젓 소규모 데이터베이스에 적합하다.
제안된 알고리즘과 기존의 알고리즘을 문서분류의 실험 데이터로 잘 알려진 로이터-21578 데이터를 사용하여 실험을 통하여 성능을 비교 한다[1, 4]. 이를 위하여 제안된 알고리즘을 [2]에서 개발한 AI::Categorizer 프레임워크를 사용하여 구현하였다. 실험에 사용한 데이터는 로이터-21578 ApteMod 버전[4]이다.
문서 분류에서 정확도의 측정은 [1]에서 설명한 전통적인 방법을 사용하였다. 즉, 리콜(R:Recall), 정밀도(P:Precision)를 각 분류별로 측정하여 평균을 구하는 매크로 방법와 전체에 대하여 측정하는 마이크로 방법을 사용하였다. 리콜(R)과 정밀도(P)에 대하여 F₁을 아래 식과 같이 계산하였다[1].

성능/효과

표 4는 D9K에 대하여 최소 지지도를 10%에서 90%까지 변화 시키면서 maF1 및 miF1을 측정한 것이다. maF1 , miF1 모두 최소지지도가 70%, 90%에서 보다 10%, 30%, 50%에서 더 좋은 성능을 보이는 것을 알 수 있다. 이것으로부터 빈발단어집합이 문서분류의 정확도 개선에 영향을 미친다는 사실을 알 수 있고, 또한 최소지지도가 감소할수록 정확도가 개선됨을 볼 수 있었다.
실험은 학습문서의 크기를 변화 하면서 기존의 kNN와 제안한 방법의 정확도를 측정하였다. 실험으로부터 마이크로 측정에서는 두 방법이 거의 유사한 정확도를 나타내었고, 매크로 측정에서는 제안한 방법이 많은 정확도 개선을 준다는 것을 알 수 있었다.
제안된 알고리즘은 잘 알려진 문서분류 프레임워크상에서 구현되었으며, 로이터-21578 데이터를 사용하여 실험되었다. 실험을 통하여 제안된 알고리즘이 기존의 kNN보다 정확도를 개선한다는 사실을 알 수 있었다.
maF1 , miF1 모두 최소지지도가 70%, 90%에서 보다 10%, 30%, 50%에서 더 좋은 성능을 보이는 것을 알 수 있다. 이것으로부터 빈발단어집합이 문서분류의 정확도 개선에 영향을 미친다는 사실을 알 수 있고, 또한 최소지지도가 감소할수록 정확도가 개선됨을 볼 수 있었다. 하지만 최소지지도의 감소는 빈발단어집합의 수를 증가시키므로 kNN의 속도를 감소시킨다.
제안된 알고리즘에서 정확도는 최소지지도에 의존한다. 이것은 최소 지지도에 때라 생성되는 빈발단어집합의 수가 달라지기 때문이다.
그러나 마이크로의 경우 확실히 kNNp가 kNN_o보다 높은 정확도를 준다는 것을 알 수 있다. 특히, 제안된 방법의 경우 학습문서의 크기가 클 때 더 좋은 정확도 개선효과를 준다는 것을 알 수 있다. 이것은 대부분의 문서분류에서 과도 학습을 나타내지 않는 학습문서의 범위 내에서는 학습문서가 많은 경우 더 좋은 정확도를 주기 때문이다.

핵심어

질문

논문에서 추출한 답변

문서 분류에 대한 연구의 방향은 어떻게 나눠지는가?

문서 분류에 대한 연구의 방향은 크게 두 가지로 나뉜다. 하나는 분류의 정확도를 높이는 기술에 관한 연구이고[1, 6], 다른 하나는 문서 분류의 속도를 높이는 기술에 관한 연구이다[2, 3, 5]. 문서 분류에 대한 대부분의 연구는 전자에 집중되어 왔다.

정보관리시스템분야에서 문서 분류 연구가 활발히 진행되는 이유는?

최근 웹 문서 등 전자 문서 급증과 인터넷을 통한 이들에 대한 정보 검색의 급증으로 이들을 관리하는 정보관리시스템 분야에서 문서 분류 연구가 활발히 진행되고 있다[1-6]. 문서 분류에 대한 연구의 방향은 크게 두 가지로 나뉜다.

대부분의 기존 문서분류에서 단어별 가중치만 적용하는 기법을 사용하는 이유는?

대부분의 기존 문서분류에서는 단어별 가중치만 적용하는 기법을 사용하고, 단어간 가중치를 적용하는 기법은 사용하지 않는다[1]. 이것의 이유는 문서에서 단어간의 가중치를 계산하는 것이 쉽지 않기 때문이다. 본 논문에서는 연관규칙탐사 기술에서 사용되는 빈발항목집합과 동일한 개념으로 문서분류의 문서에서 빈발단어집합을 정의하고, 이를 사용하여 단어간 가중치를 계산하여 kNN의 정확도를 높이고자 하는 것이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

단어간 연관성을 사용한 kNN 알고리즘
kNN Alogrithm by Using Relationship with Words 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

단어간 연관성을 사용한 kNN 알고리즘 kNN Alogrithm by Using Relationship with Words 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

단어간 연관성을 사용한 kNN 알고리즘
kNN Alogrithm by Using Relationship with Words 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper