[논문]용어분포 임계치를 이용한 정보검색 성능개선에 관한 연구

민태홍

용어분포 임계치를 이용한 정보검색 성능개선에 관한 연구
A Study on Performance Improvement of Information Retrieval using Threshold of Term Distribution 원문보기

인터넷에서 전자 정보의 양이 증가함으로써 관련 정보만을 자동으로 검색하는 방법이 매우 중요하다. 전통적인 정보 검색 시스템의 결점은 사용자가 부여한 탐색 용어가 시스템이 색인한 용어와 다르기 때문에, 부정확한 정보를 검색하거나 정확한 정보를 놓치게 된다. 본 연구에서는 검색 성능 향상을 위해 용어 분포에 기반한 질의어 확장을 사용하며, 용어 분포 임계치를 설정하여 효과적으로 검색 성능을 개선하는 방안을 제안한다.

With the increasing availability of information in electronic form, it becomes more important and feasible to have automatic methods to retrieve relevant information in the internet. A deficiency of traditional information retrieval systems is that search terms are often different from those indexed by the systems. Thus, user may either retrieve wrong information or miss what they really want. In this paper, we used an automatic query expansion based on term distribution to enhance the performance of information retrieval. Also this thesis proposed the method for setting the threshold according to area distribution in order to choose additional terns.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이들 용어의 분포를 파악하기 위해서 특이치 분해 (SVD : Singular Value Decomposition) 기법[2]을 이용하고 유사성(similarity) 측정을 위해서는 코사인계수(cosine coefficient)를 사용한다. 그러나 용어의 수가 많을 때는 유사성 수치 값이 비슷한 것이 많아지고 이들 모두를 질의어에 추가하는 것은 비효율적이기에, 본 논문에서는 임계치를 설정하여 효과적으로 검색 성능을 개선하는 방안을 연구한다.
본 논문은 기존 연구의 문제점인 용어 문제, 검색성능 향상 문제를 해결하기 위해 전체 문서에서 나타나는 용어 분포를 이용해 개념 기반 검색을 지원하는 질의어 확장 방법을 대상으로 하였다. 이를 위해 벡터 공간 모델을 기반으로 질의어와 문서 또는 용어간의 의미적 유사성을 파악하기 위해 특이치 분해를 이용하였다.
본 논문은 기존 연구의 문제점인 용어 문제, 검색성능 향상 문제를 해결하기 위해 전체 문서에서 나타나는 용어 분포를 이용해 개념 기반(concept-based) 검색을 지원하는 질의어 확장 방법을 대상으로 한다. 이들 용어의 분포를 파악하기 위해서 특이치 분해 (SVD : Singular Value Decomposition) 기법[2]을 이용하고 유사성(similarity) 측정을 위해서는 코사인계수(cosine coefficient)를 사용한다.
또한 질의어 확장시, 질의어에 추가 할 용어를 선택할 때 유사성이 매우 밀접한 것들이 많이 발생하였다. 유사성 값이 비슷한 용어를 질의어에 모두 추가한다는 것은 검색 성능 개선에 큰 도움이 되지 않기 때문에 본 논문에서는 이들 용어중에서 임계치를 설정하여 검색 성능을 개선할 수있는 방법을 연구하고 평가하였다. 그 결과 단순히 질의어를 확장하는 모델보다는 3% 정도의 검색 성능 개선을 가져왔다.

가설 설정

질의어 기준축을 중심으로 점선으로 표현한 영역 안에 있는 용어는 문서 집합체에서 사용 분포도가 유사하다. 따라서 질의어를 확장한다면 점선 내부에 있는 용어를 선택하는 것이 합리적일 것이다. 이들 용어는 <표 4>에 밑줄이 있는 글자로 표현하였다.

제안 방법

전구간을。.1 단위로 세분하여 표현하는 11-포인트 평균 정확도(11-point average precision)를 사용하였다. 실험 결과는 질의어 확장을 위해 추가되는 용어 개수가 50-200개 사이일 때 최적의 성능개선을 나타내었다.
이를 위해 벡터 공간 모델을 기반으로 질의어와 문서 또는 용어간의 의미적 유사성을 파악하기 위해 특이치 분해를 이용하였다. 기존에 특이치 분해를 이용한 방법들은 질의어와 문서간의 유사성에 초점을 두어 연구하였으나, 본 논문에서는 질의어와 용어간의 유사성을 측정한 후 이것을 정보 검색에 활용하는 방법올 제안하였다. 또한 질의어 확장시, 질의어에 추가 할 용어를 선택할 때 유사성이 매우 밀접한 것들이 많이 발생하였다.
문서 집합체 TIME과 CACM에서 k값을 100으로 설정하여 질의어 확장을 수행하였다. 검색 결과는 정확도와 재현도의 성능을 쉽게 파악할 수 있도록 재현도의 전구간을。.
질의어 확장 방법을 대상으로 하였다. 이를 위해 벡터 공간 모델을 기반으로 질의어와 문서 또는 용어간의 의미적 유사성을 파악하기 위해 특이치 분해를 이용하였다. 기존에 특이치 분해를 이용한 방법들은 질의어와 문서간의 유사성에 초점을 두어 연구하였으나, 본 논문에서는 질의어와 용어간의 유사성을 측정한 후 이것을 정보 검색에 활용하는 방법올 제안하였다.
질의어 확장에 필요한 질의어 벡터와 용어 벡터 간의 유사성 측정을 위해 각 용어 벡터와 질의어 벡터와의 관계는를 이용한다.

대상 데이터

본 논문에서 제안하고 있는 용어 분포도에 기반한 개념적 정보 검색의 성능을 확인하기 위해 TIME 과 CACM 실험 문서 집합체를 사용하였다. 이들 문서 집합체는 널리 사용되고 있으며 사전에 각각의 질의어가 검색해야 할 문서들이 결정되어 있다.
이들 문서 집합체는 널리 사용되고 있으며 사전에 각각의 질의어가 검색해야 할 문서들이 결정되어 있다. 성능 평가을 위한 모든 실험은 SUN Enterprise3000« 라리스 2.5.1)에서 구현하였으며, 프로그래밍 언어로는 C언어를 사용하였다.

이론/모형

<표 2>와 같이 실험 데이터로는 9개의 문서 제목과 이 문서를 구성하고 있는 용어를 사용한다. 문서 집합체에 출현하는 29개의 용어 중 두 개 이상의 문서에 출현한 12개 용어(밑줄)만을 이용하고, 질의어로는 “human computer”를 사용한다. 이 문서 집합체는두 부류로 구성되어 있는데 cl-c5 문서가 같은 내용의 문서이고, ml-m4가 같은 종류의 문서이다.
한다. 이들 용어의 분포를 파악하기 위해서 특이치 분해 (SVD : Singular Value Decomposition) 기법[2]을 이용하고 유사성(similarity) 측정을 위해서는 코사인계수(cosine coefficient)를 사용한다. 그러나 용어의 수가 많을 때는 유사성 수치 값이 비슷한 것이 많아지고 이들 모두를 질의어에 추가하는 것은 비효율적이기에, 본 논문에서는 임계치를 설정하여 효과적으로 검색 성능을 개선하는 방안을 연구한다.

성능/효과

유사성 값이 비슷한 용어를 질의어에 모두 추가한다는 것은 검색 성능 개선에 큰 도움이 되지 않기 때문에 본 논문에서는 이들 용어중에서 임계치를 설정하여 검색 성능을 개선할 수있는 방법을 연구하고 평가하였다. 그 결과 단순히 질의어를 확장하는 모델보다는 3% 정도의 검색 성능 개선을 가져왔다.
1 단위로 세분하여 표현하는 11-포인트 평균 정확도(11-point average precision)를 사용하였다. 실험 결과는 질의어 확장을 위해 추가되는 용어 개수가 50-200개 사이일 때 최적의 성능개선을 나타내었다.<표 5>는 두 가지 실험 모델에서 질의어에 추가되는 용어의 개수가 50, 100, 150, 200 일 때 평균 정확도 개선율을 나타낸 것이다.
측정된 수치이다. 용어 출현 빈도수 분포도를 이용하여 단순히 질의어 확장올 한 경우 TIME에서는 평균 15%, CACM에서는 16% 개선되었고 임계치를 설정하여 질의어 확장을 한 경우 TD座에서는 17%, CACM에서는 19%의 성능이 개선되었다. 따라서 임계치를 이용하는 방법은 실험 문서 집합체의 크기가 클수록 검색 성능의 개선에 효과가 클 것이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

용어분포 임계치를 이용한 정보검색 성능개선에 관한 연구
A Study on Performance Improvement of Information Retrieval using Threshold of Term Distribution 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

용어분포 임계치를 이용한 정보검색 성능개선에 관한 연구 A Study on Performance Improvement of Information Retrieval using Threshold of Term Distribution 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

이 논문을 인용한 문헌

저자의 다른 논문 :

민태홍 (2)

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

용어분포 임계치를 이용한 정보검색 성능개선에 관한 연구
A Study on Performance Improvement of Information Retrieval using Threshold of Term Distribution 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper