[논문]정보검색시스템의 확률 및 벡터모델에 대한 질의 확장 검색 성능 평가

전유정; 변동률; 박순철

문제 정의

이 점이 정보검색연구자, 종사자 및 웹 공동체의 지배적인 생각으로 받아들여지고 있다. [2] 이에, 본 연구에서는 벡터 모델로써 LSI 모델의 검색 성능을 확률모델의 성능과 비교하고 질의 확장을 통해 그 성능을 더욱 개선시킬 수 있음을 실험을 통해 증명한다.
본 시스템은 이미 국내의 3, 000만개 웹 페이지서 보이는 것에 대한 테스트를 마쳤으며 그 안정성을 확보하고 있다. 이 절에서는 확률모델인 콘도르 정보검색시스템의 특징을 알아보기 위하여 확률모델의 특징과 콘도르 정보검색시스템의 구조에 관해 간단히 살펴본다.

가설 설정

[3] 사용자 질의 q와 컬렉션의 문헌 d가 주어지면, 사용자가 문헌 dj에 흥미(즉, 연관)가 있을 확률을 추정한다. 이 연관성에 관한 확률은 질의와 문헌상에 사용된 색인어에 종속된다고 가정한다. 또 사용자가 질의 q의 해답 집합으로서 선호하는 부분 문헌 집합이 있다고 가정하며, 이 이상적인 해답 집합을 R이라 하면, 사용자는 전체적인 연관 확률을 최대화하여 이상적인 해답 집합의 확률적 표현으로 개선하게 된다.

제안 방법

400개의 문서들은 총 10개의 그룹으로 구분되는데, 본 실험에서는 그룹 별 해당 문서수를 고려하여 문서 수가 너무 적거나 지나치게 많은 경우를 제외한 그룹을 대상으로 성능을 측정하였다. KT-SET 문서들은 콘도르의 IB 형식으로 변환하여 시스템에 입력하였다.
term-by-document의 전체 집합 행렬 A를 생성하고 용어의 빈도수(tf)와 역문서빈도수(idf)값을 고려한 가중치 값을 적용하여 행렬 Aweighted를 구성하였다. [7]
벡터모델의 구현은 LSI모델의 SVD 분해 기법을 이용하여 벡터계산을 단순화 시켰다. 각 모델의 검색 성능을 비교하기 위하여 동일한 데이터 집합 (KT-SET93)을 각 모델 특성에 맞게 처리한 후 시스템에 적용하여 검색 성능을 측정하였다. 실험에는 원 질의어에 대한 검색 성능과 더불어, 질의어에 대한 사전적인 관련 의미를 추가하여 잠재적 연관성까지 고려한 검색 성능을 비교하였다.
질의어 벡터와 문서 벡터 간의 유사성에 초점을 두었기 때문이다. 그리고 관련 문서를 검색하기 위해 질의어 용어와 의미가 비슷하거나 소리가 비슷한 용어를 이용한 질의어 확장을 했다.
구한다. 그리고 질의어의 사전적 의미를 이용한 질의어 확장을 한 후, 재현율, 정확률 측면에서 기존의 개념 기반 검색과 비교하였다.
다만 콘도르 시스템에는 질의어의 사전 의미로서 추가되는 단어들을 입력하였고, Aehted 행렬에 적용하는 확장 질의 벡터는 추가된 단어의 가중치를 구하여 질의에 적용함으로써 원 질의 벡터의 값을 갱신하도록 하였다.
이러한 구조는 사용자의 판단에 따라 정확한 문서 집단을 택할 수 있도록 유도한다. 또한 클러스터링의 수는임으로 정한 고정적인 것을 기본으로 하나 경우에 따라서는 그 수가 동적으로 변하는 알고리즘을 택하여클러스터링의 결과를 좀더 정확하게 유지하도록 했다.
본 논문에서는 질의어 벡터와 문서 벡터간의 유사성을 계산하기 이전에, 질의어 벡터와 용어 벡터 간의 유사성을 먼저 측정하고, 질의어와 유사도가 높은 단어들을 구한다. 그리고 질의어의 사전적 의미를 이용한 질의어 확장을 한 후, 재현율, 정확률 측면에서 기존의 개념 기반 검색과 비교하였다.
각 모델의 검색 성능을 비교하기 위하여 동일한 데이터 집합 (KT-SET93)을 각 모델 특성에 맞게 처리한 후 시스템에 적용하여 검색 성능을 측정하였다. 실험에는 원 질의어에 대한 검색 성능과 더불어, 질의어에 대한 사전적인 관련 의미를 추가하여 잠재적 연관성까지 고려한 검색 성능을 비교하였다.
이 가정은 연관 확률 계산 방법을 명확히 밝히고 있지 않기 때문에 문제가 되는데, 본 연구에서는 확률 모델을 바탕으로 구현된 콘도르 정보검색시스템에 적용하게 될 Data Set으로 사용한 KT-SET에서 구분된 그룹에 따라 그 연관성과 비연관성을 구분하였다.
정확률과 재현율등을 측정은 각 그룹별로 의 연관 질의어를 입력하여 나온 검색 결과를 바탕으로 하였다.
수 있도록 설계했다. 특히 클러스터링의 계층 구조를 가시화 했고 아울러 요약에는 온라인과 오프라인 요약을 구분하여 동시에 나타나도록 했다.
확률모델의 성능 평가를 위하여 입력 질의어를 콘도르 정보검색시스템에 직접 입력하여 결과를 구했다. [그림 3]은 콘도르의 질의어 입력 후 검색결과 화면이다.

대상 데이터

벡터모델의 성능 평가는 400개의 문서와 7782개의 단어로 이루어진 벡터모델 공간을 구축하여 이루어졌다. term-by-document의 전체 집합 행렬 A를 생성하고 용어의 빈도수(tf)와 역문서빈도수(idf)값을 고려한 가중치 값을 적용하여 행렬 Aweighted를 구성하였다.
본 실험에서는 KT-SET93 문서들 중 문서번호 ktOO이부터 ktO₄OO번까지의 400개 문서를 실험 데이터로 이용하였다.<표 2>에서 용어 수는 콘도르 정보검색시스템의 인덱싱 모듈을 통하여 추출된 색인어의개수이 다

이론/모형

SVD를 통해 분해 된 행렬을 이용해 LSI 모델을 적용한다. LSI 모델의 요점은 각 문서와 질의 벡터를 저차원 공간인 개념으로 사상시키는데 있다.
대한 구현화면이다. TUighted행렬은 LSI 개념을 적용하기 위하여 SVD 분해 되는데 이때, SVD 분해를 위해서는 Bioscience revision, Los Alamos Naticnal Laboratory의 Michael E. Wall등이 개발한 SVDMAN(Singular Value Decomposition Microarray ANalysis)을 사용하였다. [9]
벡터모델의 구현은 LSI모델의 SVD 분해 기법을 이용하여 벡터계산을 단순화 시켰다. 각 모델의 검색 성능을 비교하기 위하여 동일한 데이터 집합 (KT-SET93)을 각 모델 특성에 맞게 처리한 후 시스템에 적용하여 검색 성능을 측정하였다.
본 연구에서는 상용화 중에 있는 정보검색시스템 '콘도르'의 연구용 버전을 확률모델로 사용하여 실험하였다. 벡터모델의 구현은 LSI모델의 SVD 분해 기법을 이용하여 벡터계산을 단순화 시켰다.
이를 해결하기 위해 수학적 Kfetrix Decomposition 중 SVDCSingular Value Decomposition)를 이용한다.
일반 정보검색시스템과 유사하다. 질의어 처리를 위한 검색 모델은 확률모델을 따랐다. 또한 다중 언어 (한국어, 중국어, 일본어, 영어) 질의 처리가 가능한 것도 콘도르의 특징이다.

성능/효과

[3] 사용자 질의 q와 컬렉션의 문헌 d가 주어지면, 사용자가 문헌 dj에 흥미(즉, 연관)가 있을 확률을 추정한다. 이 연관성에 관한 확률은 질의와 문헌상에 사용된 색인어에 종속된다고 가정한다.
벡터모델은 확률모델에 입력한 원 질의어의 검색 결과에 비하여 평균적으로 정확률과 재현율에서 약 30% 이상의 성능 향상을 보이고 있다. 질의어를 확장한 검색 결과에서는 벡터모델이 확률모델보다 정확률에서 약 50%, 재현율에서 약 30% 이상까지 성능향상을 보이고 있다.
원 질의어에 대한 검색 성능을 각 모델에서 비교하였을 때, 벡터모델의 성능이 비교적 우수했다. 그러나 사전 의미를 고려하여 질의어를 확장한 후 얻은 검색 결과는 벡터모델에서 두드러지게 향상됨을 보였다.
그러나 사전 의미를 고려하여 질의어를 확장한 후 얻은 검색 결과는 벡터모델에서 두드러지게 향상됨을 보였다. 이러한 실험결과로부터 사용한 벡터모델인 LSI 모델은 문서 간, 또는 단어간의 잠재적인 의미를 고려한 검색 결과를 도출해 내는데 적절한 시스템임이 확인되었다.
이상의 성능 향상을 보이고 있다. 질의어를 확장한 검색 결과에서는 벡터모델이 확률모델보다 정확률에서 약 50%, 재현율에서 약 30% 이상까지 성능향상을 보이고 있다.

후속연구

향후 연구과제는 원 질의어에 대한 사전적 의미뿐만 아니라 동의어를 추가함으로써 얻어지는 결과를 비교하여 정보검색시스템의 성능을 향상시키고자 한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

정보검색시스템의 확률 및 벡터모델에 대한 질의 확장 검색 성능 평가
Extended Query Search Performance Evaluations for Vector Model and Probabilistic Model of Information System 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

정보검색시스템의 확률 및 벡터모델에 대한 질의 확장 검색 성능 평가 Extended Query Search Performance Evaluations for Vector Model and Probabilistic Model of Information System 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

전유정 (1) 변동률 (2) 박순철 (22)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

정보검색시스템의 확률 및 벡터모델에 대한 질의 확장 검색 성능 평가
Extended Query Search Performance Evaluations for Vector Model and Probabilistic Model of Information System 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper