[논문]웹 사용자 누적 사용정보 기반의 키워드 검색 모델

윤성희

doi:10.13067/jkiecs.2012.7.4.777

초록
AI-Helper

본 논문은 웹 검색 시스템의 사용자 질의에 대한 키워드 색인 기반의 검색 과정에서 적합 문서를 선별하기 위해 검색 키워드의 의미정보와 사용자의 누적 사용정보를 사용하여 검색 성능을 향상시키는 방법을 소개한다. 검색 키워드 의미 정보를 이용하는 검색 방법은 검색 결과로서 의미적으로 무관한 많은 문서들을 배제할 수 있고, 사용자의 누적된 사용정보는 관심사에 중심을 둔 검색문서들을 상위에 제시할 수 있다. 검색 키워드의 의미정보 지식베이스를 구축하고, 검색 문서들을 색인어와 해당 의미범주로 분류하며, 사용자의 정답 문서 참조 행위에 대한 누적 정보를 순위 결정에 반영하여 검색 성능을 향상시킬 수 있다.

Abstract ▼ AI-Helper

This paper proposes a technique for improving performance using word senses and user feedback in web information retrieval, compared with the retrieval based on ambiguous user query and index. Disambiguation using query word senses can eliminating the irrelevant pages from the search result. Accordi...

This paper proposes a technique for improving performance using word senses and user feedback in web information retrieval, compared with the retrieval based on ambiguous user query and index. Disambiguation using query word senses can eliminating the irrelevant pages from the search result. According to semantic categories of nouns which are used as index for retrieval, we build the word sense knowledge-base and categorize the web pages. It can improve the precision of retrieval system with user feedback deciding the query sense and information seeking behavior to pages.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 검색 대상 문서들의 의미정보 분류와 수집된 사용자의 검색 행위 정보에 기반한 검색 방법을 제안한다. 개별 의미범주에 따라 분류된 문서 집합으로부터 정답 문서를 선택하고, 정답 후보 문서 중에서 사용자가 참조하는 검색행위를 가중치로 누적하여 지속적으로 반영함으로써 검색 정확도를 높일 수 있다.
본 논문에서는 정보검색 시스템의 사용자 질의어와 색인에 의한 문서 검색 과정에서 중요한 문제가 되는 중의성을 해소하고 검색성능을 향상시키기 위해 질의어의 의미정보를 활용하고 사용자의 검색행위 정보를 누적 수집하여 순위에 반영하는 방법을 제안하였다. 본 연구를 위한 자원으로 검색의 색인어가 되는 명사들을 중심으로 의미정보 체계를 지식베이스로 구축하고, 웹 문서들을 색인어의 의미범주로 분류한다.
본 연구에서는 선행 연구에서 사용한 바 있는 TREC의 의미범주(semantic category) 체계를 기반으로 하여 중의성을 갖는 동형이의어를 중심으로 의미기반 지식베이스을 구성하였다[10]. 의미적 모호성 해소를 위한 의미정보는 중의적 키워드의 의미범주 분류와 그 사전적 해석으로부터 추출할 수 있는 확장 정보들을 포함한다.
한편 어휘 개념망 방법을 한국어 명사에 대한 의미 지식베이스 구축에 실험적으로 적용한 사례도 있다[12,13]. 사전의 뜻풀이를 중심으로 개념어들 간의 국어학적 의미관계를 연결하여, 단어들의 의미 포함관계를 명확하게 나타내고자 하였다.

제안 방법

본 논문에서는 정보검색 시스템의 사용자 질의어와 색인에 의한 문서 검색 과정에서 중요한 문제가 되는 중의성을 해소하고 검색성능을 향상시키기 위해 질의어의 의미정보를 활용하고 사용자의 검색행위 정보를 누적 수집하여 순위에 반영하는 방법을 제안하였다. 본 연구를 위한 자원으로 검색의 색인어가 되는 명사들을 중심으로 의미정보 체계를 지식베이스로 구축하고, 웹 문서들을 색인어의 의미범주로 분류한다. 검색 과정에서는 사용자의 피드백에 의해 질의어의 정확한 의미를 결정할 수 있으며, 색인어와 의미정보가 함께 색인된 문서 집합에서 질의 의도에 맞는 문서들을 선택할 수 있다.
사용자의 검색 행위에 대한 개인화된 정보를 기반으로 의미 분류된 문서들을 검색한 경우에 상위 랭킹 문서에 상대적으로 높은 비율로 정답문서를 포함하고 있음을 볼 수 있다. 이 과정에서 사용자의 정답문서에 대한 참조 반응을 순위 갱신에 반영하기 위해 각 검색의 결과로 제시되는 정답 후보 문서들 중에서 사용자가 상위 정답문서로 평가하는 것들을 다섯 개 이상 선택적으로 참조하도록 하여 그 반응을 누적하였다. 실험이 누적된 정보는 검색결과의 문서들 간에 변경되고, 상위랭킹 문서들에 대한 만족도를 높이는 목적으로 적용된다.
검색 문서들은 단일한 범주에만 속하지 않을 수 있으므로 검색 문서를 단일한 범주로 결정하는 것은 정보 활용 측면에서 위험한 문제를 일으킬 수 있다. 이를 해결하기 위해검색 문서를 색인어와 의미범주 단위로 다중 색인하여 검색의 변별력을 높인다. 검색엔진은 검색 결과인 정답후보문서들을 중요도에 따라 순위로 반영하여 사용자에게 제시함으로써 사용자가 정답문서를 효율적으로 접근할 수 있도록 돕는다.

대상 데이터

실험 대상인 검색시스템의 사용자들에게 웹 문서에 대한 검색 질의를 입력하도록 하였으며, 실험에서 약 오천 회 이상의 질의 입력을 수집하였다. 그 결과로 본 실험을 위해 검색 대상 문서들과 사용자 질의에 빈번하게 나타나는 중의적 어휘들과 관련 연구에서 사용된 바 있는 어휘들 중에서 10개를 표 1과 같이 선별하였으며, 사전적 의미 수를 보이고 있다. 실험에 사용된 검색 키워드의 80%이상이 한 번씩만 검색되었던 키워드들이므로 일정 회수 이상 검색된 키워드만을 실험 대상으로 삼았다.
본 연구의 실험에서는 개인, 학교, 기관 등의 홈페이지들, 학술 내용과 시사 뉴스 등의 내용을 담은 다수의 웹 문서들을 대상으로 하였다. 이 문서 집합은 선행 연구와 실험을 위해 구축된 바 있으며[12], 본 연구의 실험을 위해 시사 뉴스 분야의 웹 문서가 확장되고 검색 키워드에 대한 의미 범주별 색인 작업이 추가되었으며, 사용자의 최근 검색 행위에 대한 누적 정보를 개인화 검색을 위해 사용하는 방법으로 확장되었다.
반면에, 사용자의 질의 의도가 자주 사용되지 않는 의미에 있고, 중의성을 해소하지 않은 채 형태 비교로 검색한다면 상위 결과 중에서 정답문서를 발견하기 어려우며, 결과적으로 검색 정확도는 크게 떨어지게 된다. 실제로 실험에서 상위 20개 페이지 중에서 19개, 상위 30개 웹 문서 중에서 24개의 문서들이 첫 번째 의미로 사용된 문서였다.
이 문서 집합은 선행 연구와 실험을 위해 구축된 바 있으며[12], 본 연구의 실험을 위해 시사 뉴스 분야의 웹 문서가 확장되고 검색 키워드에 대한 의미 범주별 색인 작업이 추가되었으며, 사용자의 최근 검색 행위에 대한 누적 정보를 개인화 검색을 위해 사용하는 방법으로 확장되었다. 실험 대상인 검색시스템의 사용자들에게 웹 문서에 대한 검색 질의를 입력하도록 하였으며, 실험에서 약 오천 회 이상의 질의 입력을 수집하였다. 그 결과로 본 실험을 위해 검색 대상 문서들과 사용자 질의에 빈번하게 나타나는 중의적 어휘들과 관련 연구에서 사용된 바 있는 어휘들 중에서 10개를 표 1과 같이 선별하였으며, 사전적 의미 수를 보이고 있다.
그 결과로 본 실험을 위해 검색 대상 문서들과 사용자 질의에 빈번하게 나타나는 중의적 어휘들과 관련 연구에서 사용된 바 있는 어휘들 중에서 10개를 표 1과 같이 선별하였으며, 사전적 의미 수를 보이고 있다. 실험에 사용된 검색 키워드의 80%이상이 한 번씩만 검색되었던 키워드들이므로 일정 회수 이상 검색된 키워드만을 실험 대상으로 삼았다. 중의적 검색 키워드는 각 의미별로 웹 문서에 등장하는 빈도에 차이를 보였다.

데이터처리

실험 결과로는 사용자의 질의 키워드에 대해서 중의성을 의미 분류하지 않은 채 검색한 경우와 사용자가 의미범주를 선택하고 의미 색인된 웹 문서들을 검색한 경우의 평균성능을 분석하였었다. 검색 결과 문서집합에서 상위 30개, 20개, 10개 문서에서 적합 문서를 찾은 경우를 분석해 보았을 때, 사용자 정보에 기반한 키워드의 의미를 분석과정을 거치지 않았을 경우에는 각각 42%, 56%, 68%였다.

성능/효과

실험 결과로는 사용자의 질의 키워드에 대해서 중의성을 의미 분류하지 않은 채 검색한 경우와 사용자가 의미범주를 선택하고 의미 색인된 웹 문서들을 검색한 경우의 평균성능을 분석하였었다. 검색 결과 문서집합에서 상위 30개, 20개, 10개 문서에서 적합 문서를 찾은 경우를 분석해 보았을 때, 사용자 정보에 기반한 키워드의 의미를 분석과정을 거치지 않았을 경우에는 각각 42%, 56%, 68%였다. 반면, 본 논문에서 제안한 바와 같이 사용자의 검색 행위를 누적한 정보를 바탕으로 검색 키워드의 의미 분류 과정을 거친 검색결과 문서집합에서는 각각 58%, 77%, 87%의 비율로 적합문서를 참조할 수 있었다.
검색 결과 문서집합에서 상위 30개, 20개, 10개 문서에서 적합 문서를 찾은 경우를 분석해 보았을 때, 사용자 정보에 기반한 키워드의 의미를 분석과정을 거치지 않았을 경우에는 각각 42%, 56%, 68%였다. 반면, 본 논문에서 제안한 바와 같이 사용자의 검색 행위를 누적한 정보를 바탕으로 검색 키워드의 의미 분류 과정을 거친 검색결과 문서집합에서는 각각 58%, 77%, 87%의 비율로 적합문서를 참조할 수 있었다. 그림 4에서 가로축은 각각 상위랭킹 30개 문서, 20개 문서, 10개 문서의 경우를, 세로축은 적합문서가 포함된 비율을 나타낸다.
실험이 누적된 정보는 검색결과의 문서들 간에 변경되고, 상위랭킹 문서들에 대한 만족도를 높이는 목적으로 적용된다. 실험의 결과에서 상위 10위 내의 문서들에 대한 정답 평가 정도가 크게 향상되어 87%에 이른다는 의미는 상위 10위 내의 문서들 중에 사용자가 만족하는 적합 문서들을 포함하는 것으로 평가할 수 있다.
또한 검색 문서들에 대한 사용자의 참조 행위가 선택된 문서에 대한 정답 평가로 계산되어 순위를 결정하는 가중치에 누적된다. 이와 같이 사용자 피드백을 통해 질의어 중의성을 해소하고 정답 후보 문서에 대한 사용자의 참조 행위를 수집하여 순위 결정에 반영함으로서 검색시스템의 성능이 향상될 수 있음을 실험 결과를 통해 보여주었다.

후속연구

현재 널리 사용되는 검색 방법은 질의어를 포함하는 문서들 중에서 대중적으로 많이 참조되는 문서를 중요한 문서라고 평가하여 상위에 랭크하여 보여주는 방식인데, 이러한 방법은 같은 질의어를 사용한 사용자들도 사용자마다 원하는 문서의 종류가 다르기 때문에 모두에게 가치있는 문서가 상위에 랭크되기 어렵다. 실험에 의하면 검색 시스템 사용자들은 일반적으로 상위에 제시되는 몇 개 문서만을 참조하는 경향이 있으므로 검색 시스템의 정확률(Precision)이 재현률에 비해서 더 중요하다고 평가되므로 개인의 관심사와 질의 의도를 반영한 검색결과에 대한 랭크 기법이 적용될 필요가 있다.
현재까지의 실험은 검색성능의 정확률 향상을 검증하는데 초점을 두었지만, 본 실험에서 사용한 검색 대상 문서집합의 규모를 확대하여 의미적으로 보다 다양한 문서들을 검색하는 사용자들의 자연어 질의를 추가 수집하고, 실험을 계속 확장하고 있다. 이와 더불어, 수시로 생성되고 소멸되며 내용이 변경되는 동적인 웹 환경을 위한 유연한 색인 데이터베이스 구축 시스템과 실험적 규모 이상의 의미 지식베이스를 구축할 필요가 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	워드넷이 대용어 선택이나 다국어 번역에서의 의미 공유 등에서 효과적으로 활용될 수 있는 이유는?	워드넷에는 어휘의 의미에 대한 범주 분류가 잘 정의되어 있으며, 단어들 사이의 계층구조와 연관관계가 여러 형태로 표현되어 있다. 워드넷(WordNet)은 의미가 유사한 단어들의 집합(SynSet)간의 연결로써, 단어 하나하나의 개념관계를 표현하고 있어서 유사한 단어들의 집합을 이루고 있으므로 대용어 선택이나 다국어 번역에서의 의미 공유 등에서는 효과적으로 활용되고 있다.
	워드넷이란?	언어처리 분야에서 의미정보를 체계화하는 대표적인 방법 중 널리 사용되는 방법은 어휘에 대하여 동의어, 반의어, 상위의미, 하위의미 등과 같은 어휘의 연관성을 정의한 사전인 워드넷(WordNet)이다[9]. 워드넷에는 어휘의 의미에 대한 범주 분류가 잘 정의되어 있으며, 단어들 사이의 계층구조와 연관관계가 여러 형태로 표현되어 있다.
	정보검색에서 중의성 문제를 해결하는 데 필요한 것은?	앞에서 서술하였듯이, 정보검색에서 중의성 문제가 해결되면 정보검색 시스템의 정확도를 크게 향상시킬 수 있다. 이를 위하여 사용자 질의 키워드와 색인 문서의 중의성 해소를 위해 우선 단어의 의미정보를 체계화한 지식베이스를 구축하는 것이 필요하다.

참고문헌 (14)

김성진, "이용자 중심 웹 정보탐색 연구의 실체 이론 분석", 정보관리학회지, 23권, 3호. pp. 127-146, 2006.

원문보기 상세보기
박건우, 이상훈, "질의어 패턴 자동분석을 통한 커뮤니티 기반 개인화 검색," 한국정보과학회 논문지 D, 36권, 04호, pp. 321-326, 2009.
김태환, 전호철, 최중민, "페이지 랭크지수와 질의 확장을 이용한 재랭킹 방법", 한국정보처리학회 논문지, 18-B권, 04호. pp. 231-240, 2011.
윤태복, 이승훈, 윤광호, 이지형, "웹 사용 정보에 기반한 다중 성향 키워드 모델의 설계와 응용," 한국인터넷정보학회논문지, 10권, 05호, pp. 95-105, 2009.

원문보기 상세보기
김분희, "사용성 개선을 위한 P2P 그룹 검색 알고리즘", 한국전자통신학회논문지, 5권, 2호, pp. 185-192, 2010.

원문보기 상세보기
김분희, "전처리 검색 기반의 P2P 그룹 검색 알고리즘", 한국전자통신학회논문지, 5권, 5호, pp. 522-527, 2010.

원문보기 상세보기
김광백, 우영운, "HSI 컬러 공간과 신경망을 이용한 내용기반 이미지 검색", 한국전자통신학회 논문지, 5권, 2호, pp. 152-157, 2010.

원문보기 상세보기
박상규, 이찬규, 윤경현, 김성희, 이준호, 2007, "검색엔진에서 질의어 분포의 정상성에 관한 연구", 한국정보관리학회지, 24권, 4호. pp. 255-265, 2007.

원문보기 상세보기
Moldova D. and Mihalcea R., "Using WordNet and Lexical Operators to improve Internet Searches," IEEE Internet Computing, Vol. 4, No. 1. pp. 36-43, 2000.
강현규, "개념 검색어 대체를 통해 질의 형식화를 도와주는 개념 마법사의 설계 및 구현". 정보처리학회논문지, 9-B권, 04호, pp. 437-444. 2002.
Perez-Carballo Jose and Strazalkowski Tomek. "Natural Language Information Retrieval : progress report." Information Processing & Management, Vol. 36, No. 1, pp. 155-178, 2000.

상세보기
윤성희, 장혜진,"검색엔진의 정확률 향상을 위한 질의어 의미와 사용자 반응 정보의 이용", 정보관리학회지, 26권, 4호. pp. 81-92, 2009.

원문보기 상세보기
이용구, 정영미, 사전 정보를 이용한 단어 중의성 해소 모형에 관한 실험적 연구", 한국정보관리학회지, 24권, 1호. pp. 321-342, 2007.

원문보기 상세보기
TREC

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

웹 사용자 누적 사용정보 기반의 키워드 검색 모델
A Keyword Search Model based on the Collected Information of Web Users 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

질의응답

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

웹 사용자 누적 사용정보 기반의 키워드 검색 모델 A Keyword Search Model based on the Collected Information of Web Users 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

질의응답

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

윤성희 (13)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

웹 사용자 누적 사용정보 기반의 키워드 검색 모델
A Keyword Search Model based on the Collected Information of Web Users 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper