[논문]검색의도 파악을 위한 질의어 관계유형에 관한 사례연구

권순진; 김원일; 유성준

doi:10.5391/jkiis.2011.21.4.414

검색의도 파악을 위한 질의어 관계유형에 관한 사례연구
A Case Study on the Types of Queries' Relations for Recognizing User intention 원문보기

한국지능시스템학회 논문지 = Journal of Korean institute of intelligent systems, v.21 no.4, 2011년, pp.414 - 422

권순진 (세종대학교 디지털콘텐츠학과) , 김원일 (세종대학교 디지털콘텐츠학과) , 유성준 (세종대학교 컴퓨터공학과)

초록
AI-Helper

본 연구는 정보 검색(Information Retrieval)과정에 있어 검색 기술의 적합성을 향상하기 위하여, 질의어 사이의 유용한 관계를 드러내도록 사례를 분석하고, 질의자의 의도를 파악할 수 있게끔 구체화하도록 연구한 것이다. 이를 위하여 먼저, 질의어가 가지는 어휘 의미적 연구 분야와 존재론적 연구 분야의 관련 연구들을 분석하였으며, 국내.외의 어휘 의미론적 네트워크 사례와 정보 검색 기술이 적용된 사이트의 실제 데이터를 분석하여 관계 유형을 추출하고 분석하였다. 다음으로는 일반적으로 검색자가 직면하는 검색 상황에서 자주 발생하는 문제를 중심으로 문제점을 정의하여 해결 방안을 모색하였다. 현행 검색 기술에서 색인어와 질의어를 단순 비교하여 결과를 쏟아주는 검색은 사용자를 혼란하게 하기 때문에 개선이 필요하고, 질의자의 의도에 맞는 질의 결과를 줄 수 있도록 지능적 검색으로 개선할 필요가 있다. 문제점 해결 방안에 있어서는, 두 질의어 사이의 관계를 드러냄으로써, 검색자의 의도를 인식하고 식별 및 처리할 수 있는 방안이 필요하였다. 질의어들에 관한 실제 사례를 분석하고 관계 유형을 9가지로 분류함으로써, 관계 유형을 디자인하는 방법을 적시하였으며, 관계 유형의 명칭 부여와 관계 역할의 명칭을 부여할 수 있는 방법과 제한점도 예시하였다.

Abstract ▼ AI-Helper

IR (Information Retrieval) systems have the methods that compare relationships between query and index to identify document that may be fit to the user's query keyword. However, the methods usually ignore the importance of relations that are not expressed in the query. Therefore, in this study, we describe how to refine the queries' relation from keyword and to reveal the hidden intent. A useful relationship between query and keyword in IR wth studied and we classified the tion fromrelation. Firstfromall, we did researchmrelated on semantic relationship and ontolhiical researchmin foreign and domestic research, and also analyzed semantic network practices, information retrieval technolhiy, extracted and classified the tion fromrelationships s' relasite's real-world datamin whichminformation retrieval technolhiin fare applied. Next, we souiht to solve the problems occurred frequently i' relasituation that searchers tioically face. I' relacurrent search technolhiy, the mesh searchmresult fare poured by simply comparn ina query with index terms. Therefore, the need for an intelligent search fittn inusers' intent is required. The relationships between two queries to re hiddee and identify relasearcher's intent have to be revealed. By analyzn inthe practical cthes s' queries and classifyn inthem into nine kind fromrelationship tion, we proposed the method to design relation revealn inand role namn i, and we have also illustrated limitations of that methods.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

그것의 디자인은 인간의 어휘의 메모리에 관한 심리-언어학적(psycho-linguistic) 이론에 근거한다. 그것의 구축은 어휘집이 어떻게 어휘-의미론적 관계로 구조화하는지 방법에 대한 통찰력을 제공해 준다. 예를 들어 명사들은 주로 ISA 및 부분-전체 관계로 구조화된다.
주로 사용되는 곳은 사전이나 어휘 의미망들에 사용될 목적의 기초 연구들로 보인다. 그러나 본 연구에서는 의미 관계 집합들을 기초로 하여 의도 기반을 만들기 위한 관계 유형의 사례 연구에 목적이 있으므로, 관계의 유형 분류 또한 여기에 집중하도록 한다. 예를 들어 맛집을 찾는 경우나 세미나를 찾는 경우 이다(그림2).
두 질의어로 질의자의 의도를 유추할 수 있도록 ‘한정하는 관계’를 식별하고 추출하는 방안과 의도의 기준을 설정할 수 있는 요소를 제시하는 것이 본 연구의 주된 문제이다.
본 연구에서는 정보 검색(Information Retrieval) 과정에 검색 기술의 적합성을 향상하기 위하여 질의어 사이의 유용한 관계를 드러내는 사례를 분석하고 질의자의 의도를 파악할 수 있게 구체화하는 방법을 연구하였다.
본 연구에서는 질의 의도 관련 연구를 살펴보고 주요기관의 정보 검색 질의어 데이터 사례를 분석해 봄으로써, 질의어 사이의 유용한 관계를 드러낼 수 있게 하고 구체화할 수 있는 요소를 제시하는데 의의를 두고자 한다. 이는 검색자의 의도를 파악하기 위한 방법으로서 질의어의 관계 유형을 정규화 하는 첫 단계라는 의미가 있다.
이는 검색자의 의도를 파악하기 위한 방법으로서 질의어의 관계 유형을 정규화 하는 첫 단계라는 의미가 있다. 아울러 관계 유형의 명칭과 역할 부여하는 방법을 예시함으로써 의도 기반 검색 기술이 발전하는데 기여할 수 있다는 의의를 기대해보고자 한다.
의미관계는 상위 문서와의 관계, 문서 간의 관계, 문서 내 문장 간의 관계, 문장 내의 절 또는 구 간의 관계, 단어와 단어 간의 관계, 2 개 질의어 간의 관계 등을 들 수 있다. 이러한 관계의 간단한 경우가 단어 간의 관계이기 때문에, 본 연구에서는 가장 기초적인 2 개 단어 간의 의미적 관계를 분석 대상으로 하여 의도의 중층적 구조와 접목할 수 있는 지점을 모색해 보고자 한다.

제안 방법

“ ‘종로’ ‘비빔밥’ ”을 질의할 때, 수 많은 색인어 집합에 관련된 문서를 쏟아주는 비효율성 문제를 지적하였고, 문제점 해결 방법에 있어서는, 두 질의어 사이의 관계를 드러냄으로써, 검색자의 의도를 인식하고 식별하며 처리 해야 할 필요성과 요소를 적시하였다.
2개 단어 질의어와 관계 유형 : 한국 과학기술 정보 연구원의 분석 예와 같은 기준으로 국회 도서관의 질의어 관계 유형을 분석하였다<;표5>.
이 중에서 질의어 2개로 이루어진 총 10,387 개의 데이터 중에서 분석의 편의를 위해 숫자나 특수 문자 영어 한자로 된 질의어는 제외하였으며, 중복 데이터 또한 제외하였다. 가나다 항 순으로 각 10 개 내외씩의 데이터를 발췌 후 분석하였다. 분석 결과 중 KISTI와 마찬가지로 매체 유형별로 7가지를 볼 수 있지만 의도 구조는 보이지 않음을 알 수 있다.
이를 위하여 먼저 질의어가 가지는 어휘 의미적 연구 분야와 존재론적 연구 분야의 관련 연구들을 분석하였으며, 국내·외의 어휘 의미론적 어휘 네트워크 사례와 정보 검색 기술이 적용된 사이트의 실제 데이터를 분석하여 관계 유형을 분석하였다. 다음으로는 일반적으로 검색자가 직면하는 검색 상황에서 자주 발생하는 문제를 선정하여 해결 방법을 모색하였다. “ ‘종로’ ‘비빔밥’ ”을 질의할 때, 수 많은 색인어 집합에 관련된 문서를 쏟아주는 비효율성 문제를 지적하였고, 문제점 해결 방법에 있어서는, 두 질의어 사이의 관계를 드러냄으로써, 검색자의 의도를 인식하고 식별하며 처리 해야 할 필요성과 요소를 적시하였다.
“Paradigmatic and syntagmatic relations”로 구분하기도 하였다[21]. 선험적인 또는 영구적인 관계로서 전형적인(paradigmatic) 관계와, 후천적인 또는 변하기 쉬운 관계들로서 통합적인(syntagmatic) 관계로 구분하였다. 통합적인 관계들은, 동일한 문장이나 텍스트[20]에서 병발(종종 가까운 통사론의 위치에서)하는 단어 사이의 관계이며, 선형적 또는 우리가 문장을 만들 때 합성 또는 두 어절 사이에 표현되는 순서 관계이다.
이는 일영 -영일 기계 번역을 위하여 일본 정부와 8 개의 컴퓨터 관련 업체가 구축하였다. 여기서는 개념 관계를 5 가지의 종류로 나누고 총 36 가지 관계를 규정하였다. 격 관계(Case relations), 사건 관계(Interevent relations), 의미 관계 (Semantic relations), 한정 관계(Restriction relations), 의사 관계(Pseudo-relations)등이다.
이를 위하여 먼저 질의어가 가지는 어휘 의미적 연구 분야와 존재론적 연구 분야의 관련 연구들을 분석하였으며, 국내·외의 어휘 의미론적 어휘 네트워크 사례와 정보 검색 기술이 적용된 사이트의 실제 데이터를 분석하여 관계 유형을 분석하였다.

대상 데이터

실제 정보 검색 기술이 활용되는 상황에서 어떻게 질의어 관계를 인식할 수 있을 것인지를 알아볼 필요가 있다. 사례 데이터 분석을 위하여 관련 전문 기관 4곳에 데이터를 요청하였으며, 그중에서 한국 과학기술 정보 연구원과 국회 도서관의 질의어 데이터 현황은 다음과 같다.
현행 시스템에 고정된 의도 표현으로 논문을 찾은 것이 1,184 건이며, 동향 분석은 823 건이었다. 산업표준 16건 연구 보고서 269건 특허 350건 학위 논문 561건 등이었다<;표 2>.
kr/) 총 검색횟수 411,254 건 중 검색 질의어가 2 개인 것은 10,787 건이다. 이들 중에서 검색 반환 값을 클릭으로 반응한 것에서 중복 데이터를 제거한 것으로 총 3,203 건을 분석 대상으로 하였다.
현행 시스템에 고정된 의도 표현으로 논문을 찾은 것이 1,184 건이며, 동향 분석은 823 건이었다. 산업표준 16건 연구 보고서 269건 특허 350건 학위 논문 561건 등이었다<표 2>.

성능/효과

두 기관의 임의의 데이터 89 건과 140 건을 분석한 결과, 9 가지의 의미 관계 유형이 나왔으며, 표본을 늘릴 경우 더욱 다양한 관계 유형이 나올 수 있고, 수작업으로는 많은 시간이 소요되어 89 건과 140 건으로 제한하였다.(89건은 46건이 수식 관계이며, 이는 전체의 51.
가나다 항 순으로 각 10 개 내외씩의 데이터를 발췌 후 분석하였다. 분석 결과 중 KISTI와 마찬가지로 매체 유형별로 7가지를 볼 수 있지만 의도 구조는 보이지 않음을 알 수 있다.

후속연구

이러한 요구는 정보 검색 전문가 그룹(3rd Search Technology Summit 2010) 130 명의 검색에 대한 요구에서도 알 수 있다. 그러기 위해서 질의자의 의도와 질의어들의 의미적 관계에 관한 연구가 필요하며, 질의어에 관한 실제 발생 데이터를 분석해 보고, 정보요구자의 의도를 유추할 수 있도록 관계의 유형을 연구하는 것이 필요하다. 시맨틱 기술에 대한 연구는 자원과 시간의 소요가 다대하므로 그 연구 성격 및 평가와 별개로 본 연구를 병행하는 것이 필요하다.
그럼으로써, 문서 색인 또는 메타데이터를 생성할 때 목적과 목표 또는 의도와 의도를 달성하기 위한 계획 등을 별도로 색인할 수 있는 방법을 표준화하고 기술을 개발하여 정보 검색 적합성 향상에 기여하게 될 것이다.
고도화 단계 및 활용 단계에서는 본 연구가 기여할 수 있을 것이다. 다양한 프레임넷과 워드넷들을 기초로 어휘 의미들에 대한 데이터 베이스 들이 구축되어 가고 있지만, 이들을 활용하는 단계에 있어서 필요하리라 예상되는 의도 기반의 모형을 구축하는 연구가 수행되어야 할 것이다.
본 연구 결과는 일반적으로 구축되는 시맨틱 기술에 의도 기반을 접목하여 활용할 수 있으므로 정보 검색 기술이 진화하는데 기여할 것으로 기대한다.
사용자의 일상적 또는 전문적 정보 추구 행태별로 효과 적인 상호 작용적 또는 계층 구조적 상황 설정은 후속 연구에서 다루게 될 것이다.
질의어들의 관계를 식별하고 유추된 목표 모델을 의도 기반의 목표 모델 중에서 탐색하여 사용자 의도를 포함한 질의어로 재생성하는 과정이 필수적이다. 이 과정을 거친 후에 기존 정보 검색 서비스 에이전트의 활용이 이루어진다면 정보 검색의 사용자 요구 적합성은 향상될 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	정보 검색 기술은 어떻게 발전해왔는가?	정보 검색 기술은 통계적 벡터 모델과 자연어 처리를 기반으로 질의어와 색인 문자열을 비교하여 그에 일치하는 문자열이 포함된 문서를 찾아 보여 줄 수 있도록 발전해왔다. 그러나 현행 검색 기술은 질의어를 색인어와 비교하여 그결과를 반환하므로, 질의자의 의도와 관계없는 문서를 대량 으로 보여 주면서 재검색하는 비효율성 문제가 있다.
	정보 검색 과정에 있어서, 질의자에게 적절한 답변을 주기 위해서는 무엇을 파악할 수 있어야 하는가?	정보 검색(Information Retrieval) 과정에 있어서, 질의자 에게 적절한 답변을 주기 위해서는 질의자의 의도를 파악할수 있어야 한다. 이는 검색창의 질의어(쿼리:query)만으로 의도를 파악하기 위해 질의어들의 관계를 인식할 수 있어야 함을 뜻한다.
	현행 정보 검색 기술의 문제점은 무엇인가?	정보 검색 기술은 통계적 벡터 모델과 자연어 처리를 기반으로 질의어와 색인 문자열을 비교하여 그에 일치하는 문자열이 포함된 문서를 찾아 보여 줄 수 있도록 발전해왔다. 그러나 현행 검색 기술은 질의어를 색인어와 비교하여 그결과를 반환하므로, 질의자의 의도와 관계없는 문서를 대량 으로 보여 주면서 재검색하는 비효율성 문제가 있다.

참고문헌 (34)

캐롤쿨싸우 저 김효정？이병기 공역, 정보탐색과정론, p145-,150-, 한국디지털도서관포럼, 2000
C-H.L. Lee and A. Liu, "Modeling the Query Intention with Goals," Proceedings of the 19th International Conference on Advanced Information Networking and Applications (AINA'05), vol. 2, pp. 535-540, 2005
C.S.G. Khoo and J.C. Na, "Semantic Relations in Information Science," Annual Review of Information Science and Technology, vol. 40, pp. 157-228, 2007.

상세보기
B.J. Jansen, D.L. Booth and A. Spink, "Determining the informational, navigational, and transactional intent of Web queries," Information Processing and Management, vol. 44. no. 3, pp. 1251-1266, 2008

상세보기
E. Adar, J. Teevan, and S.T. Dumais, "Large Scale Analysis of Web Revisitation Patterns," Proceeding of the twenty-sixth annual SIGCHI conference on Human factors in computing systems, pp. 1197-1206, 2008, Available: dl.acm.org, 2011.3.1
M.L. Murphy, Semantic relations and the lexicon: Antonym, synonymy, and other paradigms, Cambridge: Cambridge University Press, 2003
M.L. Murphy 저, 임지룡 윤희수 옮김, 의미관계와 어휘사전 : 반의관계, 동의관계, 기타 계열들, 박이정, 2008.
J.F. Sowa, Conceptual structures: Information processing in mind and machine, Reading, MA:Addison-Wesley, 1984.
A. Cruse, Meaning in language: An introduction to semantics and pragmatics, Oxford: Oxford University Press, 2004
J.W. Alba and L. Hasher, "Is memory schematic?" Psychological Bulletin, vol. 93, no. 2, pp. 203-231, 1983, Available: www.psych.utoronto.ca, 2011.3.1.

상세보기
M. Minsky, "A framework for representing knowledge," AI Memo, no. 306, MIT A.I.Lab., 1974
D.E. Rumelhart and A. Ortony, "The representation of knowledge in memory," pp. 99-135, 1976, Available: www.cs.northwestern.edu, 2011.3.1.
R.C. Schank and R.P. Abelson, Scripts, plans, goals, and understanding, Lawrence Erlbaum Associates, 1977.
R.C. Schank, Dynamic memory: A theory of reminding and learning in computers and people, Cambridge University Press, 1982.
K.R. Butcher and W. Kintsch, "Text comprehension and discourse processing," In I.B. Weiner (Ed.) Handbook of psychology, vol. 4, pp. 575-595, 2003, Available: books.google.co.kr, 2011.3.1
P. Whitney, D. Budd, R.S. Bramucci and R.S. Crane, "On babies, bathwater, and schemata: A reconsideration of top-down processes in comprehension," Discourse Processes, vol. 20, no. 2, pp. 135-166, 1995

상세보기
M.W. Evens, Relational models of the lexicon: Representing knowledge in semantic networks, Cambridge University Press, 1988
J.F. Sowa, Knowledge representation: Logical, philosophical, and computational foundations, Pacific Grove, CA: Brooks/Cole, c2000
O. Werner, "How to teach a network: Minimal design features for a cultural acquisition device or C-KAD," In M.W. Evens (Ed.), Relational models of the lexicon: Representing knowledge in semantic networks (chap. 6, pp. 141-166). Cambridge University Press, 1988
R.E. Asher, (Ed.), The encyclopedia of language and linguistics, Oxford: Pergamon Press, 1994
F.W. Lancaster, Vocabulary control for information retrieval, Arlington, VA: Information Resources Press, 1986
이희자 우재숙, "국어사전의 '관련어' 연구," pp. 171-172 '관련어 정의의 포함관계', 한국사전학 제7호 ,2006.4.
장기성, "성구소의 형식과 의미 관계" 언어과학연구, 제22권, 2002
김선희, "데이빋슨의 의도(Intention)이론", 철학, 제31권, 1989 ( 및 D.O. Case의 정보추구행태론(2004)의 pp. 59-60의 의도와 행위 참조)
S. Carberry, "Modelling the User's Plans and Goals," Computational Linguistics, vol. 14, no. 3, 1988.
미국 Berkeley 대학교, "FrameNet project", Available: framenet.icsi.berkeley.edu, 2011.3.1
일본 게이오 대학교, "Japanese FrameNet", Available: jfn.st.hc.keio.ac.jp , 2011.3.1
C. Fellbaum, (Ed.)., WordNet: An electronic lexical database, Cambridge, MA: MIT Press, 1998
G.A. Miller and C. Fellbaum, "Semantic networks of English," Cognition, vol. 41, no. 1-3, pp. 197-229, 1991

상세보기
G.A. Miller, "WordNet: A lexical database," Communication of the ACM, vol. 38, no. 11, pp. 39-41, 1995
A. Alonge, N. Calzolari, P. Vossen, L. Bloksma, I. Castellon, M.A. Marti, and W. Peters, "The linguistic design of the EuroWordNet Database," Computers and the Humanities, vol. 32, no. 2-3, pp. 91-115, 1998

상세보기
김태석, "병렬 코퍼스를 기반으로 하는 한국어 프레임넷 구현에 관한 연구," 동의대 석사학위 논문, 2006
방성원 호정은 김종인, "세종 의존명사/대명사/수사 전자사전의 정보표상 구조," 2001년도 제13회 한글 및 한국어 정보처리 학술대회 (2001.10), 한국정보과학회 언어공학연구회 학술발표 논문집, pp. 341-347
국립국어원, "21세기 세종계획, 전자사전 개발," Available: www.sejong.or.kr/, 2011.3.1

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증