본 연구는 정보 검색(Information Retrieval)과정에 있어 검색 기술의 적합성을 향상하기 위하여, 질의어 사이의 유용한 관계를 드러내도록 사례를 분석하고, 질의자의 의도를 파악할 수 있게끔 구체화하도록 연구한 것이다. 이를 위하여 먼저, 질의어가 가지는 어휘 의미적 연구 분야와 존재론적 연구 분야의 관련 연구들을 분석하였으며, 국내.외의 어휘 의미론적 네트워크 사례와 정보 검색 기술이 적용된 사이트의 실제 데이터를 분석하여 관계 유형을 추출하고 분석하였다. 다음으로는 일반적으로 검색자가 직면하는 검색 상황에서 자주 발생하는 문제를 중심으로 문제점을 정의하여 해결 방안을 모색하였다. 현행 검색 기술에서 색인어와 질의어를 단순 비교하여 결과를 쏟아주는 검색은 사용자를 혼란하게 하기 때문에 개선이 필요하고, 질의자의 의도에 맞는 질의 결과를 줄 수 있도록 지능적 검색으로 개선할 필요가 있다. 문제점 해결 방안에 있어서는, 두 질의어 사이의 관계를 드러냄으로써, 검색자의 의도를 인식하고 식별 및 처리할 수 있는 방안이 필요하였다. 질의어들에 관한 실제 사례를 분석하고 관계 유형을 9가지로 분류함으로써, 관계 유형을 디자인하는 방법을 적시하였으며, 관계 유형의 명칭 부여와 관계 역할의 명칭을 부여할 수 있는 방법과 제한점도 예시하였다.
본 연구는 정보 검색(Information Retrieval)과정에 있어 검색 기술의 적합성을 향상하기 위하여, 질의어 사이의 유용한 관계를 드러내도록 사례를 분석하고, 질의자의 의도를 파악할 수 있게끔 구체화하도록 연구한 것이다. 이를 위하여 먼저, 질의어가 가지는 어휘 의미적 연구 분야와 존재론적 연구 분야의 관련 연구들을 분석하였으며, 국내.외의 어휘 의미론적 네트워크 사례와 정보 검색 기술이 적용된 사이트의 실제 데이터를 분석하여 관계 유형을 추출하고 분석하였다. 다음으로는 일반적으로 검색자가 직면하는 검색 상황에서 자주 발생하는 문제를 중심으로 문제점을 정의하여 해결 방안을 모색하였다. 현행 검색 기술에서 색인어와 질의어를 단순 비교하여 결과를 쏟아주는 검색은 사용자를 혼란하게 하기 때문에 개선이 필요하고, 질의자의 의도에 맞는 질의 결과를 줄 수 있도록 지능적 검색으로 개선할 필요가 있다. 문제점 해결 방안에 있어서는, 두 질의어 사이의 관계를 드러냄으로써, 검색자의 의도를 인식하고 식별 및 처리할 수 있는 방안이 필요하였다. 질의어들에 관한 실제 사례를 분석하고 관계 유형을 9가지로 분류함으로써, 관계 유형을 디자인하는 방법을 적시하였으며, 관계 유형의 명칭 부여와 관계 역할의 명칭을 부여할 수 있는 방법과 제한점도 예시하였다.
IR (Information Retrieval) systems have the methods that compare relationships between query and index to identify document that may be fit to the user's query keyword. However, the methods usually ignore the importance of relations that are not expressed in the query. Therefore, in this study, we d...
IR (Information Retrieval) systems have the methods that compare relationships between query and index to identify document that may be fit to the user's query keyword. However, the methods usually ignore the importance of relations that are not expressed in the query. Therefore, in this study, we describe how to refine the queries' relation from keyword and to reveal the hidden intent. A useful relationship between query and keyword in IR wth studied and we classified the tion fromrelation. Firstfromall, we did researchmrelated on semantic relationship and ontolhiical researchmin foreign and domestic research, and also analyzed semantic network practices, information retrieval technolhiy, extracted and classified the tion fromrelationships s' relasite's real-world datamin whichminformation retrieval technolhiin fare applied. Next, we souiht to solve the problems occurred frequently i' relasituation that searchers tioically face. I' relacurrent search technolhiy, the mesh searchmresult fare poured by simply comparn ina query with index terms. Therefore, the need for an intelligent search fittn inusers' intent is required. The relationships between two queries to re hiddee and identify relasearcher's intent have to be revealed. By analyzn inthe practical cthes s' queries and classifyn inthem into nine kind fromrelationship tion, we proposed the method to design relation revealn inand role namn i, and we have also illustrated limitations of that methods.
IR (Information Retrieval) systems have the methods that compare relationships between query and index to identify document that may be fit to the user's query keyword. However, the methods usually ignore the importance of relations that are not expressed in the query. Therefore, in this study, we describe how to refine the queries' relation from keyword and to reveal the hidden intent. A useful relationship between query and keyword in IR wth studied and we classified the tion fromrelation. Firstfromall, we did researchmrelated on semantic relationship and ontolhiical researchmin foreign and domestic research, and also analyzed semantic network practices, information retrieval technolhiy, extracted and classified the tion fromrelationships s' relasite's real-world datamin whichminformation retrieval technolhiin fare applied. Next, we souiht to solve the problems occurred frequently i' relasituation that searchers tioically face. I' relacurrent search technolhiy, the mesh searchmresult fare poured by simply comparn ina query with index terms. Therefore, the need for an intelligent search fittn inusers' intent is required. The relationships between two queries to re hiddee and identify relasearcher's intent have to be revealed. By analyzn inthe practical cthes s' queries and classifyn inthem into nine kind fromrelationship tion, we proposed the method to design relation revealn inand role namn i, and we have also illustrated limitations of that methods.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
그것의 디자인은 인간의 어휘의 메모리에 관한 심리-언어학적(psycho-linguistic) 이론에 근거한다. 그것의 구축은 어휘집이 어떻게 어휘-의미론적 관계로 구조화하는지 방법에 대한 통찰력을 제공해 준다. 예를 들어 명사들은 주로 ISA 및 부분-전체 관계로 구조화된다.
주로 사용되는 곳은 사전이나 어휘 의미망들에 사용될 목적의 기초 연구들로 보인다. 그러나 본 연구에서는 의미 관계 집합들을 기초로 하여 의도 기반을 만들기 위한 관계 유형의 사례 연구에 목적이 있으므로, 관계의 유형 분류 또한 여기에 집중하도록 한다. 예를 들어 맛집을 찾는 경우나 세미나를 찾는 경우 이다(그림2).
두 질의어로 질의자의 의도를 유추할 수 있도록 ‘한정하는 관계’를 식별하고 추출하는 방안과 의도의 기준을 설정할 수 있는 요소를 제시하는 것이 본 연구의 주된 문제이다.
본 연구에서는 정보 검색(Information Retrieval) 과정에 검색 기술의 적합성을 향상하기 위하여 질의어 사이의 유용한 관계를 드러내는 사례를 분석하고 질의자의 의도를 파악할 수 있게 구체화하는 방법을 연구하였다.
본 연구에서는 질의 의도 관련 연구를 살펴보고 주요기관의 정보 검색 질의어 데이터 사례를 분석해 봄으로써, 질의어 사이의 유용한 관계를 드러낼 수 있게 하고 구체화할 수 있는 요소를 제시하는데 의의를 두고자 한다. 이는 검색자의 의도를 파악하기 위한 방법으로서 질의어의 관계 유형을 정규화 하는 첫 단계라는 의미가 있다.
이는 검색자의 의도를 파악하기 위한 방법으로서 질의어의 관계 유형을 정규화 하는 첫 단계라는 의미가 있다. 아울러 관계 유형의 명칭과 역할 부여하는 방법을 예시함으로써 의도 기반 검색 기술이 발전하는데 기여할 수 있다는 의의를 기대해보고자 한다.
의미관계는 상위 문서와의 관계, 문서 간의 관계, 문서 내 문장 간의 관계, 문장 내의 절 또는 구 간의 관계, 단어와 단어 간의 관계, 2 개 질의어 간의 관계 등을 들 수 있다. 이러한 관계의 간단한 경우가 단어 간의 관계이기 때문에, 본 연구에서는 가장 기초적인 2 개 단어 간의 의미적 관계를 분석 대상으로 하여 의도의 중층적 구조와 접목할 수 있는 지점을 모색해 보고자 한다.
제안 방법
“ ‘종로’ ‘비빔밥’ ”을 질의할 때, 수 많은 색인어 집합에 관련된 문서를 쏟아주는 비효율성 문제를 지적하였고, 문제점 해결 방법에 있어서는, 두 질의어 사이의 관계를 드러냄으로써, 검색자의 의도를 인식하고 식별하며 처리 해야 할 필요성과 요소를 적시하였다.
2개 단어 질의어와 관계 유형 : 한국 과학기술 정보 연구원의 분석 예와 같은 기준으로 국회 도서관의 질의어 관계 유형을 분석하였다<표5>.
이 중에서 질의어 2개로 이루어진 총 10,387 개의 데이터 중에서 분석의 편의를 위해 숫자나 특수 문자 영어 한자로 된 질의어는 제외하였으며, 중복 데이터 또한 제외하였다. 가나다 항 순으로 각 10 개 내외씩의 데이터를 발췌 후 분석하였다. 분석 결과 중 KISTI와 마찬가지로 매체 유형별로 7가지를 볼 수 있지만 의도 구조는 보이지 않음을 알 수 있다.
이를 위하여 먼저 질의어가 가지는 어휘 의미적 연구 분야와 존재론적 연구 분야의 관련 연구들을 분석하였으며, 국내·외의 어휘 의미론적 어휘 네트워크 사례와 정보 검색 기술이 적용된 사이트의 실제 데이터를 분석하여 관계 유형을 분석하였다. 다음으로는 일반적으로 검색자가 직면하는 검색 상황에서 자주 발생하는 문제를 선정하여 해결 방법을 모색하였다. “ ‘종로’ ‘비빔밥’ ”을 질의할 때, 수 많은 색인어 집합에 관련된 문서를 쏟아주는 비효율성 문제를 지적하였고, 문제점 해결 방법에 있어서는, 두 질의어 사이의 관계를 드러냄으로써, 검색자의 의도를 인식하고 식별하며 처리 해야 할 필요성과 요소를 적시하였다.
“Paradigmatic and syntagmatic relations”로 구분하기도 하였다[21]. 선험적인 또는 영구적인 관계로서 전형적인(paradigmatic) 관계와, 후천적인 또는 변하기 쉬운 관계들로서 통합적인(syntagmatic) 관계로 구분하였다. 통합적인 관계들은, 동일한 문장이나 텍스트[20]에서 병발(종종 가까운 통사론의 위치에서)하는 단어 사이의 관계이며, 선형적 또는 우리가 문장을 만들 때 합성 또는 두 어절 사이에 표현되는 순서 관계이다.
이는 일영 -영일 기계 번역을 위하여 일본 정부와 8 개의 컴퓨터 관련 업체가 구축하였다. 여기서는 개념 관계를 5 가지의 종류로 나누고 총 36 가지 관계를 규정하였다. 격 관계(Case relations), 사건 관계(Interevent relations), 의미 관계 (Semantic relations), 한정 관계(Restriction relations), 의사 관계(Pseudo-relations)등이다.
이를 위하여 먼저 질의어가 가지는 어휘 의미적 연구 분야와 존재론적 연구 분야의 관련 연구들을 분석하였으며, 국내·외의 어휘 의미론적 어휘 네트워크 사례와 정보 검색 기술이 적용된 사이트의 실제 데이터를 분석하여 관계 유형을 분석하였다.
대상 데이터
실제 정보 검색 기술이 활용되는 상황에서 어떻게 질의어 관계를 인식할 수 있을 것인지를 알아볼 필요가 있다. 사례 데이터 분석을 위하여 관련 전문 기관 4곳에 데이터를 요청하였으며, 그중에서 한국 과학기술 정보 연구원과 국회 도서관의 질의어 데이터 현황은 다음과 같다.
현행 시스템에 고정된 의도 표현으로 논문을 찾은 것이 1,184 건이며, 동향 분석은 823 건이었다. 산업표준 16건 연구 보고서 269건 특허 350건 학위 논문 561건 등이었다<표 2>.
kr/) 총 검색횟수 411,254 건 중 검색 질의어가 2 개인 것은 10,787 건이다. 이들 중에서 검색 반환 값을 클릭으로 반응한 것에서 중복 데이터를 제거한 것으로 총 3,203 건을 분석 대상으로 하였다.
현행 시스템에 고정된 의도 표현으로 논문을 찾은 것이 1,184 건이며, 동향 분석은 823 건이었다. 산업표준 16건 연구 보고서 269건 특허 350건 학위 논문 561건 등이었다<표 2>.
성능/효과
두 기관의 임의의 데이터 89 건과 140 건을 분석한 결과, 9 가지의 의미 관계 유형이 나왔으며, 표본을 늘릴 경우 더욱 다양한 관계 유형이 나올 수 있고, 수작업으로는 많은 시간이 소요되어 89 건과 140 건으로 제한하였다.(89건은 46건이 수식 관계이며, 이는 전체의 51.
가나다 항 순으로 각 10 개 내외씩의 데이터를 발췌 후 분석하였다. 분석 결과 중 KISTI와 마찬가지로 매체 유형별로 7가지를 볼 수 있지만 의도 구조는 보이지 않음을 알 수 있다.
후속연구
이러한 요구는 정보 검색 전문가 그룹(3rd Search Technology Summit 2010) 130 명의 검색에 대한 요구에서도 알 수 있다. 그러기 위해서 질의자의 의도와 질의어들의 의미적 관계에 관한 연구가 필요하며, 질의어에 관한 실제 발생 데이터를 분석해 보고, 정보요구자의 의도를 유추할 수 있도록 관계의 유형을 연구하는 것이 필요하다. 시맨틱 기술에 대한 연구는 자원과 시간의 소요가 다대하므로 그 연구 성격 및 평가와 별개로 본 연구를 병행하는 것이 필요하다.
그럼으로써, 문서 색인 또는 메타데이터를 생성할 때 목적과 목표 또는 의도와 의도를 달성하기 위한 계획 등을 별도로 색인할 수 있는 방법을 표준화하고 기술을 개발하여 정보 검색 적합성 향상에 기여하게 될 것이다.
고도화 단계 및 활용 단계에서는 본 연구가 기여할 수 있을 것이다. 다양한 프레임넷과 워드넷들을 기초로 어휘 의미들에 대한 데이터 베이스 들이 구축되어 가고 있지만, 이들을 활용하는 단계에 있어서 필요하리라 예상되는 의도 기반의 모형을 구축하는 연구가 수행되어야 할 것이다.
본 연구 결과는 일반적으로 구축되는 시맨틱 기술에 의도 기반을 접목하여 활용할 수 있으므로 정보 검색 기술이 진화하는데 기여할 것으로 기대한다.
사용자의 일상적 또는 전문적 정보 추구 행태별로 효과 적인 상호 작용적 또는 계층 구조적 상황 설정은 후속 연구에서 다루게 될 것이다.
질의어들의 관계를 식별하고 유추된 목표 모델을 의도 기반의 목표 모델 중에서 탐색하여 사용자 의도를 포함한 질의어로 재생성하는 과정이 필수적이다. 이 과정을 거친 후에 기존 정보 검색 서비스 에이전트의 활용이 이루어진다면 정보 검색의 사용자 요구 적합성은 향상될 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
정보 검색 기술은 어떻게 발전해왔는가?
정보 검색 기술은 통계적 벡터 모델과 자연어 처리를 기반으로 질의어와 색인 문자열을 비교하여 그에 일치하는 문자열이 포함된 문서를 찾아 보여 줄 수 있도록 발전해왔다. 그러나 현행 검색 기술은 질의어를 색인어와 비교하여 그결과를 반환하므로, 질의자의 의도와 관계없는 문서를 대량 으로 보여 주면서 재검색하는 비효율성 문제가 있다.
정보 검색 과정에 있어서, 질의자에게 적절한 답변을 주기 위해서는 무엇을 파악할 수 있어야 하는가?
정보 검색(Information Retrieval) 과정에 있어서, 질의자 에게 적절한 답변을 주기 위해서는 질의자의 의도를 파악할수 있어야 한다. 이는 검색창의 질의어(쿼리:query)만으로 의도를 파악하기 위해 질의어들의 관계를 인식할 수 있어야 함을 뜻한다.
현행 정보 검색 기술의 문제점은 무엇인가?
정보 검색 기술은 통계적 벡터 모델과 자연어 처리를 기반으로 질의어와 색인 문자열을 비교하여 그에 일치하는 문자열이 포함된 문서를 찾아 보여 줄 수 있도록 발전해왔다. 그러나 현행 검색 기술은 질의어를 색인어와 비교하여 그결과를 반환하므로, 질의자의 의도와 관계없는 문서를 대량 으로 보여 주면서 재검색하는 비효율성 문제가 있다.
참고문헌 (34)
캐롤쿨싸우 저 김효정?이병기 공역, 정보탐색과정론, p145-,150-, 한국디지털도서관포럼, 2000
C-H.L. Lee and A. Liu, "Modeling the Query Intention with Goals," Proceedings of the 19th International Conference on Advanced Information Networking and Applications (AINA'05), vol. 2, pp. 535-540, 2005
C.S.G. Khoo and J.C. Na, "Semantic Relations in Information Science," Annual Review of Information Science and Technology, vol. 40, pp. 157-228, 2007.
B.J. Jansen, D.L. Booth and A. Spink, "Determining the informational, navigational, and transactional intent of Web queries," Information Processing and Management, vol. 44. no. 3, pp. 1251-1266, 2008
E. Adar, J. Teevan, and S.T. Dumais, "Large Scale Analysis of Web Revisitation Patterns," Proceeding of the twenty-sixth annual SIGCHI conference on Human factors in computing systems, pp. 1197-1206, 2008, Available: dl.acm.org, 2011.3.1
M.L. Murphy, Semantic relations and the lexicon: Antonym, synonymy, and other paradigms, Cambridge: Cambridge University Press, 2003
M. Minsky, "A framework for representing knowledge," AI Memo, no. 306, MIT A.I.Lab., 1974
D.E. Rumelhart and A. Ortony, "The representation of knowledge in memory," pp. 99-135, 1976, Available: www.cs.northwestern.edu, 2011.3.1.
R.C. Schank and R.P. Abelson, Scripts, plans, goals, and understanding, Lawrence Erlbaum Associates, 1977.
R.C. Schank, Dynamic memory: A theory of reminding and learning in computers and people, Cambridge University Press, 1982.
K.R. Butcher and W. Kintsch, "Text comprehension and discourse processing," In I.B. Weiner (Ed.) Handbook of psychology, vol. 4, pp. 575-595, 2003, Available: books.google.co.kr, 2011.3.1
P. Whitney, D. Budd, R.S. Bramucci and R.S. Crane, "On babies, bathwater, and schemata: A reconsideration of top-down processes in comprehension," Discourse Processes, vol. 20, no. 2, pp. 135-166, 1995
M.W. Evens, Relational models of the lexicon: Representing knowledge in semantic networks, Cambridge University Press, 1988
J.F. Sowa, Knowledge representation: Logical, philosophical, and computational foundations, Pacific Grove, CA: Brooks/Cole, c2000
O. Werner, "How to teach a network: Minimal design features for a cultural acquisition device or C-KAD," In M.W. Evens (Ed.), Relational models of the lexicon: Representing knowledge in semantic networks (chap. 6, pp. 141-166). Cambridge University Press, 1988
R.E. Asher, (Ed.), The encyclopedia of language and linguistics, Oxford: Pergamon Press, 1994
F.W. Lancaster, Vocabulary control for information retrieval, Arlington, VA: Information Resources Press, 1986
G.A. Miller, "WordNet: A lexical database," Communication of the ACM, vol. 38, no. 11, pp. 39-41, 1995
A. Alonge, N. Calzolari, P. Vossen, L. Bloksma, I. Castellon, M.A. Marti, and W. Peters, "The linguistic design of the EuroWordNet Database," Computers and the Humanities, vol. 32, no. 2-3, pp. 91-115, 1998
※ AI-Helper는 부적절한 답변을 할 수 있습니다.