$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

메타데이타와 텍스트 정보의 통합검색 모델
A Hybrid Information Retrieval Model Using Metadata and Text 원문보기

정보과학회논문지. Journal of KIISE. 데이타베이스, v.34 no.3, 2007년, pp.232 - 243  

유정목 (한국전자통신연구원 디지털홈연구단 인터넷서버그룹) ,  맹성현 (한국정보통신대학교 공학부) ,  김성수 (한국통신 비지니스부문 프로젝트 관리부) ,  이만호 (충남대학교 전기정보통신공학부)

초록
AI-Helper 아이콘AI-Helper

메타데이타를 위한 검색모델은 질의에 사용자의 정보요구를 정확하게 반영하기 때문에 정확율(precision)은 높지만 질의 조건에 만족하지 않는 정보를 배제하므로 재현율(recall)은 낮다. 반면 전문(full-text) 텍스트 검색 모델은 사용자 질의에 대하여 모든 문서를 검색대상으로 하므로 정확율은 낮고 재현율은 높다. 메타데이타 검색모델의 높은 정확율은 사용자가 메타데이타의 구조적 특성에 맞게 질의를 구성할 경우 가능하지만 일반적으로 사용자가 메타데이타의 구조 정보를 반영한 사용자 질의를 구성할 수 있다고 기대하기는 어렵다. 또한 메타데이타에 포함된 정보의 양은 전문 텍스트가 가진 정보의 양보다 적기 때문에 텍스트를 검색한 결과보다 재현율이 떨어진다. 본 논문에서는 이러한 특성을 반영하여 메타데이타 검색 시, 사용자의 다양한 질의를 메타데이타의 특성에 맞게 재구성하고 메타데이타뿐 아니라 텍스트에 대해서도 검색을 수행하여 두 모델의 장점을 함께 고려한 통합 검색 모델을 제안한다.

Abstract AI-Helper 아이콘AI-Helper

Metadata IR model has high precision and low recall because the query in Metadata IR model is strict that is, the query can express user information need exactly, while Full-text IR model has low precision and high recall because the query in Full-text IR model is a kind of simple keyword query whic...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 따라서 본 논문에서는 사용자의 키워드 기반 질의어들을 메타데이타 검색에 적합한 사용자 질의로 자동적으로 변환하여 메타데이타를 대상으로 검색할 수 있는 방법을 제시한다. 사용자가 작성한 키워드 집합과 메타데이타 필드 집합 사이의 유사도 값을 이용하여 사용자가 이용한 검색 키워드들과 메타데이타 필드들 사이의 상호 연관성을 검색에 반영하여 일반적으로 사용하는 키워드 기반 질의어들을 이용하여 메타데이타 구조정보를 반영한 사용자 질의를 자동 생성한다.
  • 또한 텍스트 부분을 메타데이타를 구성하는 메타데이타 필드들과 함께 상호 보완적으로 검색하여 메타데이타만을 대상으로 한 검색 결과를 보완하여 좀 더 향상된 검색 결과들을 사용자에게 제공하는 모델을 제안한다.
  • 본 논문에서는 VT1 과 VT1 〜VT5의 결과와 본 논문에서 제안하고자 하는 방안을 실험을 통하여 비교한다.
  • 위한 메타데이타 표준들이 존재한다. 논문에서는 그 중에서 텍스트 데이타를 위한 메타데이타를 대상으로 정보검색 응용 분야에서 사용자에게 좀 더 효율적인 검색 결과를 제공해 줄 수 있는 방안에 대해 기술한다. 텍스트를 위한 메타데이타는 텍스트 자원의 다양한 부가 속성을 기술하였기 때문에 자원 자처】, 즉 텍스트보다는 소량의 정보를 가지고 있다.
  • 적합문서 판단을 위한 질의는 단순질의와 복합질의의 두 가지 종류로 구성하였는데, 단순질의란 하나의 필드에 대해서만 질의를 구성하는 것이며 복합질의란 두 개의 메타데이타 필드를 이용하여 질의를 구성한 것이다. 실험에서는 적합문서 판단을 위한 두 가지 형태의 질의는 Virginia Tech에서 제공받은 것으로 같은 질의 형태 및 질의를 사용함으로써 결과 비교를 용이하게 하고자 하였다. 단, 질의에 해당하는 적합문서들은 제공받지 못하여 적합문서 판단은 ICU의 IRNLP 연구실의 학생들에 의해 수행되었고 따라서 Virginia Tech의 결과와 다소 상이할 수도 있다.
  • 본 연구의 목표는 사용자가 메타데이타의 특성을 이해하지 못하는 경우에도 가장 적합한 질의를 자동 생성하여 검색하며 텍스트 필드를 상호 보완적으로 검색하여 질의와 가장 적합한 문서를 찾아내는 것이다. 관련 연구에서 이미 언급하였듯이 사용자의 다양한 질의를 자동적으로 구조형 질의로 전환해주는 연구는 Goncalves et al[8]에서 먼저 수행되었다.
  • 실험 목적은 비구조형 칠의를 이용하여 텍스트 검색을 수행한 경우(UQ)와 사용자가 작성한 구조형 질의를 이용하여 구조 검색을 수행한 경우(SQ), 자동적으로 구조형 질의를 구성하여 구조 검색을 수행한 경우([8] 에서제안한 방법으로 VT로 명기한다), 마지막으로 본 논문에서 제안하는 구조형 질의를 이용하여 구조검색과 텍스트 검색을 병행하여 상호 보완하는 경우(HQ)의 검색 결과들을 평가하여 상호 비교하는 것이다. SQ는 SQ (AND)와 SQ(OR)로 분류하여 비교하였다.

가설 설정

  • VT 에서는 이러한 후보질의들에 순위를 할당하여 상위 5개의 질의만을 검색에 적합한 구조형 질의로 가정한다.
  • [8]에서는 사용자의 질의와 문서의 모든 메타데이타 필드를 조합함으로써 가능한 모든 구조형 질의 후보군을 생성한다. 각 후보질의들이 생성될 수 있는 확률을 Bayesian network 모델 기법을 이용하여 계산하고 확률이 높은 상위 5개의 구조형 질의만을 사용자의 정보요구에 부합하는 질의로 가정한다. 이 상위 5개의 구조형 질의를 이용하여 메타데이타 검색을 수행하고 추출된 결과를 통합한다.
  • 구조형 질의가SQ= 일 경우를 가정해보자.
  • 구체적인 예로 노드 Q가 A, B, C라는 부모노드를 가지며 부모노드들은 각기 아래와 같은 값을 갖는다고 가정하자.
  • 단계별 처리과정을 자세히 설명하기 위하여 먼저 컬렉션을 구성하는 문서는 title과 author로 구성되며 초기 비구 조형 질의가 也=라 가정한다.
  • 본 논문에서는 사용자가 구조형 질의를 효율적으로 작성하기가 어렵다고 가정하였고 질의에 더 적합한 메타데이타 필드가 존재할 수 있다고 가정하였다. 따라서 사용자가 선정한 메타데이타 필드보다 더 적합한 필드가 있는지 확인하여야 한다.
  • 적합성을 측정한다. 사용자가 지정한 메타데이타 필드를 제외한 나머지 메타데이타 필드들을 대상으로 질의와의 적합성을 측정한 후, 이들 중 가장 유사도가 높은 메타데이타 필드를 적합한 필드로 가정하며 가장 적합성이 높은 필드가 시스템이 지정한 필드이다.
  • network 모델을 이용한다. 설명을 용이하게 하기 위하여 문서는 두 개의 필드로 구성되어 있다고 가정하며 VT 모델은 그림 2처럼 표현할 수 있다.
  • 간주한다. 즉, 户(鸟 | 0)= 5沥(3, g)와 F(阳 0) = &也(3, g) 로 가정한다. 따라서 그림 [3] 의 41과 皿을 하나의 4으로통합하기 위해서 아래와 같은 link matrix를 만들 수 있으며 이를 이용하여 통합 유사도를 구할 수 있다.
본문요약 정보가 도움이 되었나요?

참고문헌 (19)

  1. Baeza-Yates, R., Ribeiro-Neto, B.: Modern Information Retrieval. Addison Wesley, New York, NY (1999) 

  2. Callan, J, P.: Document filtering with inference networks. In Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Zurich Switzerland (1996) 262-269 

  3. Calado, P., Cristo, M., Moura, E., Ziviani B., Goncalves, M, A.: Combining link-based and content-based methods for web document classification. In Proceedings of the 12th International Conference on Information and Knowledge Management, New Orleans LA USA (2003) 394-401 

  4. Campos, L, M., Ferenandez-Luna, J, M., Huete, J, F.: Query Expansion in Information Retrieval Systems Using a Bayesian Network-Based Thesaurus. In Proceedings of the 14th Annual Conference on Uncertainty in Artificial Intelligence (UAI-98), San Francisco CA (1998) 53-60 

  5. Calado, P., Silva, A, S., Vieria, R, C., Laender, A, H, F., Ribeiro-Neto, B, A.: Searching Web Databases by Structuring Keyword-based Queries. In proceedings of the 11th International Conference on Information and Knowledge Management, McLean VA USA (2002) 26-33 

  6. Dumais, S, T., Platt, P., Hecherman, D., Sahami, M.: Inductive learning algorithms and representations for text categorization. In Proceedings of the 7th International Conference on Information and Knowledge Management CIKM'98, Bethesda Maryland USA (1998) 148-155 

  7. Deniman, D., Sumner, T., Davis L., Bhushan, S., Jackson.: Merging Metadata and Content-Based Retreival. In proceedings of Journal of Digital Information, Volume 4 Issue 3 

  8. Goncalves, M, A., Fox, E, A., Krowne, A., Calado, P., Laender, A, H, F., Silva, A, S., Ribeiro-Neto, B, A.: The effectiveness of Automatically Structured Queries in Digital libraries. In proceedings of the 2004 joint ACM/IEEE conference on Digital libraries - Volume 00, Tuscon AZ USA (2004) 

  9. Haines, D., Croft, W, B.: Relevance feedback and inference networks. In Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Pittsburgh, PA, USA, June (1993) 2-11 

  10. S. H. Myaeng, D.-H. Jang, M.-S. Kim, and Z.-C. Zhoo. A flexible model for retrieval of SGML documents. In Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 138-145, Melbourne, Australia, August 1998 

  11. Passin, T, B.: Explorer's Guide to the Semantic Web, Manning press (2004) 

  12. Ribeiro-Neto, B., Muntz, R.: A belief network model for IR. In proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Zurich, Switzerland, August (1996) 253-260 

  13. Silva, I., Ribeiro-Neto, B., Calado, P., Moura, E., Ziviani, N.: Linked-based and Content-Based Evidential Information in a Belief Network Model. In Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Athens Greece (2000) 96-103 

  14. Turtle, H, R., Croft, W, B.: Inference networks for document retrieval. In Proceedings of the 13th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Brussels, Belgium, September (1990) 1-24 

  15. Turtle, H, R., Croft, W, B.: Croft. Evaluation of an Inference network-Based Retrieval Model. ACM Transactions on Information Systems 9,3 (1991), 187-222 

  16. Valle, R, F., Ribeiro-Neto, B, A., Lima, L, R, S., Laender, A, H, F., Junior, H, R , F, F.: Improving text retrieval in medical collections through automatic categorization. In Proceedings of the 10th International Symposium on String Processing and Information Retrieval SPIRE 2003, Manaus Brazil (2003) 197-210 

  17. T. T. Chinenyanga and N. Kushmerick. Expressive retrieval from XML documents. In Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 163-171, New Orleans, Louisiana, USA, September 2001 

  18. N. Fuhr and K. Gross. XIRQL: a query language for information retrieval in XML documents. In Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 172-180, New Orleans, Louisiana, USA, September 2001 

  19. G. Navarro and R. Baeza- Yates. Proximal nodes: A model to query document databases by content and structure. ACM Transactions 15(4):400-435, Oct. 1997 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로