$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

계층적 클러스터링 기법을 이용한 확장 불리언 모델의 적합성 피드백 방법
Relevance Feedback Method of an Extended Boolean Model using Hierarchical Clustering Techniques 원문보기

정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용, v.31 no.10, 2004년, pp.1374 - 1385  

최종필 (아주대학교 정보통신연구소) ,  김민구 (아주대학교 컴퓨터공학과)

초록
AI-Helper 아이콘AI-Helper

적합성 피드백 방법은 다음 검색 질의어와 검색 성능을 향상시키기 위해 사용자로부터 획득된 정보를 사용한다. 일반적으로 적합성 피드백 방법은 사용자로부터 획득된 정보를 새로운 질의어에 추가될 새로운 단어를 찾거나 질의어에 존재하는 단어의 가중치를 조정하는데 사용한다. 그러나 확장 불리언 검색모델에서 적합성 피드백은 이것들뿐만 아니라 질의어에 있는 단어들을 적절하게 불리언 연산자(AND/OR)로 연결시켜야 한다. Salton과 그의 동료들은 확장 불리언 모델을 위한 DNF(disjunctive normal form) 방법이라 불리는 적합성 피드백 방법을 제안하였다. 그렇지만 이 방법은 질의어를 재구성할 때 심각한 문제점을 갖고 있다. 이 논문에서는 DNF 방법의 문제점을 조사하고 이러한 문제점을 극복하기 위해 계층적 클러스터링 기법을 이용한 적합성 피드백 방법을 제안한다. 그리고 두개의 실험 데이타 집합인 TREC 1 의 DOE 컬렉션과 Web TREC 10 컬렉션을 이용하여 제안한 방법의 우수성을 보였다.

Abstract AI-Helper 아이콘AI-Helper

The relevance feedback process uses information obtained from a user about an initially retrieved set of documents to improve subsequent search formulations and retrieval performance. In the extended Boolean model, the relevance feedback Implies not only that new query terms must be identified, but ...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 Salton의 DNF 방법의 문제점을 극복할 수 있는 적합성 피드백 방법을 제안한다. 이 방법에서 모든 불리언 질의어는 논리합 정규형(disjunctive normal form)으로 표현될 수 있고 단어들이 AND 연산자로 결합된 각 논리곱은 서로 다른 개념을 나타낸다고 가정한다.
  • 이러한 사실은 잠재적으로 DNF 방법이 검색될 문서 수의 추정치에 상당히 민감하게 영향을 받는다는 것을 알려준다. 본 실험에서는 DNF 방법의 문제점을 밝히기 위해 다양한 추정된 검색될 문서 수를 두 데이타 집합에 적용하여 수행하고 결과를 살펴본다.
  • 본 연구에선 확장 불리언 검색 모델을 위한 Salton이 제안한 DNF 방법에서 사용한 검색될 문서 수의 추정치에 관련된 문제점을 보이고 이 문제점을 해결할 수 있는 계층적 클러스터링 기법을 이용한 적합성 피드백 방법을 제안하였다. 또한 두 방법을 상대적으로 작은 TREC 1의 DOE 컬렉션과 상대적으로 큰 Web TREC 10 컬렉션에서 비교 실험하여 제안한 방법의 우수성을 살펴보았다.
  • 본 연구에서 두 가지 실험을 수행하였다. 첫 번째 실험은 Salton의 DNF 방법의 문제점올 밝히기 위해 수행되었고 두 번째 실험은 제안한 확장 불리언 모델을 위한 계층적인 클러스터링 기법을 이용한 적합성 피드백 방법을 평가하기 위해 수행되었다. 이러한 실험을 위하여 두 개의 데이타 컬렉션이 사용되었는데 하나는 TREC 1에 있는 DOE(Department of Energy) 컬렉션이고 다른 하나는 Web TREC 10 컬렉션이다.

가설 설정

  • 둘째로 심지어 사용자가 검색될 문서의 수를 알 수 있어도 다음 세 가지 경우를 생각할 수 있다. 1) T의 값이 작다면 용어의 기대 포스팅 빈도 대부분은 T보다 커서 중요한 절들이 선택되기 힘들다. 2) T가 크다면 용어의 기대 포스팅 빈도 대부분이 T보다 작기 때문에 중요하지 않은 절들이 선택될 수 있다.
  • 나) 검색 성능은 T의 값이 커질 때 나빠진다.
  • 나) 검색 효율은 7、의 값이 클 때 나빠진다.
  • 다) T 값에 관계없이 초기 질의어 보다 검색 성능이 떨어진다.
  • 또한 주어진 주제의 검색될 문서의 정확한 수를 데이타 컬렉션에 존재하는 그 주제의 총 적합한 문서 수라고 가정하고 실험을 수행하였다. DOE 컬렉션의 평균 적합한 문서 수는 120이고 Web TREC 10 컬렉션의 평균 적합한 문서 수는 1, 408이다.
  • 수 있는 적합성 피드백 방법을 제안한다. 방법에서 모든 불리언 질의어는 논리합 정규형(disjunctive normal form)으로 표현될 수 있고 단어들이 AND 연산자로 결합된 각 논리곱은 서로 다른 개념을 나타낸다고 가정한다. 이러한 가정 하에서 검색된 적합한 문서들을 서로 다른 그룹으로 클러스터링을 수행함으로써 개념들을 얻고 이렇게 얻어진 개념들을 OR 연산자로 연결함으로써 질의어를 재구성할 수 있다.
본문요약 정보가 도움이 되었나요?

참고문헌 (20)

  1. Ide, E. New experiments in relevance feedback. In Salton, G., ed., The Smart System - Experiments in Automatic Document Processing, pp. 337-354. Englewood Cliffs, NJ: Prentice-Hall Inc, 1971 

  2. Rocchio, J. J. Jr. Relevance feedback in information retrieval. In Salton, G., ed., The Smart System - Experiments in Automatic Document Processing, pp. 313-323. Englewood Cliffs, NJ: Prentice-Hall Inc, 1971 

  3. Salton, G. and Buckely, C. Improving retrieval performance by relevance feedback. J, of the American Society for Information Science, 41(4): pp. 288-297, 1990 

  4. Bookstein, A. Fuzzy requests: An approach to weighted Boolean searches, J, ASlS, Vol 31, No. 4, July, 1980, pp. 275-279 

  5. Salton, G., Fox, E. A, and Wu, H. Extended Boolean information retrieval, Vol. 36, No. 11, December 1983, Communication of the ACM, pp. 1022-1036 

  6. Waller, W. G. and Kraft, D. H. A mathematical model for a weighted Boolean retrieval system. Information Processing and Management, Vol 15, No.5, 1979, pp. 235-245 

  7. Wong, S.K.M., Ziarko, W., Raghavan.V. V., and Wong, P. C. N. Extended Boolean query processing in the generalized vector space Model, Information Systems Vol. 14, No.1, pp. 47-63, 1989 

  8. Joon Ho Lee. Properties of Extended Boolean Models in Information Retrieval. In Proceedings of ACM-SIGIR Conference, 1994, pp. 182-190 

  9. Salton, G., Fox, E. A, and Voorhees, E. Advanced feedback methods in information retrieval. J, of the American Society for Information Science, 36(3): pp. 200-210, 1985 

  10. Alsaffar, A. H., Deogun, J. S., Raghavan, V. V., and Sever, H. Concept-based retrieval with minimal term sets. In Z. W. Ras and A. Skowon, editors, Foundations of Intelligent Systems: Eleventh Int'l Symposium, ISMIS'99 proceedings, pp. 114-122. Springer, Warsaw, Poland, Jun, 1999 

  11. Raghavan, V. V. and Wong, S. A critical analysis of the vector space model for information retrieval. Journal of the American Society for Information Science 37(5): pp. 279-287, 1986 

  12. Salton, G. and McGill, M. J. Introduction to Modern Information Retrieval. McGraw Hill, New York, 1983 

  13. J. T. Rickman, Design Considerations for a Boolean Search system with Automatic Relevance Feedback Processing, Proc. National Meeting, Assoc. for Computing Machiner, New York, August 1971, p. 478-481 

  14. M. Dillon and J. Desper, Automatic relevance feedback in Boolean retrieval system, J. Documentation 1980. 36, 197-208 

  15. M. Dillon and J. Ulmschncider and J. Desper, A prevalence formula for automatic relevance feedback in Boolean retrieval system, Infor. Proc. Management 1983, 19(1), 27-36 

  16. A.K. Jain and R.C. Dubes. Algorithms for clustering Data, PrenticeHall, Upper Saddle River, NJ, 1988 

  17. Efthimis N. Efthimiadis. Query Expansion. Annual Review of Information System and Technology, v31, pp. 121-187, 1996 

  18. Robertson, Stephen E., Sparck Jones, Karen. Relevance Weighting of Search Terms. Journal of the American Society for Information Science, 27(3), pp. 129-146, 1976 

  19. Robertson, Stephen E. On Relevance Weight Estimation and Query Expansion. Journal of, 42(3), pp. 182-188, 1986 

  20. Porter M.F. and Galpin V. Relevance Feedback in a Public Access Catalogue for a Research Library: Muscat at the Scott Polar Research Institute. Program, 22(1), pp. 1-20, 1988 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로