[논문]개념 망을 통한 전자 카탈로그의 시맨틱 검색 및 추천

이재원; 박성찬; 이상근; 박재휘; 김한준; 이상구

[국내논문] 개념 망을 통한 전자 카탈로그의 시맨틱 검색 및 추천
Semantic Search and Recommendation of e-Catalog Documents through Concept Network 원문보기

한국전자거래학회지 = The Journal of Society for e-Business Studies, v.15 no.3, 2010년, pp.131 - 145

이재원 (서울대학교 전기컴퓨터 공학부) , 박성찬 (서울대학교 전기컴퓨터 공학부) , 이상근 (서울대학교 전기컴퓨터 공학부) , 박재휘 (서울대학교 전기컴퓨터 공학부) , 김한준 (서울시립대학교 전자전기컴퓨터 공학부) , 이상구 (서울대학교 전기컴퓨터 공학부)

초록
AI-Helper

현재까지, 사용자의 요구에 맞는 카탈로그 문서를 제공하기 위해 널리 사용되고 있는 패러다임은 키워드 검색 혹은 협업적 필터링 기반 추천이다. 일반적으로 사용자의 질의어는 짧기 때문에, 사용자의 요구(질의어, 선호도)에 적합한 카탈로그 문서를 제공하는 것은 쉽지 않다. 이를 극복하기 위해 다양한 기법들이 제안되었으나, 이전 연구들은 색인어 매칭을 기반으로 하고 있다. 기존 베이지안 신념 망을 이용한 방법은 사용자의 요구 및 카탈로그 문서들을 연관성이 높은 개념들로 표현하였다. 하지만 개념들이 카탈로그 문서에서 추출된 색인어로 구성되어 있기 때문에 개념간의 관계 정보를 잘 표현하지 못하였다. 이에 본 연구는 베이지안 신념 망을 확장하여, 사용자의 요구 및 카탈로그 문서들을 웹 디렉토리에서 추출한 개념(혹은 카테고리) 망으로 표현한다. 개념 망을 이용함으로써, 사용자의 요구와 카탈로그 문서간의 개념 매칭도를 계산하는 것이 가능하다. 즉, 사용자의 질의어와 카탈로그 문서의 색인어가 일치하지 않을지라도, 개념적으로 관련성이 높은 문서를 검색하는 것이 가능하다. 또한 사용자간의 개념적 유사도를 계산함으로써, 시맨틱 기반의 협업적 필터링 추천이 가능하다.

Abstract ▼ AI-Helper

Until now, popular paradigms to provide e-catalog documents that are adapted to users' needs are keyword search or collaborative filtering based recommendation. Since users' queries are too short to represent what users want, it is hard to provide the users with e-catalog documents that are adapted to their needs(i.e., queries and preferences). Although various techniques have beenproposed to overcome this problem, they are based on index term matching. A conventional Bayesian belief network-based approach represents the users' needs and e-catalog documents with their corresponding concepts. However, since the concepts are the index terms that are extracted from the e-catalog documents, it is hard to represent relationships between concepts. In our work, we extend the conventional Bayesian belief network based approach to represent users' needs and e-catalog documents with a concept network which is derived from the Web directory. By exploiting the concept network, it is possible to search conceptually relevant e-catalog documents although they do not contain the index terms of queries. Furthermore, by computing the conceptual similarity between users, we can exploit a semantic collaborative filtering technique for recommending e-catalog documents.

Keyword

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문은 사용자의 선호도 및 카탈로그 문서(혹은 상품)들을 관련성이 높은 개념들로 표현함으로써, 희박성 문제를 해결하고자 한다. 특히, 사용자의 선호도를 개념 망으로 표현함으로써, 서로 다른 상품을 접근할지라도 개념적으로 유사한 선호도를 갖는 사용자들이라면 유사도를 계산하는 것이 가능하다.
본 절은 웹디렉토리와 같은 분류 지식베이스에서 추출된 카테고리를 이용하여 EBBN 기반 모델의 개념층을 모델링하는 방법에 대하여 제시한다. 분류 지식 베이스의 각 개념(카테고리)들은 해당 개념으로 분류된 여러 개의 웹 페이지 제목 및 짧은 요약문을 가지고 있다.
EBBN 기반 모델에서 카탈로그 문서들은 분류 지식 베이스의 개념들로 표현된다. 본 절은 카탈로그 문서를 개념들로 표현하는 방법에 대하여 제시한다. 카탈로그 문서를 분류 지식베이스에서 추출된 개념들로 표현하면 다음과 같다.
EBBN 기반 모델에서 질의어층은 사용자의 질의어와 사용자 선호도 정보로 구성되어 있다. 본 절은 질의어와 사용자 선호도 정보를 개념들로 표현하는 방법에 대하여 제시한다.
현재까지 많은 검색 및 추천 방법들이 제안되었지만, 이전 연구들은 검색 혹은 추천의 한 측면에 초점을 맞춘 정보 추출(information retrieval) 모델이었다. 그러나 본 연구는 개념 망을 이용하여 시맨틱 검색 및 추천을 위한 통합된 정보 추출 모델을 제안한다. 본 연구는 사용자의 질의어, 선호도 정보, 카탈로그 문서를 모두 분류 지식 베이스(웹 디렉토리)의 개념(카테고리)으로 표현하고 있다.
본 절에서는 사용자 질의어 q와 카탈로그 문서간의 확률적으로 개념 관련도를 계산하는 방법을 제시한다.
본 절은 사용자의 선호도 정보가 주어졌을 때, 선호도가 비슷한 사용자를 찾는 방법 및 비슷한 사용자가 접근했던 문서를 엑티브 사용자에게 추천하는 방법을 제시한다. 조건부 확률 Pr(d_u'x|p_u)는 사용자 u의 선호도 정보(p_u)가 조건으로 주어졌을 때, u'이 접근했던 d_u'x가 얼마나 사용자 u의 선호도에 적합한 문서인가를 확률적으로 나타낸다.
또한 사용자의 선호도 정보 역시 개념으로 표현함으로써, 협업적 필터링 기반 추천 알고리즘의 치명적인 단점인 희박성 문제를 해결하였다. 특히, 이전의 정보 추출 연구들이 검색 혹은 추천의 한 측면에 초점을 맞춘 모델을 제시한 반면, 본 연구는 검색 및 추천을 시맨틱 공간에서 수행할 수 있는 정보 추출 모델을 제시하였다.

가설 설정

)는 개념, 카탈로그 문서, 색인어에 대한 사전 확률(prior probability)이다. 계산 과정을 단순화 시키기 위해, 확률 Pr(c_i)가 모든 개념들에 대하여 동일하다고 가정한다. 즉, Pr(c_i) = 1/총 개념들의 수.
본 예시에서 카탈로그 문서 d_x는 색인어 t₁, t₂, t₃로 구성되어 있으며, 개념 c₄는 색인어 t₃로 구성되어 있다고 가정한다. 카탈로그 문서 d_x와 색인어 t₃사이의 관련도는 확률 Pr(t₃|d_x)로 표현되며, 색인어 t₃와 개념 c₄사이의 관련도는 확률 Pr(t₃|c₄)로 표현된다.

제안 방법

이에 본 연구는 베이지안 신념 망을 확장하여, 사용자의 요구 및 카탈로그 문서들을 웹 디렉토리와 같은 분류 지식 베이스에서 추출된 개념 망으로 표현한다. 특히 ODP(open directory project) 웹 디렉토리는 지금까지 알려진 분류 지식베이스 중에서 가장 크고 포괄적인 범위를 다루기 때문에 검색 및 추천 시스템이 사용자의 질의어(혹은 선호도 정보)를 이해하는데 용이하다[4].
특히 ODP(open directory project) 웹 디렉토리는 지금까지 알려진 분류 지식베이스 중에서 가장 크고 포괄적인 범위를 다루기 때문에 검색 및 추천 시스템이 사용자의 질의어(혹은 선호도 정보)를 이해하는데 용이하다[4]. 기존 BBN 기반의 모델에서는 카탈로그 문서로부터 추출된 색인어들이 개념으로 이용되었지만, 본 연구에서는 ODP 웹 디렉토리의 각 카테고리들이 개념으로 이용한다. 비록 본 연구에서는 ODP를 도메인 지식 베이스로 이용하고 있으나, 개념간의 관계 정보 및 개념을 표현하기 위한 설명이 존재하는 지식베이스라면 아무런 제약 없이 적용이 가능하다.
즉, 확장된 질의어를 카탈로그 문서가 포함하고 있지 않은 경우, 여전히 검색이 불가능하다. 본 연구의 질의어 확장 방법은 이전 연구들과 비슷하지만, 질의어와 카탈로그 문서간의 색인어 매칭이 아닌, 개념 매칭을 이용한다. 비록 카탈로그 문서가 확장된 질의어를 포함하고 있지 않더라고, 사용자 질의에서 추출된 개념들 혹은 관련성이 높은 개념들을 포함하고 있다면 검색 결과로서 제공될 수 있다.
본 절에서는 ODP와 같은 분류 지식베이스를 이용하여, 기존의 베이지안 신념 망(BBN)기반 모델[2]을 확장한다. <그림 2>는 기존 BBN 기반 모델과 확장된 베이지안 신념 망(extended Bayesian belief network; EBBN) 기반 모델의 구조를 보여준다.
이와 같은 제목 및 짧은 요약문을 본 연구에서는 서술(description)이라고 명한다. 본 연구는 각 개념에 분류된 서술들로부터 추출된 색인어를 이용하여 해당 개념의 시맨틱을 표현한다. 형식적으로 하나의 개념은 다음과 같이 모델링 된다.
사용자 (u₁)의 질의어 q 및 카탈로그 문서들 (d₇, d₈, d₉)간의 개념 매칭을 이용하여 시맨틱 관련도를 계산한다. 이 경우, 질의어와 카탈로그 문서간의 색인어가 일치하지 않아도 시맨틱 관련도(relevance degree)를 계산하는 것이 가능하다.
본 연구는 사용자의 질의어, 선호도, 카탈로그 문서의 시맨틱을 도출하기 위해 분류지식베이스로부터 추출한 개념을 이용하였다. 도출된 개념을 이용하여, 사용자의 질의어 및 카탈로그 문서의 간의 색인어 불일치 문제를 해결한 시맨틱 검색 모델을 제시하였다.
본 연구는 사용자의 질의어, 선호도, 카탈로그 문서의 시맨틱을 도출하기 위해 분류지식베이스로부터 추출한 개념을 이용하였다. 도출된 개념을 이용하여, 사용자의 질의어 및 카탈로그 문서의 간의 색인어 불일치 문제를 해결한 시맨틱 검색 모델을 제시하였다. 또한 사용자의 선호도 정보 역시 개념으로 표현함으로써, 협업적 필터링 기반 추천 알고리즘의 치명적인 단점인 희박성 문제를 해결하였다.

이론/모형

예를 들어, 검색 서비스의 경우 사용자의 질의어와 카탈로그 문서의 색인어가 일치하지 않는 경우, 개념 적으로(혹은 시맨틱) 관련성이 높은 카탈로그 문서일지라도 사용자에게 제공되는 것이 불가능하다. 본 연구는 사용자의 질의어(혹은 선호도 정보)와 카탈로그 문서(혹은 사용자)간의 색인어 매칭이 아닌 개념 매칭을 이용하기 위해 베이지안 신념 망(Bayesian belief network; BBN)을 기반으로 한다.
각 색인어의 가중치 w_k는 TF(term frequency)와 IDF(inverse document frequency)에 의해 계산한다. 색인어 가중치를 계산할 때, 서술들에서 불용어(관사, 전치사, 접속사 등)들을 제거하며, 포터스 알고리즘(Porter stemming algorithm)[19]을 이용하여 어미가 변형된 색인어들은 어근의 형태로 변형한다.

성능/효과

도출된 개념을 이용하여, 사용자의 질의어 및 카탈로그 문서의 간의 색인어 불일치 문제를 해결한 시맨틱 검색 모델을 제시하였다. 또한 사용자의 선호도 정보 역시 개념으로 표현함으로써, 협업적 필터링 기반 추천 알고리즘의 치명적인 단점인 희박성 문제를 해결하였다. 특히, 이전의 정보 추출 연구들이 검색 혹은 추천의 한 측면에 초점을 맞춘 모델을 제시한 반면, 본 연구는 검색 및 추천을 시맨틱 공간에서 수행할 수 있는 정보 추출 모델을 제시하였다.

후속연구

향후 과제로는 본 연구의 우수성을 실험적으로 증명해야 한다. 실험을 위해 고려해야 할 사항을 정리하면 다음과 같다.
그러므로 본 연구의 우수성을 판단하기 위해서는 사용자 기반 판단 및 로그 기반 판단 방법 이외의 다른 방법을 제안해야 하며, 향후 과제로 남겨둔다.

질의응답

핵심어	질문	논문에서 추출한 답변
	검색 서비스란?	현재까지, 사용자의 요구(질의어, 선호도)에 맞는 카탈로그 문서를 제공하기 위해 널리 사용되고 있는 패러다임은 키워드 검색 혹은 협업적 필터링 기반 추천이다. 검색 서비스는 사용자의 질의어와 관련성이 높은 카탈로그 문서를 제공하는 서비스이며, 협업적 필터링 기반 추천 서비스는 질의어 대신 선호도 정보를 이용하여 유사한 사용자(즉, 선호도가 비슷한 사용자)가 선호하는 카탈로그 문서를 제공하는 서비스이다. 일반적으로 사용자의 질의어(혹은 선호도 정보)는 짧기 때문에, 사용자의 요구에 적합한 카탈로그 문서를 제공하는 것은 쉽지 않다.
	현재까지, 사용자의 요구(질의어, 선호도)에 맞는 카탈로그 문서를 제공하기 위해 널리 사용되고 있는 패러다임은?	현재까지, 사용자의 요구(질의어, 선호도)에 맞는 카탈로그 문서를 제공하기 위해 널리 사용되고 있는 패러다임은 키워드 검색 혹은 협업적 필터링 기반 추천이다. 검색 서비스는 사용자의 질의어와 관련성이 높은 카탈로그 문서를 제공하는 서비스이며, 협업적 필터링 기반 추천 서비스는 질의어 대신 선호도 정보를 이용하여 유사한 사용자(즉, 선호도가 비슷한 사용자)가 선호하는 카탈로그 문서를 제공하는 서비스이다.
	BBN 기반 모델과 EBBN 기반 모델의 차이점은?	BBN 기반 모델과 EBBN 기반 모델의 가장 큰 차이점은 개념층의 구조이다. BBN은 개념층이 카탈로그 문서로부터 추출된 색인어로 구성된 반면, EBBN의 개념층은 웹 디렉토리로부터 추출된 카테고리로 구성되어 있다. 카테고리를 이용함으로써(개념간의 관계정보를 이용함으로써), 질의어층과 문서층 사이의 매칭 확률을 높이는 것이 가능하다.

참고문헌 (25)

Baeza-Yates, R. and Ribeiro-Neto, B., Modern Information Retrieval, Addison Wesley, 1999.
Ribeiro, B. A. and Muntz, R., "A Belief Network Model for IR," In Proceeding of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR '96), 1996, pp. 253-260.
Lenat, D. and Guha, R., Building Large Knowledge Based Systems, Addison Wesley, 1990.
Chirita, P. A., Nejdl, W., Paiu, R., and Kohlschutter, C., "Using ODP Metadata to Personalized Search," In Proceeding of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR '05), 2005, pp. 178-185.
Vogel, D., Bickel, S., Haider, P., Schimpfky, R., Siemen, P., Bridges, S., and Scheffer, T., "Classifying Search Engine Queries using the Web as Background Knowledge," SIGKDD Explorations Newsletter, Vol. 7, No. 2, 2005, pp. 117-122.

상세보기
Shen, D., Sun, J., Yang, Q., and Chen, Z., "Building Bridges for Web Query Classification," In Proceeding of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR '06), 2006, pp. 131-138.
Liu, F., Yu, C., and Meng, W., "Personalized Web Search for Improving Retrieval Effectiveness," IEEE Transactions on Knowledge and Data Engineering, Vol. 16, No. 1, 2004, pp. 28-40.

상세보기
Cosley, D., Lawrence, S., and Pennock, D., "REFEREE : An Open Framework for Practical Testing of Recommender Systems Using Researchindex," In Proceeding of 28th International Conference on Very Large Databases(VLDB 2002), 2002, pp. 35-46.
Pazzani, M. and Bilsus, D., "Learning and Revising User Profile : the Identification of Interesting Web Sites," Machine Learning, Vol. 27, No. 3, 1997, pp. 313-331.
Li, Y., Lu, L., and Xuefeng, L., "A Hybrid Collaborative Filtering Method for Multiple Interests and Multiple Content Recommendation in E-Commerce," Expert Systems with Applications, Vol. 28, No. 1, 2005, pp. 67-77.

상세보기
Wang, J., Vries, A. P., and Reinders, M. J., "Unifying User-based and Itembased Collaborative Filtering Approaches by Similarity Fusion," In Proceeding of 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2006), 2006, pp. 501-508.
Deshpande, M. and Karypis, G., "Item-based Top-n Recommendation Algorithm," ACM Transaction on Information Systems, Vol. 22, No. 1, 2004, pp. 143-177.

상세보기
Sarwar, B., Karypis, G., Konstan, J., and Riedl, J., "Item-based Collaborative Filtering Recommendation Algorithms," In Proceeding of 10th International Conference on World Wide Web(WWW 2001), 2001, pp. 285-295.
Herlocker, J. L., Konstan, J. A., Borchers, A., and Riedl, J., "An Algorithmic Framework for Performing Collaborative Filtering," In Proceeding of 22th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR 1999), 1999, pp. 230-237.
Jin, R., Chai, J. Y., and Si, L., "An Automatic Weighting Scheme for Collaborative Filtering," In Proceeding of 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR 2004), 2004, pp. 337-344.
Resnick, P., Iacovou, N., Suchak, M., Bergstorm, P., and Riedel, J., "Group-Lens : An Open Architecture for Collaborative Filtering of Netnews," In Proceeding of the ACM Conference on Computer Supported Cooperative Work (CSCW 1994), 1994, pp. 175-186.
Mild, A. and Natter, M., "A Critical View on Recommendation Systems," Working Paper Series, 2001, pp. 1-16.
Mobasher, B., Jin, X., and Zhou, Y., "Semantically Enhanced Collaborative Filtering on the Web," Lecture Notes in Computer Science, Vol. 3209, 2004, pp. 57-76.
Porter, M. F., "An Algorithm for Suffix Stripping," Readings in Information Retrieval, 1997, pp. 313-316.
Wong, S. and Yao, Y., "On Modeling Information Retrieval with Probabilistic Inference," ACM Transactions on Information Systems, Vol. 13, No. 1, 1995, pp. 38-68.

상세보기
Pitkow, J., Schutze, H., Cass, T., Cooley, R., Turnbull, D., Edmonds, A., Adar, E., and Breuel, T., "Personalized Search," Communication of the ACM, Vol. 45, No. 9, 2002, pp. 50-55.
Pretschner, A. and Gauch, S., "Ontology-based Personalized Search," In Proceeding of the 11th IEEE International Conference on Tools with Artificial Intelligence, 1999, pp. 391-398.
Speretta, M. and Gauch, S., "Personalized Search based on User Search Histories," In Proceeding of the 2005 IEEE/WIC/ACM International Conference on Web Intelligence, 2005, pp. 622-628.
Sieg, A., Mobasher, B., and Burke, R., "Web Search Personalization with Ontological User Profiles," In Proceeding of the 16th ACM Conference on Information and Knowledge Management (CIKM '07), 2007, pp. 525-534.
Xu, S., Bao, S., Fei, B., Su, Z., and Yu, Y., "Exploring Folksonomy for Personalized Search," In Proceeding of the 31th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR '08), 2008, pp. 155-162.

저자의 다른 논문 :

LOADING...

활용도 분석정보

상세보기

다운로드

내보내기

활용도 Top5 논문

해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다.
더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증