[논문]사용자 중심의 블로그 정보 검색 기법

김승종

doi:10.5762/kais.2010.11.9.3458

사용자 중심의 블로그 정보 검색 기법
User-Centered Information Retrieving Method in Blogs 원문보기

한국산학기술학회논문지 = Journal of the Korea Academia-Industrial cooperation Society, v.11 no.9, 2010년, pp.3458 - 3464

김승종 (한양여자대학 컴퓨터정보과)

초록
AI-Helper

최근 빠른 주기로 많은 양의 새로운 정보가 생성되기 때문에, 사용자 중심의 정보 검색을 위해 RSS라는 신디케이션 기술이 제공되고 있다. RSS는 새롭게 갱신된 콘텐츠를 자동으로 전달받을 수 있어 신규 정보를 찾기 위해 사이트에 지속적으로 접근하지 않아도 된다. 본 논문에서는 블로그 정보 검색을 위해 RSS 문서의 주소를 수집하는 수집기와 사용자 질의에 따른 RSS 문서의 순위결정 방법을 제안한다. 제안하는 정보 검색 기법을 이용하면 사용자가 RSS 문서를 효과적으로 검색할 수 있다.

Abstract ▼ AI-Helper

Due to the recent tremendous growth of internet information, RSS, syndication technology provides internet users with a user-friendly information search. RSS enables you to automatically receive newly updated contents, so users do not need to constantly access web sites to obtain new information. This paper proposes the way of managing the web crawler, which collects the sites of RSS documents and helps the users efficiently use the RSS documents. And it also suggests the proper way of ranking the RSS documents based on the users' popularity. Users can efficiently search out the documents they need by using the proposed information searching methods.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 검색 기간 내에 블로그의 갱신주기가 짧으면서 내용이 꾸준히 갱신되는 문서에 대해 높은 우선순위를 부여하는 알고리즘을 제안한다. 즉, 식(5)를 적용하여 1차적으로 DR₁ 값이 큰 블로그 문서에 대해 높은 우선순위를 부여하고 만약, 식(5)를 적용한 결과가 동일하면, 식(8)과 같이 블로그 갱신주기를 반영하여 DR₂ 값이 작은 블로그 문서를 사용자에게 제공한다.
본 논문에서는 사용자 스스로 관심 분야를 설정하고, 관심 분야와 관련된 초기 문서를 입력해 줌으로써, 사용자가 설정한 분야에 따라 분류되어 전달되는 RSS 리더와 각 분야를 대표하는 적합한 색인어를 추출할 수 있는 색인어 구성방법을 제시한다. 또한 사용자 프로파일(User Profile)을 구축하여 사용자의 선호도를 반영하고, 사용자의 요구에 적합한 문서를 적합성의 정도에 따라 제공하는 사용자 중심의 문서순위결정 기법을 제안한다.
본 논문에서는 사용자 중심의 효율적인 블로그 정보검색을 위하여 문서의 색인어 추출 방법, 추출된 색인어를 이용한 문서 분류 방법과 순위 결정 방법을 제안하였다. 사용자는 관심 있는 분야를 설정하여 관련 문서를 제안 알고리즘에 넣어주면, 해당 분야의 색인어 집단이 자동으로 추출되고, RSS 채널을 통하여 들어오는 정보는 이를 기준으로 분류되어 사용자에게 제공된다.
Yuwono[17]은 문서 단위의 유사도를 계산하여 문서의 순위를 결정하는 방법을 제안했지만, 사이트 단위의 우선 순위를 결정하는 데에는 무리가 있다. 즉, 사용자가 질의한 단어를 다수 포함한 글이 1개 등록된 RSS 채널과 사용자가 질의한 단어 1개만을 포함한 다수의 글이 등록된 RSS 채널을 비교해 보자. 단순한 유사도 계산만으로 순위를 결정하면 전자가 높은 우선순위를 가질 수 있는 단점이 존재한다.

가설 설정

예를 들어, 블로그 검색 기간을 10일로 설정하고 사용자 질의어 q는 1로 가정하자. 또한 제목 부분에만 질의어 q가 포함된 블로그 A와 블로그 B가 있다고 가정하자. 검색 기간에 질의어 q를 포함한 문서의 개수가 블로그 A는 {1, 2, 2, 2, 4, 2, 2, 3, 1, 1}, 블로그 B는 {0, 0, 0, 5, 4, 5, 0, 6, 0, 0}라고 조사되었을 때, 식(6)에 의해 DR_title을 각각 계산하면 다음과 같다.

제안 방법

본 논문에서 제안한 블로그 문서 분류 기법의 우수성을 입증하기 위해 색인어 집단 추출 시 사용되었던 분야당 100개의 블로그를 이용하였다. 또한 5명의 블로그 게시자에 대해 분야별 최저 5개에서 최대 20개의 색인어를 선정하도록 하였으며, 개인별로 선정한 색인어 중에서 중복된 색인어를 제거하였다. 실험결과는 그림 4와 같으며, 블로그 게시자가 직접 색인어를 추출하여 문서를 분류하는 방식(수동적인 기준)과 자동화된 기준으로 색인어를 추출하고 이를 토대로 문서를 분류하는 방식(제안하는 기준)에 대해 각각 비교하였다.
본 논문에서는 사용자 스스로 관심 분야를 설정하고, 관심 분야와 관련된 초기 문서를 입력해 줌으로써, 사용자가 설정한 분야에 따라 분류되어 전달되는 RSS 리더와 각 분야를 대표하는 적합한 색인어를 추출할 수 있는 색인어 구성방법을 제시한다. 또한 사용자 프로파일(User Profile)을 구축하여 사용자의 선호도를 반영하고, 사용자의 요구에 적합한 문서를 적합성의 정도에 따라 제공하는 사용자 중심의 문서순위결정 기법을 제안한다.
색인어의 빈도수와 색인어가 나타나는 문헌의 빈도수를 조사하고 분야별 색인어 집단을 선정한 후, 고려해야할 것은 다른 분야와의 색인어 중복이다. 본 논문에서는 타 분야의 색인어로 선정된 것은 해당 분야에서 제거시키는 방법을 제안하여 분야별 블로그 문서 분류 시, 효율성을 가지는 색인어 집단을 구성하도록 한다. 색인어를 토대로 중복 문서를 분류하는 기준은 식(4)와 같다.
추출된 모든 단어와 단어빈도수는 웹 콘텐츠 분류 시에 사용된다. 색인어 추출은 대형 포털 사이트의 트렌드와 주제영역을 분석한 후, 그 주제 영역별 100개의 문서를 대상으로 실험한 결과 문서 당 2회 이상 추출된 단어를 색인어로 추출하였고, 이렇게 추출된 대표 색인어 집단은 표 2와 같다. 입력된 문서 내에서 추출된 단어들은 식(1)과 같이 많이 알려진 유사도(Similarity) 계산 방법을 이용하였으며, 분야별 색인어 집단과의 유사도를 계산하여 가장 큰 값을 갖는 분야로 분류한다[16,17].
또한 5명의 블로그 게시자에 대해 분야별 최저 5개에서 최대 20개의 색인어를 선정하도록 하였으며, 개인별로 선정한 색인어 중에서 중복된 색인어를 제거하였다. 실험결과는 그림 4와 같으며, 블로그 게시자가 직접 색인어를 추출하여 문서를 분류하는 방식(수동적인 기준)과 자동화된 기준으로 색인어를 추출하고 이를 토대로 문서를 분류하는 방식(제안하는 기준)에 대해 각각 비교하였다. 그림에서도 알 수 있듯이 제안하는 방식을 이용하여 문서를 분류한 결과 평균 83.

대상 데이터

본 논문에서 제안한 블로그 문서 분류 기법의 우수성을 입증하기 위해 색인어 집단 추출 시 사용되었던 분야당 100개의 블로그를 이용하였다. 또한 5명의 블로그 게시자에 대해 분야별 최저 5개에서 최대 20개의 색인어를 선정하도록 하였으며, 개인별로 선정한 색인어 중에서 중복된 색인어를 제거하였다.
블로그 검색 성능을 비교하기 위해 검색 기간은 45일로 설정하고 엠파스 포털사이트에 상위 랭크된 10개 블로그의 RSS 주소를 획득하였다. 엠파스에 저장된 상위 10개 블로그의 RSS 채널수는 8,750개였으며, 제안하는 방식을 이용하여 획득한 상위 10개 블로그의 RSS 채널수는 1,307개였다.
블로그 검색 성능을 비교하기 위해 검색 기간은 45일로 설정하고 엠파스 포털사이트에 상위 랭크된 10개 블로그의 RSS 주소를 획득하였다. 엠파스에 저장된 상위 10개 블로그의 RSS 채널수는 8,750개였으며, 제안하는 방식을 이용하여 획득한 상위 10개 블로그의 RSS 채널수는 1,307개였다. 따라서 약 1/6.

이론/모형

블로그 정보 검색에서 블로그 스파이더(Spider)는 일반적으로 Random Search 알고리즘을 사용하지만, 본 논문에서는 Breadth-First Search 알고리즘을 사용한다. 왜냐하면 Random Search 알고리즘은 크롤러(Crawler)의 움직임을 제어할 수 없고 또한 임의의 주제에 대한 정보를 수집하는 반면, Breadth-First Search 알고리즘은 목표를 찾을 때까지 특정 주제에 대해 집중적으로 검색하거나 수집할 수 있는 장점이 있다.
블로그 정보 수집기는 메인 페이지에 존재하는 링크의 수로 탐색 큐의 크기를 조절한 후, Breadth -First Search 알고리즘을 이용하여 블로그 문서에서 링크들을 추출한다.
색인어 추출은 대형 포털 사이트의 트렌드와 주제영역을 분석한 후, 그 주제 영역별 100개의 문서를 대상으로 실험한 결과 문서 당 2회 이상 추출된 단어를 색인어로 추출하였고, 이렇게 추출된 대표 색인어 집단은 표 2와 같다. 입력된 문서 내에서 추출된 단어들은 식(1)과 같이 많이 알려진 유사도(Similarity) 계산 방법을 이용하였으며, 분야별 색인어 집단과의 유사도를 계산하여 가장 큰 값을 갖는 분야로 분류한다[16,17].
블로그 메인 페이지가 프레임 형태로 되어 있을 경우, 각 프레임에 해당하는 주소를 획득하여 실제 블로그 메인 페이지 주소를 재설정한다. 재설정된 블로그의 메인 페이지에 존재하는 링크주소를 획득하기 위해 표 1과 같은 정규표현식(Regular Expression)을 사용한다[2,8,9]. 수집기는 획득된 링크주소들에 접근하여 블로그 채널이 가져야 할 태그 여부를 확인한 후, 블로그 채널이라고 판단되면, 이미 탐색된 채널인지, 아닌지를 비교하고 신규 채널일 경우 해당 블로그 채널의 주소와 문서의 요소(title, description, 본문 등)를 저장한다.

성능/효과

또한 Blog Post는 블로그 사이트에 등록된 description을 대상으로 질의어 “여행”을 포함하는 갱신된 블로그 문서의 수를 말한다. 그림 5에서 알 수 있듯이, 실제 엠파스 포털사이트에서 제공하는 검색 알고리즘(Blog Post) 보다 제안하는 방식이 자주 갱신되는 블로그 문서를 효율적으로 검색할 수 있었다.
실험결과는 그림 4와 같으며, 블로그 게시자가 직접 색인어를 추출하여 문서를 분류하는 방식(수동적인 기준)과 자동화된 기준으로 색인어를 추출하고 이를 토대로 문서를 분류하는 방식(제안하는 기준)에 대해 각각 비교하였다. 그림에서도 알 수 있듯이 제안하는 방식을 이용하여 문서를 분류한 결과 평균 83.3%, 수동적인 기준에 의한 결과는 평균 65.0%의 정확성을 나타내었다. 모든 분야에서 제안하는 방식이 정확하게 분류되었으며, 특히 다양한 분야가 섞여 있는 경제, 문화, 사회에서는 수동적인 기준에 의한 방법과 비교하여 약 20% 이상 차이가 날 정도로 색인어 집단이 잘 구성되었다고 볼 수 있다.
0%의 정확성을 나타내었다. 모든 분야에서 제안하는 방식이 정확하게 분류되었으며, 특히 다양한 분야가 섞여 있는 경제, 문화, 사회에서는 수동적인 기준에 의한 방법과 비교하여 약 20% 이상 차이가 날 정도로 색인어 집단이 잘 구성되었다고 볼 수 있다.
일반적인 검색 사이트에서는 자료의 갱신정도를 검색 알고리즘에 포함시키지 않았지만, 제안하는 방식은 사용자 질의어를 토대로 갱신 주기 및 갱신 분포 등을 고려하여 블로그 문서를 검색하기 때문에 사용자의 요구를 반영한 최적의 블로그 문서를 제공할 수 있다는 장점이 있다.

후속연구

를 계산해 보면 블로그 A가 블로그 B보다 작은 값을 가지므로 우선순위가 높다. 본 논문에서 제안한 블로그 문서의 순위결정 알고리즘은 지정된 검색 기간 내에 문서가 얼마나 자주 갱신되는지의 여부를 체크하여 사용자에게 효율적인 블로그 문서의 제공이 가능할 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	RSS란 무엇인가?	요즘은 빠른 주기로 많은 양의 새로운 정보가 생성되기 때문에, 사용자들이 필요로 하는 정보를 얻기 위해서는 다양한 검색과 웹사이트 서핑을 통해 정보의 유무를 확인해야 하고, 더욱이 원하는 페이지에 도달하기 위한 회원가입, 로그인, 검색 등 많은 과정을 거쳐야 하는 불편함이 있다. 이러한 불편함을 해소하기 위해 RSS(Really Simple Syndication)를 활용하는 방법이 제시되었으며, RSS는 웹 사이트를 통한 출판 과정에서 지속적으로 이루어지는 콘텐츠의 변화를 사용자들에게 자동 홍보하는 기법이다[1,2]. 하지만, RSS 기법을 이용하여 검색을 하더라도 검색 결과의 양이 매우 많아서, 사용자 자신에게 적합한 결과를 찾기 위해 또다시 노력을 기울여야만 한다.
	RSS 기법을 이용하더라도 사용자 자신에게 적합한 결과를 얻기 위해서는 또다시 노력을 기울여야만 하는데 그 이유는?	하지만, RSS 기법을 이용하여 검색을 하더라도 검색 결과의 양이 매우 많아서, 사용자 자신에게 적합한 결과를 찾기 위해 또다시 노력을 기울여야만 한다. 그 이유는 대부분의 검색 기법이 사용자가 입력한 질의와의 일치도를 기준으로 검색을 수행하기 때문에 사용자가 입력한 질의어가 비적합 자료의 키워드와 일치하면 그 자료까지 결과로 제공되기 때문이다[3]. 따라서 정보의 가치가 증대됨에 따라 사용자의 관심과 선호도를 파악하여 보다 만족스러운 결과를 제공해주는 사용자 중심의 정보검색 기법의 필요성이 증대되고 있다[4,5].
	정보 필터링 방법이란?	정보 필터링 방법은 사용자의 선호도를 저장한 후, 선호도 판단에 필요 없는 정보를 제거하여 검색된 결과의 수를 줄이는 방법이다. 그러나 사용자의 관심이 변하지 않거나 정보자원에 커다란 변동이 없으면 계속 사용할 수 있으나, 특정 관심분야로 한정된다는 단점이 존재한다[7,12,13].

참고문헌 (18)

KISTI, RSS를 이용한 웹페이지의 뉴스 피드 기능, 2005.
World Wide Web Consortium, 2005.
N. Agarwal and H. Liu, "Blogosphere: Research Issues, Tools, and Applications", SIGKDD Explorations, 10(1): 18 - 31, July, 2008.

상세보기
K. C. Sia, J. Cho, C. Yun, B. L. Tseng, "Efficient Computation of Personal Aggregate Queries on Blogs", Proc. Knowledge Discovery and Data Mining Conf., ACM Press, pp. 632-640, 2008.
A. Stewart, L. Chen, R. Paiu, and W. Nejdl, "Discovering Information Diffusion Paths From Blogosphere for Online Advertising", Proc. Workshop on Data Mining and Audience Intelligence for Advertising in conjunction with Knowledge Discovery and Data Mining, ACM Press, pp. 46-54, 2007.
Bracha Shapira, et al., "Information Filtering: A New Two-Phase Model using Stereotypic User Profiling," Journal of Intelligent Information systems, Vol. 8, 1997.

상세보기
Czeslaw Danilowicz, Jaroslaw Balinski, "Document Ranking based upon Markov Chains", Information Processing and Management, Vol.37, pp. 623-637, 2001.

상세보기
Kathleen Gilroy, Winning the Race for Knowledge Worker Productivity, A White Paper prepared for the Int. Conference on the National Communications Commission, pp. 3-23, 2005.
RSS Technology Reports, 2005.
PEW INTERNET & AMERICAN LIFE PROJECT, 2004.
Weihong Huang, "Enabling Context-Aware Agents to Understand Semantic Resources on the WWW and The Semantic Web", Proc. of the IEEE/WIC/ACM International Conference on Web Intelligence, pp.138-144. 2004.
Douglas W. OARD, "The State of the Art in Text filtering," User Modeling and User-adapted Interaction, vol.7, pp. 141-178, 1997.
Foltz, P. W, "Using Latent Semantic Indexing for Information Filtering," Proceedings of the Conference on Office Information Systems, Cambridge, MA, pp. 40-47, 1990.
Passamo, M. and Billsus, D., "Learning and Revising User Profiles: the Identification of Interesting Web Sites", Machine Learning, Vol. 27, pp. 313-331, 1997.
Dwi H. Widyantoro, Thomas R. loerger, John Yen, "An Adaptive algorithm for Learning Changes in User Interests," 8th International Conference on Information and Knowledge Management(CIKM'99),November 2-6, Kansas city, 1999.
Michael Persin, "Document Filtering for Fast Ranking," ACM-SIGIR, pp. 339-348, 1994.
B. Yuwono, "Search and ranking algorithms for locating resources on World Wide Web", Proc. of the Int. Conf. on Data Engineering, pp. 164-171, 1996.
Brin, S. & Page, L., "The Anatomy of a Large-Scale Hyper-textual Web Search Engine", Computer Networks and ISDN Systems, pp. 1107-1117. 1998.

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증