웹 2.0의 발전에 따라 다양한 기술들이 제공되며 그 중 대두되는 기술로 사용자가 관심 있는 웹페이지를 태깅 및 북마킹하는 소셜 북마킹 기술이다. 그러나 현재 소셜 북마킹 시스템들은 웹 콘텐츠의 중요 정보인 다른 사용자들의 관심 정도를 측정할 수 있는 북마크 수 및 검색과 분류를 목적으로 하는 태그 정보를 각각 독립적으로 검색에 활용하며 또한, 다른 사용자들과의 유사도를 반영하지 못하여 소셜 북마킹 시스템의 특징을 반영하지 못한 검색결과를 도출하고 있는 실정이다. 이에 본 연구에서는 선행 연구를 기반으로 태그 클러스터링을 통한 연관 태그 추출 및 북마크 정보와 다른 사용자의 유사도를 혼합한 웹 콘텐츠 랭킹 알고리즘을 제안하였다. 또한 제안 알고리즘의 효율성 분석을 위해 기존 검색 방법론 및 선행 연구의 방법론과의 비교평가를 시행하였으며, 그 결과 본 연구의 핵심적인 특징인 태그 정보 및 북마크 수와 유사도를 활용한 방법이 기존 방법론보다 효율적인 결과를 도출하였다.
웹 2.0의 발전에 따라 다양한 기술들이 제공되며 그 중 대두되는 기술로 사용자가 관심 있는 웹페이지를 태깅 및 북마킹하는 소셜 북마킹 기술이다. 그러나 현재 소셜 북마킹 시스템들은 웹 콘텐츠의 중요 정보인 다른 사용자들의 관심 정도를 측정할 수 있는 북마크 수 및 검색과 분류를 목적으로 하는 태그 정보를 각각 독립적으로 검색에 활용하며 또한, 다른 사용자들과의 유사도를 반영하지 못하여 소셜 북마킹 시스템의 특징을 반영하지 못한 검색결과를 도출하고 있는 실정이다. 이에 본 연구에서는 선행 연구를 기반으로 태그 클러스터링을 통한 연관 태그 추출 및 북마크 정보와 다른 사용자의 유사도를 혼합한 웹 콘텐츠 랭킹 알고리즘을 제안하였다. 또한 제안 알고리즘의 효율성 분석을 위해 기존 검색 방법론 및 선행 연구의 방법론과의 비교평가를 시행하였으며, 그 결과 본 연구의 핵심적인 특징인 태그 정보 및 북마크 수와 유사도를 활용한 방법이 기존 방법론보다 효율적인 결과를 도출하였다.
In current Web 2.0 environment, one of the most core technology is social bookmarking which users put tags and bookmarks to their interesting Web pages. The main purpose of social bookmarking is an effective information service by use of retrieval, grouping and share based on user's bookmark informa...
In current Web 2.0 environment, one of the most core technology is social bookmarking which users put tags and bookmarks to their interesting Web pages. The main purpose of social bookmarking is an effective information service by use of retrieval, grouping and share based on user's bookmark information and tagging result of their interesting Web pages. But, current social bookmarking system uses the number of bookmarks and tag information separately in information retrieval, where the number of bookmarks stand for user's degree of interest on Web contents, information retrieval, and classification serve the purpose of tag information. Because of above reason, social bookmarking system does not utilize effectively the bookmark information and tagging result. This paper proposes a Web contents ranking algorithm combining bookmarks and tag information, based on preceding research on associative tag extraction by tag clustering. Moreover, we conduct a performance evaluation comparing with existing retrieval methodology for efficiency analysis of our proposed algorithm. As the result, social bookmarking system utilizing bookmark with tag, key point of our research, deduces a effective retrieval results compare with existing systems.
In current Web 2.0 environment, one of the most core technology is social bookmarking which users put tags and bookmarks to their interesting Web pages. The main purpose of social bookmarking is an effective information service by use of retrieval, grouping and share based on user's bookmark information and tagging result of their interesting Web pages. But, current social bookmarking system uses the number of bookmarks and tag information separately in information retrieval, where the number of bookmarks stand for user's degree of interest on Web contents, information retrieval, and classification serve the purpose of tag information. Because of above reason, social bookmarking system does not utilize effectively the bookmark information and tagging result. This paper proposes a Web contents ranking algorithm combining bookmarks and tag information, based on preceding research on associative tag extraction by tag clustering. Moreover, we conduct a performance evaluation comparing with existing retrieval methodology for efficiency analysis of our proposed algorithm. As the result, social bookmarking system utilizing bookmark with tag, key point of our research, deduces a effective retrieval results compare with existing systems.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
소셜 북마킹 기술은 사용자들이 관심 있는 웹 콘텐츠들을 웹상에 즐겨찾기하는 기술로 다른 사용자들이 북마킹한 웹 콘텐츠들을 서로 공유할 수 있다는 특징이 있다. 또한 북마킹 시스템에서의 핵심적인 기술 중 하나는 태그 기술로 다양하게 존재하는 웹 콘텐츠의 검색, 분류, 공유를 통한 효율적인 정보제공을 목적을 가진다.
이에 본논문에서는 효율적인 소설북마킹 시스템에서의 랭킹 시스템을 제안하기 위해 현재 웹상에 다양한 리소들을 랭킹하기 위한 대표적인 랭킹 알고리즘의 장단점을 분석하였으며, 다음 2.2와 같다.
본 연구에서는 기존의 검색결과보다 정확하고 유용한 정보 제공을 위해 웹 콘텐츠 랭킹 알고리즘을 제안하며, 또한 소셜 북마킹 사이트 내 한계점을 해결함과 동시에 사용자에게 좀 더 효율적이고 의미 있는 정보의 제공을 위해 TBS_RANK(Tag, Bookmark and Similarity based Ranking) 알고리즘을 제안한다.
또한, 다양한 키워드 ‘공부’, ‘아이폰’, ‘영어공부’를 이용함으로써 키워드가 가지는 특징에 대해 기술한다.
본 논문에서는 기존 소셜 북마킹 시스템에서 가지는 문제점을 해결하기 위해 태그 클러스터링을 통해 부정확한 태그들을 제거하고 연관관계가 높은 태그 그룹으로 구성될 수 있게 하였으며 또한, 태그 정보와 다른 사용자와의 관심도를 나타내는 북마크 수 및 사용자 유사 그룹을 통해 얻은 유사도를 혼합한 랭킹 알고리즘을 제안하여 소셜의 의미를 갖는 검색결과를 제공할 수 있는 TBS_RANK을 제안하였다.
제안 방법
이에 본 논문에서는 소셜 북마킹의 특징인 북마크 인원수와 태깅된 태그 정보와 사용자들간의 유사도를 이용하여 웹 콘텐츠 랭킹 알고리즘을 제한한다. 이를 위해 선행 연구로 진행한 태그 클러스터링을 기반으로 연관태그를 추출하고 웹 콘텐츠의 관심도인 북마크 인원수를 이용하여 이를 정규화 및 랭킹을 통해 콘텐츠를 제공하는 시스템을 제안한다.
이에 본 논문에서는 소셜 북마킹의 특징인 북마크 인원수와 태깅된 태그 정보와 사용자들간의 유사도를 이용하여 웹 콘텐츠 랭킹 알고리즘을 제한한다. 이를 위해 선행 연구로 진행한 태그 클러스터링을 기반으로 연관태그를 추출하고 웹 콘텐츠의 관심도인 북마크 인원수를 이용하여 이를 정규화 및 랭킹을 통해 콘텐츠를 제공하는 시스템을 제안한다.
제안시스템은 그림 1과 같이 크게 태그 클러스터링 시스템(Tag Clustering System)과 소셜 네트워크 시스템(Social Network System) 및 웹 콘텐츠 랭킹 시스템(Web Content Ranking System)으로 구성된다.
본 연구에서의 태그 클러스터링 시스템은 선행연구[9]로 진행하였으며, 소셜 네트워크 시스템과 웹컨텐츠 랭킹 시스템을 중심으로 다루었다.
태그 클러스터링과 소셜 네트워크 및 웹 콘텐츠 랭킹 시스템을 통해 다른 사용자의 관심도 및 유사도를 반영하여 '소셜'의 의미를 갖는 검색결과를 제공하기 위해 먼저, 태그 클러스터링 시스템을 통해 사용자가 태깅한 태그들을 기반으로 클러스터링하여 사용자별 대표 태그를 추출한다[9].
TBS_RANK의 알고리즘의 첫 번째 단계로 클러스터(Clstr) 내 연관 태그의 가중치 합을 구한 뒤, 클러스터 내 연관 태그 쌍을 포함하는 i번째 콘텐츠 연관 태그들의 가중치 값을 구하고 i번째 웹 콘텐츠에 북마킹한 유사 그룹 내 유사도의 합을 계산하며 i번째 콘텐츠의 북마크 수도 추출한다. 콘텐츠 내 연관 태그 가중치의 합과 북마크 수 및 유사도를 각각 정규화한 뒤, 세 개의 정규화 값을 더하여 순위를 랭킹한다.
TBS_RANK의 알고리즘의 첫 번째 단계로 클러스터(Clstr) 내 연관 태그의 가중치 합을 구한 뒤, 클러스터 내 연관 태그 쌍을 포함하는 i번째 콘텐츠 연관 태그들의 가중치 값을 구하고 i번째 웹 콘텐츠에 북마킹한 유사 그룹 내 유사도의 합을 계산하며 i번째 콘텐츠의 북마크 수도 추출한다. 콘텐츠 내 연관 태그 가중치의 합과 북마크 수 및 유사도를 각각 정규화한 뒤, 세 개의 정규화 값을 더하여 순위를 랭킹한다.
키워드는 '공부', '영어공부'와 최근 이슈가 되는 키워드인 '아이폰'을 통해 검색의 효율성을 제시하였다.
이러한 정보 제공에 대한 효율성 평가를 위해 기존의 검색결과와 TBS_RANK의 검색결과를 비교평가 한다.
본 절에서는 랭킹결과의 정확성 평가를 위해 NDCG at K[13]를 적용하여 기존의 소셜 북마킹 사이트의 검색결과와 선행연구에서 진행한 연관 태그 가중치와 본 논문에서 제안한 TBS_RANK의 검색 결과를 비교 분석하였다.
각 키워드의 선별 이유로는 먼저, 키워드 ‘공부’는 포괄적이며 광범위한 분야에서 사용됨으로써 태그 정보 및 북마크 정보의 다양성을 가지고 있으며, 키워드 ‘아이폰’은 최근 국내 사용자의 관심을 받으며 최신성을 가지는 태그의 대표로써 활용하였으며, 키워드 ‘맛집’은 한정된 분야 및 좁은 태그 정보를 가지는 키워드의 경우 검색결과의 효율성을 보이기 위해 사용하였다.
대상 데이터
본 논문에서 제안한 알고리즘의 평가를 위해 소셜 북마킹 사이트들 중 mar.gar.in의 웹 콘텐츠의 북마크 및 태그 데이터를 활용하였다. 키워드는 '공부', '영어공부'와 최근 이슈가 되는 키워드인 '아이폰'을 통해 검색의 효율성을 제시하였다.
이론/모형
또한 사용자 대표 태그별 가중치 식을 통해 계산된 값을 기반으로 유사 그룹을 선정하게 된다. 사용자와 선호 태그가 유사한 사용자들을 선정하기 위해 코사인 유사도를 기반으로 수행한다[11].
성능/효과
또한 블로그 영역에서의 이슈를 다루며 링크의 동적인 구조의 중요성을 다루고 있다. 이러한 블로그 영역내의 랭킹 알고리즘은 다양한 특징을 반영하여 랭킹함으로 본 논문에서 제안하는 알고리즘에 활용하거나 비교평가하기에 알맞은 알고리즘이라 볼 수 있다.
기존 검색결과는 북마크 수와 저장순 등으로만 검색결과를 제공하는 반면에 제안 알고리즘은 연관 태그 가중치 값을 통해 정확도 및 사용자와 유사한 그룹을 찾아내어 사용자가 관심 있을 것으로 예상되는 웹 콘텐츠를 부각시킴으로써 사용자에게 효율적인정보 제공이 가능하다.
또한, 키워드 ‘공부’의 NDCG 값이 다른 키워드에 비해 낮은 경우는 ‘공부’라는 키워드의 경우 다양한 분야에서 사용되어 웹 콘텐츠의 표현시 너무 많은 태그를 태깅하거나 정확하게 태깅된 태그 수가 적어 기존의 검색결과의 정확률 등이 낮아지만 이러한 문제점을 본 제안 알고리즘에서는 해결할 수 있다.
각 검색 방법론에 따른 상위 5개의 웹페이지의 NDCG 값을 보면 기존 검색결과가 0.304358로 높게 나타나지만 TBS_RANK은 상위 10개, 15개, …, 하위페이지로 갈수록 연관 페이지가 기존 검색 결과보다 더 많이 검색되었다는 것을 볼 수 있다.
표 6은 키워드 ‘공부’의 NDCG 값을 표현한 것으로써 값이 높을수록 좋은 랭킹 결과라 하며, K의 값은 상위 페이지의 누적 수를 나타낸다. 검색된 상위 5개의 웹페이지 랭킹 정확도인 NDCG 값은 각각 기존 검색결과의 경우 0.215123, 연관 태그 가중치는 0.195319, TBS_RANK의 경우 0.272634 값을 가짐으로 TBS_RANK가 랭킹 정확도가 높음을 알 수 있다. 상위 5개의 웹페이지의 NDCG 값 중에서 본 논문에서 제안한 TBS_RANK 알고리즘이 가장 높은 값으로 도출되었다.
272634 값을 가짐으로 TBS_RANK가 랭킹 정확도가 높음을 알 수 있다. 상위 5개의 웹페이지의 NDCG 값 중에서 본 논문에서 제안한 TBS_RANK 알고리즘이 가장 높은 값으로 도출되었다. 이는 상위 5개 웹페이지에서 콘텐츠들의 연관도가 높은 웹페이지들이 먼저 검색되었다는 것을 의미한다.
이로써 기존의 검색결과 및 연관 태그 가중치 값을 이용한 검색결과는 한 가지의 값을 이용하여 낮은 NDCG 값을 가지게 되었다. 그러나 TBS_RANK의 경우 북마크 수와 태그 정보뿐만 아닌 사용자의 유사도를 혼합하여 사용자에게 유용한 정보를 추천 및 제공 가능하기 때문에 높은 NDCG 값을 가지게 되었으며 이는 제안 알고리즘의 상위 검색결과들이 키워드와 연관된 웹페이지들이 먼저 검색되었다는 것을 의미한다.
이는 단순히 북마크 수를 이용해 검색 시 정확하지 않은 검색결과를 도출하며 또한, 사용자들이 북마킹 시 태그를 정확히 붙이지 않거나 아예 태그를 붙이지 않기 때문에 연관 태그만을 통한 검색결과 역시 효율적이지 못한 검색결과를 도출하며 Avg-NDCG 값 또한 낮게 나타난다. 이러한 문제점을 해결하기 위해 제안한 선행연구의 TBS_RANK을 통한 랭킹은 기존 검색결과보다 좋은 성능을 보인다. 그러나 TBS_RANK 또한 태그 정보 및 북마크 정보 한 쪽의 값이 제한되면 성능이 기존의 검색 결과와 비슷한 결과를 도출한다.
랭킹 알고리즘의 성능평가를 위해 국내의 소셜 북마킹 사이트인 mar.gar.in의 북마킹 정보를 이용하여 NDCG 검색 비교 기법을 통해 비교 평가 하였으며, 그 결과 기존의 소셜 북마킹 사이트는 Avg-NDCG 값이 0.52를 갖으며, 또한 선행 연구로 진행한 연관 태그 가중치 방법론을 이용한 알고리즘은 0.52이지만, 제안한 TBS_RANK 값은 0.57 으로 평균 11.3% 향상된 검색결과를 도출할 수 있었다.
후속연구
다음 식 (2)을 이용하여 각 북마커별 유사도 값을 추출하게 되며, 이러한 유사도 값을 나타낸 것이 표 2이다. 태그의 수가 적기 때문에 유사도 값이 높은편이지만 대표 태그의 수가 여러 분야를 걸쳐 추출된다면 좀 더 정확한 유사도 값을 추출 가능하다.
향후 기존에 존재하는 랭킹 알고리즘들을 이용한 폭소노미의 의미를 담은 FolkRank 등 다양한 랭킹 알고리즘들과 제안 알고리즘을 비교 평가할 예정이다. 또한 북마크 수와 태그 정보 및 유사도 값만이 아닌 웹 콘텐츠 내의 다양한 정보를 이용하거나 가중치 값 변화, 웹 검색의 최신성, 인기 북마커 등을 반영한 더욱 효율적인 랭킹 알고리즘으로 발전시키기 위한 계속적인 연구가 필요하다.
향후 기존에 존재하는 랭킹 알고리즘들을 이용한 폭소노미의 의미를 담은 FolkRank 등 다양한 랭킹 알고리즘들과 제안 알고리즘을 비교 평가할 예정이다. 또한 북마크 수와 태그 정보 및 유사도 값만이 아닌 웹 콘텐츠 내의 다양한 정보를 이용하거나 가중치 값 변화, 웹 검색의 최신성, 인기 북마커 등을 반영한 더욱 효율적인 랭킹 알고리즘으로 발전시키기 위한 계속적인 연구가 필요하다.
질의응답
핵심어
질문
논문에서 추출한 답변
북마킹 시스템에서 다양하게 존재하는 웹 콘텐츠의 검색, 분류, 공유를 통한 효율적인 정보제공을 목적을 가지는 기술은?
소셜 북마킹 기술은 사용자들이 관심 있는 웹 콘텐츠들을 웹상에 즐겨찾기하는 기술로 다른 사용자들이 북마킹한 웹 콘텐츠들을 서로 공유할 수 있다는 특징이 있다. 또한 북마킹 시스템에서의 핵심적인 기술 중 하나는 태그 기술로 다양하게 존재하는 웹 콘텐츠의 검색, 분류, 공유를 통한 효율적인 정보제공을 목적을 가진다.
소셜 북마킹 기술은?
소셜 북마킹 기술은 사용자들이 관심 있는 웹 콘텐츠들을 웹상에 즐겨찾기하는 기술로 다른 사용자들이 북마킹한 웹 콘텐츠들을 서로 공유할 수 있다는 특징이 있다. 또한 북마킹 시스템에서의 핵심적인 기술 중 하나는 태그 기술로 다양하게 존재하는 웹 콘텐츠의 검색, 분류, 공유를 통한 효율적인 정보제공을 목적을 가진다.
랭킹 알고리즘의 내용적 측면은?
랭킹 알고리즘은 크게 내용적 측면과 구조적 측면으로 나눌 수 있다. 내용적인 측면은 키워드와 관련된 단어들의 본문 출현 빈도수 등과 같은 요소들을 기반으로 페이지의 내용을 직접 평가하여 랭킹하는 방법으로 많은 계산량이 요구된다. 반면, 구조적인 측면에서는 다른 페이지에 얼마만큼 많이 연결되어 있는지 혹은 좋은 페이지에 얼마나 많이 연결되어 있는지와 같은 연결성 평가를 기반으로 랭킹한다.
참고문헌 (13)
정부연, "2006년 인터넷 화두 웹 2.0(Web2.0)," 기술동향, 2006.
Farooq U, Yang Song, Carroll J.M., and Giles C.L., "Social Bookmarking for Scholarly Digital Libraries," IEEE, Internet Computing, 2007.
http://delicious.com
http://www.bibsonomy.org
http://mar.gar.in
S. Brin and L. Page, "The Anatomy of a Largescale Hypertextual Web Search Engine," In Proceedings of 7th International World Wide Web Conference, Computer Networks and ISDN Systems, Vol.20, No.1-7, pp. 107-117, Apr,1998.
J. M. Kleinberg, "Authoritative Sources in Hyperlinked Environment," Journal of the ACM, Vol.46, No.5, pp. 604-632, 1999.
E. Adar, L.Zhang, L.Adamic, and R. Lucose, "Implicit Structure and the Dynamics of Blogspace," Workshop on the Weblogging Ecosystem : Aggregation, Analysis and Dynamics, 2004.
이시화, 이만형, 황대훈, "web2.0에서의 Tag Clustering을 통한 이미지 검색의 효율성 분석," 멀티미디어학회 논문지, Vol. 11, No. 8, 2008
이시화, 박수진, 이만형, 황대훈, "콘텐츠 추천을 위한 태그 기반 소셜 네트웍 구축에 관한 연구," 멀티미디어학회 춘계학술대회, Vol.12, No.1, 2009.
Taek-Hun Kim, Young-Suk Ryu, Seok-In Park, and Sung-Bong Yang, "An Improved Recommendation Algorithm in Collaborative Filtering," Lecture notes in Computer Science, No.2455, pp. 254-261, 2002.
K. Jarvelin and J. Kekalainen, "IR Evaluation Methods for Retrieving Highly Relevant Documnets," In Proceedings of the ACM conference on Research and Development on Information Retrieval (SIGIR) , pp. 41-48, 2000.
이 논문을 인용한 문헌
활용도 분석정보
상세보기
다운로드
내보내기
활용도 Top5 논문
해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다. 더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.