[논문]대규모 태깅 데이터를 이용한 태깅 온톨로지 학습

강신재

doi:10.5391/jkiis.2008.18.2.157

[국내논문] 대규모 태깅 데이터를 이용한 태깅 온톨로지 학습
Learning Tagging Ontology from Large Tagging Data 원문보기

한국지능시스템학회 논문지 = Journal of Korean institute of intelligent systems, v.18 no.2, 2008년, pp.157 - 162

초록
AI-Helper

본 논문은 대중에 의해 자유롭게 생성된 분류 체계인 폭소노미, 즉 대규모의 태깅 데이터로부터 태깅 온톨로지를 학습하는 방법을 제시하고 있다. 기존 소셜웹 시스템간에는 태깅의 의미에 대해 공통의 합의가 이루어지지 않았기 때문에, 시스템마다 태깅 정보를 표현하기 위해 내부적으로 다른 방법을 쓰고 있으며, 따라서 소프트웨어 에이전트를 이용하여 시스템간의 정보처리를 자동으로 할 수가 없다. 이를 해결하는 방법으로 폭소노미를 위한 태깅 온톨로지가 필요하다. 태깅의 본질적인 속성을 분석하여 태깅 온톨로지를 정의하고, 태깅 데이터의 기계 학습을 통하여 유사 태그와 사용자 그룹 정보를 획득한 후, 태깅 온톨로지를 학습한다. 이의 활용 방안으로 학습된 태깅 온톨로지를 이용하여 모델링한 추천 시스템도 제안한다.

Abstract ▼ AI-Helper

This paper presents a learning method of tagging ontology using large tagging data such as a folksonomy, which stands for classification structure informally created by the people. There is no common agreement about the semantics of a tagging, and most social web sites internally use different methods to represent tagging information, obstructing interoperability between sites and the automated processing by software agents. To solve this problem, we need a tagging ontology, defined by analyzing intrinsic attributes of a tagging. Through several machine learning for tagging data, tag groups and similar user groups are extracted, and then used to learn the tagging ontology. A recommender system adopting the tagging ontology is also suggested as an applying field.

Keyword

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

단수/복수, 대문자/소문자와 같은 형태에 따라 동일한 의미이지만 다르게 인식되는 문제도 있으며, 너무 일반적이거나 혹은 너무 구체적인 단어를 태깅에 사용하여 발생하는 문제도 있을 수 있다. 이러한 문제를 해결하기 위한 한 방법으로 스태머(stemmer)과 워드넷(WordNet)을 이용하여 태깅에 사용된 태그를 전처리한 후 태그의 공기 정보(co-occurrence information)를 분석하여 태그를 클러스터링하고, 그들 간의 의미관계를 추출하여 태깅 온톨로지의 학습에 사용하는 방법을 본 연구에서 사용하고자 한다. 이러한 결과물은 검색 시 질의어(태그) 확장과 태깅 시 연관 태그의 추천, 추천 시스템의 모델링 등에 활용될 수 있다.
relatedTag", "has_s而ilarlnterest”와 같은 의미 관계는 직접 얻을 수가 없다. 따라서 추출된 태깅 정보를 가공하여 기계 학습을 거치면서 해당 의미 관계를 추출하고자 한다. 태깅 정보(즉 태깅 온톨로지의 인스턴스)는 del.
태깅 온톨로지를 활용하기 위한 한 분야로 추천 시스템을 모델링하고자 한다. 이는 태그 클러스터를 이용하여 구성된 각각의 태거 벡터는 사용자의 성향(선호도)을 나타내는 사용자 프로파일의 역할을 할 수 있으며, 태거 클러스터는 유사한 성향을 가지는 사용자 그룹의 정보를 표현하는 그룹 프로파일의 역할을 할 수 있기 때문이다.
본 논문에서는 최적의 주천 정보를 생성하기 위하여 태깅 온톨로지로부터 사용자 프로파일과 그룹 프로파일을 추출하여 이용하는 하이브리드 접근법을 제안한다. 추천 시스템의 전체적인 구성은 그림 7에 나타나 있으며, 크게 추천 에이전트, 온톨로지 관리 에이전트, 프로파일 관리 에이전트로 나뉜다.

제안 방법

본 연구에서는 태깅의 본질적인 속성을 분석하여 태깅 온톨로지를 정의하고, 딜리셔스 사이트로부터 폭소노미 정보를 자동으로 추출한 후, 기계 학습을 통하여 유사 태그와 사용자 그룹 정보를 획득하여, 태깅 온톨로지의 학습에 사용한다. 이의 활용 방안으로 학습된 태깅 온톨로지를 이용하여 모델링한 추천 시스템도 제안한다.
따라서 플리커보다 달리셔스의 태깅 정보가 웹 자원에 대한 여러 사용자의 다양한 견해를 표현하고 있다고 볼 수 때문에, 온톨로지의 구축 및 학습에 활용 가능한 양질의 정보로 간주할 수 있다. 본 연구에서는 태깅의 본질적인 속성을 분석하여 태깅 온톨로지를 정의하고, 딜리셔스 사이트로부터 폭소노미 정보를 자동으로 추출한 후, 기계 학습을 통하여 유사 태그와 사용자 그룹 정보를 획득하여, 태깅 온톨로지의 학습에 사용한다. 이의 활용 방안으로 학습된 태깅 온톨로지를 이용하여 모델링한 추천 시스템도 제안한다.
즉 태거, 객체, 태그가 동시에 하나의 태깅에 관여하게 되는 것이다. 이를 개념적으로 표현하기 위해 태거, 객체, 태그를 태깅 클래스를 중심으로 묶고, 소셜 시스템의 태깅 정보로부터 획득할 수 있는 태깅한 날짜 등의 정보를 추가하여 그림 1과 같은 태깅 온톨로지를 정의하였다.
웹 사이트에서 사용되는 방대하고 다양한 태그를 수작업으로 분류하는 것은 일관성, 비용, 시간 등의 여러 문제로 인해 실용적이지 못하므로, 소셜웹 사이트의 태깅 정보(태깅 온톨로지 인스턴스)를 가공하여 자동으로 태그를 분류하고자 한다. 태그를 분류하는데 사용될 수 있는 정보를 태깅 온톨로지에서 살펴보면, 하나의 태깅에 관련된 정보로 태거, 객체, 날짜, 주석 등 여러 가지가 있으나, 객체 7)의 종류와 내용에 따라 태거가 해당 객체에 태그를 부여하는 것이기 때문에, 객체가 태그의 특성(쓰임새)을 가장 잘 나타내주는 정보라고 볼 수 있다.
태그를 분류하는데 사용될 수 있는 정보를 태깅 온톨로지에서 살펴보면, 하나의 태깅에 관련된 정보로 태거, 객체, 날짜, 주석 등 여러 가지가 있으나, 객체 7)의 종류와 내용에 따라 태거가 해당 객체에 태그를 부여하는 것이기 때문에, 객체가 태그의 특성(쓰임새)을 가장 잘 나타내주는 정보라고 볼 수 있다. 그래서 본 논문에서는 객체와 태그의 공기 정보를 이용하여 태그 벡터를 구성하였다.
그래서 빈도수가 낮은 태그와 객체를 제외하기 위해 일정 빈도 이상을 대상으로, 각 태그와 객체의 공기 빈도수를 정규화하여 태그 벡터를 구성하였다.
태거 벡터의 클러스터링을 위해서는 3.1 절과 같이 X-means 알고리즘을 적용하였으며, 98개의 태그 클러스터와 72, 449명의 태거를 대상으로 태거 벡터를 구성하여, 총 1, 223개의 태거 클러스터를 얻었다. 태거 벡터는 사용자의 관심 분야와 취향을 태그 클러스터를 이용하여 나타낸 것이므로 태깅 정보로부터 자동으로 추출된 사용자 프로파일로 볼 수 있다.
추천 시스템의 전체적인 구성은 그림 7에 나타나 있으며, 크게 추천 에이전트, 온톨로지 관리 에이전트, 프로파일 관리 에이전트로 나뉜다. 본 논문의 2장과 3장에서 상세하게 다룬 부분은 온톨로지 관리 에이전트에 해당하며, 프로파일 관리 에이전트는 온톨로지 관리 에이전트와의 정보교환을 통해 각 사용자의 프로파일(태거 벡터)과 사용자가 속한 그룹 (, , has_similarlnterest, / 관계로 연결된 태거의 집합)의 프로파일 정보를 얻은 후 프로파일을 DB로 만들어 관리한다. 추천 에이전트는 추천 요청이 있을 시 프로파일 관리 에이전트를 통해 해당 사용자의 프로파일과 소속된 그룹 프로파일 정보를 검색하여 추천 템플릿을 생성한 후, 객체 DB1 이에서 추천 대상을 선정한다.
Knerr[⑸는 시맨틱웹 기술의 하나인 FOAF[이를 이용하여 사용자 프로파일을 표현하고, 각 사용자의 태깅 데이터를 따로 관리하는 구조를 제안하였다. 온톨로지의 주요 클래스로는 "시간(time), 사용자(user), 도메인(domain), 가시/접근성 (visibility), 태그 (tag), 자원 (resource), 유형 (type)”을 정의하고 사용하여 소셜 시스템 간 상호호환이 이루어질 수 있게 하였다.
위한 방법론을 제시하였다. 소셜웹 사이트로부터 추출한 태그를 공기 정보를 이용하여 클러스터링한 후, 태그 간에 내재하고 있는 관계정보를 얻기 위해 위키피디아 (Wikipedia) 나 구글 (Google), 시맨틱웹 검색 엔진 (Swoogle)을 이용하여, 기존 온톨로지와 지식베이스에 존재하는 개념과 태그를 매핑하고 의미 관계를 검색하였다. 아직은 초기단계의 연구이며 클러스터링 알고리즘의 개선 및 폭소노미 통합 전 과정을 자동화하기 위해서는 추가의 연구가 필요하다.
폭소노미를 사용하는 소셜웹 사이트에 존재하는 방대한 태깅 정보로부터 자동으로 의미 관계 정보를 추출하기 위하여, 태깅 온톨로지를 정의하고, 태깅 정보를 자동으로 추출한 후 클러스터링 알고리즘을 적용하여 온톨로지를 학습하는 방법론을 제시하였다. 태그 간, 태거 간에 존재하는 연관 관계를 자동으로 추출하였기 때문에 수작업을 배제한 실용적인 방법론이며, 또한 방대한 양의 정보를 사용하여 보다 일반적이고 객관적인 정보를 추출했다고 볼 수 있다.
그런데 모든 태그를 사용하여 태거 벡터를 구성하기에는 벡터의 차원이 너무 커지기 때문에 현실적으로 기계학습이 어려운 문제점이 있다. 따라서 벡터의 차원을 줄이는 한 방법으로 3.1 절에서 획득한 태그 클러스터를 이용하여 태거 벡터를 구성하였다(그림 6).

대상 데이터

실제로 크롤러를 통해 del.icio.us 사이트로부터 462, 733 명의 사용자(태거), 404, 388개의 태그, 483, 564개의 북마크 (객체)가 포함된 총 9, 400, 029개5)의 태깅 인스턴스를 추출하였다. 정의된 태깅 온톨로지는 추후 FOAF⑹나 SIOC6) 에서 사용하고 있는 개념 스키마의 클래스들과의 연관도에 따라, 온톨로지 병합(merge)이나 온톨로지 매핑(mapping) 과정을 거쳐 확장될 수 있으며, 이를 통해 손쉽게 다른 사이트들과 정보를 공유할 수 있게 된다.
스테밍을 거친 태그는 다시 워드넷에 존재 여부를 확인하여 최종적으로 후보 태그로 선택된다. 이와 같은 과정을 통해 총 26, 691개의 태그가 선택되었다.
X-means 알고리즘은 Pelleg 과 Moore[이가 개발하였는데, 기존 K-means 알고리즘의 세 가지 주요한 단점, 즉 느리고 확장이 쉽지 않고, 클러스터의 수 K를 사용자가 정해야 되며, 국부해(local minima)에 배卜 지기 쉽다는 단점들을 개선한 클러스터링 알고리즘이다. 서버에서 실험이 가능한 크기인 4, 676개의 태그와 3, 616 개의 객체를 대상으로 태그 벡터를 구성하였고, 총 98개의 태그 클러스터를 얻을 수 있었다. 하나의 태그 클러스터에 속한 태그들은 유사한 종류의 객체를 태깅할 때 같이 사용되는 경우가 많았다는 것을 의미하므로 상호간 , /has_relatedTag/, 관계를 갖는 것으로 간주할 수 있다.
본 논문의 2장과 3장에서 상세하게 다룬 부분은 온톨로지 관리 에이전트에 해당하며, 프로파일 관리 에이전트는 온톨로지 관리 에이전트와의 정보교환을 통해 각 사용자의 프로파일(태거 벡터)과 사용자가 속한 그룹 (, , has_similarlnterest, / 관계로 연결된 태거의 집합)의 프로파일 정보를 얻은 후 프로파일을 DB로 만들어 관리한다. 추천 에이전트는 추천 요청이 있을 시 프로파일 관리 에이전트를 통해 해당 사용자의 프로파일과 소속된 그룹 프로파일 정보를 검색하여 추천 템플릿을 생성한 후, 객체 DB1 이에서 추천 대상을 선정한다. 추천된 객체 가운데 사용자가 직접 선택(구매, 저장 등)한 경우에는 해당 정보가 프로파일 관리 에이전트로 피드백되어 기존 프로파일 정보가 갱신된다.

이론/모형

태그 벡터를 클러스터링하기 위해서는 여러 기계학습 알고리즘을 적용시켜 보았는데, Witten[8] 이 개발한 WEKA(Waikato Environment for Knowledge Analysis) 패키지의 여러 클러스터링 알고리즘 가운데 가장 좋은 성능을 보인 X-mean< 이용하여 실험하였다. WEKS는 실제 응용 프로그램에서 기계학습 알고리즘의 구현을 돕기 위해 만들어진 도구이다.

후속연구

이러한 문제를 해결하기 위한 한 방법으로 스태머(stemmer)과 워드넷(WordNet)을 이용하여 태깅에 사용된 태그를 전처리한 후 태그의 공기 정보(co-occurrence information)를 분석하여 태그를 클러스터링하고, 그들 간의 의미관계를 추출하여 태깅 온톨로지의 학습에 사용하는 방법을 본 연구에서 사용하고자 한다. 이러한 결과물은 검색 시 질의어(태그) 확장과 태깅 시 연관 태그의 추천, 추천 시스템의 모델링 등에 활용될 수 있다. 태깅 온톨로지는 범용 온톨로지라기 보다는 태그를 사용하는 웹 사이트와 웹 애플리케이션에서 활용되는 도메인 온톨로지라고 할 수 있으며, 태그를 사용하는 서로 다른 웹 사이트 간 원활한 정보의 교류와 처리를 위해 사용되는 지식베이스이다.
소셜웹 사이트로부터 추출한 태그를 공기 정보를 이용하여 클러스터링한 후, 태그 간에 내재하고 있는 관계정보를 얻기 위해 위키피디아 (Wikipedia) 나 구글 (Google), 시맨틱웹 검색 엔진 (Swoogle)을 이용하여, 기존 온톨로지와 지식베이스에 존재하는 개념과 태그를 매핑하고 의미 관계를 검색하였다. 아직은 초기단계의 연구이며 클러스터링 알고리즘의 개선 및 폭소노미 통합 전 과정을 자동화하기 위해서는 추가의 연구가 필요하다.
어려움이 없다. 향후에는 대용량의 학습 데이터를 처리할 수 있는 클러스터링 알고리즘을 개발하여 모든 태깅 데이터를 대상으로 실험을 계속할 계획이며, 워드넷을 이용한 태그간 랭킹과 태그 클러스터 간 랭킹을 활용할 방안을 연구하고자 한다.

참고문헌 (16)

http://ko.wikipedia.org/wiki/Del.icio.us
S. Gloder, and B. A. Huberman, "Usage Patterns of Collaborative Tagging Systems." Journal of Information Science, Vol.32, No.2, pp. 198-208, 2006

상세보기
T. V. Wal, Folksonomy Explanations, http://www.vanderwal.net/random/ entrysel.php?blog1622, 2005
T. R. Gruber, "Towards Principles for the Design of Ontologies used for Knowledge Sharing", International Journal of Human-Computer Studies, Vol.43, pp.907-928, 1995

상세보기
F. Manola, and E. Miller, RDF Primer, W3C, http://www.w3.org/TR/ rdf-primer, 2004
L. Miller, and D. Brickley, Friend of a Friend project, http://www.foaf- project.org, 2000
C. Fellbaum, WordNet: An Electronic Lexical Database (Language, Speech, and Communication), MIT press, 1998
I. H. Witten, and E. Frank, Data Mining: Practical machine learning tools and Techniques (2nd Edition), Morgan Kaufmann, 2005
D. Pelleg, and A. W. Moore, "X-means: Extending K-means with Efficient Estimation of the Number of Clusters", In 17th International Conference on Machine Learning, pp.727-734, 2000
G. Adomavicius, and A. Tuzhilin, "Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions", IEEE Transactions on Knowledge and Data Engineering, Vol.17, No.6, June 2005
K. Aberer and et al., "Emergent Semantics Principles and Issues", Proceedings of Database Systems for Advanced Applications (DASFAA2004), LNCS 2973, pp.25-38, 2004
P. Mika, "Ontologies Are Us: A Unified Model of Social Networks and Semantics", Proceedings of the 4th International Semantic Web Conference (ISWC2005), LNCS 3729, pp.522-536, 2005
T. R. Gruber, "Ontology of Folksonomy: A Mash-up of Apples and Oranges," International Journal of Semantic Web and Information Systems, Vol.3, No.1, pp.1-11, 2007
X. Xu, L. Zhang, and Y. Yu, "Exploring Social Annotations for the Semantic Web", Proceedings of the 15th international conference on World Wide Web (WWW2006), New York, USA, pp.417-426, 2006
T. Knerr, "Tagging Ontology - Towards a Common Ontology for Folksonomies", http://code.google.com/p/tagont, 2006
L. Specia, and E. Motta, "Integrating Folksonomies with the Semantic Web", Proceedings of the 4th European Semantic Web Conference (ESWC2007), Innsbruck, Austria, 2007

저자의 다른 논문 :

활용도 분석정보

상세보기

다운로드

내보내기

활용도 Top5 논문

해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다.
더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증