[논문]위키피디아 링크를 이용한 랭크 기반 개념 계층구조의 자동 구축

이가희; 김한준

doi:10.7838/jsebs.2015.20.4.061

위키피디아 링크를 이용한 랭크 기반 개념 계층구조의 자동 구축
Automated Development of Rank-Based Concept Hierarchical Structures using Wikipedia Links 원문보기

한국전자거래학회지 = The Journal of Society for e-Business Studies, v.20 no.4, 2015년, pp.61 - 76

이가희 (School of Electrical and Computer Engineering, University of Seoul) , 김한준 (School of Electrical and Computer Engineering, University of Seoul)

초록
AI-Helper

흔히 대용량 텍스트 데이터의 분류를 위한 인덱싱 데이터 구조로서 계층 개념 트리가 활용된다. 본 논문은 개념 계층구조를 자동적으로 구축하기 위해 위키피디아를 이용한 일반성 랭크 기반 기법을 제안한다. 이것의 목적은 위키피디아 문서를 하나의 개념으로 정의하여 이들 간의 계층적 위상관계를 생성하는 것이다. 이를 위해 위키피디아 문서들 간의 링크 개수를 주요 인자로 하여 개념 일반성을 가늠하는 랭킹함수를 고안하였으며, 이를 활용하여 개념 간 확률적 포함관계를 산출함으로써 안정적인 개념 간 계층 구조를 생성한다. 결과적으로 계층적 관계를 담은 개념쌍은 DAG 구조로 시각화 된다. Open Directory Project 계층구조를 사용한 성능 분석을 통해 제안 기법이 기준 기법에 비해 성능이 우수하며 고품질 계층 관계를 안정적으로 추출할 수 있음을 확인하였다.

Abstract ▼ AI-Helper

In general, we have utilized the hierarchical concept tree as a crucial data structure for indexing huge amount of textual data. This paper proposes a generality rank-based method that can automatically develop hierarchical concept structures with the Wikipedia data. The goal of the method is to regard each of Wikipedia articles as a concept and to generate hierarchical relationships among concepts. In order to estimate the generality of concepts, we have devised a special ranking function that mainly uses the number of hyperlinks among Wikipedia articles. The ranking function is effectively used for computing the probabilistic subsumption among concepts, which allows to generate relatively more stable hierarchical structures. Eventually, a set of concept pairs with hierarchical relationship is visualized as a DAG (directed acyclic graph). Through the empirical analysis using the concept hierarchy of Open Directory Project, we proved that the proposed method outperforms a representative baseline method and it can automatically extract concept hierarchies with high accuracy.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

식 (5)의 랭킹 함수를 개념 계층관 계의 형성에 활용하기 위해서는 개념 간 포함 관계 정도를 확률적으로 산출하는 작업이 선행되어야 한다. 본 논문에서는 이전 연구로서 제안된 진입 링크 기반 개념 계층구조 생성 기법에 식 (5)의 일반성 랭킹 함수를 결합시켜 보다 안정된 개념 계층 관계를 도출하는 기법을 제안한다. 기본 아이디어는 개념 c_i와 c_j가 존재할 때, 이들 간의 개념적 포함관계와 일반성 랭크를 산출하여 연관성과 계층성을 동시에 고려한 개념 계층구조를 구축하는 것이다.
본 논문은 world knowledge 수준의 영문 위키 피디아(Wikipedia)를 활용하여 개념 계층구조를 자동 구축하는 기법을 제안한다. 위키피디아[22]는 웹 기반 개방형 백과사전으로서, 영문 위키피디아의 경우 현재 약 490여만 개의 문서를 포함하고 있다.
본 논문은 개념 계층구조에 사용하기 적절한 개념을 선별하고, 개념간의 의미적인 계층 관계를 판별한 뒤 이를 시각화하는 기법을 제안한다. 본 논문의 구성은 다음과 같다.
본 논문은 위키피디아 데이터로부터 개념 수준의 문서를 추출하여 안정된 개념 계층구 조를 생성하는 기법을 제안하였다. 개념으로 정의할 수 있는 수준의 위키피디아 문서들을 선정하기 위하여 하이퍼링크 속성 정보를 포함한 다양한 유형의 위키피디아 메타 데이터를 적극 활용하였다.
본 연구에서는 제2장에서 제시한 진입 링크 기반 개념 계층 관계 산출 기법을 보완하여 보다 향상된 개념 계층 관계를 생성하는 기법을 제안한다. [Figure 2]는 제안 기법의 전체적인 프로세스를 보여준다.
2절에서 지적한 바와 같이, 진입링크 기반 개념 계층관계 생성 기법은 링크 개수에 대하여 매우 민감하게 반응하는 단점을 지닌다. 이문제를 해결하기 위하여 본 논문에서는 사전에 개념 집합에 대한 랭크(rank)를 정의하여 링크 개수에 강인한(robust) 개념 간 계층관계를 생성하는 기법을 제안한다. 여기서 ‘랭크’는 개념 간의 계층적 위상관계를 결정하는 데 있어서 일반성 정도에 대한 상대적인 순위의 의미를 갖는다.
개념 계층구조에서 사용되는 개념은 일반적 수준에 해당하는 개념이면서 의미적 품질이 높아야 한다. 이에 본 연구에서는 개념 계층구조를 구축에 필요한 후보 개념 집합을 선정하기 위하여 개념으로 적절하지 않은 문서와 품질이 낮은 문서를 제거하기 위한 6가지 필터링 휴리스틱(filtering heuristic)을 제시한다. 필터링 휴리스틱에 포함되는 위키피디아 문서는 후보 개념 집합에 포함되지 않는다.

가설 설정

1. 하나의 개념에 해당하는 위키피디아 문서는 반드시 한 개 존재한다. 문서에 포함된 내용물이 해당 개념을 정의하는데 기여하며, 그것의 명칭은 매핑되는 위키피디아 문서의 제목이다.
2. 위키피디아 문서의 제목이 고유명사로 지정된 것은 후보 개념집합에 포함시키지 않는다.
3. 각 개념에 매핑된 위키피디아 문서에 존재하는 앵커텍스트는 해당 문서의 개념을 정의하는데 기여해야 한다.

제안 방법

그리고 생성된 개념 계층구조의 정확도를 산출하기 위해 편의상 ODP[16]에서 제공하는 카테고리(주제) 중에서 ‘Computer’ 카테고리에 속하는 후보 개념들만을 선택하여 성능평가를 수행하였다.
본 논문에서는 이전 연구로서 제안된 진입 링크 기반 개념 계층구조 생성 기법에 식 (5)의 일반성 랭킹 함수를 결합시켜 보다 안정된 개념 계층 관계를 도출하는 기법을 제안한다. 기본 아이디어는 개념 c_i와 c_j가 존재할 때, 이들 간의 개념적 포함관계와 일반성 랭크를 산출하여 연관성과 계층성을 동시에 고려한 개념 계층구조를 구축하는 것이다. 이를 위한 구체적인 확률식이 식 (6)～식 (7)에 주어진다.
본 논문의 제안 기법에 따라 도출된 개념 계층구조는 구체적으로 DAG(Directed Acyclic Graph)[6, 7] 구조를 가진다. 이는 하나의 개념이 1개 이상의 상위 개념을 가질 수 있기 때문 이다.
추출된 메타 정보는 필터링 휴리스틱을 통해 고품질의 후보 개념 집합을 구성한다. 본 논문의 핵심 단계인 계층관계의 산출 과정에서 후보 개념 집합에 대하여 일반성 랭크(rank) 인자를 추가하여 개념 간 계층 관계를 평가한다. 여기서 랭크 인자는 일반성을 가늠하는 순위 수치로서 계층관 계를 명확히 구성하는데 기여한다.
개념으로 정의할 수 있는 수준의 위키피디아 문서들을 선정하기 위하여 하이퍼링크 속성 정보를 포함한 다양한 유형의 위키피디아 메타 데이터를 적극 활용하였다. 선정된 후보 개념들 간의 계층 관계를 정확히 판별하기 위하여 상대적 확률 포함관계뿐만 아니라 각 개념들의 절대적 일반성 강도를 산출하여 높은 정확도의 개념 계층 구조를 안정적으로 생성하였다.
Lee and Kim[10]에서는 진입 링크에 기반하여 개념 계층관계를 산출하는 기법을 제안하였다. 이 기법은 위키피디아를 이용하여 위키피디아 문서를 하나의 개념으로 정의하여 Sanderson and Croft[18]에서 제시된 기법을 변형하여 개념 계층구조를 구성하였다. 이것의 기본 아이디어는 ‘단어가 문서에 출현함’을 ‘단어가 문서에 인용됨’으로 간주하여, 위키피디아 문서내의 진입 링크 정보를 적극 활용하였다[2, 4].
이것의 기본 아이디어는 ‘단어가 문서에 출현함’을 ‘단어가 문서에 인용됨’으로 간주하여, 위키피디아 문서내의 진입 링크 정보를 적극 활용하였다[2, 4].
제안 기법은 위키피디아를 통해 적절한 개념을 얻고 이들 간의 계층구조를 구성하기 위해서, 위키피디아 개념 문서 및 그 개념과 관련한 메타 데이터를 적극 활용한다.

대상 데이터

본 논문은 위키피디아 데이터로부터 개념 수준의 문서를 추출하여 안정된 개념 계층구 조를 생성하는 기법을 제안하였다. 개념으로 정의할 수 있는 수준의 위키피디아 문서들을 선정하기 위하여 하이퍼링크 속성 정보를 포함한 다양한 유형의 위키피디아 메타 데이터를 적극 활용하였다. 선정된 후보 개념들 간의 계층 관계를 정확히 판별하기 위하여 상대적 확률 포함관계뿐만 아니라 각 개념들의 절대적 일반성 강도를 산출하여 높은 정확도의 개념 계층 구조를 안정적으로 생성하였다.
시각화 및 성능평가를 위해 사용한 데이터는 2015년 7월 현재 약 490여만 개의 위키피디아 문서 집합이다. 이 데이터로부터 개념 계층구 조의 구축에 필요한 속성을 추출, 데이터베이 스에 저장한다.

이론/모형

하지만 아직 개념 계층관계를 객관적으로 평가하기 위한 공인된 실험 데이터 셋이 존재하지 않으므로, 제안 기법의 성능평가는 주관적 평가에 의존할 수밖에 없다. 그리고 제안 기법과 비교되는 기준 기법으로서 Lee and Kim[10]의 기법을 사용하였다. 성능평가 수치인 계층구조의 정확도는 도출된 계층구조에 존재하는 모든 개념 쌍 중에서 ODP에 존재하는 개념 쌍의 비율로 계산된다.
한편 위키피디아는 단일 문서의 크기, 문서 편집에 참여한 편집자의 수, 편집 횟수, 문서 열람 횟수 등과 같은 통계적 정보를 함께 제공하고 있다. 본 논문에서는 이러한 메타정보가 고품질의 후보 개념을 선정하기 위한 필터링 휴리스틱에 활용된다.

성능/효과

4. 두 개념 ci, cj가 존재하고 가 보다 더일반적인 내용을 설명하는 개념일 때, ci는 cj의 상위 개념이고 cj는 ci의 하위 개념이다.
[Table 2]에서 보는 바와 같이, 개념들이식 (5)에 따라 랭크가 정의되어 상위 10%의 일반적 의미를 가지는 개념들과 하위 10%의 구체적 의미를 가지는 개념들로 확연히 분별되는 것을 확인할 수 있다. [Table 2]의 결과에 따라, 본 논문에서 제안한 랭킹 함수는 개념들에 대해 합당한 랭크를 정의할 수 있고, 최종적 계층관계를 도출하는데 크게 기여할 수 있음을 실험적으로 확인하였다. 이런 맥락에서는 식 (5)는 개념의 일반성을 가늠하는 일반성 랭킹 함수라 할 수 있다.
본연구에서는 이러한 고찰에 따라 진출 링크 개수에 대한 진입 링크 개수의 비율이 임계비율 이상인 문서와 진입 링크 개수가 임계값 이하인 문서를 후보 개념에서 제외시킨다. 위키피디아 데이터에 대한 면밀한 실험 결과 적정한 임계비율과 임계값은 각각 0.3과 500인 것으로 결정되었다.
제2.2절에서 지적한 바와 같이, 진입링크 기반 개념 계층관계 생성 기법은 링크 개수에 대하여 매우 민감하게 반응하는 단점을 지닌다. 이문제를 해결하기 위하여 본 논문에서는 사전에 개념 집합에 대한 랭크(rank)를 정의하여 링크 개수에 강인한(robust) 개념 간 계층관계를 생성하는 기법을 제안한다.
제안 기법에 의해 도출된 개념 쌍들 중 약 84%가 기준 기법과 동일한 개념 쌍을 도출하 였다. [Table 5]는 각 기법에서 상이하게 도출한 개념 쌍의 일부를 보여준다.
예를 들어, 위키피디아 개념 ‘Artificial intelligence’, ‘Bluetooth’은 다른 개념들보다 일반성 강도에 비해 상대적으로 진입링크 개수가 과다하게 존재하여 거의 대부분 상위 개념으로 결정되 었다. 제안 기법은 진입링크 개수뿐만 아니라 일반성 강도 인자를 포함시킴으로써 기준 기법의 단점을 극복하여 안정된 개념 간 계층관계를 도출할 수 있다.

후속연구

본 연구가 지향하는 개념 계층구조는 문서 인덱싱을 위한 것이므로, 궁극적으로 현재 유입되는 문서의 내용을 인식하는 개념 계층구조를 생성해야 한다. 이런 맥락에서 향후 현재 유입되는 문서의 키워드를 포함한 양질의 위키피디아 문서를 골라내어 점진적으로 개념 계층트리를 진화시켜나가는 기법을 개발할 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	ODP의 카테고리 구성은 어떻게 이루어져 있는가?	이러한 개념 계층구조의 좋은 예로서 ODP (Open Directory Project)[16]를 들 수 있다. ODP 는 웹문서를 분류하기 위하여 모범적이면서 포괄적인 웹 디렉토리로 평가받고 있으며, 16개의 최상위 카테고리(개념)를 필두로 하여 그 하위에 1백만 개 이상의 카테고리가 계층적으로 구성되어 있다. 이는 심볼릭 링크 (symbolic link)를 사용 하여 각 카테고리가 하나 이상의 상위 노드를 가지기 때문에 정확하게는 DAG(directed acyclic graph) 구조라 할 수 있다[17].
	본 논문에서 제안하는 '일반성 랭크 기반 기법'의 목적은 무엇인가?	본 논문은 개념 계층구조를 자동적으로 구축하기 위해 위키피디아를 이용한 일반성 랭크 기반 기법을 제안한다. 이것의 목적은 위키피디아 문서를 하나의 개념으로 정의하여 이들 간의 계층적 위상관계를 생성하는 것이다. 이를 위해 위키피디아 문서들 간의 링크 개수를 주요 인자로 하여 개념 일반성을 가늠하는 랭킹함수를 고안하였으며, 이를 활용하여 개념 간 확률적 포함관계를 산출함으로써 안정적인 개념 간 계층 구조를 생성한다.
	위키피디아의 구조는 어떻게 나눠지는가?	위키피디아아는 위키미디아 재단이 운영하는 하나의 백과사전이며, 이에 관여하는 모든 사용자들이 정보의 생산자 혹은 가공자로 참여 하여 지속적으로 편집하고 있기 때문에 집단지성(collective intelligence)을 대표하는 온톨로지(ontology) 또는 지식베이스(knowledge base) 라 할 수 있다. 위키피디아의 구조는 크게 제목과 본문으로 나눠지며, 본문 내에는 인포박스 (infobox), 앵커텍스트(anchor text)등이 포함하고 있다.

참고문헌 (23)

Agrawal, D., Das, S., and El Abbadi, A., "Big data and cloud computing: new wine or just new bottles?," Proceedings of VLDB Endowment, Vol. 3, No. 1-2, pp. 1647-1648, 2010.

상세보기
Allan, J., "Automatic hypertext link typing," Proceedings of the 7th ACM Conference on Hypertext, pp. 42-52, 1996.
Amiri, H., Ahmad, A., Rahgozar, M., and Oroumchian, F., "Query Expansion Using Wikipedia Concept Graph," University of Wollongong in Dubai, 2008.
Conklin, J., "Hypertext: An Introduction and Survey," IEEE Computer, Vol. 20, No. 9, pp. 17-41, 1987.
De Melo, G. and Weikum, G., "MENTA: Inducing multilingual taxonomies from Wikipedia," Proceedings of the 19th ACM International Conference on Information and Knowledge Management, pp. 1099-1108, 2010.
Dubitzky, W., Wolkenhauer, O., Yokota, H., and Cho, K. H., "Encyclopedia of systems biology," Springer Publishing Company, 2013.
Jensen, F. V., "An introduction to Bayesian Networks," UCL press, London, Vol. 210, 1996.
Kim, H. and Chang, J., "A Semantic Text Model with Wikipedia-based Concept Space," The Journal of Society for e-Business Studies, Vol. 19, No. 3, pp. 107-123, 2014.

원문보기 상세보기
Kim, H. and Hong, K., "Building Semantic Concept Networks by Wikipedia-Based Formal Concept Analysis," Advanced Science Letters, Vol. 21, No. 3, pp. 435-438, 2015.

상세보기
Lee, G. and Kim H., "Automated Development of Concept Hierarchy Tree using Backlink Information of Wikipedia," Database Research, Vol. 31, No. 1, pp. 40-49, 2015.
Lohr, S., "The age of big data," New York Times, Vol. 11, 2012.
Manyika, J., Chui, M., Brown, B., Bughin, J., Dobbs, R., Roxburgh, C., and Byers, A. H., "Big data: The next frontier for innovation, competition, and productivity," The McKinsey Global Institute, 2011.
McAfee, A., Brynjolfsson, E., Daven port, T. H., Patil, D. J., and Barton, D., "Big data," The Management Revolution Harvard Bus Review, Vol. 90, No. 10, pp. 61-67, 2012.
Miller, G. A., "WordNet: a lexical database for English," Communications of the ACM, Vol. 38, No. 11, pp. 39-41, ACM, 1995.

상세보기
Nastase, V., Strube, M., Borschinger, B., Zirn, C., and Elghafari, A., "WikiNet: A Very Large Scale Multi-Lingual Concept Network," LREC, 2010.
Open directory project, http://dmoz.org
Perugini, S., "Supporting mutiple paths to objects in information hierarchies: Faceted classification, facet search, and symbolic links," Information Processing and Management, Vol. 46, No. 1, pp. 22-43, 2010.

상세보기
Sanderson, M. and Croft, B., "Deriving concept hierarchies from text," Proceedings of the 22nd International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 206-213, 1999.
STAMFORD, Conn, "Gartner Says Solving Big Data Challenge Involves More Than Just Managing Volumes of Data," http://www.gartner.com/newsroom/id/1731916, 2011.
Strube, M. and Ponzetto, S. P., "WikiRelate! Computing semantic relatedness using Wikipedia," AAAI, Vol. 6, pp. 1419-1424, 2006.
Vassiliadis, P. and Sellis, T., "A survey of logical models for OLAP databases," ACM SIGMOD Record, Vol. 28, No. 4, pp. 64-69, 1999.

상세보기
Wikipedia, http://en.wikipedia.org.
Xu, M., Wang, Z., Bie, R., Li, J., Zheng, C., Ke, W., and Zhou, M., "Discovering missing semantic relations between entities in Wikipedia," The Semantic Web-ISWC 2013, pp. 673-686, 2013.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증