[논문]그래프 구조를 이용한 카테고리 구조로부터 상하위 관계 추출

최동현; 최기선

문제 정의

본 논문에서 임의의 카테고리 구조에 속하는 카테고리 링크를 <A, B, Q의 형태로써 표현하였을 뗴, A는 日를 포함하는 카테고리의 이름-, B는 A에 의해 포함되는 카테고리 또는 페이지의 이름, ne A와 B 사이에 존재하는 카테고리의 개수이다. 예를 들어, Wikipedia의 iPod 페이지는 “2001 iiitroduction', eportable media player", eindustrial design examples, , "/尸od"근}는 4 개의 카테고리에 속해 있는데, 이를 위의 표현 방식으로 나타내면, <2001 introduction, iPod, 0>, <Portable media players, iPod, 0>, industrial design examples, iPod, 0>, <IPod, iPod, 이 된다.
본 논문에서는 그래프 분석을 통하여 위키피디아 카테고리 구조에서 상하위 관계를 얻어내는 새로운 방법에 대하여 서술하였다. 다른 알고리즘과의 비교 결과, 본 논문에서 제시된 방법은 기존에 제시된 방법[7, 8]을이용하여 알아낼 수 없었던 상하위 관계들을 얻어낼 수 있었다.
본 시스템에서 카테고리 링크의 점수를 계산하는 데 사용된 자질들 각각의 영향을 살펴보기 위하여, 각 자질만을 이용하여 점수를 계산하는 실험을 수행하였다. 표 2는 이 실험의 결과를 보여준다:
〔7〕의 논문에서 보고된 바에 의하면, [기의 방법으로는 349, 263개의 카테고리-카테고리 링크 중 81, 564개에 대하여, 그것이 상하위 관계언지를 판별할 수 없었고, 또한 카테고리 - 페이지 링크에 관해서는 연구가 진행되지 않았다. 본 연구에서는 기존연구의 이러한 한계를 극복하기 위하여, 카테고리 링크가 주어졌을 때 관련된 다른 카테고리 링크들을 이용하여 하위 카테고리/페이지의 본질 속성을 이루는 토큰들을 파악함으로써, 주어진 카테고리 링크에 포함된 두 카테고리/페이지 이름이 상하위 관계인지를 판별하는 방법을 제안한다.
본 연구에서는 주어진 카테고리 구조로부터 상 하위관계를 추출하는 방식에 대하여 제안한다. 즉, 본 연구에서는 어떤 임의의 카테고리 구조에 속하는 카테고리링크 각각에 대하여, 해당 카테고리 링크가 상하위(ISA/ instanceOf) 관계를 의미하고 있는지, 또는 단순히 광의어(BT)/협의어(NT)/관련어(RT) 관계를 의미하고 있는지를 판별하는 알고리즘을 제안한다.
추출하는 방식에 대하여 제안한다. 즉, 본 연구에서는 어떤 임의의 카테고리 구조에 속하는 카테고리링크 각각에 대하여, 해당 카테고리 링크가 상하위(ISA/ instanceOf) 관계를 의미하고 있는지, 또는 단순히 광의어(BT)/협의어(NT)/관련어(RT) 관계를 의미하고 있는지를 판별하는 알고리즘을 제안한다.

가설 설정

가정 2에 따르면, 어떤 토큰 A가 본질 토큰이고, 토큰 B가 어떤 카테고리 이름 내에서 A와 같이 등장할 경우, 토큰 B 또한 본질 토큰일 가능성이 높다. 이는, 서로 같이 자주 등장하는 두 토큰은 의미적으로 연관이 있을 가능성이 높다는 가정의 연장이다.
이는, 서로 같이 자주 등장하는 두 토큰은 의미적으로 연관이 있을 가능성이 높다는 가정의 연장이다.

제안 방법

본 논문에서 제시된 그래프 기반 방식의 정확도를 알아내기 위하여, 위에서 서술된 위키피디아 카테고리 구조를 사용하였다. 위키피디아 카테고리 링크 중 1, 214개의 카테고리-카테고리 링크와 78개의 아티클-카테고리링크를 랜덤하게 추출하여 각 링크가 상하위 관계를 나타내는지에 대한 여부를 어노테이션하였다.
본 논문에서는 어떤 카테고리 링크 가 주어졌을 때, B를 하위 카테고리/페이지로 가지는 카테고리 이름들을 이용하여 주어진 카테고리 링크를 이루는 두 카테고리/페이지 이름이 상하위 관계인지를 나타내는 점수를 계산하고, 이 점수가 정해진 값 이상이 되면 두 카테고리/페이지 이름 A, B가 상하위 관계를 이루는 것으로 판별하고, 정해진 값 미만이 되면 두 카테고리/페이지 이름 A, 日가 상하위 관계를 이루지 않는 것 오로 판별하는 방법을 제안한다.
본 시스템에서 카테고리 링크의 분석에 사용되는 수식 그래프의 크기에 따른 성능을 분석하기 위하여, 수식 그래프를 구축하기 위한 상위 카테고리 수집 과정을 변경하여 각각 n 개 이상의 상위 카테고리를 수집하면 카테고리 수집 작업을 멈추도록 하였다.
본 연구의 방법은 그 유효성을 입증하기 위하여 위키피디아 카테고리 구조에 적용되어, 위키피디아 카테고리 구조로부터 상하위 관계 틀 얻어내는 테 사용되었다. 위키피디아의 카테고리 구조는 카테고리와 페이지, 그리고그것듈간의 포함 관계로 이루어져 있다' 페이지는 위키피디아의 문서 하나를 의미하며, 카테고리는 이러한 페이지들과 다른 카테고리들을 무기명 다수의 일반인들이 임의로 분류한 후 이름을 붙인 것이다.
수식 그래프를 구축한 후, 수식 그래프에 HITS 알고리즘을 적용하여 각 노드의 점수를 얻어낸다. 원래 HITS 알고리즘은 변의 가중치 값을 반영하지 않기 때문에, 이를 반영하도록 수정된 HITS 알고리즘[13]을 사용하였다: Authority
위키피디아 카테고리 링크 중 1, 214개의 카테고리-카테고리 링크와 78개의 아티클-카테고리링크를 랜덤하게 추출하여 각 링크가 상하위 관계를 나타내는지에 대한 여부를 어노테이션하였다. 어노테이션을 위해 두 명의 어노 테이 터가 동시에 작업한 후, 모순이 생길 시에는 서로 토론하여 올뱌른 결과를 선택하는 방법을 사용하였다.
사용하였다. 위키피디아 카테고리 링크 중 1, 214개의 카테고리-카테고리 링크와 78개의 아티클-카테고리링크를 랜덤하게 추출하여 각 링크가 상하위 관계를 나타내는지에 대한 여부를 어노테이션하였다. 어노테이션을 위해 두 명의 어노 테이 터가 동시에 작업한 후, 모순이 생길 시에는 서로 토론하여 올뱌른 결과를 선택하는 방법을 사용하였다.
즉, 주어진 카테고리 링크 에 대하여, 먼저 U을 이용하여 수식 그래프를 구축한 후, 변형된 HITS algorithm을 이용하여 U에 토큰의 점수를 계산한다.

대상 데이터

1214개의 카테고리-카테고리 링크 중 848개가 상하위 관계로 판별되었으며, 78개의 아티클 -카테고리 링크 중 52개가 상하위 관계로 판별되었다 1, 214개의 카테고리-카테고리 링크를 각각 600개와 614개의 링크를 가진 두 덩어리로 나누어, 600개의 링크를 가진 덩어리를 개발 세트로 사용하고 나머지 614 개의 카테고리-카테고리 링크와 78개의 아티클-카테고리 링크를 이용하여 시스템의 성능을 테스트하였다. 파라미터는 정확률을 최대한 높이는 방식으로 설정되었는데, 이는 위키피디아는 이미 굉장히 방대한 양의 데이터를 보유하고 있기 때문에 재현률이 조금 낮아도 정확률이 높으면 대량의 양질의 데이터를 얻을 수 있기 때문이다.

이론/모형

1 장의 가정에 따르면, 알고리즘에서는 각 토큰의 점수를 그 토큰이 U<A, n>에서빈도수와, 그 토큰이 같이 나타나는 중심어/수식어를 고려하여 계산되어야 한다. 본 알고리즘에서는 위 두 가지 고려 사항을 만족시키기 위하여, HITS page ranking algorithm[12] 에 기반한 방식을 사용한다. 즉, 주어진 카테고리 링크 <A, B, 0>에 대하여, 먼저 U<B, n>을 이용하여 수식 그래프를 구축한 후, 변형된 HITS algorithm을 이용하여 U<B, n>에 토큰의 점수를 계산한다.
적용하여 각 노드의 점수를 얻어낸다. 원래 HITS 알고리즘은 변의 가중치 값을 반영하지 않기 때문에, 이를 반영하도록 수정된 HITS 알고리즘[13]을 사용하였다: Authority

성능/효과

대하여 서술하였다. 다른 알고리즘과의 비교 결과, 본 논문에서 제시된 방법은 기존에 제시된 방법[7, 8]을이용하여 알아낼 수 없었던 상하위 관계들을 얻어낼 수 있었다. 현재는 단순히 카테고리의 이름과 동일한 하위카테고리 구조를 가진 다른 카테고리 구조들을 사용하여 주어진 카테고리 구조가 상하위 관계인 지 아닌지를 알아낼 수 있지만, 주어진 카테고리 구조에 포함된 페이지의 내용 등을 추가적인 자질로 이용할 수 있을 것이다.
또한, 실험 결과에 따르면 본 논문 결과의 F-mea-sure가 Baseline보다도 낮은 것을 알 수 있는데, 위키피디아의 카테고리 구조는 그 자체로 엄청난 양의 데이터를 보유하고 있기 때문에 재현률과 정확률의 비중을 동일시하는 F-measure는 본 연시스템 간시스템간 직접적 인비교에 사용되기에는 적절치 않다. 다만 정확률이 재현률에 비해 시스템 성능 평가에서 어느 정도나 더 중요한 비중을 차지해야 하는가에 대해서는 확실하지 않은 면이 있기 때문에, 올바른 평가 척도에 대한 추가적인 연구가 필요하다.
낮은 재현률을 보얀 다. 반면에, 본 논문에서 제안된 시스템은 카테고리-카테고리 링크와 아티클-카테고리 링크에 대해 거의 동일하게 좋은 성능을 보이고 있음을 알 수 있다.
실험 결과에서 보이는 바와 같이, B의 시스템은 어휘적 특징을 많이 사용하기 때문에 카테고리-카테고리 링크에서는 잘 동작하지만, 아티클-카테고리 링크에서는 매우 낮은 재현률을 보얀 다. 반면에, 본 논문에서 제안된 시스템은 카테고리-카테고리 링크와 아티클-카테고리 링크에 대해 거의 동일하게 좋은 성능을 보이고 있음을 알 수 있다.
위 표에서 Authority는 점수 계산 시 Authority score 만을 사용한 결과, Hub는 Hub sco/M므上 사용한 결과, Auth+Hub는 두 가지 점수를 모두 사용한 결과로서, 본 시스템에서 제시된 방법에 의하여 얻어진 결과이다 실험 결과에서 보이듯이, 각 한 가지 자질만 사용하였을경우 시스템은 매우 낮은 성능을 보이고, 두 가지 자질이 같이 사용될 경우에만 시스템은 정상적인 성능을 보이는 것을 알 수 있다.

후속연구

사용되기에는 적절치 않다. 다만 정확률이 재현률에 비해 시스템 성능 평가에서 어느 정도나 더 중요한 비중을 차지해야 하는가에 대해서는 확실하지 않은 면이 있기 때문에, 올바른 평가 척도에 대한 추가적인 연구가 필요하다.
다른 알고리즘과의 비교 결과, 본 논문에서 제시된 방법은 기존에 제시된 방법[7, 8]을이용하여 알아낼 수 없었던 상하위 관계들을 얻어낼 수 있었다. 현재는 단순히 카테고리의 이름과 동일한 하위카테고리 구조를 가진 다른 카테고리 구조들을 사용하여 주어진 카테고리 구조가 상하위 관계인 지 아닌지를 알아낼 수 있지만, 주어진 카테고리 구조에 포함된 페이지의 내용 등을 추가적인 자질로 이용할 수 있을 것이다. 이 부분은 추후 연구가 필요하다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

그래프 구조를 이용한 카테고리 구조로부터 상하위 관계 추출
Graph-based ISA/instanceOf Relation Extraction from Category Structure 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

그래프 구조를 이용한 카테고리 구조로부터 상하위 관계 추출 Graph-based ISA/instanceOf Relation Extraction from Category Structure 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

최기선 (52)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

그래프 구조를 이용한 카테고리 구조로부터 상하위 관계 추출
Graph-based ISA/instanceOf Relation Extraction from Category Structure 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper