[논문]위키피디아 문서로부터 트리플 추출과 RDF 그래프 생성

이순웅; 최기선

위키피디아 문서로부터 트리플 추출과 RDF 그래프 생성
Triple Extraction for RDF Graph Construction from Wikipedia Articles 원문보기

이순웅 (한국과학기술원 시맨틱웹 연구센터) , 최기선 (한국과학기술원 시맨틱웹 연구센터)

웹이 발전하면서 점점 더 많은 정보가 웹을 통해 생성되고 공유되고 있다. 하지만 정보의 급격한 증가로 인해 정작 정확한 정보를 찾는 것은 오히려 더 어려워지고 있고, 이로 인해 특히 구조화되지 않은 텍스트에 대한 정확한 정보 검색의 필요성이 증가하고 있다. 본 논문에서는 위키피디아 문장들로부터 RDF 트리플을 추출하고 이를 하나의 연결된 RDF 그래프로 구성함으로써 효과적인 정보 검색을 수행하는 방법을 제안하고자 한다. 트리플 추출 방법은 문장에 대한 파스 트리를 탐색함으로써 이루어지는데, 약 81%의 정확도를 나타내었다. 최종적으로 생성되는 RDF 그래프는 입력 문장들의 문법적인 요소만을 고려하기 때문에 방법이 단순하지만 그래프 탐색을 통해 다양한 쿼리에 대한 정보 검색이 가능하다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이를 위해, 먼저 주어진 코퍼스 중 일부에 대하여 품사 태깅을 한 후 자질로써 사용한다. 그리고 구문 분석을 통하여 실제로 트리플로 구성될 수 있는지 아닌지를 판별하는 것이다. 위 학습 데이터를 활용하여 베이지안 분류기를 학습시키고, 이것을 활용하여 대량의 코퍼스로부터 자동으로 트리플을 추출하는 것이다.
이때 의미적인 정보는 고려하지 않고 단지 문법적인 요소만 고려하여 RDF 그래프를 구성하게 된다. 문법적인 요소만 고려하는 비교적 단순한 방법을 사용하더라도, 구성된 RDF 그래프에 대한 탐색을 통해 기존 키워드 방식으로 찾기 어려운 정보들을 검색할 수 있음을 보이고자 한다. 이 논문의 구성은 다음과 같다.
본 논문에서는 향상된 위키피디아 정보 검색을 위해 위키피디아 문장들로부터 RDF 트리플을 추출한 후 이를 하나의 RDF 그래프로 변환하는 시스템을 제안하였다. 이때 의미적인 정보는 고려하지 않고, 문법적인 요소만 사용하였다.
이러한 구조화되지 않은 데이터에 대해 효과적인 정보 검색을 하기 위해서는 데이터를 기계가 해석할 수 있는 구조화된 형태로 바꾸어야 한다. 본 논문에서는, 자연어 텍스트를 구조화된 형태의 하나인 RDF 그래프 형태로 바꾸는 방법을 제안하고자 한다. 이 때 자연어 텍스트는 매우 다양하고 방대한 범위이기 때문에 본 연구에서는 위키피디아의 영어 문장으로 한정한다.
DBPedia[1]는 그러한 시도 중 하나로써, 위키피디아의 정보를 RDF 트리플 형태로 바꾸는 것을 목표로 하고 있다. 이를 통해 기존 키워드 방식 검색에 비해 훨씬 정교한 검색 결과를 제공하고자 한다. 하지만 웹상의 많은 데이터가 구조화되지 않은 형태 즉 자연어 텍스트로 존재한다.

제안 방법

비구조화된 대량의 텍스트로부터 트리플을 추출하고자 하는 연구가 활발히 이루어지고 있는데, 그 중 KnowItAll[2]은 공개된 첫 번째 시스템이었다. 대량의 웹 코퍼스에서 비지도학습 방법으로 트리플을 추출하기 위해 패턴을 사용하였는데, 초기에 지정된 패턴에 해당하는 트리플들만 추출하는 방법을 사용하였다. 패턴은 품사 태깅 정보와 개체명 인식기 등을 사용하여 정의하였다.
위키피디아 영어 문장으로 정한 이유는, 많은 사람들에 의해 정제된 문장이기 때문에 기계로 처리하기에 비교적 수월한 자연어 문장이라고 가정하였기 때문이다. 따라서 제안하는 시스템의 입력은 위키피디아 영어 문장의 집합이며, 출력은 하나로 연결된 RDF 그래프이다. 이때 의미적인 정보는 고려하지 않고 단지 문법적인 요소만 고려하여 RDF 그래프를 구성하게 된다.
분야의 특성상 복잡한 개체명이 많기 때문에 이를 트리플로 올바르게 추출하는 방법을 제안하였다. 먼저 문장에 대해 구문 분석을 수행 후 토큰간의 의존 관계 타입을 살펴봄으로써 트리플을 추출하는 방법을 사용하였다. Dong-Hyun Choi et al.
입력 문장으로부터 PA-Triples 형태의 트리플을 추출하는 과정은 다음과 같다. 먼저 하나의 문장에 대하여 구문 분석을 수행하여 파스트리를 추출한다. 이는 기존에 나와 있는 구문 분석 파서들을 사용할 수 있는데, 본 논문에서는 Enju[6] 파서를 사용하였다.
하나의 문장에 있는 모든 정보를 하나의 트리플로 표현하기 위해, 트리플 내에 AND를 사용하여 여러 개의 개념들을 연결한 표현 방식이 특징이다. 본 논문에서 제안하는 방법은, 트리플을 추출하기 위해 먼저 문장에 대해 구문 분석을 수행 후 파스트리를 활용한다는 면에서 [2]와 [3]보다는 [4]와 [5]의 방법과 비슷하다. 하지만 본 연구에서는 위키피디아 문장을 대상으로 하고 있으며, 동사-논항 구조를 활용한 트리플 표현 방법 및 추출 방법을 사용한다는 면에서 위 연구들과 차이점이 있다.
[4]은 생물학 분야의 문장들에서 트리플을 추출하는 방법을 연구하였다. 분야의 특성상 복잡한 개체명이 많기 때문에 이를 트리플로 올바르게 추출하는 방법을 제안하였다. 먼저 문장에 대해 구문 분석을 수행 후 토큰간의 의존 관계 타입을 살펴봄으로써 트리플을 추출하는 방법을 사용하였다.
제안한 시스템은 주어진 입력 문장들에 대해 각각의 문장별로 PA-Triples을 추출한 후 하나의 연결된 RDF 그래프로 생성해준다. 생성된 RDF그래프의 평가를 위해 그래프를 이루는 각각의 PA-Triples을 평가하였는데, 2개의 PA-Triples 쌍을 같은 의미를 가지는 1개의 SPO-Triple로 변환하여 평가하였다. 같은 정보를 갖지만 사람이 평가하기에는 2개의 PA-Triples보다는 1개의 SPO-Triple 평가가 더 쉽기 때문이다.
SPO-Triples의 subject 즉 동사들에 대해 출현 빈도수가 높은 상위 7개는 표1과 같았다. 이 중 be동사를 제외하고 출현 빈도수가 높은 상위 4개의 동사 즉, developed, created, produced, released에 대한 트리플들을 모아 수작업을 통해 평가를 하였다. be동사를 평가에서 제외한 이유는 상대적으로 트리플 추출하기 쉬운 문장이 많았기 때문이다.
정확도 평가는 추출된 트리플들이 주어진 문장의 내용에 대하여 맞는지 틀린지를 수작업으로 판단하는 방식으로 수행하였다. 이를 위해 9,872개의 위키피디아 페이지를 무작위로 선정한 후 첫 문장들만을 추려내어 트리플 추출을 시도하였다. 그 결과 34,288개의 PA-Triples이 추출되었다.
같은 정보를 갖지만 사람이 평가하기에는 2개의 PA-Triples보다는 1개의 SPO-Triple 평가가 더 쉽기 때문이다. 정확도 평가는 추출된 트리플들이 주어진 문장의 내용에 대하여 맞는지 틀린지를 수작업으로 판단하는 방식으로 수행하였다. 이를 위해 9,872개의 위키피디아 페이지를 무작위로 선정한 후 첫 문장들만을 추려내어 트리플 추출을 시도하였다.
제안한 시스템은 주어진 입력 문장들에 대해 각각의 문장별로 PA-Triples을 추출한 후 하나의 연결된 RDF 그래프로 생성해준다. 생성된 RDF그래프의 평가를 위해 그래프를 이루는 각각의 PA-Triples을 평가하였는데, 2개의 PA-Triples 쌍을 같은 의미를 가지는 1개의 SPO-Triple로 변환하여 평가하였다.

대상 데이터

본 논문에서는, 자연어 텍스트를 구조화된 형태의 하나인 RDF 그래프 형태로 바꾸는 방법을 제안하고자 한다. 이 때 자연어 텍스트는 매우 다양하고 방대한 범위이기 때문에 본 연구에서는 위키피디아의 영어 문장으로 한정한다. 위키피디아 영어 문장으로 정한 이유는, 많은 사람들에 의해 정제된 문장이기 때문에 기계로 처리하기에 비교적 수월한 자연어 문장이라고 가정하였기 때문이다.

이론/모형

KnowItAll을 개량한 것이 TextRunner[3]이다. KnowItAll과 마찬가지로 대량의 웹 코퍼스로부터 트리플을 추출하는 시스템인데, 자기감독학습 방법을 사용하였다. 가장 큰 특징은, 학습 데이터를 자동으로 생성한다는 것이다.
먼저 하나의 문장에 대하여 구문 분석을 수행하여 파스트리를 추출한다. 이는 기존에 나와 있는 구문 분석 파서들을 사용할 수 있는데, 본 논문에서는 Enju[6] 파서를 사용하였다. 추출된 파스트리에 대하여 트리를 탐색하며 동사-논항 구조를 추출하고 이를 트리플 형태로 변환하게 된다.

성능/효과

이를 위해 9,872개의 위키피디아 페이지를 무작위로 선정한 후 첫 문장들만을 추려내어 트리플 추출을 시도하였다. 그 결과 34,288개의 PA-Triples이 추출되었다. 그리고 같은 subject를 가지면서 arg1과 arg2에 대한 트리플이 존재하는 PA-Triples 2개를 하나의 SPO-Triples로 만드는 방법을 통하여 총 14,097개의 SPO-Triples을 얻을 수 있었다.
그 결과 34,288개의 PA-Triples이 추출되었다. 그리고 같은 subject를 가지면서 arg1과 arg2에 대한 트리플이 존재하는 PA-Triples 2개를 하나의 SPO-Triples로 만드는 방법을 통하여 총 14,097개의 SPO-Triples을 얻을 수 있었다. SPO-Triples의 subject 즉 동사들에 대해 출현 빈도수가 높은 상위 7개는 표1과 같았다.

후속연구

하지만 파서 에러로 인해 잘못 생성되는 트리플이 많음을 알 수 있었다. 따라서 앞으로 어떻게 파서에 대한 의존도를 줄일 것인지가 추가로 연구되어야 한다. 이를 위해 구문 분석보다 비교적 성공률이 높은 부분 구문 분석을 먼저 수행 후 그 결과를 활용해 문장을 단순화하는 방안에 대해 연구를 진행 중이다.
따라서 앞으로 어떻게 파서에 대한 의존도를 줄일 것인지가 추가로 연구되어야 한다. 이를 위해 구문 분석보다 비교적 성공률이 높은 부분 구문 분석을 먼저 수행 후 그 결과를 활용해 문장을 단순화하는 방안에 대해 연구를 진행 중이다. 그리고 문법적인 요소만 사용하여 RDF 그래프를 구성하였는데, 의미적인 정보를 어떻게 포함할 것인지에 대한 연구가 진행 중이다.

핵심어

질문

논문에서 추출한 답변

웹상의 많은 데이터가 구조화되지 않은 형태인 자연어 텍스트로 존재하는 이유는 무엇인가?

하지만 웹상의 많은 데이터가 구조화되지 않은 형태 즉 자연어 텍스트로 존재한다. 이는 사람이 정보를 기록하는 가장 손쉬운 방법 중의 하나가 자연어 텍스트로 기록하는 것이기 때문이다. 이러한 구조화되지 않은 데이터에 대해 효과적인 정보 검색을 하기 위해서는 데이터를 기계가 해석할 수 있는 구조화된 형태로 바꾸어야 한다.

비구조화된 대량의 텍스트로부터 트리플을 추출하기 위한 시스템인 KnowItAll은 초기에 어떤 방법으로 트리플을 추출하였는가?

비구조화된 대량의 텍스트로부터 트리플을 추출하고자 하는 연구가 활발히 이루어지고 있는데, 그 중 KnowItAll[2]은 공개된 첫 번째 시스템이었다. 대량의 웹 코퍼스에서 비지도학습 방법으로 트리플을 추출하기 위해 패턴을 사용하였는데, 초기에 지정된 패턴에 해당하는 트리플들만 추출하는 방법을 사용하였다. 패턴은 품사 태깅 정보와 개체명 인식기 등을 사용하여 정의하였다. KnowItAll을 개량한 것이 TextRunner[3]이다.

DBPedia의 목표는 무엇인가?

이에 따라 데이터를 어떻게 구조화 할 것인지와 구조화된 데이터에서 어떻게 하면 정확한 정보를 찾을 것인지에 대한 시도가 많이 이루어지고 있다. DBPedia[1]는 그러한 시도 중 하나로써, 위키피디아의 정보를 RDF 트리플 형태로 바꾸는 것을 목표로 하고 있다. 이를 통해 기존 키워드 방식 검색에 비해 훨씬 정교한 검색 결과를 제공하고자 한다. 하지만 웹상의 많은 데이터가 구조화되지 않은 형태 즉 자연어 텍스트로 존재한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

위키피디아 문서로부터 트리플 추출과 RDF 그래프 생성
Triple Extraction for RDF Graph Construction from Wikipedia Articles 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

위키피디아 문서로부터 트리플 추출과 RDF 그래프 생성 Triple Extraction for RDF Graph Construction from Wikipedia Articles 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

위키피디아 문서로부터 트리플 추출과 RDF 그래프 생성
Triple Extraction for RDF Graph Construction from Wikipedia Articles 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper