$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

위키피디아 문서로부터 트리플 추출과 RDF 그래프 생성
Triple Extraction for RDF Graph Construction from Wikipedia Articles 원문보기

한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회, 2009 Oct. 09, 2009년, pp.106 - 110  

이순웅 (한국과학기술원 시맨틱웹 연구센터) ,  최기선 (한국과학기술원 시맨틱웹 연구센터)

초록
AI-Helper 아이콘AI-Helper

웹이 발전하면서 점점 더 많은 정보가 웹을 통해 생성되고 공유되고 있다. 하지만 정보의 급격한 증가로 인해 정작 정확한 정보를 찾는 것은 오히려 더 어려워지고 있고, 이로 인해 특히 구조화되지 않은 텍스트에 대한 정확한 정보 검색의 필요성이 증가하고 있다. 본 논문에서는 위키피디아 문장들로부터 RDF 트리플을 추출하고 이를 하나의 연결된 RDF 그래프로 구성함으로써 효과적인 정보 검색을 수행하는 방법을 제안하고자 한다. 트리플 추출 방법은 문장에 대한 파스 트리를 탐색함으로써 이루어지는데, 약 81%의 정확도를 나타내었다. 최종적으로 생성되는 RDF 그래프는 입력 문장들의 문법적인 요소만을 고려하기 때문에 방법이 단순하지만 그래프 탐색을 통해 다양한 쿼리에 대한 정보 검색이 가능하다.

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 이를 위해, 먼저 주어진 코퍼스 중 일부에 대하여 품사 태깅을 한 후 자질로써 사용한다. 그리고 구문 분석을 통하여 실제로 트리플로 구성될 수 있는지 아닌지를 판별하는 것이다. 위 학습 데이터를 활용하여 베이지안 분류기를 학습시키고, 이것을 활용하여 대량의 코퍼스로부터 자동으로 트리플을 추출하는 것이다.
  • 이때 의미적인 정보는 고려하지 않고 단지 문법적인 요소만 고려하여 RDF 그래프를 구성하게 된다. 문법적인 요소만 고려하는 비교적 단순한 방법을 사용하더라도, 구성된 RDF 그래프에 대한 탐색을 통해 기존 키워드 방식으로 찾기 어려운 정보들을 검색할 수 있음을 보이고자 한다. 이 논문의 구성은 다음과 같다.
  • 본 논문에서는 향상된 위키피디아 정보 검색을 위해 위키피디아 문장들로부터 RDF 트리플을 추출한 후 이를 하나의 RDF 그래프로 변환하는 시스템을 제안하였다. 이때 의미적인 정보는 고려하지 않고, 문법적인 요소만 사용하였다.
  • 이러한 구조화되지 않은 데이터에 대해 효과적인 정보 검색을 하기 위해서는 데이터를 기계가 해석할 수 있는 구조화된 형태로 바꾸어야 한다. 본 논문에서는, 자연어 텍스트를 구조화된 형태의 하나인 RDF 그래프 형태로 바꾸는 방법을 제안하고자 한다. 이 때 자연어 텍스트는 매우 다양하고 방대한 범위이기 때문에 본 연구에서는 위키피디아의 영어 문장으로 한정한다.
  • DBPedia[1]는 그러한 시도 중 하나로써, 위키피디아의 정보를 RDF 트리플 형태로 바꾸는 것을 목표로 하고 있다. 이를 통해 기존 키워드 방식 검색에 비해 훨씬 정교한 검색 결과를 제공하고자 한다. 하지만 웹상의 많은 데이터가 구조화되지 않은 형태 즉 자연어 텍스트로 존재한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
웹상의 많은 데이터가 구조화되지 않은 형태인 자연어 텍스트로 존재하는 이유는 무엇인가? 하지만 웹상의 많은 데이터가 구조화되지 않은 형태 즉 자연어 텍스트로 존재한다. 이는 사람이 정보를 기록하는 가장 손쉬운 방법 중의 하나가 자연어 텍스트로 기록하는 것이기 때문이다. 이러한 구조화되지 않은 데이터에 대해 효과적인 정보 검색을 하기 위해서는 데이터를 기계가 해석할 수 있는 구조화된 형태로 바꾸어야 한다.
비구조화된 대량의 텍스트로부터 트리플을 추출하기 위한 시스템인 KnowItAll은 초기에 어떤 방법으로 트리플을 추출하였는가? 비구조화된 대량의 텍스트로부터 트리플을 추출하고자 하는 연구가 활발히 이루어지고 있는데, 그 중 KnowItAll[2]은 공개된 첫 번째 시스템이었다. 대량의 웹 코퍼스에서 비지도학습 방법으로 트리플을 추출하기 위해 패턴을 사용하였는데, 초기에 지정된 패턴에 해당하는 트리플들만 추출하는 방법을 사용하였다. 패턴은 품사 태깅 정보와 개체명 인식기 등을 사용하여 정의하였다. KnowItAll을 개량한 것이 TextRunner[3]이다.
DBPedia의 목표는 무엇인가? 이에 따라 데이터를 어떻게 구조화 할 것인지와 구조화된 데이터에서 어떻게 하면 정확한 정보를 찾을 것인지에 대한 시도가 많이 이루어지고 있다. DBPedia[1]는 그러한 시도 중 하나로써, 위키피디아의 정보를 RDF 트리플 형태로 바꾸는 것을 목표로 하고 있다. 이를 통해 기존 키워드 방식 검색에 비해 훨씬 정교한 검색 결과를 제공하고자 한다. 하지만 웹상의 많은 데이터가 구조화되지 않은 형태 즉 자연어 텍스트로 존재한다.
질의응답 정보가 도움이 되었나요?
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로