[논문]지식베이스 구축을 위한 한국어 위키피디아의 학습 기반 지식추출 방법론 및 플랫폼 연구

김재헌; 이명진

doi:10.13088/jiis.2019.25.1.043

지식베이스 구축을 위한 한국어 위키피디아의 학습 기반 지식추출 방법론 및 플랫폼 연구
Knowledge Extraction Methodology and Framework from Wikipedia Articles for Construction of Knowledge-Base 원문보기

지능정보연구 = Journal of intelligence and information systems, v.25 no.1, 2019년, pp.43 - 61

김재헌 (기술연구소, 리스트) , 이명진 (기술연구소, 리스트)

초록
AI-Helper

최근 4차 산업혁명과 함께 인공지능 기술에 대한 연구가 활발히 진행되고 있으며, 이전의 그 어느 때보다도 기술의 발전이 빠르게 진행되고 있는 추세이다. 이러한 인공지능 환경에서 양질의 지식베이스는 인공지능 기술의 향상 및 사용자 경험을 높이기 위한 기반 기술로써 중요한 역할을 하고 있다. 특히 최근에는 인공지능 스피커를 통한 질의응답과 같은 서비스의 기반 지식으로 활용되고 있다. 하지만 지식베이스를 구축하는 것은 사람의 많은 노력을 요하며, 이로 인해 지식을 구축하는데 많은 시간과 비용이 소모된다. 이러한 문제를 해결하기 위해 본 연구에서는 기계학습을 이용하여 지식베이스의 구조에 따라 학습을 수행하고, 이를 통해 자연어 문서로부터 지식을 추출하여 지식화하는 방법에 대해 제안하고자 한다. 이러한 방법의 적절성을 보이기 위해 DBpedia 온톨로지의 구조를 기반으로 학습을 수행하여 지식을 구축할 것이다. 즉, DBpedia의 온톨로지 구조에 따라 위키피디아 문서에 기술되어 있는 인포박스를 이용하여 학습을 수행하고 이를 바탕으로 자연어 텍스트로부터 지식을 추출하여 온톨로지화하기 위한 방법론을 제안하고자 한다. 학습을 바탕으로 지식을 추출하기 위한 과정은 문서 분류, 적합 문장 분류, 그리고 지식 추출 및 지식베이스 변환의 과정으로 이루어진다. 이와 같은 방법론에 따라 실제 지식 추출을 위한 플랫폼을 구축하였으며, 실험을 통해 본 연구에서 제안하고자 하는 방법론이 지식을 확장하는데 있어 유용하게 활용될 수 있음을 증명하였다. 이러한 방법을 통해 구축된 지식은 향후 지식베이스를 기반으로 한 인공지능을 위해 활용될 수 있을 것으로 판단된다.

Abstract ▼ AI-Helper

Development of technologies in artificial intelligence has been rapidly increasing with the Fourth Industrial Revolution, and researches related to AI have been actively conducted in a variety of fields such as autonomous vehicles, natural language processing, and robotics. These researches have been focused on solving cognitive problems such as learning and problem solving related to human intelligence from the 1950s. The field of artificial intelligence has achieved more technological advance than ever, due to recent interest in technology and research on various algorithms. The knowledge-based system is a sub-domain of artificial intelligence, and it aims to enable artificial intelligence agents to make decisions by using machine-readable and processible knowledge constructed from complex and informal human knowledge and rules in various fields. A knowledge base is used to optimize information collection, organization, and retrieval, and recently it is used with statistical artificial intelligence such as machine learning. Recently, the purpose of the knowledge base is to express, publish, and share knowledge on the web by describing and connecting web resources such as pages and data. These knowledge bases are used for intelligent processing in various fields of artificial intelligence such as question answering system of the smart speaker. However, building a useful knowledge base is a time-consuming task and still requires a lot of effort of the experts. In recent years, many kinds of research and technologies of knowledge based artificial intelligence use DBpedia that is one of the biggest knowledge base aiming to extract structured content from the various information of Wikipedia. DBpedia contains various information extracted from Wikipedia such as a title, categories, and links, but the most useful knowledge is from infobox of Wikipedia that presents a summary of some unifying aspect created by users. These knowledge are created by the mapping rule between infobox structures and DBpedia ontology schema defined in DBpedia Extraction Framework. In this way, DBpedia can expect high reliability in terms of accuracy of knowledge by using the method of generating knowledge from semi-structured infobox data created by users. However, since only about 50% of all wiki pages contain infobox in Korean Wikipedia, DBpedia has limitations in term of knowledge scalability. This paper proposes a method to extract knowledge from text documents according to the ontology schema using machine learning. In order to demonstrate the appropriateness of this method, we explain a knowledge extraction model according to the DBpedia ontology schema by learning Wikipedia infoboxes. Our knowledge extraction model consists of three steps, document classification as ontology classes, proper sentence classification to extract triples, and value selection and transformation into RDF triple structure. The structure of Wikipedia infobox are defined as infobox templates that provide standardized information across related articles, and DBpedia ontology schema can be mapped these infobox templates. Based on these mapping relations, we classify the input document according to infobox categories which means ontology classes. After determining the classification of the input document, we classify the appropriate sentence according to attributes belonging to the classification. Finally, we extract knowledge from sentences that are classified as appropriate, and we convert knowledge into a form of triples. In order to train models, we generated training data set from Wikipedia dump using a method to add BIO tags to sentences, so we trained about 200 classes and about 2,500 relations for extracting knowledge. Furthermore, we evaluated comparative experiments of CRF and Bi-LSTM-CRF for the knowledge extraction process. Through this proposed process, it is possible to utilize structured knowledge by extracting knowledge according to the ontology schema from tex

주제어

표/그림 (9)

그림 Knowledge Extraction Process
그림 Statistics of Infobox Categories
그림 Statistics of Infobox Attributes
그림 Bi-LSTM-CRF for Knowledge Extraction
그림 Knowledge Extraction Web Service
표 Number of Data for Training and Testing
그림 Establish Attribute of University Category
표 Experimental Results of CRF and Bi-LSTM-CRF
표 Experimental Results by Value Type

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문의 목적은 위키피디아의 인포박스를 학습하여 지식을 추출함으로써 지식베이스를 구축할 수 있는 방법을 제안하는 것이다. 이를 위해 이번 절에서는 우선 위키피디아의 인포박스중 학습을 위한 범위를 결정한다.
인공지능 기술의 발전과 함께 최근 지식베이스에 대한 필요성과 중요성이 점차 높아지고 있지만 지식베이스를 구축하는 것은 사람의 많은 노력과 시간을 필요로 하는 작업이다. 이러한 문제를 해결하기 위해 본 논문에서는 기계학습을 이용해 자연어 텍스트로부터 지식을 추출하여 지식베이스를 구축 및 확장해 나가는 방법을 제안하였다. 이를 위해 위키피디아의 인포박스를이용하여 학습 데이터를 만들고 추출될 지식의 유형을 결정하기 위한 문서 분류, 지식 추출에 적합한 문장을 고르기 위한 적합 문장 분류, 적합한 문장으로 분류된 문장을 대상으로 실제 지식을 추출하는 과정 및 지식베이스 구조에 따른 검증 과정으로 지식 추출 방법을 제안하였다.
이러한 문제점을 해결하기 위해 본 논문에서는 온톨로지의 지식을 구축하기 위해 기계학습을 이용하여 지식베이스의 구조에 따라 학습을 수행하고, 이를 통해 자연어 문서로부터 지식을 추출하여 지식화하는 방법에 대해 제안하고자 한다. 이를 위한 다양한 선행 연구가 수행되었지만(Wu and Weld, 2007; Lange et.
하지만 본 연구에서는 지식베이스의 구조를 바탕으로 학습을 수행하고, 속성의 타입 및 속성이 가져야 하는 값의 형식인 XML 스키마 데이터타입에 따라 적절한 유형의 값을 추출하여 지식베이스를 구축한다. 이러한 방법의 적절성을 보이기 위해 DBpedia의 온톨로지 구조에 맞추어 자동화된 지식베이스 확장을 위한 기계학습 기반의 방법론을 제안하고자 한다. 이를 위해 DBpedia의 온톨로지 구조에 따라 위키피디아의 인포박스에 기술되어 있는 정보를 이용하여 학습 데이터를 만들고 학습을 수행하여, 지식을 추출할 수 있는 모델을 구축한다.
지식추출을 위한 학습은 위키피디아의 인포박스를 이용하여 학습을 수행하며, 지식추출의 프로세스는 문서분류, 문장 분류, 지식 추출, 마지막으로 트리플형태의 지식으로 변환하는 절차로 이루어진다. 이러한 절차의 목적은 특정 자연어 문서에 나타날 수 있는 모든 지식을 추출하기 보다는 사전에 온톨로지의 구조에 따라 정의된 유형의 지식을 추출하기 위함이다. 따라서 문서를 분류하는 모델은 입력된 문서가 속할 클래스(class)를 정의하는 것과 동일하며, 문장 분류와 지식 추출 과정을 통해 온톨로지의 정의를 따르는 속성과 값을 추출하는 과정이라 볼 수 있다.
이번 장에서는 텍스트 형태의 문서로부터 지식을 추출하여 지식베이스를 구축하는 방법에 대해 설명하고자 한다. [Figure 1]은 이에 대한 전체 프로세스를 보여주고 있다.
인공지능 분야는 최근 기술에 대한 높은 관심과 다양한 알고리즘에 대한 연구로 인해 그 어느 때보다도 많은 기술적 발전을 이루어가고 있다. 지식베이스를 기반으로 한 시스템은 인공지능의 하위 영역으로서(Engelmore, 1984), 다양한 분야의 복잡하고 비정형화된 전문 지식과 규칙 등을 저장 및 운용하여 인공지능 에이전트가 의사결정을 하는데 활용할 수 있도록 하는 것을 목적으로 한다(Krishna, 1992). 이러한 지식베이스는 최근 기계학습을 수행하는데 있어 특징 선택(feature selection)을 위해 활용되거나 설명 가능한 기계학습 알고리즘(Explainable AI)에 적용되는 등 통계 기반의 인공지능과 융합되어 그 활용성이 점차 높아지고 있다(Bergman, 2014).

제안 방법

우선 CRF는 순차적으로 입력되는 데이터에 대해 주변의 문맥(context)를 고려하는 학습 모델을 만들어 내는 통계 모델링 방법의 한 종류(Lafferty, 2001)로써, 본 연구에서는 적합 문장으로부터 특정 속성에 대한 값을 추출하기 위한 목적으로 사용된다. CRF의 입력은 적합 문장에 대해 형태소 분석을 수행한 후 출현빈도와 역출현빈도(TF/IDF)를 이용하여 특성 값을 부여한 벡터를 활용하였다.
Lange et. al. (2010)이 제시한 iPopulator는 Wu and Weld(2007)의 연구와 동일한 절차와 학습 알고리즘을 사용하지만 속성에 대한 값을 추출하는데 있어 값의 구조적인 정보를 이용하여 값을 추출하는 방법을 적용하였으며, 대부분의 위키피디아 인포박스 템플릿을 대상으로 실험을 수행하였다. Brandão et.
, 2010)와 동일한 인포박스 분류를 대상으로 실험을 진행하였다. 다만 국가, 항공사, 배우, 대학 분류 중 국가정보의 경우 실험할 만큼의 충분한 학습 데이터가 한국어 위키피디아에 존재하지 않아 항공사, 배우, 대학 세 개의 분류에 대해 실험을 수행하였다. [Table 1]과 같이 각각의 분류에 대해 5개씩의 속성을 대상으로 전체 데이터 중 80%를 학습 데이터로, 20%를 테스트 데이터로 하여 시험을 수행하였다.
, 2015), 본 논문에서도 이와 동일하게 맵핑 규칙을 이용하여 트리플로의 변환을 수행하였다. 다만 맵핑 규칙에 정의된 것들보다 본 논문을 위해 학습한 분류와 속성이 많아 맵핑 규칙을 추가적으로 확장하여 적용하였다.
이러한 문제를 해결하기 위해서는 위키피디아의 인포박스를 이용하여 뉴스나 블로그와 같은 글도 학습할 수 있도록 학습 데이터를 만들어야 한다. 다만 이 과정 또한 사람의 시간과 노력이 필요하기 때문에 이를 자동화 할 수 있도록 단순 문자열 매칭 뿐만 아니라 본 논문에서 제안한 방법론을 이용하여 재검토를 수행하는 등 학습 데이터 생성의 자동화에 대한 연구를 수행하고 있다. 두 번째는 지식 추출의 속성을 확장하는 것이다.
위키피디아는 이러한 분류를 사전에 정의해 놓고 해당 분류가 가질 수 있는 속성들을 템플릿이라는 이름으로 정의해 놓았다. 따라서 사용자는 인포박스 작성 시 작성할 텍스트의 분류를 결정하고 해당 분류의 템플릿을 찾아 정의된 속성에 적합한 값을 채우는 방식으로 작성한다. 하지만 영어 위키피디아의 경우 2,300개 이상의 템플릿이 정의³⁾되어 있어 적합한 템플릿을 찾는 것이 쉽지 않으며, 한국어 위키피디아의 경우에는 템플릿에 대한 정의가 많지 않아 작성자가 임의로 작성한 인포박스가 많은 상황이다.
마지막 향후 연구주제로써 학습 및 예측 프로세스를 보다 단순화하는 것이다. 본 논문에서 제안한 절차는 문서분류, 적합 문장 분류, 지식 추출 및 검증 세 단계의 학습 및 예측 프로세스로 구성되어 있다. 또한 지식 추출의 정확도를 높이기 위해 분류 별 속성 단위로 모델이 존재하는 형태를 가지고 있다.
앞서 제시한 방법론에 따라 분석 기능은 파이썬(Python)으로 구현하였으며, 웹 인터페이스는 자바(Java)를 이용하여 웹 기반의 플랫폼 형태로 구현하였다. 사용자가 분석 대상의 제목과 텍스트를 입력하고 분석 요청 버튼을 누르면 해당 텍스트에 대한 주제 분류를 수행한 후 해당 주제에 속한 적합 문장 분류 모델과 지식 추출 모델을 수행하여 트리플 형태의 지식을 추출하게 된다. 이러한 방법론에 따라 구현된 결과물은 [Figure 5]와 같다.
앞서 제시한 방법론에 따라 분석 기능은 파이썬(Python)으로 구현하였으며, 웹 인터페이스는 자바(Java)를 이용하여 웹 기반의 플랫폼 형태로 구현하였다. 사용자가 분석 대상의 제목과 텍스트를 입력하고 분석 요청 버튼을 누르면 해당 텍스트에 대한 주제 분류를 수행한 후 해당 주제에 속한 적합 문장 분류 모델과 지식 추출 모델을 수행하여 트리플 형태의 지식을 추출하게 된다.
이러한 방법의 적절성을 보이기 위해 DBpedia의 온톨로지 구조에 맞추어 자동화된 지식베이스 확장을 위한 기계학습 기반의 방법론을 제안하고자 한다. 이를 위해 DBpedia의 온톨로지 구조에 따라 위키피디아의 인포박스에 기술되어 있는 정보를 이용하여 학습 데이터를 만들고 학습을 수행하여, 지식을 추출할 수 있는 모델을 구축한다. 위키피디아의 인포박스는 분류체계와 해당 분류가 가질 수 있는 속성이 템플릿(template)으로 정의되어 있으며, DBpedia는 이러한 템플릿을 바탕으로 온톨로지 구조가 이루어져 있다.
, 2017; Ljubešić, 2018). 이를 위해 본 논문에서는 [Figure 4]와 같이 Bi-LSTM을 통해 도출된 양방향의 연속된 특징을 CRF에 입력으로 사용하여 최적의 태그 열 결과값을 도출하였다.
이러한 문제를 해결하기 위해 본 논문에서는 기계학습을 이용해 자연어 텍스트로부터 지식을 추출하여 지식베이스를 구축 및 확장해 나가는 방법을 제안하였다. 이를 위해 위키피디아의 인포박스를이용하여 학습 데이터를 만들고 추출될 지식의 유형을 결정하기 위한 문서 분류, 지식 추출에 적합한 문장을 고르기 위한 적합 문장 분류, 적합한 문장으로 분류된 문장을 대상으로 실제 지식을 추출하는 과정 및 지식베이스 구조에 따른 검증 과정으로 지식 추출 방법을 제안하였다. 추출된 지식은 마지막으로 RDF 형태의 트리플 구조로 변환하는 작업을 거쳐 최종적인 지식베이스 형태로 만들어진다.
다음의 “본관은 남평(南平)이다”라는 문장은 국적 속성의 값인 “대한민국”을 포함하지 않으므로 국적 속성에 대해“Bad”로 태깅한다. 이와 같은 방법을 이용하여각 속성 단위로 학습 데이터를 만들고 문서 분류모델과 마찬가지로 SVM을 이용해 학습을 수행하였다.
이러한 분류와 속성의 경우 학습 데이터로서의 활용이 불가능하기 때문에 적절한 개수 이상 사용된 분류와 속성으로 범위를 제한하여야 한다. 일부 샘플을 이용하여 SVM 분류에 대한 선행 시험을 수행해 본 결과 최소 50개 이상에 대해 신뢰할 만한 성능을 보였으며, 이에 따라 본 논문에서는 분류 및 속성 모두 50번 이상 사용된 것들을 대상으로 학습을 수행하였다. 결국 약 200개의 분류와 약 2,500개의 속성을 학습하였다.
적합 문장 분류 모델을 위한 학습 데이터를 생성하기 위해 각각의 위키페이지 본문을 문장 단위로 분리한 후 문장 단위로 문서 임베딩을 통해 학습용 벡터를 생성한다. 다음으로 각각의 문장이 인포박스의 특정 속성에 대해 값을 포함하고 있을 경우 “Good”으로 태깅하고, 그렇지 않을 경우에는 “Bad”로 태깅한다.
, 2010), 해당 연구들은 지식베이스의 구조를 고려하지 않고 인포박스를 통해 학습한 단순 문자열을 그 값으로 추출하는데 초점이 맞추어져 있다. 하지만 본 연구에서는 지식베이스의 구조를 바탕으로 학습을 수행하고, 속성의 타입 및 속성이 가져야 하는 값의 형식인 XML 스키마 데이터타입에 따라 적절한 유형의 값을 추출하여 지식베이스를 구축한다. 이러한 방법의 적절성을 보이기 위해 DBpedia의 온톨로지 구조에 맞추어 자동화된 지식베이스 확장을 위한 기계학습 기반의 방법론을 제안하고자 한다.

대상 데이터

다만 국가, 항공사, 배우, 대학 분류 중 국가정보의 경우 실험할 만큼의 충분한 학습 데이터가 한국어 위키피디아에 존재하지 않아 항공사, 배우, 대학 세 개의 분류에 대해 실험을 수행하였다. [Table 1]과 같이 각각의 분류에 대해 5개씩의 속성을 대상으로 전체 데이터 중 80%를 학습 데이터로, 20%를 테스트 데이터로 하여 시험을 수행하였다.
이를 위한 학습 데이터는 인포박스에 있는 속성을 포함하는 문장에 대해 BIO(Inside–outside–beginning) 태깅을 사용하였다(Ramshaw and Marcus, 1995).
평가를 수행하기 위해 관련 연구(Wu and Weld, 2007;Lange et. al., 2010; Brandão et. al., 2010)와 동일한 인포박스 분류를 대상으로 실험을 진행하였다.

데이터처리

그리고 기존 연구들에서 제안된 방법과의 비교평가를 위해 Bi-LSTM CRF(Bidirectional LongShort-Term Memory-Conditional Random Field)를 이용하였다. Bi-LSTM-CRF은 RNN(Recurrent Neural Network)의 장기의존성 문제를 극복하기 위해 RNN의 셀(cell)에 LSTM을 적용하고 이를 양방향 쌍으로 엮은 후 CRF의 x와 y의 관계 함수를 Bidirectional LSTM으로 정의한 것을 의미한다(Huang et.

이론/모형

이러한 예측 프로세스를 통해 추출된 지식을 온톨로지 구조에 따라 적합한 형태로 변환하기 위한 방법으로 맵핑 규칙을 이용한다. DBpedia는 DBpedia Extraction Framework를 이용하여인포박스에 존재하는 데이터를 트리플 형태로 변환하며(Lehmann et. al., 2015), 본 논문에서도 이와 동일하게 맵핑 규칙을 이용하여 트리플로의 변환을 수행하였다. 다만 맵핑 규칙에 정의된 것들보다 본 논문을 위해 학습한 분류와 속성이 많아 맵핑 규칙을 추가적으로 확장하여 적용하였다.
위키피디아에서 하나의 위키페이지는 인포박스를 포함하여 본문, 각주, 외부링크 등 다양한 정보를 포함하고 있다. 문서 분류를 위한 학습데이터는 모든 위키 문법을 제거한 본문 만을 사용하였으며, 본문의 명사 단위로 문서 임베딩(document embedding)(Dai et. al., 2014)을 이용한 벡터 값을 SVM(Support Vector Machine)(Hearstet. al., 1998)을 이용해 학습을 수행하였다.
이러한 예측 프로세스를 통해 추출된 지식을 온톨로지 구조에 따라 적합한 형태로 변환하기 위한 방법으로 맵핑 규칙을 이용한다. DBpedia는 DBpedia Extraction Framework를 이용하여인포박스에 존재하는 데이터를 트리플 형태로 변환하며(Lehmann et.
지식 추출을 위한 학습 방법은 비교 평가를 수행하기 위해 CRF와 Bidirectional LSTM-CRF 두 가지를 적용하였다. 우선 CRF는 순차적으로 입력되는 데이터에 대해 주변의 문맥(context)를 고려하는 학습 모델을 만들어 내는 통계 모델링 방법의 한 종류(Lafferty, 2001)로써, 본 연구에서는 적합 문장으로부터 특정 속성에 대한 값을 추출하기 위한 목적으로 사용된다.
이는 앞서 언급한 CRF 방법을 적용하여 실험을 수행한 후 실험을 통해 도출된 정답 문장의 길이들로부터 통계적 변곡점이 두드러지는 지점의 값을 단어 벡터의 길이로 지정한 것이다. 학습 최적화를 위해 Adam Optimizer(Kingma and Ba, 2015)를 이용하였으며, Viterbi 알고리즘(Viterbi, 1967)을 사용하여 최적의 태그열 결과값을 도출하였다.

성능/효과

[Table 3]은 학습한 모든 속성을 대상으로 속성의 값 유형에 따른 평가 결과를 보여준다. 단순한 숫자 유형의 값에 대해 가장 좋은 성능을 보이고 있으며, 추출하여야 될 값이 길거나 복잡한 경우에 낮은 성능을 보임을 알 수 있다. 이는 앞서 언급한 것과 같이 학습 및 평가 방법 두 가지 측면의 요인이 기인한 것으로 판단된다.
전체 인포박스 분류는 635개 였으며, 가장 많이 사용된 인포박스 분류는 축구 경기 정보로써 약 26,000건 정도 사용되었다. 속성 별로 살펴보면 만 개 이상의 속성이 인포박스에 사용되었으며, 가장 많이 사용된 속성은 이름 속성으로써 약 100,000번 정도 사용되었다. 하지만 [Figure 2]와 [Figure 3]에서 볼 수 있는 것처럼 많은 인포박스의 분류와 속성이 한 번씩 선언되어 사용된 것들이 대부분을 차지한다.
지식 추출을 위해 CRF와 Bi-LSTM-CRF를 적용한 비교 실험 결과는 [Table 2]와 같다. 실험 결과를 살펴보면 몇몇 개를 제외하고는 CRF에 비해 Bi-LSTM-CRF의 적용 결과가 더 나은 성능을 보인 것을 알 수 있다. 제시된 결과 중 대학정보 분류의 설립 속성의 값이 다른 속성들에 비해 유독 낮은 것을 확인할 수 있다.
이러한 과정은 학습된 모델을 이용하여 단순히 문서로부터 적합한 값을 추출하는 것이 아니라, 지식베이스의 구조를 고려하여 그 구조에 따른 값을 추출하는 방법으로 구성된다. 이를 통해 자연어 문서로부터 지식을 추출해 낼 수 있으며, 실험을 통해 본 논문에서 제안하는 방법이 효과적으로 지식을 추출할 수 있음을 증명하였다. 또한 실제의 서비스를 통해 충분히 유용하게 활용될 수 있음 보였다.
실험 결과를 살펴보면 몇몇 개를 제외하고는 CRF에 비해 Bi-LSTM-CRF의 적용 결과가 더 나은 성능을 보인 것을 알 수 있다. 제시된 결과 중 대학정보 분류의 설립 속성의 값이 다른 속성들에 비해 유독 낮은 것을 확인할 수 있다. 위키피디아에서 대학 정보에 존재하는 설립 속성의 경우 해당 대학이 현재까지 설립되어 온 연혁에 대한 정보를 [Figure 6]와 같이 담고 있다.

후속연구

이러한 방법을 이용함으로써 지식베이스의 구조에 따라 인스턴스를 확장해 나가는데 필요한 사람의 노력을 현저히 줄일 수 있으며, 보다 빠른 지식베이스의 구축이 가능할 것으로 판단된다. 또한 구축된 지식베이스는 최근 인공지능 스피커 등 다양한 분야에서 사용자와의 질의응답(Question Answering)을 위한 기반 지식으로써 사용자의 질의에 대해 적합한 응답을 찾고 제시하기 위한 목적으로 활용될 수 있다. 통상적으로 질의응답에 활용될 수 있는 지식을 구축하기 위해 웹에서 데이터를 수집하여 구조적으로 변환 및 저장한 후사용자의 자연어 질의가 입력되면 이를 지식베이스에 따라 해석하고 답을 찾아 제시하게 된다.
앞서 언급한 것과 같이 유효한 학습 데이터를 확보하기 위해 출현 빈도가 50번 이상인 것만을 대상으로 학습을 수행하였는데 이를 보다 확장하여 추출될 수 있는 지식의 유형을 늘려나가는 것이다. 마지막 향후 연구주제로써 학습 및 예측 프로세스를 보다 단순화하는 것이다. 본 논문에서 제안한 절차는 문서분류, 적합 문장 분류, 지식 추출 및 검증 세 단계의 학습 및 예측 프로세스로 구성되어 있다.
통상적으로 질의응답에 활용될 수 있는 지식을 구축하기 위해 웹에서 데이터를 수집하여 구조적으로 변환 및 저장한 후사용자의 자연어 질의가 입력되면 이를 지식베이스에 따라 해석하고 답을 찾아 제시하게 된다. 이러한 과정에 있어서 제안된 방법을 활용할 경우 주어진 지식베이스의 구조에 따라 자연어 문서로부터 지식을 생성할 수 있으므로 보다 효과적인 질의응답 시스템의 구축이 가능할 것으로 보인다.
또한 실제의 서비스를 통해 충분히 유용하게 활용될 수 있음 보였다. 이러한 방법을 이용함으로써 지식베이스의 구조에 따라 인스턴스를 확장해 나가는데 필요한 사람의 노력을 현저히 줄일 수 있으며, 보다 빠른 지식베이스의 구축이 가능할 것으로 판단된다. 또한 구축된 지식베이스는 최근 인공지능 스피커 등 다양한 분야에서 사용자와의 질의응답(Question Answering)을 위한 기반 지식으로써 사용자의 질의에 대해 적합한 응답을 찾고 제시하기 위한 목적으로 활용될 수 있다.
또한 지식 추출의 정확도를 높이기 위해 분류 별 속성 단위로 모델이 존재하는 형태를 가지고 있다. 이러한 프로세스나 모델을 통합하거나 제거하는 등 다양한 방법을 통해 단순화할 수 있는 연구를 진행해 나갈 계획이다.
이와 같은 과정을 통해 자연어 문서로부터 DBpedia의 구조에 따라 지식을 추출하고 확장함으로써 구조화된 지식을 활용할 수 있게된다. 이렇게 구축된 지식은 향후 지식베이스 기반의 인공지능을 위한 기초 지식으로 활용될 수있다.
이는 본 논문에서 제안하는 방법론이 텍스트로부터 값을 추출하기 때문에 연혁과 같은 정보를 정확히 추출하기가 어려운 구조를 가지고 있으며, 또한 평가 시 문자열의 일치 여부를 이용하여 평가를 수행하였기 때문에 글자 단위의 차이가 낮은 성능의원인이 되었을 것으로 판단된다. 향후 이러한 유형의 정보를 추출하기 위한 방법과 평가 방법의 개선이 필요할 것으로 보인다.

질의응답

핵심어	질문	논문에서 추출한 답변
	지식추출의 프로세스에서 문서분류, 문장 분류, 지식 추출, 마지막으로 트리플형태의 지식으로 변환하는 절차의 목적은?	지식추출을 위한 학습은 위키피디아의 인포박스를 이용하여 학습을 수행하며, 지식추출의 프로세스는 문서분류, 문장 분류, 지식 추출, 마지막으로 트리플형태의 지식으로 변환하는 절차로 이루어진다. 이러한 절차의 목적은 특정 자연어 문서에 나타날 수 있는 모든 지식을 추출하기 보다는 사전에 온톨로지의 구조에 따라 정의된 유형의 지식을 추출하기 위함이다. 따라서 문서를 분류하는 모델은 입력된 문서가 속할 클래스(class)를 정의하는 것과 동일하며, 문장 분류와 지식 추출 과정을 통해 온톨로지의 정의를 따르는 속성과 값을 추출하는 과정이라 볼 수 있다.
	지식베이스는 어떤 형태로 활용되고 있는가?	최근의 지식베이스는 인터넷이 보편화되고 확산됨에 따라 웹에 존재하는 자원들을 연결하고 의미를 부여함으로써 지식을 표현하고 공유하는 형태로 활용되고 있다. 또한 인공지능 스피커를 통해 이루어지는 질의응답 시스템 등 다양한 영역에서 지능화된 처리를 위한 기반 지식으로 활용되고 있다.
	지식베이스를 기반으로 한 시스템의 목적은?	인공지능 분야는 최근 기술에 대한 높은 관심과 다양한 알고리즘에 대한 연구로 인해 그 어느 때보다도 많은 기술적 발전을 이루어가고 있다. 지식베이스를 기반으로 한 시스템은 인공지능의 하위 영역으로서(Engelmore, 1984), 다양한 분야의 복잡하고 비정형화된 전문 지식과 규칙 등을 저장 및 운용하여 인공지능 에이전트가 의사결정을 하는데 활용할 수 있도록 하는 것을 목적으로 한다(Krishna, 1992). 이러한 지식베이스는 최근 기계학습을 수행하는데 있어 특징 선택(feature selection)을 위해 활용되거나 설명 가능한 기계학습 알고리즘(Explainable AI)에 적용되는 등 통계 기반의 인공지능과 융합되어 그 활용성이 점차 높아지고 있다(Bergman, 2014).

참고문헌 (30)

Berger, A. L., V. J. D. Pietra, and S. A. D. Pietra, "A maximum entropy approach to natural language processing," Computational linguistics, Vol.22, No.1(1996), 39-71.
Bergman, M., Knowledge-based Artificial Intelligence, AI3, 2014. Available at http://www.mkbergman.com/1816/knowledge-based-artificial-intelligence/ (Accessed 13 November, 2018).
Bhuiyan, H., K. J. Oh, M. D. Hong, and G. S. Jo, "An effective approach to generate Wikipedia infobox of movie domain using semi-structured data," Journal of Internet Computing and Services, Vol.18, No.3(2017), 49-61.

원문보기 상세보기
Bizer, C., T. Heath, K. Idehen, and T. Berners-Lee, "Linked Data on the Web (LDOW2008)," Workshop at the 17th International World Wide Web Conference, (2008).
Bizer, C., J. Lehmann, G. Kobilarov, S. Auer, C. Becker, R. Cyganiak, and S. Hellmann, "DBpedia - A Crystallization Point for the Web of Data," Journal of Web Semantics: Science, Services and Agents on the World Wide Web, Vol. 7, No. 3(2009), 154-165.

상세보기
Brandao, W. C., E. S. Moura, A. S. Silva, and N. Ziviani, "A Self-Supervised Approach for Extraction of Attribute-Value Pairs from Wikipedia Articles," Proceedings of the 17th international conference on String processing and information retrieval, (2010), 279-289.
Chiu, J. and E. Nichols, "Named Entity Recognition with Bidirectional LSTM-CNNs," Transactions of the Association for Computational Linguistics, Vol. 4, No. 1(2016), 357-370.

상세보기
Choi, H., M. Kim, W. Kim, D. Shin, and Y. H. Lee, "Development of Information Extraction System from Multi Source Unstructured Documents for Knowledge Base Expansion," Journal of Intelligence and Information Systems, Vol. 24, No. 4(2018), 111-136.
Dai, A. M., C. Olah, and Q. V. Le, "Document Embedding with Paragraph Vectors," NIPS Deep Learning Workshop, (2014).
Engelmore, R. S., "Artificial Intelligence and Knowledge Based Systems: Origins, Methods and Opportunities for NDE," Review of Progress in Quantitative Nondestructive Evaluation, Springer Science, New York, 1987.
Forsythe, D. E., "Engineering Knowledge: The Construction of Knowledge in Artificial Intelligence," Social Studies of Science, Vol.23, No.3(1993), 445-477.

상세보기
Hearst, M. A., S. T. Dumais, E. Osuna, J. Platt, and B. Scholkopf, "Support vector machines," IEEE Intelligent Systems and their Applications, Vol.13, No.4(1998), 18-28.

상세보기
Higashinaka, R., K. Dohsaka, and H. Isozaki, "Learning to rank definitions to generate quizzes for interactive information presentation," Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics, (2007), 117-120.
Huang, Z., W. Xu, and K. Yu, "Bidirectional LSTM-CRF models for sequence tagging," arXiv.org preprint, 2015. Available at https://arxiv.org/pdf/1508.01991.pdf (Downloaded 15 November, 2018).
Jeong, S., M. Choi, and H. Kim, "Construction of Korean Knowledge Base Based on Machine Learning from Wikipedia," Journal of KIISE, Vol. 42, No. 8(2015), 1065-1070.

상세보기
Jin, S., H. Jang, and W. Kim, "Improving Bidirectional LSTM-CRF model Of Sequence Tagging by using Ontology knowledge based feature," Journal of intelligence and information systems, Vol.24, No.1(2018), 253-266.
Kaisser, M., "The qualim question answering demo: Supplementing answers with paragraphs drawn from wikipedia," Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics, (2008), 32-35.
Kingma, D. and J. Ba, "Adam: A method for stochastic optimization," Proceedings of the 3rd International Conference for Learning Representations, (2015).
Krishna, S, Introduction to Database and Knowledge-base Systems, World Scientific Publishing, Singapore, 1992.
Lafferty, J., A. McCallum, and F. C.N. Pereira, "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data," Proceedings of the Eighteenth International Conference on Machine Learning, (2001), 282-289.
Lange, D., C. Bohm, and F. Naumann, "Extracting structured information from Wikipedia articles to populate infoboxes," Proceedings of the 19th ACM international conference on Information and knowledge management, (2010), 1661-1664.
Lehmann, J. R. Isele, M. Jakob, A. Jentzsch, D. Kontokostas, P. N. Mendes, S. Hellmann, M. Morsey, P. van Kleef, S. Auer, and C. Bizer, "DBpedia - A large-scale, multilingual knowledge base extracted from Wikipedia," Semantic Web, Vol.6, No.2(2015), 167-195.
Ljubesic, N., "Comparing CRF and LSTM performance on the task of morphosyntactic tagging of non-standard varieties of South Slavic languages," Proceedings of the Fifth Workshop on NLP for Similar Languages, Varieties and Dialects, (2018), 156-163.
Ramshaw, L. A. and M. P. Marcus, "Text Chunking using Transformation-Based Learning," ACL Third Workshop on Very Large Corpora, (1995), 82-94.
Russell, S. J., and P. Norvig, Artificial Intelligence : A Modern Approach, Prentice Hall, 2009.
Suchanek, F. M., G. Kasneci, and G. Weikum, "Yago:a core of semantic knowledge," Proceedings of the 16th international conference on World Wide Web, (2007), 697-706.
Sun, R., Artificial intelligence: Connectionist and symbolic approaches, In: N. J. Smelser and P. B. Baltes (eds.), International Encyclopedia of the Social and Behavioral Sciences, Pergamon/Elsevier, Oxford, 2001.
Viterbi, A. J., "Error bounds for convolutional codes and an asymptotically optimum decoding algorithm," IEEE Transactions on Information Theory, Vol.13, No.2(1967), 260-269.

상세보기
Wu, F. and D.S. Weld, "Autonomously semantifying Wikipedia," Proceedings of the sixteenth ACM conference on Conference on Information and knowledge management, (2007), 41-50.
Wu, J., X. Hu, R. Zhao, F. Ren, and M. Hu, "Clinical Named Entity Recognition via Bi-directional LSTM-CRF Model," Proceedings of the Evaluation Task at the China Conference on Knowledge Graph and Semantic Computing, (2017), 31-36.

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증