최근 생의학 분야의 학술 문헌이 기하급수적으로 급증함에 따라 관련 분야 연구자들은 선행 연구 및 연구 동향 파악에 어려움을 겪고 있다. 이에 효율적인 선행 연구 및 연구 동향 파악을 위한 정보 추출 기술이 요구되며, 학술 문헌의 정보 추출을 위한 개체인식 및 개체 간의 생의학 이벤트 추출 연구가 활발히 진행되고 있다. 본 연구는 이에 심층 학습(Deep Learning)의 기법 중 하나인 컨볼루션 네트워크(Convolutional Neural Networks, CNN) 모델을 기반으로 이벤트 내의 개체 유형 정보의 적용 위치와 함께, 이벤트 식별 및 분류를 고려하여 총 8가지의 모델을 구성하여 실험하였다. 실험 결과, 본 연구에서 제안하는 모델 중 최고성능을 보인 개체 유형 완전연결 모델이 이벤트 분류 실험에서 F-점수 72.09%의 높은 성능을 보였으나, 이벤트 추출 실험에서는 학습 컬렉션의 불균형 문제 및 이벤트 식별 모델의 성능 저조 등으로 인하여 F-점수 21.81%의 비교적 저조한 성능을 보였다.
최근 생의학 분야의 학술 문헌이 기하급수적으로 급증함에 따라 관련 분야 연구자들은 선행 연구 및 연구 동향 파악에 어려움을 겪고 있다. 이에 효율적인 선행 연구 및 연구 동향 파악을 위한 정보 추출 기술이 요구되며, 학술 문헌의 정보 추출을 위한 개체인식 및 개체 간의 생의학 이벤트 추출 연구가 활발히 진행되고 있다. 본 연구는 이에 심층 학습(Deep Learning)의 기법 중 하나인 컨볼루션 네트워크(Convolutional Neural Networks, CNN) 모델을 기반으로 이벤트 내의 개체 유형 정보의 적용 위치와 함께, 이벤트 식별 및 분류를 고려하여 총 8가지의 모델을 구성하여 실험하였다. 실험 결과, 본 연구에서 제안하는 모델 중 최고성능을 보인 개체 유형 완전연결 모델이 이벤트 분류 실험에서 F-점수 72.09%의 높은 성능을 보였으나, 이벤트 추출 실험에서는 학습 컬렉션의 불균형 문제 및 이벤트 식별 모델의 성능 저조 등으로 인하여 F-점수 21.81%의 비교적 저조한 성능을 보였다.
A recent sharp increase of the biomedical literature causes researchers to struggle to grasp the current research trends and conduct creative studies based on the previous results. In order to alleviate their difficulties in keeping up with the latest scholarly trends, numerous attempts have been ma...
A recent sharp increase of the biomedical literature causes researchers to struggle to grasp the current research trends and conduct creative studies based on the previous results. In order to alleviate their difficulties in keeping up with the latest scholarly trends, numerous attempts have been made to develop specialized analytic services that can provide direct, intuitive and formalized scholarly information by using various text mining technologies such as information extraction and event detection. This paper introduces and evaluates total 8 Convolutional Neural Network (CNN) models for extracting biomedical events from academic abstracts by applying various feature utilization approaches. Also, this paper conducts performance comparison evaluation for the proposed models. As a result of the comparison, we confirmed that the Entity-Type-Fully-Connected model, one of the introduced models in the paper, showed the most promising performance (72.09% in F-score) in the event classification task while it achieved a relatively low but comparable result (21.81%) in the entire event extraction process due to the imbalance problem of the training collections and event identify model's low performance.
A recent sharp increase of the biomedical literature causes researchers to struggle to grasp the current research trends and conduct creative studies based on the previous results. In order to alleviate their difficulties in keeping up with the latest scholarly trends, numerous attempts have been made to develop specialized analytic services that can provide direct, intuitive and formalized scholarly information by using various text mining technologies such as information extraction and event detection. This paper introduces and evaluates total 8 Convolutional Neural Network (CNN) models for extracting biomedical events from academic abstracts by applying various feature utilization approaches. Also, this paper conducts performance comparison evaluation for the proposed models. As a result of the comparison, we confirmed that the Entity-Type-Fully-Connected model, one of the introduced models in the paper, showed the most promising performance (72.09% in F-score) in the event classification task while it achieved a relatively low but comparable result (21.81%) in the entire event extraction process due to the imbalance problem of the training collections and event identify model's low performance.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
생의학 이벤트를 추출하기 위해서는 학술 문헌 내에서 개체(단백질, 유전자, 질병명, 약물명, 기타 용어 등)를 자동으로 추출하고 이들 간의 상호 연관 관계를 추출하는 생의학 텍스트 마이닝(Biomedical text mining) 기술이 필요하다(이기헌, 허고은, 송민 2015). 본 논문에서는 생의학 이벤트 추출을 위해 심층 학습 기반의 다양한 토폴로지를 구성하고 비교 분석 하여, 적절한 토폴로지를 제시하는 것이다. 2장에서는 현재까지 연구된 다양한 생의학 정보 추출 기술을 소개하고, 3장에서는 그 중에서도 생의학 이벤트를 추출하기 위한 심층학습 기반의 모델 구조를 소개한다.
본 연구에서 제안하는 모델은 학술 문헌 내의 개체 쌍을 기반으로 문장 정보를 입력하면 개체 간에 유의미한 이벤트가 있는지 식별하고, 있다면 어떤 유형의 이벤트인지를 분류하는 것을 목적으로 한다. 이에 대한 성능 향상을 위해본 연구에서는 컨볼루션 네트워크를 기반으로한 심층 학습 모델을 구성한다.
본 연구에서는 이벤트 분류 모델의 실제적인 이벤트 분류 성능을 파악하기 위해, 유의미한 이벤트가 있는 개체 쌍에 대한 이벤트 분류 실험을 수행한다. 이벤트 분류 성능은 이벤트 추출 성능과 달리 유의미한 이벤트를 추출하는 식별 과정이 제외되고, 유의미한 이벤트가 이벤트 유형 중 어떤 이벤트에 해당하는지를 분류하는 성능이다.
위 실험 이후, 이벤트 추출 구조에 있어 이벤트 분류 모델을 단독으로 사용하였을 때 오히려 성능이 좋게 나오는 점과 재현율이 정확률에 비해 성능이 높게 나오는 점 등을 통해, 이벤트 식별 모델의 성능이 저조하다는 것을 추론하였다. 이에 개체 유형 완전연결 분류 모델 자체의 이벤트 분류 성능 평가를 수행하기 위한 실험을 수행 하였다. 실험 집합이 공개되어 있지 않아, 유의미한 이벤트를 가진 개체 쌍만을 출력하기 어렵기 때문에, 본 실험은 검증 집합을 통해 이루어졌다.
본 연구에서는 최근 텍스트 마이닝 및 정보 추출 분야에서 높은 성능을 보이는 심층 학습 기법 중 컨볼루션 네트워크 기반의 모델을 구성 하여 BioNLP-ST 2016 컬렉션을 중심으로 생의학 이벤트 추출 모델을 구성하였다. 특히, 기존 연구의 생의학 이벤트 추출 관련 방법론들을 참고하여 개체 유형을 중요 자질로 판단하고, 이를 컨볼루션 네트워크 기반의 심층 학습 모델에 구조적으로 어떻게 적용할 것인지에 대하여 중심적으로 연구하였다. 결과적으로, 개체 유형 적용 구조에 따른 모델 4종을 고안하였고, 각 구조의 모델 마다 이벤트 식별 및 분류 모델을 따로 구성하여 총 8종의 이벤트 추출 모델을 구축 하여 비교분석하였다.
제안 방법
특히 Li et al.(2015)와 Liu, Bordes, Grandvalet(2015)에서 공통적으로 사용한 개체 유형을 주요 자질로 보고 이를 어떠한 구조로 사용하는지에 대하여 연구하기 위해, 다양한 토폴로지의 컨볼루션 네트워크 모델을 이벤트 추출에 적용하여 비교 실험하였다.
특히, 기존 연구의 생의학 이벤트 추출 관련 방법론들을 참고하여 개체 유형을 중요 자질로 판단하고, 이를 컨볼루션 네트워크 기반의 심층 학습 모델에 구조적으로 어떻게 적용할 것인지에 대하여 중심적으로 연구하였다. 결과적으로, 개체 유형 적용 구조에 따른 모델 4종을 고안하였고, 각 구조의 모델 마다 이벤트 식별 및 분류 모델을 따로 구성하여 총 8종의 이벤트 추출 모델을 구축 하여 비교분석하였다.
(2011)과 Kim, Wang, Yasunori (2013)에서 다룬 생의학 이벤트 추출의 주요 과업인 BioNLP-ST을 사용하였다. 그 중에서도 최신 컬렉션인 BioNLP- ST 2016을 사용 하여, 심층 학습 기법 중 하나인 컨볼루션 네트워크를 적용한 생의학 이벤트 추출 실험을 수행한다. 특히 Li et al.
결과적으로 이벤트 분류 성능은 비교적 준수한 성능을 보였지만, 생의학 이벤트 추출 전반에 대해서는 아쉬운 점이 많았다. 그러나 본 연구에서는 이벤트 추출을 위한 다양한 컨볼루션 네트워크 변형 토폴로지를 제시하여 비교 실험을 하였다. 이러한 실험 결과는 향후 해당 연구를 진행할 유관 연구자들에게 가이드 역할을 수행할 수 있다.
실험 집합이 공개되어 있지 않아, 유의미한 이벤트를 가진 개체 쌍만을 출력하기 어렵기 때문에, 본 실험은 검증 집합을 통해 이루어졌다. 기존 이벤트 추출 실험은 이벤트 식별 과정을 추가하기 위해, 토큰 거리가 10 이하인 개체 쌍을 임의로 엮어 실험하였으나, 본 실험에서는 이벤트 분류 과정 자체에 대한 성능 파악을 위해 유의미한 개체 쌍만을 가지고 실험하였다. 실험 결과는 <표 7>과 같다.
단어 정보의 경우, 선학습 임베딩 매트릭스를 정적으로 사용하였고, 그 외의 정보의 경우에는 임의로 구성하여 학습하는 동적 임베딩 매트릭스를 구성하였다. 각 임베딩 매트릭스는 n× d에 해당하는 크기를 갖는다.
마지막으로, 3.1.2의 컨볼루션 네트워크 과정을 통하여 출력된 벡터 S= (Sf1 , ..., Sfd)를 완전 연결 층(Fully Connected Layer)에 입력하여 주요 자질에 따른 예측 가능 유형들에 대한 예측 값들을 제시한다. 미리 지정된 차원 h만큼의 차원을 가진 가중치(weight) 벡터 Wfc과 바이어스(bias) 벡터 bfc로 수식 (2)와 같은 연산을 수행한다.
특히, 유관 연구를 참고하여 개체 유형 정보를 핵심적인 자질로 판단하여, 이를 적용하는 위치 및 방법에 따라 모델 구조를 나누어 각 성능을 비교 분석하였다. 먼저 컨볼루션 네트워크 기반의 생의학 이벤트 추출 모델의 기본적인 구조에 대해 설명한 후, 개체 유형 정보의 적용 위치 및 방법에 따른 모델 구조들을 다룬다.
주로 이미지 정보를 다룰 때 사용하는 방법이지만, 최근 자연어 처리의 방법으로도 사용되기 시작하였다. 문장 단위로 입력된 정보에 대하여, 설정된 크기만큼의 단어들을 대상으로 연산을 수행하여 벡터를 구성하고, 다시 설정된 크기만큼의 다음 단어들을 대상으로 연산을 수행하여 벡터를 구성한다. 이러한 컨볼루션 층은 입력된 문장 정보에 대한 구조적인 연산을 통해, 핵심적인 자질을 추출하는데 효과적이다(Stanford CS231n 2017).
변수 최적화 실험 결과로 선정된 3종의 모델에 대하여, 4.3의 방법론을 기준으로 와 같이 네 가지 유형으로 구조를 나누어 이벤트 추출 실험을 수행하였으며, 이에 대하여 각각의 성능을 비교하였다.
본 논문에서 제시한, 먼저 변수 최적화 실험을 통해 각 모델의 기초적인 성능 비교를 수행 하였다. 변수 최적화 실험 과정에서 우수한 성능을 보인 식별 모델 2종과 분류 모델 1종을 선택하고, 이에 대한 이벤트 추출 구조를 설정하여 성능 비교 실험을 수행하였다. 추가적으로 이벤트 분류 단독 실험 성능을 파악하기 위한 실험을 별도로 진행하였다.
본 논문에서 제시한, 먼저 변수 최적화 실험을 통해 각 모델의 기초적인 성능 비교를 수행 하였다. 변수 최적화 실험 과정에서 우수한 성능을 보인 식별 모델 2종과 분류 모델 1종을 선택하고, 이에 대한 이벤트 추출 구조를 설정하여 성능 비교 실험을 수행하였다.
xT, xe]를 컨볼루션 층(Convolutional Layers)에 입력한다. 본 모델의 구조는 다중 컨볼루션 필터를 통한 다중 컨볼루션 층을 사용한다. 각 컨볼루션 층은 컨볼루션 연산을 수행하기 위한 3차원의 가중치 필터를 가지는데, 필터의 길이는 xi가 가지는 벡터의 길이와 동일하게 구성되며, 너비는 컨볼루션 층마다 지정된 필터 크기 fd만큼의 값을 가진다.
본 연구에서 구성한 모델은 주요 자질 정보로서 문장에 대한 각 단어 정보, 각 단어에 대한 품사 정보, 첫 번째 개체에 대한 상대적 위치 정보, 두 번째 개체에 대한 상대적 위치 정보를 사용한다. 각 주요 자질 정보는 학습 집합을 기반으로 구성된 사전을 통하여 각 정보를 가리키는 인덱스로 치환되며, 미리 설정된 문장 최대 길이에 맞추어 인덱스 외의 정보는 0으로 채워주는 전처리를 거친다.
개체 정보에 대한 중요도가 높아지고 트리거가 제거 되면서, 트리거 추출을 중심으로 이루어졌던 기존의 방법론과 다르게 개체 정보를 기반으로 한생의학 이벤트 추출이 가능하다. 본 연구에서는 개체 쌍 기반의 생의학 이벤트 추출을 위해 문장의 의미 정보, 품사 정보, 첫 개체의 위치 정보, 두 번째 개체의 위치 정보, 두 개체의 유형 정보를 주요 자질로서 추출하였다.
본 연구에서는 심층 학습 기법 중 컨볼루션 네트워크를 기반으로 하여 생의학 이벤트를 추출하였다. 특히, 유관 연구를 참고하여 개체 유형 정보를 핵심적인 자질로 판단하여, 이를 적용하는 위치 및 방법에 따라 모델 구조를 나누어 각 성능을 비교 분석하였다.
본 연구에서는 최근 텍스트 마이닝 및 정보 추출 분야에서 높은 성능을 보이는 심층 학습 기법 중 컨볼루션 네트워크 기반의 모델을 구성 하여 BioNLP-ST 2016 컬렉션을 중심으로 생의학 이벤트 추출 모델을 구성하였다. 특히, 기존 연구의 생의학 이벤트 추출 관련 방법론들을 참고하여 개체 유형을 중요 자질로 판단하고, 이를 컨볼루션 네트워크 기반의 심층 학습 모델에 구조적으로 어떻게 적용할 것인지에 대하여 중심적으로 연구하였다.
이에 개체 유형 완전연결 분류 모델 자체의 이벤트 분류 성능 평가를 수행하기 위한 실험을 수행 하였다. 실험 집합이 공개되어 있지 않아, 유의미한 이벤트를 가진 개체 쌍만을 출력하기 어렵기 때문에, 본 실험은 검증 집합을 통해 이루어졌다. 기존 이벤트 추출 실험은 이벤트 식별 과정을 추가하기 위해, 토큰 거리가 10 이하인 개체 쌍을 임의로 엮어 실험하였으나, 본 실험에서는 이벤트 분류 과정 자체에 대한 성능 파악을 위해 유의미한 개체 쌍만을 가지고 실험하였다.
실험을 위하여, 성능 최적화 실험을 통해 가장 높은 성능을 보인 이벤트 분류 모델을 사용 하여 유의미한 이벤트를 가지고 있는 개체 쌍만을 담고 있는 검증 집합을 분류한다.
본 연구에서 제안하는 네 가지의 변형된 컨볼루션 네트워크 모델 토폴로지의 특징과 장단점을 정리하면 <표 1>과 같다. 이를 기준으로 최종 활성함수를 시그모이드와 소프트맥스로 나누어 구성하였다. 이에 따라 식별 모델과 분류 모델이 각각 생성되어, 총 8종의 이벤트 추출 모델을 구성하였다.
본 연구에서 제안하는 모델은 학술 문헌 내의 개체 쌍을 기반으로 문장 정보를 입력하면 개체 간에 유의미한 이벤트가 있는지 식별하고, 있다면 어떤 유형의 이벤트인지를 분류하는 것을 목적으로 한다. 이에 대한 성능 향상을 위해본 연구에서는 컨볼루션 네트워크를 기반으로한 심층 학습 모델을 구성한다. 기본적인 모델의 전반적인 구성은 <그림 3>과 같이 각 정보의 임베딩, 컨볼루션 네트워크, 완전연결 층으로 나누어져 구성된다.
두 개체가 각각 어떤 유형을 가지고 있는지에 따라 분류 가능한 생의학 이벤트 유형이 한정될 수 있다. 이에 따라, 개체 유형을 어디에서 어떤 방식으로 모델에 적용할지에 대해 개체 유형 완전연결 모델, 개체 유형 임베딩 모델, 개체 유형 선입 모델, 개체 유형 후입 모델로 나누어 구성하였다.
이에 대해서 최적의 성능을 발휘할 수 있는 최적의 변수를 찾는 실험이 필요하며, 이를 성능 최적화 실험이라 한다. 이에 학습과 검증에 대한 실험은 BioNLP-ST 2016 컬렉션에서 자체적으로 분류되어 있는 학습 집합과 검증 집합을 그대로 사용하였지만, BioNLP-ST 2016 컬렉션의 특징 상, 학습 집합과 검증 집합은 유의미한 이벤트에 대한 개체 쌍만이 기재되어 있어, 이에 대하여 임의로 개체 간의 토큰 거리가 10 이하인 모든 개체 쌍을 짝지어 식별 및 분류 모델 실험에 사용하였다. 그 외에 실험에 사용한 변수들은 <표 3>과 같다.
변수 최적화 실험 과정에서 우수한 성능을 보인 식별 모델 2종과 분류 모델 1종을 선택하고, 이에 대한 이벤트 추출 구조를 설정하여 성능 비교 실험을 수행하였다. 추가적으로 이벤트 분류 단독 실험 성능을 파악하기 위한 실험을 별도로 진행하였다. 자세한 실험 내용은 다음과 같다.
본 연구에서는 심층 학습 기법 중 컨볼루션 네트워크를 기반으로 하여 생의학 이벤트를 추출하였다. 특히, 유관 연구를 참고하여 개체 유형 정보를 핵심적인 자질로 판단하여, 이를 적용하는 위치 및 방법에 따라 모델 구조를 나누어 각 성능을 비교 분석하였다. 먼저 컨볼루션 네트워크 기반의 생의학 이벤트 추출 모델의 기본적인 구조에 대해 설명한 후, 개체 유형 정보의 적용 위치 및 방법에 따른 모델 구조들을 다룬다.
<표 4>는 선정된 모델과 최적의 성능을 보인 변수의 값이다. 표에서의 성능은 검증 집합에 대한 성능으로, 개체 간의 토큰 거리가 10 이하인 개체 쌍을 임의로 묶어 성능을 평가한 것이다. 때문에 이벤트 분류 모델의 경우, 이벤트 분류만을 단독으로 실험한 것이 아니라 무의미한 개체 쌍에 대해서 성능 평가를 실시한 값이다.
대상 데이터
변수마다의 모델로, 총 15,552,000번의 실험이 이뤄질 예정이었으나, 중도에 빠진 변수들을 고려하였을 때, 약 777,600의 모델을 비교하여 결과를 얻었다.
실험 결과, 학습이 전혀 이루어지지 않거나 저조한 성능을 보인 모델을 제거하고, 비교적 우수한 성능을 보인 모델로 식별 모델 2종(개체 유형 완전 연결, 개체 유형 선입), 분류 모델 1종(개체 유형 완전 연결)을 선정하였다. <표 4>는 선정된 모델과 최적의 성능을 보인 변수의 값이다.
이를 기준으로 최종 활성함수를 시그모이드와 소프트맥스로 나누어 구성하였다. 이에 따라 식별 모델과 분류 모델이 각각 생성되어, 총 8종의 이벤트 추출 모델을 구성하였다.
이론/모형
“Word vector dictionary” 변수는 Collobert et al.(2011)가 구성한 Collobert 사전과 본 연구에서 자체적으로 구성한 PubMed 데이터베이스로 구성한 각 50 차원, 100 차원의 단어 벡터 사전을 사용했다. “Epoch” 변수는 학습 반복의 양을 의미하며, “Batch size” 변수는 데이터를 다루는 배치의 크기를 뜻한다.
본 연구는 Kim et al.(2011)과 Kim, Wang, Yasunori (2013)에서 다룬 생의학 이벤트 추출의 주요 과업인 BioNLP-ST을 사용하였다. 그 중에서도 최신 컬렉션인 BioNLP- ST 2016을 사용 하여, 심층 학습 기법 중 하나인 컨볼루션 네트워크를 적용한 생의학 이벤트 추출 실험을 수행한다.
성능/효과
또한, 위 실험 집합에 대한 이벤트 추출 모델의 성능은 대체로 저조한 편이다. BioNLP-ST 2016이 개최 당시 참가했던 팀들의 성능도 대체로 낮은 점수를 기록하였지만, 그 중 최고 성능을 보인 Litway 모델(Li, Rao and Zhang 2016)의 0.432나, 두 번째로 높은 성능을 보인 UniMelb 모델(Panyam et al. 2016)의 0.364의 F-점수 성능과 비교하였을 때에도 현저히 낮은 성능이다. 이는 두 모델의 경우, SVM과 다양한 자질을 기반하여 학습한 모델이지만, 본 연구에서의 모델은 심층 학습 모델로서 방대한 양의 데이터를 필요로 하는 모델이기 때문에 BioNLP-ST 2016의 데이터 규모가 학습 집합으로서 부족하였기 때문으로 보인다.
결과적으로 이벤트 분류 성능은 비교적 준수한 성능을 보였지만, 생의학 이벤트 추출 전반에 대해서는 아쉬운 점이 많았다. 그러나 본 연구에서는 이벤트 추출을 위한 다양한 컨볼루션 네트워크 변형 토폴로지를 제시하여 비교 실험을 하였다.
또한, 두 가지의 모델을 통해 이벤트 추출을 수행하게 되면, 이벤트 식별 모델의 오류율과 이벤트 분류 모델의 오류율이 곱하여져서 이벤트 추출의 오류율이 나타나기 때문에, 더더욱 저조한 성능이 나타날 수도 있다. 결과적으로, 성능이 높은 이벤트 분류 모델을 통하여 이벤트 추출을 통합적으로 수행하면, 이벤트 추출의 성능이 향상될 것으로 전망된다.
학습 집합의 유의미한 생의학 이벤트가 1,638건으로 BioNLP-ST 2013의 학습 집합 규모(3,152건)에 비하여 그 규모가 축소되었다. 반면, 예측 결과로 나타날 이벤트 유형은 BioNLP-ST 2013이 11종이었던 것에 비하여 13종이 추가되어 24종으로 증가하였다. 이에 따라, 이벤트 분류의 복잡성이 높아졌으며, 이와 함께 규모 축소로 인한 데이터 부족 현상도 나타날 위험성이 있다.
(2015)는 각 단어의 대표성을 벡터 값으로 표현하는 워드 임베딩(Word Embedding) 을 적용하고 각 문장의 자질들을 분석하는 과정에서 개체와 개체의 유형을 주요 정보로 삼았다. 생의학 이벤트 추출의 중요 단서가 되는 문헌 내의 표현인 트리거를 활용한 SVM(Support Vector Machine) 모델을 제시하여 우수한 성능을 보였다. 또한, Liu, Bordes, Grandvalet (2015)는 단순 생의학 이벤트 추출에 있어서 트리거와 인자를 올바르게 추출할 수 있도록, 각 개체에 대한 유형 등에 대한 정보, 단어에서 나타난 기호 및 숫자 정보 등 다양한 자질을 복합적으로 활용하였으며, 단순 이벤트를 다시 인자(Argument)로 받는 복합적인 생의학 이벤트 추출을 위해 트리거와 인자를 쌍으로 묶어서 예측을 수행하는 방법을 고안하여 기존 연구 성능의 3.
실험 결과, 개체 유형 완전연결 모델을 단독으로 사용하며 임계치를 0.9 이상으로 둔 구조가 가장 높은 성능을 보였다. 그러나 이벤트 추출 전반에 대한 최고 성능은 F-점수 0.
<표 6>과 같이 성능이 가장 좋은 구조는 Only FCC(Threshold) 토폴로지이다. 실험 결과, 임계치 수치에 따라서도 다양한 성능이 나왔는데, 최고 성능은 임계치를 0.9 이상으로 두는 것이었다. 전반적으로 분류 모델을 단독 사용한 Only FCC(None)과 Only FCC(Threshold)의 성능이 식별 모델과 분류 모델을 적용하여 수행한 모델에 비하여 높은 성능을 낸 것에 비하여 높은 편이다.
위 실험 이후, 이벤트 추출 구조에 있어 이벤트 분류 모델을 단독으로 사용하였을 때 오히려 성능이 좋게 나오는 점과 재현율이 정확률에 비해 성능이 높게 나오는 점 등을 통해, 이벤트 식별 모델의 성능이 저조하다는 것을 추론하였다. 이에 개체 유형 완전연결 분류 모델 자체의 이벤트 분류 성능 평가를 수행하기 위한 실험을 수행 하였다.
이는 대용량의 데이터를 기반으로 하는 심층 학습 모델인 만큼, 규모가 작은 BioNLP-ST 2016 컬렉션에 대해 다른 자질 및 룰 기반의 기계학습 모델에 비해 저조한 성능을 보이는 것으로 추론 된다. 이후, 개체 유형 완전연결 분류 모델의 이벤트 분류 자체에 대한 성능 파악을 위한 실험을 진행한 결과, 분류 자체에 대한 검증 집합 성능은 F-점수 0.7209로, 상당히 준수한 성능을 보였다.
(2011)의 경우, BioNLP -ST 2011에 대한 다양한 기계학습 모델 성능을 비교하고 있다. 최고 성능은 SVM 분류를 사용한 FAUST 모델로, 생의학 이벤트 추출 부분에 대해 57.46%의 F-점수를 보였다. Kim, Wang, Yasunori (2013)의 경우, BioNLP- ST 2013에 대한 다양한 기계학습 모델의 성능을 비교했으며, 생의학 이벤트 추출 부분에 대한 최고 성능은 SVM 분류를 사용한 EVEX 모델로, 전체 분야의 생의학 이벤트 추출에 대해 50.
추출하는 과정에서, 개체의 위치 정보가 다중으로 분할되어 있는 경우, 3개 이상의 분할을 가진 데이터와 위치 정보에 대해 오류가 있는 데이터 28건을 제외하였고, 그 결과 학습 집합에서 와 같이 학습 집합에서 1,610건이, 검증 집합에서 809건이 추출되어, 총 2,419건이 추출되었다.
후속연구
추후에는 BioNLP-ST 2016 컬렉션의 복잡성과 데이터 부족 문제를 방지할 수 있는 적합한 규모의 컬렉션을 찾아 생의학 이벤트 추출 실험을 진행할 것이다. 또한, 식별 모델의 성능이 저조한 것을 고려하여, 식별 모델의 성능을 높일 수 있는 방안이나 생의학 이벤트의 식별과 분류를 동시에 진행할 수 있는 새로운 형태의 생의학 이벤트 추출 모델에 대한 구조를 연구할 필요가 있다. 마지막으로, 문장 구조 분석 기반의 컨볼루션 네트워크 모델 외에도 현재 심층 학습 기술에서 연속 정보 및 문맥 정보 파악에 탁월한 성능을 보이고 있는 RNNs 기반의 생의학 이벤트 추출 모델을 연구할 필요가 있다.
또한, 식별 모델의 성능이 저조한 것을 고려하여, 식별 모델의 성능을 높일 수 있는 방안이나 생의학 이벤트의 식별과 분류를 동시에 진행할 수 있는 새로운 형태의 생의학 이벤트 추출 모델에 대한 구조를 연구할 필요가 있다. 마지막으로, 문장 구조 분석 기반의 컨볼루션 네트워크 모델 외에도 현재 심층 학습 기술에서 연속 정보 및 문맥 정보 파악에 탁월한 성능을 보이고 있는 RNNs 기반의 생의학 이벤트 추출 모델을 연구할 필요가 있다.
그러나 본 연구에서는 이벤트 추출을 위한 다양한 컨볼루션 네트워크 변형 토폴로지를 제시하여 비교 실험을 하였다. 이러한 실험 결과는 향후 해당 연구를 진행할 유관 연구자들에게 가이드 역할을 수행할 수 있다.
추후에는 BioNLP-ST 2016 컬렉션의 복잡성과 데이터 부족 문제를 방지할 수 있는 적합한 규모의 컬렉션을 찾아 생의학 이벤트 추출 실험을 진행할 것이다. 또한, 식별 모델의 성능이 저조한 것을 고려하여, 식별 모델의 성능을 높일 수 있는 방안이나 생의학 이벤트의 식별과 분류를 동시에 진행할 수 있는 새로운 형태의 생의학 이벤트 추출 모델에 대한 구조를 연구할 필요가 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
효율적인 선행 연구 및 연구 동향 파악을 위한 정보 추출 기술이 요구되는 이유는 무엇인가?
최근 생의학 분야의 학술 문헌이 기하급수적으로 급증함에 따라 관련 분야 연구자들은 선행 연구 및 연구 동향 파악에 어려움을 겪고 있다. 이에 효율적인 선행 연구 및 연구 동향 파악을 위한 정보 추출 기술이 요구되며, 학술 문헌의 정보 추출을 위한 개체인식 및 개체 간의 생의학 이벤트 추출 연구가 활발히 진행되고 있다.
컨볼루션 네트워크란 무엇인가?
이에 효율적인 선행 연구 및 연구 동향 파악을 위한 정보 추출 기술이 요구되며, 학술 문헌의 정보 추출을 위한 개체인식 및 개체 간의 생의학 이벤트 추출 연구가 활발히 진행되고 있다. 본 연구는 이에 심층 학습(Deep Learning)의 기법 중 하나인 컨볼루션 네트워크(Convolutional Neural Networks, CNN) 모델을 기반으로 이벤트 내의 개체 유형 정보의 적용 위치와 함께, 이벤트 식별 및 분류를 고려하여 총 8가지의 모델을 구성하여 실험하였다. 실험 결과, 본 연구에서 제안하는 모델 중 최고성능을 보인 개체 유형 완전연결 모델이 이벤트 분류 실험에서 F-점수 72.
컨볼루션 네트워크 모델을 기반으로 한 8가지 모델 실험의 결과는 무엇인가?
본 연구는 이에 심층 학습(Deep Learning)의 기법 중 하나인 컨볼루션 네트워크(Convolutional Neural Networks, CNN) 모델을 기반으로 이벤트 내의 개체 유형 정보의 적용 위치와 함께, 이벤트 식별 및 분류를 고려하여 총 8가지의 모델을 구성하여 실험하였다. 실험 결과, 본 연구에서 제안하는 모델 중 최고성능을 보인 개체 유형 완전연결 모델이 이벤트 분류 실험에서 F-점수 72.09%의 높은 성능을 보였으나, 이벤트 추출 실험에서는 학습 컬렉션의 불균형 문제 및 이벤트 식별 모델의 성능 저조 등으로 인하여 F-점수 21.81%의 비교적 저조한 성능을 보였다.
참고문헌 (16)
김정균, 조혜진, 이현주. 2015. 생의학 문헌에서 질병 관련 정보를 추출하기 위한 텍스트 마이닝 기법. 정보과학회지, 33(4): 13-19. (Kim, Jeong kyun, Jo, Hye Jin and Lee, Hyeon Ju. 2015. "Text Mining Approaches to Extract Disease Information from Biomedical Articles." Communications of the Korean Institute of Information Scientists and Engineers, 33(4): 13-19.)
김태현 외. 2002. 정보 추출을 위한 이벤트 문장 추출. 한국정보과학회 언어공학연구회 학술발표 논문집, 2002년 10월 11-12일, 청주: 충북대학교: 325-331. (Kim, Tae-Hyun. et al. 2002. Event Sentence Extraction for Information Extraction. In Proceedings of the 14th Annual Conference on Human and Cognitive Language Technology, October 11-12, 2002, Cheongju: Chungbuk National University: 325-331.)
이기헌, 허고은, 송민. 2015. 생의학 텍스트 마이닝: 새로운 생의학 지식 발견 방법 연구 동향. 정보과학회지, 33(4): 30-38. (Lee, Keeheon, Heo, Go Eun and Song, Min. 2015. Biomedical Text Mining: A Trend in Biomedical Knowledge Discovery Based on Text Mining. Communications of the Korean Institute of Information Scientists and Engineers, 33(4): 30-38.)
Choi, S. 2016. "Extraction of Protein-Protein Interactions(PPIs) from the Literature by Deep Convolutional Neural Networks with Various Feature Embeddings." Sage Journal.
Huang, C. and Lu, Z. 2016. "Community Challenges in Biomedical Text Mining over 10 Years: Success, Failure and the Future." Briefings in Bioinformatics, 17(1): 132-144.
Kim, J. D., Wang, Y. and Yasunori, Y. 2013. "The Genia Event Extraction Shared Task, 2013 Edition-Overview." In Proceedings of the BioNLP Shared Task 2013 Workshop, 8-15.
Kim, J. D. et al. 2011. "Overview of Genia Event Task in BioNLP Shared Task 2011." In Proceedings of the BioNLP Shared Task 2011 Workshop, 7-15.
Li, C., Rao, Z. and Zhang, X. 2016. "LitWay, Discriminative Extraction for Different Bio-Events." In Proceedings of the 4th BioNLP Shared Task 2015 Workshop, 32-41.
Li, C. et al. 2015. "Using Word Embedding for Bio-event Extraction." ACL-IJCNLP, 2015: 121-126.
Li, F. et al. 2015. "Mapping Publication Trends and Identifying Hot Spots of Research on Internet Health Information Seeking Behavior: A Quantitative and Co-Word Biclustering Analysis." J Med Internet Res, 17(3).
Liu, X., Bordes, A., and Grandvalet, Y. 2015. "Extracting Biomedical Events from Pairs of Text Entities." BMC Bioinformatics, 16(10): 45-49.
Panyam N. C. et al. 2016. "SeeDev Binary Event Extraction using SVMs and a Rich Feature Set." In Proceedings of the 4th BioNLP Shared Task 2015 Workshop, 82-87.
Collobert, R. et al. 2011. "Natural Language Processing (Almost) from Scratch." Journal of Machine Learning Research, 12: 2493-2537.
Xia, J., Fang, A. C. and Zhang, X. 2014. "A Novel Feature Selection Strategy for Enhanced Biomedical Event Extraction Using the Turku System." BioMed Research International, 2014.
Stanford CS231n. 2017. Convolutional Neural Networks for Visual Recognition. Stanford University CS Class. [online] [cited 2017. 10. 9.]
GENIA. 2017. The 4th BioNLP Shared Task 2016. The BioNLP Shared Task. [online] [cited 2017. 10. 9.]
※ AI-Helper는 부적절한 답변을 할 수 있습니다.