[논문]생의학 분야 학술 문헌에서의 이벤트 추출을 위한 심층 학습 모델 구조 비교 분석 연구

김선우; 유석종; 이민호; 최성필

doi:10.4275/kslis.2017.51.4.077

문제 정의

생의학 이벤트를 추출하기 위해서는 학술 문헌 내에서 개체(단백질, 유전자, 질병명, 약물명, 기타 용어 등)를 자동으로 추출하고 이들 간의 상호 연관 관계를 추출하는 생의학 텍스트 마이닝(Biomedical text mining) 기술이 필요하다(이기헌, 허고은, 송민 2015). 본 논문에서는 생의학 이벤트 추출을 위해 심층 학습 기반의 다양한 토폴로지를 구성하고 비교 분석 하여, 적절한 토폴로지를 제시하는 것이다. 2장에서는 현재까지 연구된 다양한 생의학 정보 추출 기술을 소개하고, 3장에서는 그 중에서도 생의학 이벤트를 추출하기 위한 심층학습 기반의 모델 구조를 소개한다.
본 연구에서 제안하는 모델은 학술 문헌 내의 개체 쌍을 기반으로 문장 정보를 입력하면 개체 간에 유의미한 이벤트가 있는지 식별하고, 있다면 어떤 유형의 이벤트인지를 분류하는 것을 목적으로 한다. 이에 대한 성능 향상을 위해본 연구에서는 컨볼루션 네트워크를 기반으로한 심층 학습 모델을 구성한다.
본 연구에서는 이벤트 분류 모델의 실제적인 이벤트 분류 성능을 파악하기 위해, 유의미한 이벤트가 있는 개체 쌍에 대한 이벤트 분류 실험을 수행한다. 이벤트 분류 성능은 이벤트 추출 성능과 달리 유의미한 이벤트를 추출하는 식별 과정이 제외되고, 유의미한 이벤트가 이벤트 유형 중 어떤 이벤트에 해당하는지를 분류하는 성능이다.
위 실험 이후, 이벤트 추출 구조에 있어 이벤트 분류 모델을 단독으로 사용하였을 때 오히려 성능이 좋게 나오는 점과 재현율이 정확률에 비해 성능이 높게 나오는 점 등을 통해, 이벤트 식별 모델의 성능이 저조하다는 것을 추론하였다. 이에 개체 유형 완전연결 분류 모델 자체의 이벤트 분류 성능 평가를 수행하기 위한 실험을 수행 하였다. 실험 집합이 공개되어 있지 않아, 유의미한 이벤트를 가진 개체 쌍만을 출력하기 어렵기 때문에, 본 실험은 검증 집합을 통해 이루어졌다.
본 연구에서는 최근 텍스트 마이닝 및 정보 추출 분야에서 높은 성능을 보이는 심층 학습 기법 중 컨볼루션 네트워크 기반의 모델을 구성 하여 BioNLP-ST 2016 컬렉션을 중심으로 생의학 이벤트 추출 모델을 구성하였다. 특히, 기존 연구의 생의학 이벤트 추출 관련 방법론들을 참고하여 개체 유형을 중요 자질로 판단하고, 이를 컨볼루션 네트워크 기반의 심층 학습 모델에 구조적으로 어떻게 적용할 것인지에 대하여 중심적으로 연구하였다. 결과적으로, 개체 유형 적용 구조에 따른 모델 4종을 고안하였고, 각 구조의 모델 마다 이벤트 식별 및 분류 모델을 따로 구성하여 총 8종의 이벤트 추출 모델을 구축 하여 비교분석하였다.

제안 방법

특히 Li et al.(2015)와 Liu, Bordes, Grandvalet(2015)에서 공통적으로 사용한 개체 유형을 주요 자질로 보고 이를 어떠한 구조로 사용하는지에 대하여 연구하기 위해, 다양한 토폴로지의 컨볼루션 네트워크 모델을 이벤트 추출에 적용하여 비교 실험하였다.
특히, 기존 연구의 생의학 이벤트 추출 관련 방법론들을 참고하여 개체 유형을 중요 자질로 판단하고, 이를 컨볼루션 네트워크 기반의 심층 학습 모델에 구조적으로 어떻게 적용할 것인지에 대하여 중심적으로 연구하였다. 결과적으로, 개체 유형 적용 구조에 따른 모델 4종을 고안하였고, 각 구조의 모델 마다 이벤트 식별 및 분류 모델을 따로 구성하여 총 8종의 이벤트 추출 모델을 구축 하여 비교분석하였다.
(2011)과 Kim, Wang, Yasunori (2013)에서 다룬 생의학 이벤트 추출의 주요 과업인 BioNLP-ST을 사용하였다. 그 중에서도 최신 컬렉션인 BioNLP- ST 2016을 사용 하여, 심층 학습 기법 중 하나인 컨볼루션 네트워크를 적용한 생의학 이벤트 추출 실험을 수행한다. 특히 Li et al.
결과적으로 이벤트 분류 성능은 비교적 준수한 성능을 보였지만, 생의학 이벤트 추출 전반에 대해서는 아쉬운 점이 많았다. 그러나 본 연구에서는 이벤트 추출을 위한 다양한 컨볼루션 네트워크 변형 토폴로지를 제시하여 비교 실험을 하였다. 이러한 실험 결과는 향후 해당 연구를 진행할 유관 연구자들에게 가이드 역할을 수행할 수 있다.
실험 집합이 공개되어 있지 않아, 유의미한 이벤트를 가진 개체 쌍만을 출력하기 어렵기 때문에, 본 실험은 검증 집합을 통해 이루어졌다. 기존 이벤트 추출 실험은 이벤트 식별 과정을 추가하기 위해, 토큰 거리가 10 이하인 개체 쌍을 임의로 엮어 실험하였으나, 본 실험에서는 이벤트 분류 과정 자체에 대한 성능 파악을 위해 유의미한 개체 쌍만을 가지고 실험하였다. 실험 결과는 <표 7>과 같다.
단어 정보의 경우, 선학습 임베딩 매트릭스를 정적으로 사용하였고, 그 외의 정보의 경우에는 임의로 구성하여 학습하는 동적 임베딩 매트릭스를 구성하였다. 각 임베딩 매트릭스는 n× d에 해당하는 크기를 갖는다.
마지막으로, 3.1.2의 컨볼루션 네트워크 과정을 통하여 출력된 벡터 S= (S_f1 , ..., S_fd)를 완전 연결 층(Fully Connected Layer)에 입력하여 주요 자질에 따른 예측 가능 유형들에 대한 예측 값들을 제시한다. 미리 지정된 차원 h만큼의 차원을 가진 가중치(weight) 벡터 W_fc과 바이어스(bias) 벡터 b_fc로 수식 (2)와 같은 연산을 수행한다.
특히, 유관 연구를 참고하여 개체 유형 정보를 핵심적인 자질로 판단하여, 이를 적용하는 위치 및 방법에 따라 모델 구조를 나누어 각 성능을 비교 분석하였다. 먼저 컨볼루션 네트워크 기반의 생의학 이벤트 추출 모델의 기본적인 구조에 대해 설명한 후, 개체 유형 정보의 적용 위치 및 방법에 따른 모델 구조들을 다룬다.
주로 이미지 정보를 다룰 때 사용하는 방법이지만, 최근 자연어 처리의 방법으로도 사용되기 시작하였다. 문장 단위로 입력된 정보에 대하여, 설정된 크기만큼의 단어들을 대상으로 연산을 수행하여 벡터를 구성하고, 다시 설정된 크기만큼의 다음 단어들을 대상으로 연산을 수행하여 벡터를 구성한다. 이러한 컨볼루션 층은 입력된 문장 정보에 대한 구조적인 연산을 통해, 핵심적인 자질을 추출하는데 효과적이다(Stanford CS231n 2017).
변수 최적화 실험 결과로 선정된 3종의 모델에 대하여, 4.3의 방법론을 기준으로 와 같이 네 가지 유형으로 구조를 나누어 이벤트 추출 실험을 수행하였으며, 이에 대하여 각각의 성능을 비교하였다.
본 논문에서 제시한, 먼저 변수 최적화 실험을 통해 각 모델의 기초적인 성능 비교를 수행 하였다. 변수 최적화 실험 과정에서 우수한 성능을 보인 식별 모델 2종과 분류 모델 1종을 선택하고, 이에 대한 이벤트 추출 구조를 설정하여 성능 비교 실험을 수행하였다. 추가적으로 이벤트 분류 단독 실험 성능을 파악하기 위한 실험을 별도로 진행하였다.
본 논문에서 제시한, 먼저 변수 최적화 실험을 통해 각 모델의 기초적인 성능 비교를 수행 하였다. 변수 최적화 실험 과정에서 우수한 성능을 보인 식별 모델 2종과 분류 모델 1종을 선택하고, 이에 대한 이벤트 추출 구조를 설정하여 성능 비교 실험을 수행하였다.
x_T, x_e]를 컨볼루션 층(Convolutional Layers)에 입력한다. 본 모델의 구조는 다중 컨볼루션 필터를 통한 다중 컨볼루션 층을 사용한다. 각 컨볼루션 층은 컨볼루션 연산을 수행하기 위한 3차원의 가중치 필터를 가지는데, 필터의 길이는 x_i가 가지는 벡터의 길이와 동일하게 구성되며, 너비는 컨볼루션 층마다 지정된 필터 크기 f_d만큼의 값을 가진다.
본 연구에서 구성한 모델은 주요 자질 정보로서 문장에 대한 각 단어 정보, 각 단어에 대한 품사 정보, 첫 번째 개체에 대한 상대적 위치 정보, 두 번째 개체에 대한 상대적 위치 정보를 사용한다. 각 주요 자질 정보는 학습 집합을 기반으로 구성된 사전을 통하여 각 정보를 가리키는 인덱스로 치환되며, 미리 설정된 문장 최대 길이에 맞추어 인덱스 외의 정보는 0으로 채워주는 전처리를 거친다.
개체 정보에 대한 중요도가 높아지고 트리거가 제거 되면서, 트리거 추출을 중심으로 이루어졌던 기존의 방법론과 다르게 개체 정보를 기반으로 한생의학 이벤트 추출이 가능하다. 본 연구에서는 개체 쌍 기반의 생의학 이벤트 추출을 위해 문장의 의미 정보, 품사 정보, 첫 개체의 위치 정보, 두 번째 개체의 위치 정보, 두 개체의 유형 정보를 주요 자질로서 추출하였다.
본 연구에서는 심층 학습 기법 중 컨볼루션 네트워크를 기반으로 하여 생의학 이벤트를 추출하였다. 특히, 유관 연구를 참고하여 개체 유형 정보를 핵심적인 자질로 판단하여, 이를 적용하는 위치 및 방법에 따라 모델 구조를 나누어 각 성능을 비교 분석하였다.
본 연구에서는 최근 텍스트 마이닝 및 정보 추출 분야에서 높은 성능을 보이는 심층 학습 기법 중 컨볼루션 네트워크 기반의 모델을 구성 하여 BioNLP-ST 2016 컬렉션을 중심으로 생의학 이벤트 추출 모델을 구성하였다. 특히, 기존 연구의 생의학 이벤트 추출 관련 방법론들을 참고하여 개체 유형을 중요 자질로 판단하고, 이를 컨볼루션 네트워크 기반의 심층 학습 모델에 구조적으로 어떻게 적용할 것인지에 대하여 중심적으로 연구하였다.
이에 개체 유형 완전연결 분류 모델 자체의 이벤트 분류 성능 평가를 수행하기 위한 실험을 수행 하였다. 실험 집합이 공개되어 있지 않아, 유의미한 이벤트를 가진 개체 쌍만을 출력하기 어렵기 때문에, 본 실험은 검증 집합을 통해 이루어졌다. 기존 이벤트 추출 실험은 이벤트 식별 과정을 추가하기 위해, 토큰 거리가 10 이하인 개체 쌍을 임의로 엮어 실험하였으나, 본 실험에서는 이벤트 분류 과정 자체에 대한 성능 파악을 위해 유의미한 개체 쌍만을 가지고 실험하였다.
실험을 위하여, 성능 최적화 실험을 통해 가장 높은 성능을 보인 이벤트 분류 모델을 사용 하여 유의미한 이벤트를 가지고 있는 개체 쌍만을 담고 있는 검증 집합을 분류한다.
본 연구에서 제안하는 네 가지의 변형된 컨볼루션 네트워크 모델 토폴로지의 특징과 장단점을 정리하면 <표 1>과 같다. 이를 기준으로 최종 활성함수를 시그모이드와 소프트맥스로 나누어 구성하였다. 이에 따라 식별 모델과 분류 모델이 각각 생성되어, 총 8종의 이벤트 추출 모델을 구성하였다.
본 연구에서 제안하는 모델은 학술 문헌 내의 개체 쌍을 기반으로 문장 정보를 입력하면 개체 간에 유의미한 이벤트가 있는지 식별하고, 있다면 어떤 유형의 이벤트인지를 분류하는 것을 목적으로 한다. 이에 대한 성능 향상을 위해본 연구에서는 컨볼루션 네트워크를 기반으로한 심층 학습 모델을 구성한다. 기본적인 모델의 전반적인 구성은 <그림 3>과 같이 각 정보의 임베딩, 컨볼루션 네트워크, 완전연결 층으로 나누어져 구성된다.
두 개체가 각각 어떤 유형을 가지고 있는지에 따라 분류 가능한 생의학 이벤트 유형이 한정될 수 있다. 이에 따라, 개체 유형을 어디에서 어떤 방식으로 모델에 적용할지에 대해 개체 유형 완전연결 모델, 개체 유형 임베딩 모델, 개체 유형 선입 모델, 개체 유형 후입 모델로 나누어 구성하였다.
이에 대해서 최적의 성능을 발휘할 수 있는 최적의 변수를 찾는 실험이 필요하며, 이를 성능 최적화 실험이라 한다. 이에 학습과 검증에 대한 실험은 BioNLP-ST 2016 컬렉션에서 자체적으로 분류되어 있는 학습 집합과 검증 집합을 그대로 사용하였지만, BioNLP-ST 2016 컬렉션의 특징 상, 학습 집합과 검증 집합은 유의미한 이벤트에 대한 개체 쌍만이 기재되어 있어, 이에 대하여 임의로 개체 간의 토큰 거리가 10 이하인 모든 개체 쌍을 짝지어 식별 및 분류 모델 실험에 사용하였다. 그 외에 실험에 사용한 변수들은 <표 3>과 같다.
변수 최적화 실험 과정에서 우수한 성능을 보인 식별 모델 2종과 분류 모델 1종을 선택하고, 이에 대한 이벤트 추출 구조를 설정하여 성능 비교 실험을 수행하였다. 추가적으로 이벤트 분류 단독 실험 성능을 파악하기 위한 실험을 별도로 진행하였다. 자세한 실험 내용은 다음과 같다.
본 연구에서는 심층 학습 기법 중 컨볼루션 네트워크를 기반으로 하여 생의학 이벤트를 추출하였다. 특히, 유관 연구를 참고하여 개체 유형 정보를 핵심적인 자질로 판단하여, 이를 적용하는 위치 및 방법에 따라 모델 구조를 나누어 각 성능을 비교 분석하였다. 먼저 컨볼루션 네트워크 기반의 생의학 이벤트 추출 모델의 기본적인 구조에 대해 설명한 후, 개체 유형 정보의 적용 위치 및 방법에 따른 모델 구조들을 다룬다.
<표 4>는 선정된 모델과 최적의 성능을 보인 변수의 값이다. 표에서의 성능은 검증 집합에 대한 성능으로, 개체 간의 토큰 거리가 10 이하인 개체 쌍을 임의로 묶어 성능을 평가한 것이다. 때문에 이벤트 분류 모델의 경우, 이벤트 분류만을 단독으로 실험한 것이 아니라 무의미한 개체 쌍에 대해서 성능 평가를 실시한 값이다.

대상 데이터

변수마다의 모델로, 총 15,552,000번의 실험이 이뤄질 예정이었으나, 중도에 빠진 변수들을 고려하였을 때, 약 777,600의 모델을 비교하여 결과를 얻었다.
실험 결과, 학습이 전혀 이루어지지 않거나 저조한 성능을 보인 모델을 제거하고, 비교적 우수한 성능을 보인 모델로 식별 모델 2종(개체 유형 완전 연결, 개체 유형 선입), 분류 모델 1종(개체 유형 완전 연결)을 선정하였다. <표 4>는 선정된 모델과 최적의 성능을 보인 변수의 값이다.
이를 기준으로 최종 활성함수를 시그모이드와 소프트맥스로 나누어 구성하였다. 이에 따라 식별 모델과 분류 모델이 각각 생성되어, 총 8종의 이벤트 추출 모델을 구성하였다.

이론/모형

“Word vector dictionary” 변수는 Collobert et al.(2011)가 구성한 Collobert 사전과 본 연구에서 자체적으로 구성한 PubMed 데이터베이스로 구성한 각 50 차원, 100 차원의 단어 벡터 사전을 사용했다. “Epoch” 변수는 학습 반복의 양을 의미하며, “Batch size” 변수는 데이터를 다루는 배치의 크기를 뜻한다.
본 연구는 Kim et al.(2011)과 Kim, Wang, Yasunori (2013)에서 다룬 생의학 이벤트 추출의 주요 과업인 BioNLP-ST을 사용하였다. 그 중에서도 최신 컬렉션인 BioNLP- ST 2016을 사용 하여, 심층 학습 기법 중 하나인 컨볼루션 네트워크를 적용한 생의학 이벤트 추출 실험을 수행한다.

성능/효과

또한, 위 실험 집합에 대한 이벤트 추출 모델의 성능은 대체로 저조한 편이다. BioNLP-ST 2016이 개최 당시 참가했던 팀들의 성능도 대체로 낮은 점수를 기록하였지만, 그 중 최고 성능을 보인 Litway 모델(Li, Rao and Zhang 2016)의 0.432나, 두 번째로 높은 성능을 보인 UniMelb 모델(Panyam et al. 2016)의 0.364의 F-점수 성능과 비교하였을 때에도 현저히 낮은 성능이다. 이는 두 모델의 경우, SVM과 다양한 자질을 기반하여 학습한 모델이지만, 본 연구에서의 모델은 심층 학습 모델로서 방대한 양의 데이터를 필요로 하는 모델이기 때문에 BioNLP-ST 2016의 데이터 규모가 학습 집합으로서 부족하였기 때문으로 보인다.
결과적으로 이벤트 분류 성능은 비교적 준수한 성능을 보였지만, 생의학 이벤트 추출 전반에 대해서는 아쉬운 점이 많았다. 그러나 본 연구에서는 이벤트 추출을 위한 다양한 컨볼루션 네트워크 변형 토폴로지를 제시하여 비교 실험을 하였다.
또한, 두 가지의 모델을 통해 이벤트 추출을 수행하게 되면, 이벤트 식별 모델의 오류율과 이벤트 분류 모델의 오류율이 곱하여져서 이벤트 추출의 오류율이 나타나기 때문에, 더더욱 저조한 성능이 나타날 수도 있다. 결과적으로, 성능이 높은 이벤트 분류 모델을 통하여 이벤트 추출을 통합적으로 수행하면, 이벤트 추출의 성능이 향상될 것으로 전망된다.
학습 집합의 유의미한 생의학 이벤트가 1,638건으로 BioNLP-ST 2013의 학습 집합 규모(3,152건)에 비하여 그 규모가 축소되었다. 반면, 예측 결과로 나타날 이벤트 유형은 BioNLP-ST 2013이 11종이었던 것에 비하여 13종이 추가되어 24종으로 증가하였다. 이에 따라, 이벤트 분류의 복잡성이 높아졌으며, 이와 함께 규모 축소로 인한 데이터 부족 현상도 나타날 위험성이 있다.
(2015)는 각 단어의 대표성을 벡터 값으로 표현하는 워드 임베딩(Word Embedding) 을 적용하고 각 문장의 자질들을 분석하는 과정에서 개체와 개체의 유형을 주요 정보로 삼았다. 생의학 이벤트 추출의 중요 단서가 되는 문헌 내의 표현인 트리거를 활용한 SVM(Support Vector Machine) 모델을 제시하여 우수한 성능을 보였다. 또한, Liu, Bordes, Grandvalet (2015)는 단순 생의학 이벤트 추출에 있어서 트리거와 인자를 올바르게 추출할 수 있도록, 각 개체에 대한 유형 등에 대한 정보, 단어에서 나타난 기호 및 숫자 정보 등 다양한 자질을 복합적으로 활용하였으며, 단순 이벤트를 다시 인자(Argument)로 받는 복합적인 생의학 이벤트 추출을 위해 트리거와 인자를 쌍으로 묶어서 예측을 수행하는 방법을 고안하여 기존 연구 성능의 3.
실험 결과, 개체 유형 완전연결 모델을 단독으로 사용하며 임계치를 0.9 이상으로 둔 구조가 가장 높은 성능을 보였다. 그러나 이벤트 추출 전반에 대한 최고 성능은 F-점수 0.
<표 6>과 같이 성능이 가장 좋은 구조는 Only FCC(Threshold) 토폴로지이다. 실험 결과, 임계치 수치에 따라서도 다양한 성능이 나왔는데, 최고 성능은 임계치를 0.9 이상으로 두는 것이었다. 전반적으로 분류 모델을 단독 사용한 Only FCC(None)과 Only FCC(Threshold)의 성능이 식별 모델과 분류 모델을 적용하여 수행한 모델에 비하여 높은 성능을 낸 것에 비하여 높은 편이다.
위 실험 이후, 이벤트 추출 구조에 있어 이벤트 분류 모델을 단독으로 사용하였을 때 오히려 성능이 좋게 나오는 점과 재현율이 정확률에 비해 성능이 높게 나오는 점 등을 통해, 이벤트 식별 모델의 성능이 저조하다는 것을 추론하였다. 이에 개체 유형 완전연결 분류 모델 자체의 이벤트 분류 성능 평가를 수행하기 위한 실험을 수행 하였다.
이는 대용량의 데이터를 기반으로 하는 심층 학습 모델인 만큼, 규모가 작은 BioNLP-ST 2016 컬렉션에 대해 다른 자질 및 룰 기반의 기계학습 모델에 비해 저조한 성능을 보이는 것으로 추론 된다. 이후, 개체 유형 완전연결 분류 모델의 이벤트 분류 자체에 대한 성능 파악을 위한 실험을 진행한 결과, 분류 자체에 대한 검증 집합 성능은 F-점수 0.7209로, 상당히 준수한 성능을 보였다.
(2011)의 경우, BioNLP -ST 2011에 대한 다양한 기계학습 모델 성능을 비교하고 있다. 최고 성능은 SVM 분류를 사용한 FAUST 모델로, 생의학 이벤트 추출 부분에 대해 57.46%의 F-점수를 보였다. Kim, Wang, Yasunori (2013)의 경우, BioNLP- ST 2013에 대한 다양한 기계학습 모델의 성능을 비교했으며, 생의학 이벤트 추출 부분에 대한 최고 성능은 SVM 분류를 사용한 EVEX 모델로, 전체 분야의 생의학 이벤트 추출에 대해 50.
추출하는 과정에서, 개체의 위치 정보가 다중으로 분할되어 있는 경우, 3개 이상의 분할을 가진 데이터와 위치 정보에 대해 오류가 있는 데이터 28건을 제외하였고, 그 결과 학습 집합에서 와 같이 학습 집합에서 1,610건이, 검증 집합에서 809건이 추출되어, 총 2,419건이 추출되었다.

후속연구

추후에는 BioNLP-ST 2016 컬렉션의 복잡성과 데이터 부족 문제를 방지할 수 있는 적합한 규모의 컬렉션을 찾아 생의학 이벤트 추출 실험을 진행할 것이다. 또한, 식별 모델의 성능이 저조한 것을 고려하여, 식별 모델의 성능을 높일 수 있는 방안이나 생의학 이벤트의 식별과 분류를 동시에 진행할 수 있는 새로운 형태의 생의학 이벤트 추출 모델에 대한 구조를 연구할 필요가 있다. 마지막으로, 문장 구조 분석 기반의 컨볼루션 네트워크 모델 외에도 현재 심층 학습 기술에서 연속 정보 및 문맥 정보 파악에 탁월한 성능을 보이고 있는 RNNs 기반의 생의학 이벤트 추출 모델을 연구할 필요가 있다.
또한, 식별 모델의 성능이 저조한 것을 고려하여, 식별 모델의 성능을 높일 수 있는 방안이나 생의학 이벤트의 식별과 분류를 동시에 진행할 수 있는 새로운 형태의 생의학 이벤트 추출 모델에 대한 구조를 연구할 필요가 있다. 마지막으로, 문장 구조 분석 기반의 컨볼루션 네트워크 모델 외에도 현재 심층 학습 기술에서 연속 정보 및 문맥 정보 파악에 탁월한 성능을 보이고 있는 RNNs 기반의 생의학 이벤트 추출 모델을 연구할 필요가 있다.
그러나 본 연구에서는 이벤트 추출을 위한 다양한 컨볼루션 네트워크 변형 토폴로지를 제시하여 비교 실험을 하였다. 이러한 실험 결과는 향후 해당 연구를 진행할 유관 연구자들에게 가이드 역할을 수행할 수 있다.
추후에는 BioNLP-ST 2016 컬렉션의 복잡성과 데이터 부족 문제를 방지할 수 있는 적합한 규모의 컬렉션을 찾아 생의학 이벤트 추출 실험을 진행할 것이다. 또한, 식별 모델의 성능이 저조한 것을 고려하여, 식별 모델의 성능을 높일 수 있는 방안이나 생의학 이벤트의 식별과 분류를 동시에 진행할 수 있는 새로운 형태의 생의학 이벤트 추출 모델에 대한 구조를 연구할 필요가 있다.

핵심어	질문	논문에서 추출한 답변
	효율적인 선행 연구 및 연구 동향 파악을 위한 정보 추출 기술이 요구되는 이유는 무엇인가?	최근 생의학 분야의 학술 문헌이 기하급수적으로 급증함에 따라 관련 분야 연구자들은 선행 연구 및 연구 동향 파악에 어려움을 겪고 있다. 이에 효율적인 선행 연구 및 연구 동향 파악을 위한 정보 추출 기술이 요구되며, 학술 문헌의 정보 추출을 위한 개체인식 및 개체 간의 생의학 이벤트 추출 연구가 활발히 진행되고 있다.
	컨볼루션 네트워크란 무엇인가?	이에 효율적인 선행 연구 및 연구 동향 파악을 위한 정보 추출 기술이 요구되며, 학술 문헌의 정보 추출을 위한 개체인식 및 개체 간의 생의학 이벤트 추출 연구가 활발히 진행되고 있다. 본 연구는 이에 심층 학습(Deep Learning)의 기법 중 하나인 컨볼루션 네트워크(Convolutional Neural Networks, CNN) 모델을 기반으로 이벤트 내의 개체 유형 정보의 적용 위치와 함께, 이벤트 식별 및 분류를 고려하여 총 8가지의 모델을 구성하여 실험하였다. 실험 결과, 본 연구에서 제안하는 모델 중 최고성능을 보인 개체 유형 완전연결 모델이 이벤트 분류 실험에서 F-점수 72.
	컨볼루션 네트워크 모델을 기반으로 한 8가지 모델 실험의 결과는 무엇인가?	본 연구는 이에 심층 학습(Deep Learning)의 기법 중 하나인 컨볼루션 네트워크(Convolutional Neural Networks, CNN) 모델을 기반으로 이벤트 내의 개체 유형 정보의 적용 위치와 함께, 이벤트 식별 및 분류를 고려하여 총 8가지의 모델을 구성하여 실험하였다. 실험 결과, 본 연구에서 제안하는 모델 중 최고성능을 보인 개체 유형 완전연결 모델이 이벤트 분류 실험에서 F-점수 72.09%의 높은 성능을 보였으나, 이벤트 추출 실험에서는 학습 컬렉션의 불균형 문제 및 이벤트 식별 모델의 성능 저조 등으로 인하여 F-점수 21.81%의 비교적 저조한 성능을 보였다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

생의학 분야 학술 문헌에서의 이벤트 추출을 위한 심층 학습 모델 구조 비교 분석 연구
A Comparative Study on Deep Learning Topology for Event Extraction from Biomedical Literature 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (16)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

생의학 분야 학술 문헌에서의 이벤트 추출을 위한 심층 학습 모델 구조 비교 분석 연구 A Comparative Study on Deep Learning Topology for Event Extraction from Biomedical Literature 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (16)

이 논문을 인용한 문헌

저자의 다른 논문 :

김선우 (2) 유석종 (4) 이민호 (14) 최성필 (42)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

생의학 분야 학술 문헌에서의 이벤트 추출을 위한 심층 학습 모델 구조 비교 분석 연구
A Comparative Study on Deep Learning Topology for Event Extraction from Biomedical Literature 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper