[논문]생의학 분야 학술 논문에서의 개체명 인식 및 관계 추출을 위한 언어 자원 수집 및 통합적 구조화 방안 연구

강슬기; 최윤수; 최성필

doi:10.4275/kslis.2017.51.4.227

문제 정의

NLTK 파서 적용을 통한 일치도 검사는 개체명 단순 비교를 통한 일치도 검사에서 발생하는 문제점들을 확인하고, 이를 개선하기 위해 진행된 검사이다
따라서 본 논문에서는 기계학습 기반의 생의학 분야 개체명 인식 및 개체 간 관계 추출 시스템을 위한 언어자원의 수집 과정과 데이터 정형화를 위한 체계를 제시함으로써 이를 통해 범용 주제 분야 기계학습 기반 자연어 처리 시스템에 적용할 수 있는 언어자원의 통합적 저장․관리 체계를 구축하기 위한 방안을 제시하고자 한다.
따라서 본 논문에서는 생의학 분야 개체명 인식 시스템과 개체명 간 관계 추출 시스템을 위해 다량의 유관분야 언어자원을 학습 데이터로 구축하는 과정을 통합적으로 체계화하는 방안을 제안한다. 또한 제안된 방법을 통해 실제로 학습 데이터를 구축하는 과정과 구축된 학습 데이터의 일부를 검증한 결과를 함께 제시한다.
따라서 유관분야 연구에 있어 학습 데이터의 구축을 위한 시간 및 비용이 많이 소요되고 있으며, 연구자들이 보다 높은 수준의 연구를 진행하는데 어려움을 겪고 있다. 따라서 본 논문에서는 정보추출 시스템을 위한 학습 데이터를 구축하는 과정을 체계화하기 위한 방안을 제안한다. 제안된 방법은 학습 데이터 구축을 위한 체계화된 통합적 저장․관리 방안으로써 언어자원을 수집하고 해당 자원들의 특성을 분석하여 정보추출 시스템에 적합한 형태를 지니는 학습 데이터로 구축하는 모든 과정을 포함한다.
또한 본 연구에서는 제안된 방법을 통해 구축한 개체명 사전 기반 학습 데이터를 대상으로 학습 데이터의 개체명 수용범위를 검증하기 위한 데이터 검증을 실시하였다. 데이터 검증에는 최근 생의학 분야에서 가장 활발히 연구되어 비정형 텍스트의 양이 급격히 증가하고 있는 알츠하이머 분야 PubMed 초록 데이터를 사용하였으며, 개체명 사전의 데이터 검증 결과 유전자 분야와 단백질 분야에서 각각 2%,질병 분야에서 10%, 약물 분야에서 13%의 데이터 일치도를 확인하였다.
본 논문에서는 기계학습 기반의 생의학 분야 개체명 인식 및 개체명 간 관계 추출 시스템을 구축하기 위한 학습데이터를 체계적으로 정형화 할 수 있는 통합적 저장․관리 방안을 제안한다. 제안된 방법은 학습 데이터 구성과정을 언어 자원의 수집, 수집된 자원의 분석, 분석을 통한 체계화 양식 선정, 자원의 체계화 및 검증단계로 구분한다.
본 논문에서는 생의학 분야 학술 논문에서의 개체명 인식 및 개체 간 관계 추출 시스템을 위한 학습 데이터를 구축하기 위하여 유관분야 개체명 사전과 학습 집합을 수집하였다. 또한 수집된 자원들을 대상으로 특성을 분석하고,분석을 통해 체계화 양식을 선정하였으며, 결과적으로 수집 자원들을 학습 데이터로 체계화하였다.
본 논문에서는 생의학 분야 핵심 개체명 인식 및 개체명 간 관계 추출 시스템 구축에 필수적인 학습 데이터 구축 과정을 체계화하기 위한 유관 분야 언어 자원의 수집 및 통합적 저장․관리 방안을 제안한다.
본 연구는 기계 학습 기반의 생의학 분야 개체명 인식 및 개체명 간 관계 추출 시스템을 위한 학습 데이터 구축 과정을 체계화하기 위한 방안을 마련하기 위한 초기 연구로서, 자원의 수집 대상 및 텍스트 범위를 최소화 하여 학습데이터를 구축하였다. 따라서 일치도 검사를 위한 검색 대상인 PubMed 초록 데이터의 규모에 비해 학습 데이터의 규모가 현저히 작아 일치도 검사 결과가 낮게 측정되는 결과를 보였다.
개체명 일치도 평가 결과가 비교적 낮게 나타나는 것은 검증 대상으로 선정한 PubMed 알츠하이머 초록 데이터의 규모에 비해 구축된 학습 데이터의 규모가 작아서 나타나는 결과이다. 본 연구는 기계학습을 위한 학습 데이터 구축을 체계화 하는 방안을 마련하기 위한 초기연구로써 제안된 방법을 통해 구축된 학습데이터가 실제 기계 학습에 사용될 수 있는지에 대한 가능성을 확인하기 위한 절차로 데이터 검증을 실시하였다. 검증 결과 나타난 일치도를 통해 그 가능성을 확인할 수 있으며, 개체명이 검색된 횟수를 통해 실제로 유관분야 비정형 텍스트에 자주 등장하는 개체명들이 학습 데이터에 다수 포함되어 있는 것을 확인할 수 있다.
본 연구에서는 급격히 증가하는 비정형 텍스트를 효율적으로 파악하고 이를 통해 핵심 개체명 및 개체명 간 관계를 추출하기 위하여 기존재하는 유관분야의 언어자원을 수집하고 이를 통해 학습 데이터를 구축하는 과정을 체계화하기 위한 방안을 제안하였다.
본 연구에서는 기계학습 기반의 생의학 분야정보 추출 시스템을 위한 학습 데이터를 구축하는 과정을 체계적으로 정형화할 수 있는 통합적 저장․관리 방안을 제안한다.

제안 방법

또한 수집된 자원들을 대상으로 특성을 분석하고,분석을 통해 체계화 양식을 선정하였으며, 결과적으로 수집 자원들을 학습 데이터로 체계화하였다. 그 중에서 개체명 사전을 통해 구축된 학습 데이터를 대상으로 학습데이터의 생의학 분야 개체명 수용 범위를 파악하기 위한 검증을 실시하였다. 검증 방법은 유관 분야의 텍스트 문서에 학습 데이터에 존재하는 개체명 즉,유전자명, 단백질명, 질병명, 약물명을 검색하는 일치도 평가이다.
해당 검사를 위해 먼저 PubMed 알츠하이머 초록 데이터에 NLTK 파서를 적용하여 단어 단위의 POS(part of speech, 품사) 정보를 태깅하였다. 그리고 개체명으로 활용된 단어만을 확인하기 위하여, 해당되는 품사정보인 일반명사(NN), 일반명사의 복수형태(NNS), 고유명사(NNP), 고유명사의 복수형태(NNPS) 태그가 달린 단어들만을 검색 횟수와 함께 따로 추출하였다. 추출된 단어와 검색 횟수들을 통해 1차 조사 결과를 수정하였으며 이에 대한 결과는 <표 15>와 같다.
수집된 자원은 유관분야 개체명 사전과 개체명 인식용 학습 집합, 관계 추출용 학습 집합이다. 그리고 수집된 다양한 형태의 자원들을 대상으로 항목 및 내용에 대한 특성 분석을 수행하여, 개체 식별에 반드시 필요한 항목들을 도출한다. 도출된 항목들을 학습 데이터의 구성 양식을 선정하며, 선정된 양식에 따라 수집된 언어자원들을 체계화된 학습 데이터로 변환하는 가공 과정을 수행한다.
코퍼스 자원을 통해 구축한 학습 데이터의 경우 수집된 코퍼스 자원이 구축 기관의 검증 과정을 거쳐 배포되고 있고 이미 다양한 연구에서 활용되고 있기 때문에 데이터 검증 대상에서 제외하고,개체명 사전을 통해 구축한 학습 데이터만을 대상으로 검증 과정을 실시하였다. 데이터 검증은 유관 분야의 논문 초록을 수집하고, 수집된 데이터를 대상으로 학습 데이터에 존재하는 개체명을 검색하는 개체명 완전 일치 방법을 통해 수행되었다.
따라서 수집된 개체명 사전들을 대상으로 데이터 항목 및 내용에 대한 세부 분석을 수행하였으며, 데이터 항목 분석을 통해 개체명 사전에서 공통적으로 포함되는 항목과 개체명 식별을 위해 반드시 필요한 항목들을 도출한 결과는 와 같다.
또한 데이터 내용 분석을 통해 수집된 코퍼스들이 각각 문장, 문서, 문단 등 서로 다른 기준에 따른 위치(Offset)정보를 제공하는 것을<표 6>과 같이 확인하였다. 따라서 위치 정보에 대한 표현 양식을 통일하기 위하여 위치정보를 추출하는 기준을 문장단위로 선정하였으며, 이에 따라 분석 과정에서 위치정보를 재추출하는 과정이 추가로 수행되었다.
또한 데이터 내용 분석을 통해 수집된 코퍼스들이 각각 문장, 문서, 문단 등 서로 다른 기준에 따른 위치(Offset)정보를 제공하는 것을<표 6>과 같이 확인하였다. 따라서 위치 정보에 대한 표현 양식을 통일하기 위하여 위치정보를 추출하는 기준을 문장단위로 선정하였으며, 이에 따라 분석 과정에서 위치정보를 재추출하는 과정이 추가로 수행되었다.
따라서 이를 기반으로 와 같이 개체명 인식 코퍼스 자원의 체계화 양식을 선정하였다.
따라서 이를 기반으로 와 같이 관계 정의 코퍼스 자원의 체계화 양식을 선정하였다
2010)²⁾가 Gene Name에 포함된 결과이다. 따라서 해당 중복을 줄여 개체명 식별을 보다 용이하게 하기 위하여 국제유전학회의 유전자 명명법 가이드라인에 따라 유전자에 부여되는 학술적 측면의 유전자 이름인 유전자 기호(Gene Symbol)를 개체명으로 활용하는 방안을 마련하였다.
그러나 해당 데이터는 양이 매우 방대하여 일치도 검사 과정에서 데이터를 처리하는 데 있어 많은 문제들이 발생하였다. 따라서 현재 생의학 분야에서 가장 활발한 연구가 진행되어 빠른 속도로 비정형 텍스트의 양이 증가하고 있는 알츠하이머 분야로 그 범위를 축소하여 PubMed 알츠하이머 초록을 대상으로 개체명 사전의 일치도를 평가하였다. PubMed 알츠하이머 초록은 PubMed에‘Alzheimer’를 검색(2017.
또한 데이터 내용 분석 결과 유전자 사전과 단백질 사전 내에서 개체명간 중복이 발생하는 것을 확인하였으며, 개체명 간 중복이 발생하는 원인을 파악하기 위해 각 분야에서의 개체명 부여 방법을 추가적으로 조사하였다. 유전자 사전에서 발생하는 개체명간 중복은 약 6만 건으로 이는 Gene Name에 유전자군을 총칭하는 용어인tRNA(Beuning and Musier-Forsyth 1999)¹⁾와ncRNA(Tripathi et al.
또한 데이터 내용 분석을 통해 수집된 코퍼스들이 각각 문장, 문서, 문단 등 서로 다른 기준에 따른 위치(Offset)정보를 제공하는 것을과 같이 확인하였다.
본 논문에서는 생의학 분야 학술 논문에서의 개체명 인식 및 개체 간 관계 추출 시스템을 위한 학습 데이터를 구축하기 위하여 유관분야 개체명 사전과 학습 집합을 수집하였다. 또한 수집된 자원들을 대상으로 특성을 분석하고,분석을 통해 체계화 양식을 선정하였으며, 결과적으로 수집 자원들을 학습 데이터로 체계화하였다. 그 중에서 개체명 사전을 통해 구축된 학습 데이터를 대상으로 학습데이터의 생의학 분야 개체명 수용 범위를 파악하기 위한 검증을 실시하였다.
따라서 본 논문에서는 생의학 분야 개체명 인식 시스템과 개체명 간 관계 추출 시스템을 위해 다량의 유관분야 언어자원을 학습 데이터로 구축하는 과정을 통합적으로 체계화하는 방안을 제안한다. 또한 제안된 방법을 통해 실제로 학습 데이터를 구축하는 과정과 구축된 학습 데이터의 일부를 검증한 결과를 함께 제시한다. 학습 데이터는 각각의 시스템에 따라 적합한 체계화 양식을 선정하고, 이에 따라 언어자원들을 체계화 하는 과정을 통해 구축된다.
본 연구에서는 개체명 인식 시스템을 위한 학습데이터 구성을 위해 다량의 개체명을 가장 명확하게 표현하고 있는 개체명 사전과 개체명 인식 학습 집합을 언어자원으로 선정하여 수집하였다. 또한, 개체명 간 관계 추출 시스템을 위한 학습데이터를 구성하기 위해 개체명 간의 관계를 표현하는 언어자원인 개체명 간 관계 정의 코퍼스를 선정하여 수집하였다. 개체명간 관계 정의 코퍼스는 개체1과 개체2를 각각 기재하고 개체들 간의 관계를 TRUE/FALSE 혹은 Positive/Negative의 형태로 표현하는 언어자원이다.
마지막으로 자원의 체계화 및 검증 과정을 통해 수집된 언어자원들을 선정된 체계화 양식에 따라 가공하여 학습 데이터를 구축한다. 구축된 학습 데이터는 해당 분야의 개체명 및 개체명 간 관계를 얼마나 수용하고 있는지를 확인하기 위한 검증 단계를 거친다.
본 연구를 위해 수집된 사전들은 구축한 기관 및 단체의 기준에 따라 생성된 데이터로 각각 내용의 구성 및 포함 범위, 데이터 형식 등이 모두 다르다. 따라서 학습데이터로써의 통일성을 확보하고, 실제 모델 학습 단계에서 전처리 모듈에 대한 용이성을 확보하기 위해 학습 데이터의 양식을 통일하는 가공 과정이 필요하다.
본 연구에서 수집한 생의학 분야 정보 추출용 학습 집합은 크게 개체명 인식용 학습 집합과 개체명 간 관계 추출용 학습 집합으로 구분된다. 여기서 학습 집합은 특정 문장에서 하나의 개체명을 추출하여 개체의 특성을 나타내거나, 두 개의 개체명을 추출하여 두 개체명 간의 관계를 나타내는 언어자원인 코퍼스(Corpus, 말뭉치) 자원을 의미한다.
학습 데이터 구성을 위한 언어자원의 수집은 생의학 분야의 특화 분야로 다양한 BioNLP 대회에서 관계 추출 성능 경쟁 및 평가의 대상이 되며, 생의학 분야 개체명 인식 및 개체 간 관계추출이 가장 활발하게 진행되고 있는 Gene(유전자), Protein(단백질), Disease(질병), Drug(약물) 4개의 분야를 대상으로 하였다. 본 연구에서 학습 데이터 구성을 위해 수집된 언어 자원은 자원 형식에 따라 개체명 사전과 코퍼스 자원으로 구분되며 코퍼스 자원은 다시 개체명 인식용 학습 집합과 관계 추출용 학습 집합으로 구분된다. 제안된 학습 데이터의 구축 과정을 통해 수집된 개체명 사전과 개체명 인식용 학습 집합은 개체명 인식 시스템을 위한 학습데이터로, 관계 추출용 학습 집합은 개체명 간 관계 추출 시스템을 위한 학습 데이터로 구축되었다.
수집된 3개의 개체명 인식 코퍼스를 대상으로 데이터 항목 및 내용에 대한 세부 분석을 진행하였다. 데이터 항목 분석 결과 개체명 인식 코퍼스는 일반적으로 개체명과 개체명의 동의어, 개체의 유형 정보, 개체를 추출한 문장, 개체를 추출한 문서, 개체를 추출한 문장 및 문서의 PubMed ID와 개체의 위치 정보 등을 포함하고 있는 것을 확인하였다.
수집된 4개의 관계 정의 코퍼스를 대상으로 데이터 항목 및 내용에 대한 세부 분석을 진행하였다. 데이터 항목 분석 결과 관계 정의 코퍼스는 일반적으로 관계를 구성하는 2개의 개체명과 개체명의 동의어, 각 개체에 대한 ID, 관계 식별자(ID), 개체명과 그 관계를 추출한 문장 및 문서, 개체명 및 관계를 추출한 문장 또는 문서의 PubMed ID와 개체의 위치정보 등을 포함하는 것을 확인하였다.
개체명 인식 시스템을 위한 학습 데이터 구축을 위해 수집한 유관 분야 사전데이터는 총 5개이다. 수집된 사전 데이터는 모두 자원 분석단계, 체계화 양식 선정 단계, 체계화 및 검증단계를 통해 학습 데이터로 구축하였다.
따라서 유기체를 기준으로 2차 세부 내용 분석을 실시하였으며, 분석 결과 발현 유기체가 동일한 경우에는 단백질 개체명에 대한 중복이 없는 것을 확인하였다. 이러한 단백질 분야의 특성을 반영하고, 발현 유기체에 따른 단백질 개체를 구별하기 위하여, 참고사항 필드를 추가하여 단백질의 발현 유기체를 표현하는 방안을 마련하였다.
일치도 평가를 진행하기에 앞서 보다 정확한 검색을 위하여 사전의 개체명과 PubMed 알츠하이머 초록 데이터를 모두 소문자화 하는 전처리 과정이 선행되었다.
제안된 방법은 먼저 학습 데이터 구성에 기반이 될 유관분야 언어 자원을 수집한다. 수집된 자원은 유관분야 개체명 사전과 개체명 인식용 학습 집합, 관계 추출용 학습 집합이다.
본 논문에서는 기계학습 기반의 생의학 분야 개체명 인식 및 개체명 간 관계 추출 시스템을 구축하기 위한 학습데이터를 체계적으로 정형화 할 수 있는 통합적 저장․관리 방안을 제안한다. 제안된 방법은 학습 데이터 구성과정을 언어 자원의 수집, 수집된 자원의 분석, 분석을 통한 체계화 양식 선정, 자원의 체계화 및 검증단계로 구분한다.
따라서 본 논문에서는 정보추출 시스템을 위한 학습 데이터를 구축하는 과정을 체계화하기 위한 방안을 제안한다. 제안된 방법은 학습 데이터 구축을 위한 체계화된 통합적 저장․관리 방안으로써 언어자원을 수집하고 해당 자원들의 특성을 분석하여 정보추출 시스템에 적합한 형태를 지니는 학습 데이터로 구축하는 모든 과정을 포함한다.
본 연구에서 학습 데이터 구성을 위해 수집된 언어 자원은 자원 형식에 따라 개체명 사전과 코퍼스 자원으로 구분되며 코퍼스 자원은 다시 개체명 인식용 학습 집합과 관계 추출용 학습 집합으로 구분된다. 제안된 학습 데이터의 구축 과정을 통해 수집된 개체명 사전과 개체명 인식용 학습 집합은 개체명 인식 시스템을 위한 학습데이터로, 관계 추출용 학습 집합은 개체명 간 관계 추출 시스템을 위한 학습 데이터로 구축되었다.
해당 검사를 위해 먼저 PubMed 알츠하이머 초록 데이터에 NLTK 파서를 적용하여 단어 단위의 POS(part of speech, 품사) 정보를 태깅하였다. 그리고 개체명으로 활용된 단어만을 확인하기 위하여, 해당되는 품사정보인 일반명사(NN), 일반명사의 복수형태(NNS), 고유명사(NNP), 고유명사의 복수형태(NNPS) 태그가 달린 단어들만을 검색 횟수와 함께 따로 추출하였다.

대상 데이터

PubMed 알츠하이머 초록은 PubMed에‘Alzheimer’를 검색(2017.05.26.)하고, 조건을‘Abstract’로 부여한 결과를 대상으로 수집하였다.
개체명 간 관계 추출 시스템을 위한 학습 데이터는 수집된 관계 정의 코퍼스를 기반으로 구축되었으며, 수집된 관계 정의 코퍼스 자원의 수는 총 4개이다. 수집된 자원들을 대상은 모두 자원 분석, 체계화 양식 선정, 체계화 단계를 통해 학습 데이터로 구축되었다
개체명 인식 시스템을 위한 학습 데이터 구축을 위해 수집한 유관 분야 사전데이터는 총 5개이다. 수집된 사전 데이터는 모두 자원 분석단계, 체계화 양식 선정 단계, 체계화 및 검증단계를 통해 학습 데이터로 구축하였다.
개체명 인식 시스템을 위한 학습 데이터는 수집된 개체명 인식 코퍼스들을 기반으로 구축되었으며, 수집된 개체명 인식 코퍼스 자원의 수는 총 3개이다. 수집된 자원들은 모두 자원분석, 체계화 양식 선정, 체계화 단계를 통해 학습 데이터로 구축되었다
약물 분야에서 가장 많이 검색된 개체명은 도네페질(donepezil)로 2,977회 검색되었다. 두 번째와 세 번째로 많이 검색된 개체명은 메만틴(memantine)과 리바스티그민(rivastigmine)으로 각각 2,253회, 1,771회검색되었다. 이외에도 갈란타민(galantamine),도파민(dopamin), 아세틸콜린(acetylcholine) 등이 검색되었다.
검증 방법은 유관 분야의 텍스트 문서에 학습 데이터에 존재하는 개체명 즉,유전자명, 단백질명, 질병명, 약물명을 검색하는 일치도 평가이다. 본 연구에서 일치도 평가를 위해 선정한 유관분야 텍스트 문서는 미국 국립 의학 도서관과 미국 국립 보건원에서 운영하는 대표적인 생의학 분야 데이터베이스인 PubMed에서 수록하고 있는 모든 초록을 다운로드한 데이터이다. 그러나 해당 데이터는 양이 매우 방대하여 일치도 검사 과정에서 데이터를 처리하는 데 있어 많은 문제들이 발생하였다.
수집된 언어자원들은 일련의 과정을 통해 정형화되어 학습 데이터로 구축되고 시스템 학습에 활용된다. 본 연구에서는 개체명 인식 시스템을 위한 학습데이터 구성을 위해 다량의 개체명을 가장 명확하게 표현하고 있는 개체명 사전과 개체명 인식 학습 집합을 언어자원으로 선정하여 수집하였다. 또한, 개체명 간 관계 추출 시스템을 위한 학습데이터를 구성하기 위해 개체명 간의 관계를 표현하는 언어자원인 개체명 간 관계 정의 코퍼스를 선정하여 수집하였다.
제안된 방법은 먼저 학습 데이터 구성에 기반이 될 유관분야 언어 자원을 수집한다. 수집된 자원은 유관분야 개체명 사전과 개체명 인식용 학습 집합, 관계 추출용 학습 집합이다. 그리고 수집된 다양한 형태의 자원들을 대상으로 항목 및 내용에 대한 특성 분석을 수행하여, 개체 식별에 반드시 필요한 항목들을 도출한다.
본 연구에서 구축된 학습 데이터는 구축과정에서 활용된 수집 자원의 유형에 따라 개체명 사전을 통해 구축한 학습 데이터와 코퍼스 자원을 통해 구축한 학습 데이터로 구분할 수 있다. 코퍼스 자원을 통해 구축한 학습 데이터의 경우 수집된 코퍼스 자원이 구축 기관의 검증 과정을 거쳐 배포되고 있고 이미 다양한 연구에서 활용되고 있기 때문에 데이터 검증 대상에서 제외하고,개체명 사전을 통해 구축한 학습 데이터만을 대상으로 검증 과정을 실시하였다. 데이터 검증은 유관 분야의 논문 초록을 수집하고, 수집된 데이터를 대상으로 학습 데이터에 존재하는 개체명을 검색하는 개체명 완전 일치 방법을 통해 수행되었다.
학습 데이터 구성을 위한 언어자원의 수집은 생의학 분야의 특화 분야로 다양한 BioNLP 대회에서 관계 추출 성능 경쟁 및 평가의 대상이 되며, 생의학 분야 개체명 인식 및 개체 간 관계추출이 가장 활발하게 진행되고 있는 Gene(유전자), Protein(단백질), Disease(질병), Drug(약물) 4개의 분야를 대상으로 하였다. 본 연구에서 학습 데이터 구성을 위해 수집된 언어 자원은 자원 형식에 따라 개체명 사전과 코퍼스 자원으로 구분되며 코퍼스 자원은 다시 개체명 인식용 학습 집합과 관계 추출용 학습 집합으로 구분된다.

성능/효과

개체명 사전 자원의 항목 분석 결과 수집된 개체명 사전에서 개체명, 개체명의 동의어, 사전을 구축한 정보원에서 부여한 ID, 기타기관에서 부여한 개체 ID등을 공통 항목으로 도출하였으며, 데이터 내용의 분석을 통해 개체명간 중복을 확인하고 개체명 식별을 보다 용이하게 할 수 있는 중복 제거 방안을 마련하였다. 이러한 과정을 통해 도출된 항목 및 주제 분야별 특성을 반영하여 선정한 개체명 사전의 체계화 양식은 <그림 3>과 같다.
본 연구는 기계학습을 위한 학습 데이터 구축을 체계화 하는 방안을 마련하기 위한 초기연구로써 제안된 방법을 통해 구축된 학습데이터가 실제 기계 학습에 사용될 수 있는지에 대한 가능성을 확인하기 위한 절차로 데이터 검증을 실시하였다. 검증 결과 나타난 일치도를 통해 그 가능성을 확인할 수 있으며, 개체명이 검색된 횟수를 통해 실제로 유관분야 비정형 텍스트에 자주 등장하는 개체명들이 학습 데이터에 다수 포함되어 있는 것을 확인할 수 있다. 따라서 후속 연구를 통해 자원의 수집 대상 및 텍스트 범위를 확대하여 보다 광범위한 학습 데이터를 구축하고, 이에 대한 일치도를 지속적으로 확인할 예정이다.
또한 본 연구에서는 제안된 방법을 통해 구축한 개체명 사전 기반 학습 데이터를 대상으로 학습 데이터의 개체명 수용범위를 검증하기 위한 데이터 검증을 실시하였다. 데이터 검증에는 최근 생의학 분야에서 가장 활발히 연구되어 비정형 텍스트의 양이 급격히 증가하고 있는 알츠하이머 분야 PubMed 초록 데이터를 사용하였으며, 개체명 사전의 데이터 검증 결과 유전자 분야와 단백질 분야에서 각각 2%,질병 분야에서 10%, 약물 분야에서 13%의 데이터 일치도를 확인하였다.
수집된 3개의 개체명 인식 코퍼스를 대상으로 데이터 항목 및 내용에 대한 세부 분석을 진행하였다. 데이터 항목 분석 결과 개체명 인식 코퍼스는 일반적으로 개체명과 개체명의 동의어, 개체의 유형 정보, 개체를 추출한 문장, 개체를 추출한 문서, 개체를 추출한 문장 및 문서의 PubMed ID와 개체의 위치 정보 등을 포함하고 있는 것을 확인하였다.
수집된 4개의 관계 정의 코퍼스를 대상으로 데이터 항목 및 내용에 대한 세부 분석을 진행하였다. 데이터 항목 분석 결과 관계 정의 코퍼스는 일반적으로 관계를 구성하는 2개의 개체명과 개체명의 동의어, 각 개체에 대한 ID, 관계 식별자(ID), 개체명과 그 관계를 추출한 문장 및 문서, 개체명 및 관계를 추출한 문장 또는 문서의 PubMed ID와 개체의 위치정보 등을 포함하는 것을 확인하였다.
질병 분야에서 가장 많이 검색된 개체명은 알츠하이머 병(alzheimer's disease)이며 72,666회 검색되었다. 두 번째 및 세 번째로 많이 검색된 개체명은 치매(dementia)와 알츠하이머 병(alzheimer disease)으로 각각 57,571회, 15,500회 검색되었으며 모두 알츠하이머와 관련 있는 개체명이라 할 수 있다. 이외에도 인지장애(cognitive impairment), 경도인지장애(mild cognitive impairment), 신경퇴행성 질병(neurodegenerativedisease) 등 알츠하이머와 관련된 개체명이 검색된 것을 확인할 수 있다.
또한, 단백질 사전에서 확인된 개체명 중복은 단백질 개체가 발현되는 유기체에 따라 구별되며, 발현되는 유기체가 다를 경우 같은 이름의 개체라도 다른 개체로 구별되는 단백질 분야의 특성에 따른 결과이다. 따라서 유기체를 기준으로 2차 세부 내용 분석을 실시하였으며, 분석 결과 발현 유기체가 동일한 경우에는 단백질 개체명에 대한 중복이 없는 것을 확인하였다. 이러한 단백질 분야의 특성을 반영하고, 발현 유기체에 따른 단백질 개체를 구별하기 위하여, 참고사항 필드를 추가하여 단백질의 발현 유기체를 표현하는 방안을 마련하였다.
본 연구는 기계 학습 기반의 생의학 분야 개체명 인식 및 개체명 간 관계 추출 시스템을 위한 학습 데이터 구축 과정을 체계화하기 위한 방안을 마련하기 위한 초기 연구로서, 자원의 수집 대상 및 텍스트 범위를 최소화 하여 학습데이터를 구축하였다. 따라서 일치도 검사를 위한 검색 대상인 PubMed 초록 데이터의 규모에 비해 학습 데이터의 규모가 현저히 작아 일치도 검사 결과가 낮게 측정되는 결과를 보였다. 하지만 해당 수치는 제안된 방법의 가능성을 확인하기 위한 도구이며, 일치도와 함께 나타난 개체명 검색 결과를 통해 구축된 학습데이터가 유관분야에서 자주 사용되는 개체명을 수록하고 있다는 것을 확인할 수 있었다.
단백질 사전에서 검색된 개체는 전체 개체명의 약 2%에 해당하는 1,883개이며, 질병사전에서는 전체 개체명의 10%에 해당하는 1,173개이다. 약물 사전에서 검색된 개체명은 전체 개체명의 약 13%에 해당하는 1,082개로 가장 높은 일치도 검사결과를 보였다. 이는 PubMed 알츠하이머 초록에 알츠하이머를 치료하는 특정 약물 개체명이 자주 등장하기 때문으로 파악된다.
유전자 통합 사전에 존재하는 개체명의 개수는 183,603개이며 전체 개체명의 약 2%에 해당하는 3,128개의 개체가 PubMed 알츠하이머 초록에서 검색되었다. 단백질 사전에서 검색된 개체는 전체 개체명의 약 2%에 해당하는 1,883개이며, 질병사전에서는 전체 개체명의 10%에 해당하는 1,173개이다.
따라서 일치도 검사를 위한 검색 대상인 PubMed 초록 데이터의 규모에 비해 학습 데이터의 규모가 현저히 작아 일치도 검사 결과가 낮게 측정되는 결과를 보였다. 하지만 해당 수치는 제안된 방법의 가능성을 확인하기 위한 도구이며, 일치도와 함께 나타난 개체명 검색 결과를 통해 구축된 학습데이터가 유관분야에서 자주 사용되는 개체명을 수록하고 있다는 것을 확인할 수 있었다. 따라서 후속 연구를 통해 언어 자원의 수집 분야 및 텍스트 범위를 확대하여 보다 방대한 광범위한 학습 데이터를 구축하고 이에 대한 검증을 실시하여 개선된 일치도를 확인할 예정이다.

후속연구

하지만 해당 수치는 제안된 방법의 가능성을 확인하기 위한 도구이며, 일치도와 함께 나타난 개체명 검색 결과를 통해 구축된 학습데이터가 유관분야에서 자주 사용되는 개체명을 수록하고 있다는 것을 확인할 수 있었다. 따라서 후속 연구를 통해 언어 자원의 수집 분야 및 텍스트 범위를 확대하여 보다 방대한 광범위한 학습 데이터를 구축하고 이에 대한 검증을 실시하여 개선된 일치도를 확인할 예정이다.
검증 결과 나타난 일치도를 통해 그 가능성을 확인할 수 있으며, 개체명이 검색된 횟수를 통해 실제로 유관분야 비정형 텍스트에 자주 등장하는 개체명들이 학습 데이터에 다수 포함되어 있는 것을 확인할 수 있다. 따라서 후속 연구를 통해 자원의 수집 대상 및 텍스트 범위를 확대하여 보다 광범위한 학습 데이터를 구축하고, 이에 대한 일치도를 지속적으로 확인할 예정이다.

핵심어	질문	논문에서 추출한 답변
	자연어 처리 기술의 특징?	2006). 비정형 텍스트에서 핵심 개체를 인식하고 추출하기 위한 자연어 처리 기술은 주로 규칙 기반 접근법과 통계 기반 접근법을 통해 이루어져 왔으며, 최근에는 기계학습 방법 중 하나인 딥 러닝 기술에 기반 한 자연어처리 연구가 활발히 진행되고 있다(이혜진, 김재웅 2017).
	데이터 검증 대상에서 제외하고,개체명 사전을 통해 구축한 학습 데이터만을 대상으로 검증 과정을 실시한 이유는?	본 연구에서 구축된 학습 데이터는 구축과정에서 활용된 수집 자원의 유형에 따라 개체명 사전을 통해 구축한 학습 데이터와 코퍼스 자원을 통해 구축한 학습 데이터로 구분할 수 있다. 코퍼스 자원을 통해 구축한 학습 데이터의 경우 수집된 코퍼스 자원이 구축 기관의 검증 과정을 거쳐 배포되고 있고 이미 다양한 연구에서 활용되고 있기 때문에 데이터 검증 대상에서 제외하고,개체명 사전을 통해 구축한 학습 데이터만을 대상으로 검증 과정을 실시하였다. 데이터 검증은 유관 분야의 논문 초록을 수집하고, 수집된 데이터를 대상으로 학습 데이터에 존재하는 개체명을 검색하는 개체명 완전 일치 방법을 통해 수행되었다.
	유관분야 연구는 KAIST의 자연어 처리 연구실에서 소규모로 진행되고 있는 상황인 이유는?	대표적인 예로 한의약 분야에서는 한의학 학술 문헌에 대한 딥 러닝 기반 자연어 처리 과정을 도입하여 한약진흥재단에서 인공지능을 활용한 한의임상정보학 포럼을 갖는 등 언어처리에 대한 연구가 활발히 진행되고 있다. 그러나 생의학 분야의 경우, 사회적 관심과 정부 주도의 연구 개발 투자에도 불구하고 바이오 분야 심층 지식베이스의 구축 및 연계, 활용 분야에 적극적인 지원 및 투자가 이루어지지 않고 있다. 따라서 유관분야 연구는 KAIST의 자연어 처리 연구실에서 소규모로 진행되고 있는 상황이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

생의학 분야 학술 논문에서의 개체명 인식 및 관계 추출을 위한 언어 자원 수집 및 통합적 구조화 방안 연구
A Study on Collecting and Structuring Language Resource for Named Entity Recognition and Relation Extraction from Biomedical Abstracts 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

참고문헌 (27)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

생의학 분야 학술 논문에서의 개체명 인식 및 관계 추출을 위한 언어 자원 수집 및 통합적 구조화 방안 연구 A Study on Collecting and Structuring Language Resource for Named Entity Recognition and Relation Extraction from Biomedical Abstracts 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

참고문헌 (27)

이 논문을 인용한 문헌

저자의 다른 논문 :

최윤수 (19) 최성필 (42)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

생의학 분야 학술 논문에서의 개체명 인식 및 관계 추출을 위한 언어 자원 수집 및 통합적 구조화 방안 연구
A Study on Collecting and Structuring Language Resource for Named Entity Recognition and Relation Extraction from Biomedical Abstracts 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper