$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

생의학 분야 학술 논문에서의 개체명 인식 및 관계 추출을 위한 언어 자원 수집 및 통합적 구조화 방안 연구
A Study on Collecting and Structuring Language Resource for Named Entity Recognition and Relation Extraction from Biomedical Abstracts 원문보기

한국문헌정보학회지 = Journal of the Korean Society for Library and Information Science, v.51 no.4, 2017년, pp.227 - 248  

강슬기 (경기대학교 일반대학원 문헌정보학과) ,  최윤수 (한국과학기술정보연구원 생명의료융합기술연구실) ,  최성필 (경기대학교 문헌정보학과)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 급격히 증가하는 생의학 분야 비정형 텍스트에서 핵심적 내용을 추출할 수 있는 기계학습 기반 정보 추출시스템을 구축하기 위한 언어자원 수집 및 통합적 구조화 방안을 제안한다. 제안된 방법은 정보 추출 시스템을 크게 개체명 인식개체명관계 추출 시스템으로 구분하고, 각각의 시스템에 적합한 학습데이터를 구성하기 위해 생의학 분야 개체명 사전학습 집합을 수집한다. 그리고 수집된 해당 자원들의 특성을 분석하여 개체 구별을 위해 필수적으로 포함시켜야 할 항목들을 도출하고 이를 통해 시스템 학습과정에서 사용될 학습 데이터를 구성하기 위한 항목을 선정한다. 이와 같이 선정된 학습데이터의 구성 내용에 따라 수집된 자원들을 가공하여 학습 데이터를 구축한다. 본 연구에서는 생의학 분야의 하위 분야인 유전자, 단백질, 질병, 약물 4개 분야에 대한 개체명 사전과 학습 집합을 수집하여 각각을 학습 데이터로 구축하였으며, 개체명 사전을 통해 구축된 개체명 인식용 학습 데이터를 대상으로 개체명 수용 범위를 측정하기 위한 검증 과정을 수행하였다.

Abstract AI-Helper 아이콘AI-Helper

This paper introduces an integrated model for systematically constructing a linguistic resource database that can be used by machine learning-based biomedical information extraction systems. The proposed method suggests an orderly process of collecting and constructing dictionaries and training sets...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • NLTK 파서 적용을 통한 일치도 검사는 개체명 단순 비교를 통한 일치도 검사에서 발생하는 문제점들을 확인하고, 이를 개선하기 위해 진행된 검사이다
  • 따라서 본 논문에서는 기계학습 기반의 생의학 분야 개체명 인식 및 개체 간 관계 추출 시스템을 위한 언어자원의 수집 과정과 데이터 정형화를 위한 체계를 제시함으로써 이를 통해 범용 주제 분야 기계학습 기반 자연어 처리 시스템에 적용할 수 있는 언어자원의 통합적 저장․관리 체계를 구축하기 위한 방안을 제시하고자 한다.
  • 따라서 본 논문에서는 생의학 분야 개체명 인식 시스템과 개체명 간 관계 추출 시스템을 위해 다량의 유관분야 언어자원을 학습 데이터로 구축하는 과정을 통합적으로 체계화하는 방안을 제안한다. 또한 제안된 방법을 통해 실제로 학습 데이터를 구축하는 과정과 구축된 학습 데이터의 일부를 검증한 결과를 함께 제시한다.
  • 따라서 유관분야 연구에 있어 학습 데이터의 구축을 위한 시간 및 비용이 많이 소요되고 있으며, 연구자들이 보다 높은 수준의 연구를 진행하는데 어려움을 겪고 있다. 따라서 본 논문에서는 정보추출 시스템을 위한 학습 데이터를 구축하는 과정을 체계화하기 위한 방안을 제안한다. 제안된 방법은 학습 데이터 구축을 위한 체계화된 통합적 저장․관리 방안으로써 언어자원을 수집하고 해당 자원들의 특성을 분석하여 정보추출 시스템에 적합한 형태를 지니는 학습 데이터로 구축하는 모든 과정을 포함한다.
  • 또한 본 연구에서는 제안된 방법을 통해 구축한 개체명 사전 기반 학습 데이터를 대상으로 학습 데이터의 개체명 수용범위를 검증하기 위한 데이터 검증을 실시하였다. 데이터 검증에는 최근 생의학 분야에서 가장 활발히 연구되어 비정형 텍스트의 양이 급격히 증가하고 있는 알츠하이머 분야 PubMed 초록 데이터를 사용하였으며, 개체명 사전의 데이터 검증 결과 유전자 분야와 단백질 분야에서 각각 2%,질병 분야에서 10%, 약물 분야에서 13%의 데이터 일치도를 확인하였다.
  • 본 논문에서는 기계학습 기반의 생의학 분야 개체명 인식 및 개체명 간 관계 추출 시스템을 구축하기 위한 학습데이터를 체계적으로 정형화 할 수 있는 통합적 저장․관리 방안을 제안한다. 제안된 방법은 학습 데이터 구성과정을 언어 자원의 수집, 수집된 자원의 분석, 분석을 통한 체계화 양식 선정, 자원의 체계화 및 검증단계로 구분한다.
  • 본 논문에서는 생의학 분야 학술 논문에서의 개체명 인식 및 개체 간 관계 추출 시스템을 위한 학습 데이터를 구축하기 위하여 유관분야 개체명 사전과 학습 집합을 수집하였다. 또한 수집된 자원들을 대상으로 특성을 분석하고,분석을 통해 체계화 양식을 선정하였으며, 결과적으로 수집 자원들을 학습 데이터로 체계화하였다.
  • 본 논문에서는 생의학 분야 핵심 개체명 인식 및 개체명 간 관계 추출 시스템 구축에 필수적인 학습 데이터 구축 과정을 체계화하기 위한 유관 분야 언어 자원의 수집 및 통합적 저장․관리 방안을 제안한다.
  • 본 연구는 기계 학습 기반의 생의학 분야 개체명 인식 및 개체명 간 관계 추출 시스템을 위한 학습 데이터 구축 과정을 체계화하기 위한 방안을 마련하기 위한 초기 연구로서, 자원의 수집 대상 및 텍스트 범위를 최소화 하여 학습데이터를 구축하였다. 따라서 일치도 검사를 위한 검색 대상인 PubMed 초록 데이터의 규모에 비해 학습 데이터의 규모가 현저히 작아 일치도 검사 결과가 낮게 측정되는 결과를 보였다.
  • 개체명 일치도 평가 결과가 비교적 낮게 나타나는 것은 검증 대상으로 선정한 PubMed 알츠하이머 초록 데이터의 규모에 비해 구축된 학습 데이터의 규모가 작아서 나타나는 결과이다. 본 연구는 기계학습을 위한 학습 데이터 구축을 체계화 하는 방안을 마련하기 위한 초기연구로써 제안된 방법을 통해 구축된 학습데이터가 실제 기계 학습에 사용될 수 있는지에 대한 가능성을 확인하기 위한 절차로 데이터 검증을 실시하였다. 검증 결과 나타난 일치도를 통해 그 가능성을 확인할 수 있으며, 개체명이 검색된 횟수를 통해 실제로 유관분야 비정형 텍스트에 자주 등장하는 개체명들이 학습 데이터에 다수 포함되어 있는 것을 확인할 수 있다.
  • 본 연구에서는 급격히 증가하는 비정형 텍스트를 효율적으로 파악하고 이를 통해 핵심 개체명 및 개체명 간 관계를 추출하기 위하여 기존재하는 유관분야의 언어자원을 수집하고 이를 통해 학습 데이터를 구축하는 과정을 체계화하기 위한 방안을 제안하였다.
  • 본 연구에서는 기계학습 기반의 생의학 분야정보 추출 시스템을 위한 학습 데이터를 구축하는 과정을 체계적으로 정형화할 수 있는 통합적 저장․관리 방안을 제안한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
자연어 처리 기술의 특징? 2006). 비정형 텍스트에서 핵심 개체를 인식하고 추출하기 위한 자연어 처리 기술은 주로 규칙 기반 접근법과 통계 기반 접근법을 통해 이루어져 왔으며, 최근에는 기계학습 방법 중 하나인 딥 러닝 기술에 기반 한 자연어처리 연구가 활발히 진행되고 있다(이혜진, 김재웅 2017).
데이터 검증 대상에서 제외하고,개체명 사전을 통해 구축한 학습 데이터만을 대상으로 검증 과정을 실시한 이유는? 본 연구에서 구축된 학습 데이터는 구축과정에서 활용된 수집 자원의 유형에 따라 개체명 사전을 통해 구축한 학습 데이터와 코퍼스 자원을 통해 구축한 학습 데이터로 구분할 수 있다. 코퍼스 자원을 통해 구축한 학습 데이터의 경우 수집된 코퍼스 자원이 구축 기관의 검증 과정을 거쳐 배포되고 있고 이미 다양한 연구에서 활용되고 있기 때문에 데이터 검증 대상에서 제외하고,개체명 사전을 통해 구축한 학습 데이터만을 대상으로 검증 과정을 실시하였다. 데이터 검증은 유관 분야의 논문 초록을 수집하고, 수집된 데이터를 대상으로 학습 데이터에 존재하는 개체명을 검색하는 개체명 완전 일치 방법을 통해 수행되었다.
유관분야 연구는 KAIST의 자연어 처리 연구실에서 소규모로 진행되고 있는 상황인 이유는? 대표적인 예로 한의약 분야에서는 한의학 학술 문헌에 대한 딥 러닝 기반 자연어 처리 과정을 도입하여 한약진흥재단에서 인공지능을 활용한 한의임상정보학 포럼을 갖는 등 언어처리에 대한 연구가 활발히 진행되고 있다. 그러나 생의학 분야의 경우, 사회적 관심과 정부 주도의 연구 개발 투자에도 불구하고 바이오 분야 심층 지식베이스의 구축 및 연계, 활용 분야에 적극적인 지원 및 투자가 이루어지지 않고 있다. 따라서 유관분야 연구는 KAIST의 자연어 처리 연구실에서 소규모로 진행되고 있는 상황이다.
질의응답 정보가 도움이 되었나요?

참고문헌 (27)

  1. 박성배. 2005. 기계학습/텍스트마이닝과 생명과학. 정보과학회지, 23(5): 32-40. (Park, S. 2005. "Machine Learning/Text Mining and Life Science." Journal of KIISE, 23(5): 32-40.) 

  2. 박경미, 황규백. 2011. 자연어처리 기반 바이오 텍스트 마이닝 시스템. 정보과학회논문지: 컴퓨팅 의 실제 및 레터, 17(4): 205-213. (Park, K. and Hwang, k. 2011. "A Bio-Text Mining System Based on Natural Language Processing." KIISE Transactions on Computing Practices, 17(4): 205-213.) 

  3. 송영길, 정석원, 김학수. 2015. 위키피디아 기반 개체명 사전 반자동 구축 방법. 정보과학회논문지, 42(11): 1397-1403. (Song, Y., Jeong, S. and Kim, H. 2015. "(A)Semi-automatic Construction method of a Named Entity Dictionary Based on Wikipedia." Journal of KIISE, 42(11): 1397-1403.) 

  4. 신성호 외. 2014. 개체명 인식 향상을 위한 학습 집합 및 개체명 인식 모델 구축. 정보과학회논문지: 컴퓨팅의 실제 및 레터, 20(7): 425-429. (Shin, S. et al. 2014. "Construction of Tagged Corpus and a Statistical Model for Improvement of Named Entity Recognition." KIISE Transactions on Computing Practices, 20(7): 425-429.) 

  5. 이혜진, 김재웅. 2017. 자연어 처리 기술 현황 및 표준화 동향에 관한 연구. 한국통신학회 학술대회 논문집, 2017년 6월 21일, 제주: 라마다 프라자 제주 호텔: 876-877. (Lee, H. and Kim, J. 2017. "A Study on the Natural Language Processing(NLP) Technical and Standardization Trend." Proceedings of Symposium of the Korean Institute of communications and Information Sciences, June 21, Jeju: Ramada Plaza Jeju Hotel: 876-877.) 

  6. 허고은, 송민. 2014. 텍스트 마이닝 기반의 그래프 모델을 이용한 미발견 공공 지식 추론. 정보관리학회지, 31(1): 231-250. (Heo, G. and Song, M. 2014. "Inferring Undiscovered Public Knowledge by Using Text Miningdriven Graph Model." Journal of the Korean society for Information Management, 31(1): 231-250.) 

  7. Ananiadou, S., Kell, D. B. and Tsujii, J. 2006. "Text Mining and Its Potential Applications in Systems Biology." Trends in Biotechnology, 24(12): 571-579. 

  8. Beuning, P. and Musier-Forsyth, K. 1999. "Transfer RNA Recognition by Aminoacyl-tRNA Synthetases." Biopolymers, 52(1): 1-28. 

  9. Biomedical Informatics Lab at ASU. 2017. Arizona Disease Corpus. [online] [cited 2017. 6. 1.] 

  10. Choi, S. 2016. "Extraction of Protein-Protein Interactions (PPIs) from the Literature by Deep Convolutional Neural Networks with Various Feature Embeddings." Sage Journals, 2016. 

  11. Comparative Toxicogenomics Database. 2017. Gene vocabulary. [online] [cited 2017. 4. 27.] 

  12. DrugBank. 2017. COMPLETE DATABASE: All drugs. [online] [cited 2017. 4. 27.] 

  13. Fraunhofer Institute for Algorithms and Scientific Computing SCAI. 2017. Silver Standard Corpus for Protein Protein and Drug Drug Interaction. [online] [cited 2017. 6. 2.] 

  14. GENIA: The BioNLP Shared Task 2016. 2017. The BioNLP Shared Task. [online] [cited 2017. 10. 9.] 

  15. Huang, C. and Lu, Z. 2016. "Community Challenges in Biomedical Text Mining over 10 years: Success, Failure and the Future." Briefings in Bioinformatics, 17(1): 132-144. 

  16. HUGO Gene Nomenclature Committee. 2017. Complete HGNC Dataset. [online] [cited 2017. 4. 27.] 

  17. Jensen, L. J., Saric, J. and Bork, P. 2006. "Literature Mining for the Biologist: from Information Retrieval to Biological Discovery." Nature Reviews Genetics, 7(2): 119-129. 

  18. Kim, J., Wang, Y. and Yasunori, Y. 2013. "The Genia Event Extraction Shared Task, 2013 Edition-Overview." In Proceedings of the BioNLP Shared Task 2013 Workshop, August 9, 2013, Sofia: Association for Computational Linguistics. 

  19. National Center for Biotechnology Information. 2017. PubMed. [online] [cited 2017. 6. 11.] 

  20. National Institutes of Health. 2017. Genetic Association Database. [online] [cited 2017. 6. 1.] 

  21. Natural Language Toolkit. 2017. Natural Language Processing with Python. [online] [cited 2017. 7. 29.] 

  22. The National Centre for Text Mining. 2016. Text Mining Resources. [online] [cited 2017. 9. 17.] 

  23. The University of Pittsburgh Pharmacokinetic Drug-drug Interation (PK DDI) Package Insert Corpus. 2017. Download the PK-DDI corpus with consensus annotations. [online] [cited 2017. 6. 20.] 

  24. tagtog. 2017. LocText. [online] [cited 2017. 6. 2.] 

  25. Thomas, P et al. 2012. "Weakly labeled corpora as silver standard for drug-drug and protein-protein interaction." In Proceedings of the Workshop on Building and Evaluating Resources for Biomedical Text Mining (BioTxtM) on Language Resources and Evaluation Conference (LREC), 2012. Istanbul, Turkey. 

  26. Tripathi, V. et al. 2010. "The Nuclear-Retained Noncoding RNA MALAT1 Regulates Alternative Splicing by Modulating SR Splicing Factor Phosphorylation." Molecular Cell, 39(6): 925-938. 

  27. UniProt. 2017. Uniprot data. [online] [cited 2017. 4. 27.] 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로