[논문]생의학 분야 키워드 추출 모델에 대한 비교 연구

이동희; 권순찬; 장백철

doi:10.7472/jksii.2023.24.4.77

생의학 분야 키워드 추출 모델에 대한 비교 연구
Comparative Study of Keyword Extraction Models in Biomedical Domain 원문보기

Journal of Internet Computing and Services = 인터넷정보학회논문지, v.24 no.4, 2023년, pp.77 - 84

이동희 (Graduate School of Information, Yonsei University) , 권순찬 (Graduate School of Information, Yonsei University) , 장백철 (Graduate School of Information, Yonsei University)

초록
AI-Helper

생명 공학 및 의학 분야의 논문 수 증가에 따라 문헌 속에서 중요한 정보를 빠르게 찾아 대응하기 위한 키워드 추출의 필요성이 대두되고 있다. 본 논문에서는 생의학 분야에서의 키워드 추출에 대한 다양한 비지도 학습 기반 모델 및 BERT 기반 모델의 성능을 종합적으로 비교하였다. 실험 결과 생의학 분야에 특화된 데이터로 학습된 BioBERT 모델이 가장 높은 성능을 보였다. 이를 통해 생의학 분야의 키워드 추출 연구에서 적절한 실험 환경을 구성하고 다양한 모델을 비교 분석하여, 향후 연구에 필요한 정확하고 신뢰할 수 있는 정보를 제공하였다. 이뿐만 아니라, 다른 분야에서도 키워드 추출에 대한 비교적인 기준과 유용한 지침을 제공할 수 있을 것이라 기대한다.

Abstract ▼ AI-Helper

Given the growing volume of biomedical papers, the ability to efficiently extract keywords has become crucial for accessing and responding to important information in the literature. In this study, we conduct a comprehensive evaluation of different unsupervised learning-based models and BERT-based models for keyword extraction in the biomedical field. Our experimental findings reveal that the BioBERT model, trained on biomedical-specific data, achieves the highest performance. This study offers precise and dependable insights to guide forthcoming research in biomedical keyword extraction. By establishing a well-suited experimental framework and conducting thorough comparisons and analyses of diverse models, we have furnished essential information. Furthermore, we anticipate extending our contributions to other domains by providing comparative experiments and practical guidelines for effective keyword extraction.

주제어

표/그림 (7)

그림 (그림 1) 키워드 추출 모델의 성능 비교 실험 프레임워크 (Figure 1)Performance comparison experiment framework of keyword extraction model
표 (표 1) 데이터 전처리 예시 (Table 1) Examples of data preprocessing
표 (표 2) BERT 기반 모델의 파라미터 개수 및 미세 조정 학습 시간 비교 (Table 2) Comparing the number of parameters in a BERT-based model and the training time for fine-tuning
표 (표 3) 실험에 사용된 하드웨어 및 소프트웨어 환경 (Table 3) Hardware and software environments used in the experiment
표 (표 4) 혼동행렬 표 (Table 4) Confusion Matrix
표 (표 5) 키워드 추출 모델별 성능 비교 결과 (Table 5) Performance comparison results by keyword extraction model
표 (표 6) 키워드 추출 모델별 키워드 추출 예시 (Table 6) Example keyword extraction by keyword extraction model

AI 본문요약
AI-Helper

문제 정의

BERT기반 자연어 생성 모델들의 파라미터 개수는 표 2와 같고 사전 학습된 언어 모델을 특정 작업에 사용하기 위해 모델의 파라미터를 조정하는 미세 조정이 필요하며 키워드 추출은 토큰의 라벨을 분류하는 토큰 분류 작업과 같다. 따라서 본 연구는 BERT 기반의 사전 학습된 언어 모델을 키워드 추출에 적용하기 위해 토큰에 BIO 라벨이 부여된 데이터를 사용하여 모델이 토큰의 라벨을 분류할 수 있도록 미세 조정하였다. BERT, DistillBERT, XL-NET, ALBERT, BioBERT 모델을 미세조정하였으며 키워드 추출 작업에 특화된 KeyBERT 모델은 미세 조정하지 않았다.
따라서 본 연구는 생명 공학 및 의학 분야의 키워드 추출에 관한 비지도 학습 및 BERT 기반 모델의 성능을 종합적으로 비교하여 생명 공학 및 의학 분야에서 효과적으로 키워드를 추출할 수 있는 모델에 대한 정보를 제공하고자 한다. 다양한 키워드 추출 모델의 성능을 비교하였으며 실험을 통해 미세 조정된 BERT 기반의 키워드 추출 모델이 미세 조정되지 않은 모델이나 비지도 학습 기반의 키워드 추출 모델보다 높은 성능을 보였다는 것을 확인하였다.
본 논문에서는 생의학 분야의 기법별 다양한 키워드 추출 모델을 사용하여 모델별 성능을 비교하고 추출된 키워드를 제시했다. BioBERT는 F1-Score 기준 0.
본 연구는 생명 공학 및 의학 분야에서 키워드 추출에 적합한 모델 비교와 함께, 연구의 전반적인 방향을 제시한다. 더불어, 생명 공학 및 의학 분야 외의 다른 분야에서도 키워드 추출에 대한 기준과 지침을 제공하는 역할을 할 것으로 기대된다.

제안 방법

본 연구는 주어진 생의학 문헌에 대한 키워드 추출 모델의 성능을 종합적으로 비교하기 위해 다양한 비지도 학습 모델과 BERT 기반의 모델을 사용하였다. 이후 비지도 학습 기반 모델, 미세 조정하지 않은 모델, 미세 조정한 모델에 모두 평가 데이터를 사용하여 키워드 추출 성능을 평가하였으며 실험의 전반적인 과정은 그림 1과 같다.
비지도 학습 기반의 키워드 추출 모델은 예시 키워드와 같은 개수를 확률값이 높은 순서대로 추출하였으며 BERT 기반 키워드 추출 모델은 키워드로 분류되는 단어들을 모두 추출하였다. 비지도 기반 키워드 추출 모델 중 가장 좋은 성능을 보여준 MultipartileRank 모델은 선충 살충제(cadusafos), 부화(hatching)와 같은 관련된 키워드를 추출하였으나 효과(effect), 침입(invasion)과 같은 관련 없는 단어도 추출하는 것을 확인할 수 있다.

데이터처리

실험에 사용된 평가 데이터 중 실제 논문 초록과 키워드를 예시로 모델별 키워드 추출 결과를 비교하였으며 그 결과는 표 6과 같다. 표 6의 예시 문장은 살충제와 감자의 질병 간의 관계에 관한 내용이며 키워드는 감자 난종 선충(potato cyst nematode), 선충(nematode), 살충제(nematicide)와 같은 단어들이다.
본 연구는 주어진 생의학 문헌에 대한 키워드 추출 모델의 성능을 종합적으로 비교하기 위해 다양한 비지도 학습 모델과 BERT 기반의 모델을 사용하였다. 이후 비지도 학습 기반 모델, 미세 조정하지 않은 모델, 미세 조정한 모델에 모두 평가 데이터를 사용하여 키워드 추출 성능을 평가하였으며 실험의 전반적인 과정은 그림 1과 같다.
키워드 추출 성능을 평가하는데 일반적으로 사용되는 평가 지표인 정밀도(Precision), 재현율(Recall), F1-Score를 사용하여 키워드 추출 모델의 성능을 평가한다. 정밀도, 재현율, F1-Score는 표 4와 같은 혼동행렬을 기준으로 측정하며 정밀도, 재현율, F1-Score를 산정하는 방법은 각 식 (1), (2), (3)과 같다.

이론/모형

BERT, DistillBERT, XL-NET, ALBERT, BioBERT 모델을 미세조정하였으며 키워드 추출 작업에 특화된 KeyBERT 모델은 미세 조정하지 않았다. 미세 조정에 사용한 하이퍼 파라미터는 epoch = 8, learning rate = 8e-6, batch size = 8, seed = 0이며 Adam optimizer를 사용하였다. BERT 기반 모델들의 미세 조정에 소요된 시간은 표 2와 같고, 실험에 사용된 하드웨어 및 소프트웨어의 자세한 환경은 표 3과 같다.

성능/효과

28 이상의 F1-Score를 보여주었다. 그중 생의학 분야의 데이터로 사전학습 된 BioBERT의 F1-Score가 0.315로 가장 높은 성능을 보여주었다. 이를 통해 생의학 분야의 키워드 추출 진행 시 미세 조정한 BioBERT 모델을 사용하는 것이 가장 효과적이라는 사실을 발견했다.
따라서 본 연구는 생명 공학 및 의학 분야의 키워드 추출에 관한 비지도 학습 및 BERT 기반 모델의 성능을 종합적으로 비교하여 생명 공학 및 의학 분야에서 효과적으로 키워드를 추출할 수 있는 모델에 대한 정보를 제공하고자 한다. 다양한 키워드 추출 모델의 성능을 비교하였으며 실험을 통해 미세 조정된 BERT 기반의 키워드 추출 모델이 미세 조정되지 않은 모델이나 비지도 학습 기반의 키워드 추출 모델보다 높은 성능을 보였다는 것을 확인하였다. 그 중에서도 BioBERT를 미세 조정한 모델의 F1-Score가 0.
이는 많은 하위 작업에 적용할 수 있도록 설계된 BERT 모델의 특성상 특정 작업을 수행하도록 미세 조정하지 않았을 경우 해당 작업에서 낮은 성능을 보여주는 현상에 기인한 것으로 보인다. 미세 조정된 BERT 기반의 키워드 추출 모델들은 모두 약 0.28 이상의 F1-Score를 보여주었다. 그중 생의학 분야의 데이터로 사전학습 된 BioBERT의 F1-Score가 0.
비지도 기반 키워드 추출 모델 중 가장 좋은 성능을 보여준 MultipartileRank 모델은 선충 살충제(cadusafos), 부화(hatching)와 같은 관련된 키워드를 추출하였으나 효과(effect), 침입(invasion)과 같은 관련 없는 단어도 추출하는 것을 확인할 수 있다. 반면 BERT 기반 키워드 추출 모델 중 가장 좋은 성능을 보여준 미세 조정된 BioBERT 모델은 선충 살충제(cadusafos), 부화(hatching)등 예시 키워드와 관련 있는 키워드만 추출한 것을 확인할 수 있다.
비지도 학습 기반의 키워드 추출 모델은 예시 키워드와 같은 개수를 확률값이 높은 순서대로 추출하였으며 BERT 기반 키워드 추출 모델은 키워드로 분류되는 단어들을 모두 추출하였다. 비지도 기반 키워드 추출 모델 중 가장 좋은 성능을 보여준 MultipartileRank 모델은 선충 살충제(cadusafos), 부화(hatching)와 같은 관련된 키워드를 추출하였으나 효과(effect), 침입(invasion)과 같은 관련 없는 단어도 추출하는 것을 확인할 수 있다. 반면 BERT 기반 키워드 추출 모델 중 가장 좋은 성능을 보여준 미세 조정된 BioBERT 모델은 선충 살충제(cadusafos), 부화(hatching)등 예시 키워드와 관련 있는 키워드만 추출한 것을 확인할 수 있다.
실험을 통해 다양한 키워드 추출 모델의 성능을 비교한 결과는 표 5와 같으며 P는 정밀도, R은 재현율, F는 F1-Score를 의미한다. 비지도 학습 기반 키워드 추출 모델의 경우 MultipartiteRank의 F1-Score가 0.146으로 가장 높은 성능을 보여주었다. 이외에도 YAKE와 TopicRank의 F1-Score는 각각 0.
315로 가장 높은 성능을 보여주었다. 이를 통해 생의학 분야에서 BERT의 구조나 환경을 변화시켜 성능을 증가시킨 모델 보다 해당 분야의 데이터로 학습시킨 모델을 사용하는 것이 키워드 추출에서 더욱 효과적이라는 것을 확인했다.
315로 가장 높은 성능을 보여주었다. 이를 통해 생의학 분야의 키워드 추출 진행 시 미세 조정한 BioBERT 모델을 사용하는 것이 가장 효과적이라는 사실을 발견했다.

후속연구

본 연구는 생명 공학 및 의학 분야에서 키워드 추출에 적합한 모델 비교와 함께, 연구의 전반적인 방향을 제시한다. 더불어, 생명 공학 및 의학 분야 외의 다른 분야에서도 키워드 추출에 대한 기준과 지침을 제공하는 역할을 할 것으로 기대된다. 이를 통해 정보 검색, 문서 요약 등의 향후 연구에서 더욱 우수한 결과를 도출해 낼 수 있을 것으로 기대된다.
더불어, 생명 공학 및 의학 분야 외의 다른 분야에서도 키워드 추출에 대한 기준과 지침을 제공하는 역할을 할 것으로 기대된다. 이를 통해 정보 검색, 문서 요약 등의 향후 연구에서 더욱 우수한 결과를 도출해 낼 수 있을 것으로 기대된다.

참고문헌 (21)

Beliga, Slobodan, Ana Mestrovic, and Sanda？Martincic-Ipsic, "An overview of graph-based keyword？extraction methods and approaches," Journal of？information and organizational sciences, Vol 39, No.1,？pp.01-20, 2015.？https://hrcak.srce.hr/140857
Gero, Zelalem, and Joyce C. Ho, "Namedkeys:？Unsupervised keyphrase extraction for biomedical？documents," Proceedings of the 10th ACM International？Conference on Bioinformatics, Computational Biology？and Health Informatics, pp.328-337, 2019.？https://doi.org/10.1145/3307339.3342147
A. Celikten, A. Ugur and H. Bulut, "Keyword？Extraction from Biomedical Documents Using Deep？Contextualized Embeddings," 2021 International？Conference on INnovations in Intelligent SysTems and？Applications (INISTA), Kocaeli, Turkey, 2021.？https://doi.org/10.1109/INISTA52262.2021.9548470
Campos, Ricardo, et al., "YAKE! Keyword extraction？from single documents using multiple local features,"？Information Sciences 509, pp.257-289l, 2020.？https://doi.org/10.1016/j.ins.2019.09.013

상세보기
Mihalcea, Rada, and Paul Tarau. "Textrank: Bringing？order into text," Proceedings of the 2004 conference on？empirical methods in natural language processing. 2004.？https://aclanthology.org/W04-3252
Brin, Sergey, and Lawrence Page, "The anatomy of a？large-scale hypertextual web search engine," Computer？networks and ISDN systems, Vol 30, No.1-7,？pp107-117, 1998.？https://doi.org/10.1016/S0169-7552(98)00110-X

상세보기
Wan, Xiaojun, and Jianguo Xiao, "Single document？keyphrase extraction using neighborhood knowledge,"？AAAI. Vol. 8. 2008.？https://cdn.aaai.org/AAAI/2008/AAAI08-136.pdf
Bougouin, Adrien, Florian Boudin, and Beatrice Daille,？"Topicrank: Graph-based topic ranking for keyphrase？extraction," International joint conference on natural？language processing (IJCNLP), 2013.？https://aclanthology.org/I13-1062/
Bennani-Smires, Kamil et al., "Simple unsupervised？keyphrase extraction using sentence embeddings," arXiv？preprint arXiv:1801.04470 2018.？https://arxiv.org/abs/1801.04470
Boudin, Florian, "Unsupervised keyphrase extraction with？multipartite graphs," arXiv preprint arXiv:1803.08721？2018.？https://arxiv.org/abs/1803.08721
Y. Sun, H. Qiu, Y. Zheng, Z. Wang and C. Zhang,？"SIFRank: A New Baseline for Unsupervised Keyphrase？Extraction Based on Pre-Trained Language Model," in？IEEE Access, vol. 8, pp. 10896-10906, 2020.？https://ieeexplore.ieee.org/abstract/document/8954611

상세보기
Kong, Aobo, et al. "PromptRank: Unsupervised Keyphrase？Extraction Using Prompt." arXiv preprint arXiv:2305.04490？2023.？https://doi.org/10.48550/arXiv.2305.0449
Devlin, Jacob, et al. "Bert: Pre-training of deep？bidirectional transformers for language understanding."？arXiv preprint arXiv:1810.04805 2018.？https://doi.org/10.48550/arXiv.1810.04805
Liu, Yinhan, et al., "Roberta: A robustly optimized bert？pretraining approach," arXiv preprint arXiv:1907.11692？2019.？https://doi.org/10.48550/arXiv.1907.11692
Lan, Zhenzhong, et al., "Albert: A lite bert for？self-supervised learning of language representations,"？https://doi.org/10.48550/arXiv.1909.11942
Lee, Jinhyuk, et al., "BioBERT: a pre-trained biomedical？language representation model for biomedical text mining,"？Bioinformatics Vol.36. No.4, pp.1234-1240. 2020.？https://doi.org/10.1093/bioinformatics/btz682

상세보기
Beltagy, Iz, Kyle Lo, and Arman Cohan, "SciBERT: A？pretrained language model for scientific text," arXiv？preprint arXiv:1903.10676 2019.？https://doi.org/10.48550/arXiv.1903.10676
Ramshaw, Lance A., and Mitchell P. Marcus. "Text？chunking using transformation-based learning," Natural？language processing using very large corpora.？Dordrecht: Springer Netherlands, pp.157-176, 1999.？https://doi.org/10.1007/978-94-017-2390-9_10
Florescu, Corina, and Cornelia Caragea, "Positionrank:？An unsupervised approach to keyphrase extraction from scholarly documents," Proceedings of the 55th annual？meeting of the association for computational linguistics？(volume 1: long papers). 2017.？https://aclanthology.org/P17-1102/
Sanh, Victor, et al., "DistilBERT, a distilled version of？BERT: smaller, faster, cheaper and lighter," arXiv？preprint arXiv:1910.01108, 2019.？https://doi.org/10.48550/arXiv.1910.01108
Yang, Zhilin, et al., "Xlnet: Generalized autoregressive？pretraining for language understanding," Advances in？neural information processing systems 32 2019.？https://doi.org/10.48550/arXiv.1907.11692？

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증