[논문]DeNERT: Named Entity Recognition Model using DQN and BERT

Yang, Sung-Min; Jeong, Ok-Ran

doi:10.9708/jksci.2020.25.04.029

DeNERT: Named Entity Recognition Model using DQN and BERT 원문보기

韓國컴퓨터情報學會論文誌 = Journal of the Korea Society of Computer and Information, v.25 no.4, 2020년, pp.29 - 35

Yang, Sung-Min (Dept. of Software, Gachon University) , Jeong, Ok-Ran (Dept. of Software, Gachon University)

초록
AI-Helper

본 논문에서는 새로운 구조의 개체명 인식 DeNERT 모델을 제안한다. 최근 자연어처리 분야는 방대한 양의 말뭉치로 사전 학습된 언어 표현 모델을 활용하는 연구가 활발하다. 특히 자연어처리 분야 중 하나인 개체명인식은 대부분 지도학습 방식을 사용하는데, 충분히 많은 양의 학습 데이터 세트와 학습 연산량이 필요하다는 단점이 있다. 강화학습은 초기 데이터 없이 시행착오 경험을 통해 학습하는 방식으로 다른 기계학습 방법론보다 조금 더 사람이 학습하는 과정에 가까운 알고리즘으로 아직 자연어처리 분야에는 많이 적용되지 않은 분야이다. 아타리 게임이나 알파고 등 시뮬레이션 가능한 게임 환경에서 많이 사용된다. BERT는 대량의 말뭉치와 연산량으로 학습된 구글에서 개발한 범용 언어 모델이다. 최근 자연어 처리 연구 분야에서 높은 성능을 보이고 있는 언어 모델이며 많은 자연어처리 하위분야에서도 높은 정확도를 나타낸다. 본 논문에서는 이러한 DQN, BERT 두가지 딥러닝 모델을 이용한 새로운 구조의 개체명 인식 DeNERT 모델을 제안한다. 제안하는 모델은 범용 언어 모델의 장점인 언어 표현력을 기반으로 강화학습 모델의 학습 환경을 만드는 방법으로 학습된다. 이러한 방식으로 학습된 DeNERT 모델은 적은 양의 학습 데이터세트로 더욱 빠른 추론시간과 높은 성능을 갖는 모델이다. 마지막으로 제안하는 모델의 개체명 인식 성능평가를 위해 실험을 통해서 검증한다.

Abstract ▼ AI-Helper

In this paper, we propose a new structured entity recognition DeNERT model. Recently, the field of natural language processing has been actively researched using pre-trained language representation models with a large amount of corpus. In particular, the named entity recognition, which is one of the fields of natural language processing, uses a supervised learning method, which requires a large amount of training dataset and computation. Reinforcement learning is a method that learns through trial and error experience without initial data and is closer to the process of human learning than other machine learning methodologies and is not much applied to the field of natural language processing yet. It is often used in simulation environments such as Atari games and AlphaGo. BERT is a general-purpose language model developed by Google that is pre-trained on large corpus and computational quantities. Recently, it is a language model that shows high performance in the field of natural language processing research and shows high accuracy in many downstream tasks of natural language processing. In this paper, we propose a new named entity recognition DeNERT model using two deep learning models, DQN and BERT. The proposed model is trained by creating a learning environment of reinforcement learning model based on language expression which is the advantage of the general language model. The DeNERT model trained in this way is a faster inference time and higher performance model with a small amount of training dataset. Also, we validate the performance of our model's named entity recognition performance through experiments.

주제어

표/그림 (6)

그림 Fig. 1. Concept of Reinforcement Learning
그림 Fig. 2. DeNERT Model Architecture
표 Table 1. BERT Model Parameters
표 Table 2. DQN Model Parameters
표 Table 3. CoNLL Dataset number of record of each class
표 Table 4. Experiment results by model

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 아타리 게임이나 알파고 등 게임 환경에서 많이 사용되는 강화학습 알고리즘인 구글의 DQN과 최근 자연어처리 연구 분야에서 높은 정확도를 보이며 많은 자연어처리 하위분야에서 높은 성능을 보이는 언어 표현 모델인 BERT 두 모델을 이용한 DeNERT 개체명 인식 모델을 제안했다. 제안한 모델은 강화학습과 개체명 마스킹 방식으로 조금 더 적은 데이터세트로 기존 모델보다 비슷하거나 약간 좋은 성능을 보였다.
이러한 문제점들을 해결하기 위하여 본 논문에서는 강화 학습 분야에서 널리 사용되는 DQN(Deep Q-Network) 모델과, 최근 자연어처리 분야에서 높은 성능을 보이는 범용 언어 모델 BERT(Bidirectional Encoder Representations from Transformers)를 이용하여 더 적은 양의 학습 데이터 세트로 빠른 추론시간과 더 나은 성능을 보이는 DeNERT(Deep Q-Network based Named Entity Recognition Transformer) 개체명 인식 모델을 제안한다.

제안 방법

CoNLL-2003 데이터세트에 대해서 BERT-base, BERT-large 모델과 품사 임베딩 벡터를 적용했을 때, 적용하지 않았을 때를 조합해 총 4가지의 모델을 실험하였 다. POS 임베딩과 BERT 모델의 크기에 따라서 정확도가 얼마나 차이 나는지 확인하기 위해서 POS 태깅을 적용했을 때와 적용하지 않았을 때, BERT-base와 BERT-large 각 모델로 실험을 진행하였다.
CoNLL-2003 데이터세트에 대해서 BERT-base, BERT-large 모델과 품사 임베딩 벡터를 적용했을 때, 적용하지 않았을 때를 조합해 총 4가지의 모델을 실험하였 다. POS 임베딩과 BERT 모델의 크기에 따라서 정확도가 얼마나 차이 나는지 확인하기 위해서 POS 태깅을 적용했을 때와 적용하지 않았을 때, BERT-base와 BERT-large 각 모델로 실험을 진행하였다. 평가시 강화학습 모델의 엡실론(e) 파라미터는 0으로 설정한 후 성능을 평가하였으며, 각 실험의 결과는 10번씩 학습시킨 모델들의 Precision, Recall, F1 Score의 (평균 ± 표준편차)를 구한 값이다.
본 논문에서는 문장 전처리에 BERT에서 기본적으로 제공하는 여러 모델 중 BERT-base와 BERT-large 사전 학습 모델을 사용하였다. 또한 기본 모델에 자질 확장을 위해 StanfordNLP를 이용하여 각 단어의 형태소 원핫(POS one-hot) 벡터를 추가하여 학습하였다. 모델 학습에 사용된 파라미터는 표 1과 같다.
js) 사용하여 구현하였다. 모델 학습에는 브라우저의 WebGL GPU 가속 기술을 이용해 내장된 GPU로 학습한다. BERT 모델은 tensorflow[16] 파이썬 라이브러리를 통해 구현되었다.
더 적은 데이터세트 크기로 비슷하거나 더 나은 성능의 모델을 얻을 수 있으며, 학습 시와 추론 시 모두 연산량을 감소 시킬 수 있다. 이러한 다양한 이점들을 위해 개체명 인식 문제에 DQN, BERT를 이용한 DeNERT 모델을 제안한다.
이러한 방식의 지도학습 방식은 정 답이 존재하는 데이터 세트로 학습하기 때문에 직관적이며 어느 정도 보장된 정확도의 모델을 만들 수 있다는 장점이 있지만, 충분히 많은 양의 방대한 학습 데이터와 연산량이 필요하다는 단점도 존재한다. 이러한 문제를 해결하기 위해 강화학습 알고리즘 DQN과 자연어처리 분야에서 높은 성능을 보이는 언어 표현 모델 BERT, 두 모델을 이용하여 개체명 인식에 적용하는 방법을 소개한다.

이론/모형

모델 학습에는 브라우저의 WebGL GPU 가속 기술을 이용해 내장된 GPU로 학습한다. BERT 모델은 tensorflow[16] 파이썬 라이브러리를 통해 구현되었다.
DQN 모델은 자바스크립트 기반 머신러닝 라이브러리인 Tensorflow.js(tf.js) 사용하여 구현하였다. 모델 학습에는 브라우저의 WebGL GPU 가속 기술을 이용해 내장된 GPU로 학습한다.
즉 강화학습 모델의 상태 공간은 연속적이다. 본 논문에서는 BERT 모델에 BERT-base와 BERT-large 두 모델을 사용한다. 두 모델의 벡터 크기는 각각 768차원, 1,024차원이고, 형태소 태깅된 원핫 (one-hot) 벡터의 크기가 34차원이므로 DQN 모델 입력 레이어의 사이즈는 각 802차원, 1,058차원 벡터를 사용한다.
하지만 이러한 모델들은 단방향 모델로, 충분한 언어 표현을 하지 못하기 때문에 BERT는 양방향(Bidirectional) 인코딩 방식을 제안했다. 본 논문에서는 문장 전처리에 BERT에서 기본적으로 제공하는 여러 모델 중 BERT-base와 BERT-large 사전 학습 모델을 사용하였다. 또한 기본 모델에 자질 확장을 위해 StanfordNLP를 이용하여 각 단어의 형태소 원핫(POS one-hot) 벡터를 추가하여 학습하였다.

성능/효과

DQN[8-9]은 구글에서 개발한 강화학습에 딥러닝을 적용한 알고리즘으로, 알파고(AlphaGo)에도 사용된 강화학습 알고리즘으로 잘 알려져 있다. DQN은 기존의 Q-Learning이 시뮬레이션 환경의 연속적인 상태나, 너무 큰 상태 공간 때문에 학습이 잘되지 않는 문제를 심층신경 망을 통해 Q 값을 근사하는 방식으로 해결하였다. M.
강화학습 특성상 학습 시 환경의 상태의 따라 보상을 얻을 확률값이 낮기 때문에 Recall이 상대적으로 낮게 나오는 것을 볼 수 있다. 가장 성능이 높은 모델은 Large + POS 모델이, 본 논문에서 제안하는 DeNERT 모델이다. 이 모델의 성능은 A.
이러한 이유로 현재까지 KoBERT, BioBERT, RoBERT 등 여러 연구에서 BERT를 이용한 다양한 파생연구가 활발하게 이루어지고 있다. 기존 ELMo나 OpenAI GPT 같은 모델이 이러한 방식으로 자연어처리 분야의 높은 성능을 보였다. 하지만 이러한 모델들은 단방향 모델로, 충분한 언어 표현을 하지 못하기 때문에 BERT는 양방향(Bidirectional) 인코딩 방식을 제안했다.
하지만 자연어처리에 강화학 습 방법론을 적용함으로써 얻을 수 있는 이점이 많다. 더 적은 데이터세트 크기로 비슷하거나 더 나은 성능의 모델을 얻을 수 있으며, 학습 시와 추론 시 모두 연산량을 감소 시킬 수 있다. 이러한 다양한 이점들을 위해 개체명 인식 문제에 DQN, BERT를 이용한 DeNERT 모델을 제안한다.
Fang [10]의 연구에서는 정책기반 활성 학습 (Policy-based Active Learning) 방식을 사용해 CoNLL 데이터 세트에 강화학습을 적용하여, 개체명 인식 문제는 푸는데 시도하는 방식을 제안했다. 마르코프 결정 과정 (Markov Decision Process)에 기반한 순차 활성 학습 (Sequential Active Learning) 방식을 제안해 개체명 인 식에 강화학습이 적용될 수 있음을 증명하였다. Y.
평가시 강화학습 모델의 엡실론(e) 파라미터는 0으로 설정한 후 성능을 평가하였으며, 각 실험의 결과는 10번씩 학습시킨 모델들의 Precision, Recall, F1 Score의 (평균 ± 표준편차)를 구한 값이다. 모델의 학습 파라미터가 많고 크기가 클수록 정확도가 높으며, POS 임베딩을 추가하였을 때 조금 더 높은 정확도를 보인다. 강화학습 특성상 학습 시 환경의 상태의 따라 보상을 얻을 확률값이 낮기 때문에 Recall이 상대적으로 낮게 나오는 것을 볼 수 있다.
본 논문에서는 아타리 게임이나 알파고 등 게임 환경에서 많이 사용되는 강화학습 알고리즘인 구글의 DQN과 최근 자연어처리 연구 분야에서 높은 정확도를 보이며 많은 자연어처리 하위분야에서 높은 성능을 보이는 언어 표현 모델인 BERT 두 모델을 이용한 DeNERT 개체명 인식 모델을 제안했다. 제안한 모델은 강화학습과 개체명 마스킹 방식으로 조금 더 적은 데이터세트로 기존 모델보다 비슷하거나 약간 좋은 성능을 보였다. 개체명 인식의 경우에는 적은 개수의 개체명 범주, 즉 강화학습 모델의 행동이 유 한하기 때문에 DQN을 적용할 수 있었지만, 다른 자연어 처리 분야의 경우 이러한 방법을 적용하기 어렵다.

후속연구

개체명 인식의 경우에는 적은 개수의 개체명 범주, 즉 강화학습 모델의 행동이 유 한하기 때문에 DQN을 적용할 수 있었지만, 다른 자연어 처리 분야의 경우 이러한 방법을 적용하기 어렵다. 향후 연속적인 행동을 가진 문제에도 적용 가능한 강화학습 알고리즘인 A3C 알고리즘[18]이나 Policy Gradient[19]와 같은 알고리즘을 적용해 좀 더 다양한 자연어처리 분야에 강화학습 방법을 적용할 수 있을 것으로 기대한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	개체명인식의 단점은 무엇인가?	최근 자연어처리 분야는 방대한 양의 말뭉치로 사전 학습된 언어 표현 모델을 활용하는 연구가 활발하다. 특히 자연어처리 분야 중 하나인 개체명인식은 대부분 지도학습 방식을 사용하는데, 충분히 많은 양의 학습 데이터 세트와 학습 연산량이 필요하다는 단점이 있다. 강화학습은 초기 데이터 없이 시행착오 경험을 통해 학습하는 방식으로 다른 기계학습 방법론보다 조금 더 사람이 학습하는 과정에 가까운 알고리즘으로 아직 자연어처리 분야에는 많이 적용되지 않은 분야이다.
	향후 기계학습의 자연어처리 분야 전망은 어떠한가?	개체명 인식의 경우에는 적은 개수의 개체명 범주, 즉 강화학습 모델의 행동이 유 한하기 때문에 DQN을 적용할 수 있었지만, 다른 자연어 처리 분야의 경우 이러한 방법을 적용하기 어렵다. 향후 연속적인 행동을 가진 문제에도 적용 가능한 강화학습 알고리즘인 A3C 알고리즘[18]이나 Policy Gradient[19]와 같은 알고리즘을 적용해 좀 더 다양한 자연어처리 분야에 강화학습 방법을 적용할 수 있을 것으로 기대한다.
	BERT란?	아타리 게임이나 알파고 등 시뮬레이션 가능한 게임 환경에서 많이 사용된다. BERT는 대량의 말뭉치와 연산량으로 학습된 구글에서 개발한 범용 언어 모델이다. 최근 자연어 처리 연구 분야에서 높은 성능을 보이고 있는 언어 모델이며 많은 자연어처리 하위분야에서도 높은 정확도를 나타낸다.

참고문헌 (19)

T. Mikolov and I. Sutskever, "Distributed representations of words and phrases and their compositionality," Advances in neural information processing systems, pp. 3111-3119, Oct. 2013. DOI: 1310.4546
G. Lample and M. Ballesteros, "Neural architectures for named entity recognition," Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp.260-270, Jun. 2016. DOI: 10.18653/v1/N16-1030
ME. Peters and M. Neumann, "Deep contextualized word representations," Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pp.2227-2237, Jun. 2018. DOI: 10.18653/v1/N18-1202
A. Radford and K. Narasimhan, "Improving language understanding by generative pre-training," URL https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
J. Devlin and MW. Chang, "Bert: Pre-training of deep bidirectional transformers for language understanding," Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pp.4171-4186, Jun. 2019. DOI: 10.18653/v1/N19-1423
A. Vaswani and N. Shazeer, "Attention is all you need," Advances in neural information processing systems, Dec. 2017. https://arxiv.org/abs/1706.03762
CJCH. Watkins and P.Dayan, "Q-learning," Machine learning 8.3-4. pp. 279-292, May. 1992. DOI: 10.1007/BF00992698

상세보기
V. Mnih and K. Kavukcuoglu, "Playing atari with deep reinforcement learning," arXiv preprint arXiv:1312.5602, Dec. 2013. https://arxiv.org/abs/1312.5602
V. Mnih and K. Kavukcuoglu, "Human-level control through deep reinforcement learning," Nature 518.7540, pp.529-533, Feb. 2015. DOI: 10.1038/nature14236

상세보기
M. Fang and Y. Li, "Learning how to active learn: A deep reinforcement learning approach," Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pp. 595-605. Sep. 2017. DOI: 10.18653/v1/D17-1063
Y. Yang and W. Chen, "Distantly supervised ner with partial annotation learning and reinforcement learning," Proceedings of the 27th International Conference on Computational Linguistics, pp. 2159-2169, Aug. 2018. https://www.aclweb.org/anthology/C18-1183.pdf
Z. Huang and W. Xu, "Bidirectional LSTM-CRF models for sequence tagging," Pro-ceedings of the 21st International Conference on AsianLanguage Processing, Aug. 2015. https://arxiv.org/abs/1508.01991
Y. Wu and M. Schuster, "Google's neural machine translation system: Bridging the gap between human and machine translation," arXiv preprint arXiv:1609.08144, Oct. 2016. https://arxiv.org/abs/1609.08144
CD. Manning and M. Surdeanu, "The Stanford CoreNLP natural language processing toolkit," Proceedings of 52nd annual meeting of the association for computational linguistics: system demonstrations, pp.55-60, Jun. 2014. DOI: 10.3115/v1/P14-5010
EF. Sang and F. De. Meulder, "Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition," Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL, pp.142-147, Jun. 2003. https://arxiv.org/abs/cs/0306050
M. Abadi and A. Agarwal, "Tensorflow: Large-scale machine learning on heterogeneous distributed systems," arXiv preprint arXiv:1603.04467, Mar. 2016. https://arxiv.org/abs/1603.04467
A. Akbik and T. Bergmann, "Pooled contextualized embeddings for named entity recognition," Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics, Volume 1, pp. 724-728, Jun. 2019. DOI: 10.18653/v1/N19-1078
V. Mnih and AP. Badia, "Asynchronous methods for deep reinforcement learning," International conference on machine learning, Feb. 2016. https://arxiv.org/abs/1602.01783
RS. Sutton and DA. McAllester, "Policy gradient methods for reinforcement learning with function approximation," Advances in neural information processing systems, pp. 1057-1063, Jun. 2000. https://arxiv.org/abs/1706.06643

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증