$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

DeNERT: Named Entity Recognition Model using DQN and BERT 원문보기

韓國컴퓨터情報學會論文誌 = Journal of the Korea Society of Computer and Information, v.25 no.4, 2020년, pp.29 - 35  

Yang, Sung-Min (Dept. of Software, Gachon University) ,  Jeong, Ok-Ran (Dept. of Software, Gachon University)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 새로운 구조의 개체명 인식 DeNERT 모델을 제안한다. 최근 자연어처리 분야는 방대한 양의 말뭉치로 사전 학습된 언어 표현 모델을 활용하는 연구가 활발하다. 특히 자연어처리 분야 중 하나인 개체명인식은 대부분 지도학습 방식을 사용하는데, 충분히 많은 양의 학습 데이터 세트와 학습 연산량이 필요하다는 단점이 있다. 강화학습은 초기 데이터 없이 시행착오 경험을 통해 학습하는 방식으로 다른 기계학습 방법론보다 조금 더 사람이 학습하는 과정에 가까운 알고리즘으로 아직 자연어처리 분야에는 많이 적용되지 않은 분야이다. 아타리 게임이나 알파고 등 시뮬레이션 가능한 게임 환경에서 많이 사용된다. BERT는 대량의 말뭉치와 연산량으로 학습된 구글에서 개발한 범용 언어 모델이다. 최근 자연어 처리 연구 분야에서 높은 성능을 보이고 있는 언어 모델이며 많은 자연어처리 하위분야에서도 높은 정확도를 나타낸다. 본 논문에서는 이러한 DQN, BERT 두가지 딥러닝 모델을 이용한 새로운 구조의 개체명 인식 DeNERT 모델을 제안한다. 제안하는 모델은 범용 언어 모델의 장점인 언어 표현력을 기반으로 강화학습 모델의 학습 환경을 만드는 방법으로 학습된다. 이러한 방식으로 학습된 DeNERT 모델은 적은 양의 학습 데이터세트로 더욱 빠른 추론시간과 높은 성능을 갖는 모델이다. 마지막으로 제안하는 모델의 개체명 인식 성능평가를 위해 실험을 통해서 검증한다.

Abstract AI-Helper 아이콘AI-Helper

In this paper, we propose a new structured entity recognition DeNERT model. Recently, the field of natural language processing has been actively researched using pre-trained language representation models with a large amount of corpus. In particular, the named entity recognition, which is one of the...

주제어

표/그림 (6)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 아타리 게임이나 알파고 등 게임 환경에서 많이 사용되는 강화학습 알고리즘인 구글의 DQN과 최근 자연어처리 연구 분야에서 높은 정확도를 보이며 많은 자연어처리 하위분야에서 높은 성능을 보이는 언어 표현 모델인 BERT 두 모델을 이용한 DeNERT 개체명 인식 모델을 제안했다. 제안한 모델은 강화학습과 개체명 마스킹 방식으로 조금 더 적은 데이터세트로 기존 모델보다 비슷하거나 약간 좋은 성능을 보였다.
  • 이러한 문제점들을 해결하기 위하여 본 논문에서는 강화 학습 분야에서 널리 사용되는 DQN(Deep Q-Network) 모델과, 최근 자연어처리 분야에서 높은 성능을 보이는 범용 언어 모델 BERT(Bidirectional Encoder Representations from Transformers)를 이용하여 더 적은 양의 학습 데이터 세트로 빠른 추론시간과 더 나은 성능을 보이는 DeNERT(Deep Q-Network based Named Entity Recognition Transformer) 개체명 인식 모델을 제안한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
개체명인식의 단점은 무엇인가? 최근 자연어처리 분야는 방대한 양의 말뭉치로 사전 학습된 언어 표현 모델을 활용하는 연구가 활발하다. 특히 자연어처리 분야 중 하나인 개체명인식은 대부분 지도학습 방식을 사용하는데, 충분히 많은 양의 학습 데이터 세트와 학습 연산량이 필요하다는 단점이 있다. 강화학습은 초기 데이터 없이 시행착오 경험을 통해 학습하는 방식으로 다른 기계학습 방법론보다 조금 더 사람이 학습하는 과정에 가까운 알고리즘으로 아직 자연어처리 분야에는 많이 적용되지 않은 분야이다.
향후 기계학습의 자연어처리 분야 전망은 어떠한가? 개체명 인식의 경우에는 적은 개수의 개체명 범주, 즉 강화학습 모델의 행동이 유 한하기 때문에 DQN을 적용할 수 있었지만, 다른 자연어 처리 분야의 경우 이러한 방법을 적용하기 어렵다. 향후 연속적인 행동을 가진 문제에도 적용 가능한 강화학습 알고리즘인 A3C 알고리즘[18]이나 Policy Gradient[19]와 같은 알고리즘을 적용해 좀 더 다양한 자연어처리 분야에 강화학습 방법을 적용할 수 있을 것으로 기대한다.
BERT란? 아타리 게임이나 알파고 등 시뮬레이션 가능한 게임 환경에서 많이 사용된다. BERT는 대량의 말뭉치와 연산량으로 학습된 구글에서 개발한 범용 언어 모델이다. 최근 자연어 처리 연구 분야에서 높은 성능을 보이고 있는 언어 모델이며 많은 자연어처리 하위분야에서도 높은 정확도를 나타낸다.
질의응답 정보가 도움이 되었나요?

참고문헌 (19)

  1. T. Mikolov and I. Sutskever, "Distributed representations of words and phrases and their compositionality," Advances in neural information processing systems, pp. 3111-3119, Oct. 2013. DOI: 1310.4546 

  2. G. Lample and M. Ballesteros, "Neural architectures for named entity recognition," Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp.260-270, Jun. 2016. DOI: 10.18653/v1/N16-1030 

  3. ME. Peters and M. Neumann, "Deep contextualized word representations," Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pp.2227-2237, Jun. 2018. DOI: 10.18653/v1/N18-1202 

  4. A. Radford and K. Narasimhan, "Improving language understanding by generative pre-training," URL https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf 

  5. J. Devlin and MW. Chang, "Bert: Pre-training of deep bidirectional transformers for language understanding," Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pp.4171-4186, Jun. 2019. DOI: 10.18653/v1/N19-1423 

  6. A. Vaswani and N. Shazeer, "Attention is all you need," Advances in neural information processing systems, Dec. 2017. https://arxiv.org/abs/1706.03762 

  7. CJCH. Watkins and P.Dayan, "Q-learning," Machine learning 8.3-4. pp. 279-292, May. 1992. DOI: 10.1007/BF00992698 

  8. V. Mnih and K. Kavukcuoglu, "Playing atari with deep reinforcement learning," arXiv preprint arXiv:1312.5602, Dec. 2013. https://arxiv.org/abs/1312.5602 

  9. V. Mnih and K. Kavukcuoglu, "Human-level control through deep reinforcement learning," Nature 518.7540, pp.529-533, Feb. 2015. DOI: 10.1038/nature14236 

  10. M. Fang and Y. Li, "Learning how to active learn: A deep reinforcement learning approach," Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pp. 595-605. Sep. 2017. DOI: 10.18653/v1/D17-1063 

  11. Y. Yang and W. Chen, "Distantly supervised ner with partial annotation learning and reinforcement learning," Proceedings of the 27th International Conference on Computational Linguistics, pp. 2159-2169, Aug. 2018. https://www.aclweb.org/anthology/C18-1183.pdf 

  12. Z. Huang and W. Xu, "Bidirectional LSTM-CRF models for sequence tagging," Pro-ceedings of the 21st International Conference on AsianLanguage Processing, Aug. 2015. https://arxiv.org/abs/1508.01991 

  13. Y. Wu and M. Schuster, "Google's neural machine translation system: Bridging the gap between human and machine translation," arXiv preprint arXiv:1609.08144, Oct. 2016. https://arxiv.org/abs/1609.08144 

  14. CD. Manning and M. Surdeanu, "The Stanford CoreNLP natural language processing toolkit," Proceedings of 52nd annual meeting of the association for computational linguistics: system demonstrations, pp.55-60, Jun. 2014. DOI: 10.3115/v1/P14-5010 

  15. EF. Sang and F. De. Meulder, "Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition," Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL, pp.142-147, Jun. 2003. https://arxiv.org/abs/cs/0306050 

  16. M. Abadi and A. Agarwal, "Tensorflow: Large-scale machine learning on heterogeneous distributed systems," arXiv preprint arXiv:1603.04467, Mar. 2016. https://arxiv.org/abs/1603.04467 

  17. A. Akbik and T. Bergmann, "Pooled contextualized embeddings for named entity recognition," Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics, Volume 1, pp. 724-728, Jun. 2019. DOI: 10.18653/v1/N19-1078 

  18. V. Mnih and AP. Badia, "Asynchronous methods for deep reinforcement learning," International conference on machine learning, Feb. 2016. https://arxiv.org/abs/1602.01783 

  19. RS. Sutton and DA. McAllester, "Policy gradient methods for reinforcement learning with function approximation," Advances in neural information processing systems, pp. 1057-1063, Jun. 2000. https://arxiv.org/abs/1706.06643 

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로