$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

BERT를 이용한 한국어 특허상담 기계독해
Korean Machine Reading Comprehension for Patent Consultation Using BERT 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.9 no.4, 2020년, pp.145 - 152  

민재옥 (한국특허정보원 R&D센터 연구개발파트) ,  박진우 (한국특허정보원 R&D센터) ,  조유정 (한국특허정보원 R&D센터) ,  이봉건 (한국특허정보원 특허넷응용팀 특허넷응용팀)

초록
AI-Helper 아이콘AI-Helper

기계독해는(Machine reading comprehension) 사용자 질의와 관련된 문서를 기계가 이해한 후 정답을 추론하는 인공지능 자연어처리 태스크를 말하며, 이러한 기계독해는 챗봇과 같은 자동상담 서비스에 활용될 수 있다. 최근 자연어처리 분야에서 가장 높은 성능을 보이고 있는 BERT 언어모델은 대용량의 데이터를 pre-training 한 후에 각 자연어처리 태스크에 대해 fine-tuning하여 학습된 모델로 추론함으로써 문제를 해결하는 방식이다. 본 논문에서는 BERT기반 특허상담 기계독해 태스크를 위해 특허상담 데이터 셋을 구축하고 그 구축 방법을 소개하며, patent 코퍼스를 pre-training한 Patent-BERT 모델과 특허상담 모델학습에 적합한 언어처리 알고리즘을 추가함으로써 특허상담 기계독해 태스크의 성능을 향상시킬 수 있는 방안을 제안한다. 본 논문에서 제안한 방법을 사용하여 특허상담 질의에 대한 정답 결정에서 성능이 향상됨을 보였다.

Abstract AI-Helper 아이콘AI-Helper

MRC (Machine reading comprehension) is the AI NLP task that predict the answer for user's query by understanding of the relevant document and which can be used in automated consult services such as chatbots. Recently, the BERT (Pre-training of Deep Bidirectional Transformers for Language Understandi...

주제어

표/그림 (16)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 기계독해 학습 데이터 셋 구축방법을 가이드라인을 통해 소개 하였고, 이를 통해 다른 산업분야에서 기계독해 태스크를 위한 학습 데이터 셋을 구축하고자 할 때 도움이 되고자 한다.
  • 특히 특허상담분야에서 전문 상담을 위해서는 법률적 지식과 업무 도메인에 특화된 전문용어를 이해할 수 있는 전문 지식을 필요로 한다. 따라서 본 연구에서는 사용자 질의에 대한 정답이 될 수 있는 내용을 해당 문서 내에서 기계가 내용을 이해하여 정답의 위치를 추론하는 자연어처리 분야의 태스크인 기계독해 (MRC, Machine Reading Comprehension) 기술을 통해 문제를 해결하고자 하며, 전문 기술용어와 법률정보가 포함되어 있는 특허상담분야로 한정하여 실험을 진행하고자 한다.
  • 본 논문에서는 Input 데이터에 대한 임베딩 방식을 개선하여 학습률을 상승 시키는 한국어 언어처리 알고리즘을 제안한다. 이 방식을 ReTE(ReTokenizing for Input Embedding) 로 지칭한다.
  • 본 논문에서는 특허분야 기계독해 연구를 위한 특허상담 데이터 셋을 구축하는 방법을 제안하고, 특허상담 기계독해 학습데이터를 구축하여 시험을 진행한다.
  • 우리는 구축한 특허상담 데이터 셋과 기계독해 실험을 통해 최적화한 노하우를 바탕으로 다양한 모습으로 진화하고 있는 자동 질의응답 연구를 지속하고자 한다. 뿐만 아니라 학습 데이터를 확장 구축하여 다양한 분야의 질의에 대응하도록 하고, 다른 개선된 심층 신경망 네트워크 적용 및 특허분야 언어처리 알고리즘 개선을 통해 기존보다 성능 향상을 기대할 수 있는 방안에 대해서 연구 할 예정이다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
시나리오 기반으로 접근하는 방식의 한계는 무엇인가? 지금까지의 기술은 다양한 질의 유형과 표현에 대응하기 위해서 머신러닝 기반의 자연어처리를 하여 시나리오 기반인 액션의 흐름에 따라 정답을 찾아가는 과정이 필요하다. 시나리오 기반으로 접근하는 방식은 다양한 산업분야에서 유연하게 적용하기 어렵고, 전문지식이 필요한 질의에 는 정확한 정보 전달을 위해 직접 관련 문서를 찾아야하기 때문에 신속하고 정확하게 답변하는 데에는 한계가 있다. 특히 특허상담분야에서 전문 상담을 위해서는 법률적 지식과 업무 도메인에 특화된 전문용어를 이해할 수 있는 전문 지식을 필요로 한다.
기계독해란 무엇인가? 기계독해는(Machine reading comprehension) 사용자 질의와 관련된 문서를 기계가 이해한 후 정답을 추론하는 인공지능 자연어처리 태스크를 말하며, 이러한 기계독해는 챗봇과 같은 자동상담 서비스에 활용될 수 있다. 최근 자연어처리 분야에서 가장 높은 성능을 보이고 있는 BERT 언어모델은 대용량의 데이터를 pre-training 한 후에 각 자연어처리 태스크에 대해 fine-tuning하여 학습된 모델로 추론함으로써 문제를 해결하는 방식이다.
BERT 모델을 활용한 학습방법은 무엇이 있는가? BERT[3]의 학습 방법은 두 가지가 있는데 첫 번째 masked language model(MLM)는 앞의 n개의 단어를 가지고 뒤에 단어를 예측하는 일반적인 unidirectional 방식과 달리 input전체의 token 중 일정 비율의 token을 masking 하고 input 전체와 mask된 token을 한번에 transformer encoder 구조에 넣어서 주변 단어의 context만을 보고 mask된 단어를 예측하는 deep bidirectional 학습방식이다. 두 번째 next sentence prediction(NSP) 방식은 두 문장에 대해서 두 번째 문장이 코퍼스 내에서 첫 번째 문장의 바로 다음에 오는지 여부를 예측하는 학습방법이다. 위 두 가지 학습방식을 이용하여 BERT 모델의 마지막 transformer layer에 기계독해 태스크를 위한 자질을 추가하고 fine-tuning 함으로써 질의응답 문제를 해결한다.
질의응답 정보가 도움이 되었나요?

참고문헌 (12)

  1. P. Rajpurkar, J. Zhang, K. Lopyrev, and P. Liang, "Squad: 100,000+ questions for machine comprehension of text," arXiv preprint arXiv:1606.05250, 2016. 

  2. S. Lim, M. Kim, and J. Lee, "KorQuAD: Korean QA Dataset for Machine Comprehension," in Proceedings of the Korea Software Congress 2018, pp.539-541, 2018. 

  3. D. Jacob, C. Ming-Wei, L. Kenton, and T. Kristina, "Bert: pre-training of deep bidirectional transformers for language understanding," arXiv preprint arXiv:1810.04805, 2018. 

  4. A. Wang, A. Singh, J. Michael, F. Hill, O. Levy, and S. R. Bowman, "Glue: A multi-task benchmark and analysis platform for natural language understanding," arXiv preprint arXiv:1804.07461, 2018. 

  5. A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, and L. Kaiser, "Attention is all you need," Advances in Neural Information Processing Systems. 2017. 

  6. K. H. Park, S. H. Na, Y.S. Choi, and D. S. Chang, "BERT and Multi-level Co-Attention Fusion for Machine Reading Comprehension," in Proceedings of the Korea Software Congress 2019, pp.643-645, 2019. 

  7. D. Lee, C. Park, C. Lee, S. Park, S. Lim, M. Kim, and J. Lee, "Korean Machine Reading Comprehension using BERT," in Proceedings of the Korea Computer Congress 2019, pp.557-559, 2019. 

  8. T. Lei, Y. Zhang, S.I. Wang, H. Dai, and Y. Artzi. "Simple Recurrent Units for highly Parallelizable Recurrence," arXiv:1709.02755v5, 2018. 

  9. Z. Yang, Z. Dai, Y. Yang, J. Carbonell, R. R. Salakhutdinov, and Q. V. Le, "XLNet: Generalized Autoregressive Pretraining for Language Understanding," arXiv preprint arXiv: 1906.08237, 2019. 

  10. Z. Lan, M. Chen, S. Goodman, K. Gimpel, P. Sharma, and R. Soricut, "Albert: A lite bert for self-supervised learning of language representations," arXiv preprint arXiv:1909.11942, 2019. 

  11. Y. Wu, M. Schuster, Z. Chen, Q, V. Le, and M. Norouzi, "Google's neural machine translation system: Bridging the gap between human and machine translation," arXiv preprint arXiv:1609.08144, 2016. 

  12. D. P. Kingma and J. L. Ba, "Adam: A method for stochastic optimization," arXiv preprint arXiv:1412.6980, 2014. 

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로