[논문]BERT를 이용한 한국어 특허상담 기계독해

민재옥; 박진우; 조유정; 이봉건

doi:10.3745/ktsde.2020.9.4.145

BERT를 이용한 한국어 특허상담 기계독해
Korean Machine Reading Comprehension for Patent Consultation Using BERT 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.9 no.4, 2020년, pp.145 - 152

민재옥 (한국특허정보원 R&D센터 연구개발파트) , 박진우 (한국특허정보원 R&D센터) , 조유정 (한국특허정보원 R&D센터) , 이봉건 (한국특허정보원 특허넷응용팀 특허넷응용팀)

초록
AI-Helper

기계독해는(Machine reading comprehension) 사용자 질의와 관련된 문서를 기계가 이해한 후 정답을 추론하는 인공지능 자연어처리 태스크를 말하며, 이러한 기계독해는 챗봇과 같은 자동상담 서비스에 활용될 수 있다. 최근 자연어처리 분야에서 가장 높은 성능을 보이고 있는 BERT 언어모델은 대용량의 데이터를 pre-training 한 후에 각 자연어처리 태스크에 대해 fine-tuning하여 학습된 모델로 추론함으로써 문제를 해결하는 방식이다. 본 논문에서는 BERT기반 특허상담 기계독해 태스크를 위해 특허상담 데이터 셋을 구축하고 그 구축 방법을 소개하며, patent 코퍼스를 pre-training한 Patent-BERT 모델과 특허상담 모델학습에 적합한 언어처리 알고리즘을 추가함으로써 특허상담 기계독해 태스크의 성능을 향상시킬 수 있는 방안을 제안한다. 본 논문에서 제안한 방법을 사용하여 특허상담 질의에 대한 정답 결정에서 성능이 향상됨을 보였다.

Abstract ▼ AI-Helper

MRC (Machine reading comprehension) is the AI NLP task that predict the answer for user's query by understanding of the relevant document and which can be used in automated consult services such as chatbots. Recently, the BERT (Pre-training of Deep Bidirectional Transformers for Language Understanding) model, which shows high performance in various fields of natural language processing, have two phases. First phase is Pre-training the big data of each domain. And second phase is fine-tuning the model for solving each NLP tasks as a prediction. In this paper, we have made the Patent MRC dataset and shown that how to build the patent consultation training data for MRC task. And we propose the method to improve the performance of the MRC task using the Pre-trained Patent-BERT model by the patent consultation corpus and the language processing algorithm suitable for the machine learning of the patent counseling data. As a result of experiment, we show that the performance of the method proposed in this paper is improved to answer the patent counseling query.

주제어

표/그림 (16)

표 Table 1. Example of Patent Consultation Training Data Set
표 Table 2. Statistics of Dataset Category
그림 Fig. 1. Performance Evaluation by Types
그림 Fig. 2. Flow Chart of Experiment for Patent Consultation MRC
표 Table 3. Types of Patent Query
표 Table 4. Number of Answer Length
표 Table 5. Number of Patent Consultation Data Set
표 Table 6. Scores of Baseline Model
표 Table 7. Scores of Fine Tuned Model
표 Table 8. Scores of Pre-trained Wiki Model
그림 Fig. 3. Scores of Each Model for Patent Dataset
표 Table 9. Comparison of Word Error Count by Tokenizer
그림 Fig. 4. Example of Applying ReTE in Input Embedding
그림 Fig. 5. Pseudo Code of ReTE Algorithm
표 Table 10. Scores of ReTE applied Model
표 Table 11. Scores of ReTE applied Model by Pre-Trained

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

기계독해 학습 데이터 셋 구축방법을 가이드라인을 통해 소개 하였고, 이를 통해 다른 산업분야에서 기계독해 태스크를 위한 학습 데이터 셋을 구축하고자 할 때 도움이 되고자 한다.
특히 특허상담분야에서 전문 상담을 위해서는 법률적 지식과 업무 도메인에 특화된 전문용어를 이해할 수 있는 전문 지식을 필요로 한다. 따라서 본 연구에서는 사용자 질의에 대한 정답이 될 수 있는 내용을 해당 문서 내에서 기계가 내용을 이해하여 정답의 위치를 추론하는 자연어처리 분야의 태스크인 기계독해 (MRC, Machine Reading Comprehension) 기술을 통해 문제를 해결하고자 하며, 전문 기술용어와 법률정보가 포함되어 있는 특허상담분야로 한정하여 실험을 진행하고자 한다.
본 논문에서는 Input 데이터에 대한 임베딩 방식을 개선하여 학습률을 상승 시키는 한국어 언어처리 알고리즘을 제안한다. 이 방식을 ReTE(ReTokenizing for Input Embedding) 로 지칭한다.
본 논문에서는 특허분야 기계독해 연구를 위한 특허상담 데이터 셋을 구축하는 방법을 제안하고, 특허상담 기계독해 학습데이터를 구축하여 시험을 진행한다.
우리는 구축한 특허상담 데이터 셋과 기계독해 실험을 통해 최적화한 노하우를 바탕으로 다양한 모습으로 진화하고 있는 자동 질의응답 연구를 지속하고자 한다. 뿐만 아니라 학습 데이터를 확장 구축하여 다양한 분야의 질의에 대응하도록 하고, 다른 개선된 심층 신경망 네트워크 적용 및 특허분야 언어처리 알고리즘 개선을 통해 기존보다 성능 향상을 기대할 수 있는 방안에 대해서 연구 할 예정이다.

제안 방법

1차로 전문상담사가 질의의 비중이 높은 분야별로 절차를 구분하고 해당 절차에 대한 상담이력데이터와 특허법령 및 관련문서를 수집·정제하여 Title, Category, Context, Question과 Answer을 생성한다.
데이터 셋 포맷은 Context-Question-Answer을 기본으로 Id, Title, Category로 구성하고, Id는 총 15자리로 Category 속 성번호-Context번호-Question번호로 구성한다. Category는 대분류-중분류-소분류로 구조적인 절차의 형식으로 작성하여 분류 및 법률이 개정되어도 Id와 Category를 활용해서 쉽게 수정이 가능하도록 하였다. 또한 하나의 Context안에 같은 용어의 Answer가 여러 개 있는 경우 해당 위치의 정답을 정확하게 예측 하도록 모델을 학습시키기 위해서 최초 데이터 생성 시 Context 내 정답위치에 정답태그(<||>)를 부착한다.
Error count가 적으면서 가장 빠르며 학습 평가결과가 높게 나온 Mecab을 tokenizer로 사용하여 실험한다.
Fine-tuning 실험으로 성능 향상을 확인 후 한국어 코퍼스를 학습하는 pre-training에 대한 실험을 진행한다.
Pre-trained base 모델에서 하이퍼 파라미터 설정만으로 fine-tuning하고 평가를 진행하여 최적의 결과 값을 도출한 다. 실험을 통해 얻은 최적의 하이퍼 파라미터는 word 단위의 tokenizing 방식은 basic tokenizer이고, sub word 단위는 WPM으로 하였다.
Question는 하나의 Context에 대해 최소 10개 이상의 질의를 생성하도록 하였고, 3가지 유형으로 나누어서 구축 하였다.
공개되어 있는 일반상식분야의 한국어 표준 데이터 셋과 본 연구에서 구축한 특허상담 데이터 셋을 대상으로 기계독해 태스크 결과를 baseline으로 하고, 다양한 실험 과정에서 기계독해 성능 향상을 이룬 모델학습 방법 및 언어처리 알고리즘을 제안한다. 또한 추가적으로 구축한 patent 코퍼스를 사용하여 최적화된 patent 언어모델을 사용하는 것이 특허 상담 기계독해 태스크에서 성능이 향상 되는지를 실험하고 평가한 결과를 제공한다.
pre-trained wiki 모델은 대용량 한국어 코퍼스를 학습한 모델임에도 base 모델과 큰 차이가 없었다는 것은 대용량의 코퍼스가 반드시 좋은 성능을 낼 수 있을 것이라고 판단할 수 없다. 그에 따라 patent 코퍼스로 학습한 pre-trained patent 모델로 실험을 진행하기로 한다.
43% 정확도를 달성 하였다. 논문 [7]에서는 ETRI에서 공개한 BERT 모델에 자질(exact match, term frequency, NER)과 SRU (Simple Recurrent Unit)[8]을 추가한 기법을 제안하여 F1 93.04% 정확도를 보였으나, 본 논문에서는 BERT 모델 종류와 코퍼스의 종류 및 양에 따른 정량적인 비교실험이 아니어 서 적합하지 않다고 판단하였고 특허상담을 위한 실험을 위해 BERT-base 모델에서 자체적으로 구축한 한국어 코퍼스 및 patent 코퍼스를 학습한 것으로 비교실험을 진행하였다.
데이터 셋 포맷은 Context-Question-Answer을 기본으로 Id, Title, Category로 구성하고, Id는 총 15자리로 Category 속 성번호-Context번호-Question번호로 구성한다. Category는 대분류-중분류-소분류로 구조적인 절차의 형식으로 작성하여 분류 및 법률이 개정되어도 Id와 Category를 활용해서 쉽게 수정이 가능하도록 하였다.
또한 BERT 공개 이후 XLNet[9], Albert[10] 등 개선된 모델을 공개하였지만 대용량 한국어 코퍼스로 pre-training 하여 실험 해본 결과 한국어 언어처리에 적합한 다국어처리 모델인 BERT-base Multilingual Cased 모델이 더 좋은 성능을 보였기 때문에 BERT-base Multilingual Cased 모델을 사용하였고, 특허상담분야에서 성능 향상을 위해 모델학습 과정에서 최적화를 이룰 수 있는 한국어 언어처리 기법을 제안한다.
본 논문에서는 특허상담 데이터 셋의 수집, 정제, 포맷, 글자길이 등은 기계독해 실험으로 최적의 값을 얻은 적합한 범위를 선정하여 데이터 셋 구축 가이드라인으로 제안한다.
빈칸 채우기 정도의 낮은 수준의 유형부터 문단 내에 없는 단어를 사용하여 단서가 부족한 질의에 대한 추론을 요구하는 어려운 유형의 질의로 다양한 질의를 생성하도록 하였으며, 질의의 글자 수는 5~100자로 제한한다.
1차로 전문상담사가 질의의 비중이 높은 분야별로 절차를 구분하고 해당 절차에 대한 상담이력데이터와 특허법령 및 관련문서를 수집·정제하여 Title, Category, Context, Question과 Answer을 생성한다. 생성한 데이터를 작업자에게 전달하면 작업자는 데이터 셋 포맷에 따라 가공 후 Context, Question, Answer에 대한 맞춤법 검사, 불용어 처리, 생성 기준적용 등 2차로 정제하고 생성한 데이터 셋에 대해 정확한 정보인지 전문상담사의 3차 검수를 거쳐 질의응답 셋을 구축한다.
기계독해 언어모델은 BERT-base Multilingual Cased 모델(transformer block:12, self-attention head:12, hidden size:768, activate function:gelu, vocab size:119547)을 base 모델로 사용한다. 실험은 pre-training에서는 base 모델, base 모델을 기반으로 patent 코퍼스를 추가 학습한 모델, base 모델을 기반으로 한국어 위키백과 코퍼스를 추가 학습한 모델 등 코퍼스 종류에 따른 성능 평가, fine-tuning 에서는 한국어 tokenization 기법, 하이퍼 파라미터 최적화 여부에 따른 성능 평가, 제안한 언어처리 알고리즘 적용 여부에 따른 성능 평가로 나누어서 비교 실험을 진행한다. 이러한 유형별 비교 실험을 통해 특허상담분야에서 기계독해 적용을 위한 최적의 방법을 도출하고자 하며, Fig.
Pre-trained base 모델에서 하이퍼 파라미터 설정만으로 fine-tuning하고 평가를 진행하여 최적의 결과 값을 도출한 다. 실험을 통해 얻은 최적의 하이퍼 파라미터는 word 단위의 tokenizing 방식은 basic tokenizer이고, sub word 단위는 WPM으로 하였다. 입력 시퀀스 최대 길이는 128, 문단 stride는 64, 쿼리 최대 길이는 64, optimizer는 adam, learning rate는 5e-6, 정답 최대길이는 30으로 설정하였 다.
두 번째 next sentence prediction(NSP) 방식은 두 문장에 대해서 두 번째 문장이 코퍼스 내에서 첫 번째 문장의 바로 다음에 오는지 여부를 예측하는 학습방법이다. 위 두 가지 학습방식을 이용하여 BERT 모델의 마지막 transformer layer에 기계독해 태스크를 위한 자질을 추가하고 fine-tuning 함으로써 질의응답 문제를 해결한다. 이는 Question에 정답이 되는 Context의 start vector(S∈R^H)와 end vector(E∈R^H)를 fine-tuning 하여 지문의 각 token들과 scalar product하여 시작과 끝을 찾는 태스크로 문제를 해결하는 것으로 기존에 학습되어져 있는 모델을 기반으로 특정 태스크에 적합한 데이터를 학습하고 모델을 변형하여 학습된 모델의 가중치(weights)를 업데이트 하는 representation learning 방법이다.
ReTE는 token embedding 단계에서 적용 하는데 먼저 데 이터 셋의 context에서 answer index에 따라 answer 영역을 추출한다. 이후 input으로 보낸 후 tokenizer로 tokenizing하고 다시 복원과정을 거쳐 real answer와 비교를 한다. Mecab tokenizer는 용어 앞뒤로 등장하는 용어에 따라 연접비용을 계산하여 가장 적합하게 tokenizing 하기 때문에 같은 용어라도 다르게 tokenizing 될 수 있다.
48%로 KorQuAD의 상승 폭 보다 특허상담 데이터 셋의 상승 폭이 더 높은 것으로 보아 특허상담 데이터 셋에 맞는 fine-tuning이라고 할 수 있다. 이후 이어지는 다른 실험에서도 설정한 하이퍼 파라미터 값으로 좋은 결과를 얻었기 때문에 특허분야 데이터 셋에 대한 최적 설정 값으로 제안한다.
Table 5는 특허상담 질의응답 데이터 셋의 구축 현황이 다. 총 6,011건의 특허상담 질의응답 데이터 셋을 구축하였 고, 모델학습을 위해 training set, dev set을 9대1로 분할하여 본 논문 실험에 적용한다.
Patent 코퍼스는 특허상담 데이터 셋의 수집대상 문서인 특허고객 상담센터의 상담이력 데이터, 특허법령 및 출원ㆍ심사ㆍ 등록ㆍ심판 등 지식재산권별 절차와 질의응답으로 서술 되어있는 특허고객 상담사례집을 기반으로 한다. 특수문자, 이미지, 표 를 제외한 context에 해당하는 가장 하위 레벨의 내용을 추출 하고 정제과정을 거쳐 기초 데이터를 구축 후 NLTK(Natural Language Tool Kit) sentence tokenizer를 이용해 문장 분리를 한다. 한 줄에 한 문장씩 위치시키고, 한 문단이 끝나면 문단 간 구분을 위해 공백 줄을 삽입시키는 과정을 반복적 으로 실행함으로써 총 5,780 문장의 학습 코퍼스를 구축하였다.
특허상담 데이터 셋 및 pre-training 코퍼스에 대한 최적화 방안에 대한 연구이므로 Google에서 공개한 BERT finetuning의 기본 설정 값을 적용하여 학습한 모델의 결과를 유형별로 baseline으로 지정 하였다. 기본 설정 값은word 단위의 tokenizing 방식은 basic tokenizer로 하고, sub word 단위는 WPM(Word Piece Model)[11], 입력 시퀀스 최대 길이는 128, 문단 stride는 64, 쿼리 최대 길이는 64, optimizer는 adam[12], learning rate는 3e-5, 정답 최대길이는 30으로 설정한다.
5는 input 데이터의 임베딩 방식을 개 선하기 위한 input token 결정 과정을 나타낸 것 이다. 특허상담 데이터 셋 평가에서는 pre-trained base 모델 에서 최적화한 fine-tuning 평가와 pre-trained wiki 모델 에서 Mecab tokenizer와 ReTE 기법을 적용한 평가와 비교 실험을 한다.
이 중 Google에서 공개한 word 단위 tokenization 방식은 영문의 텍스트를 기반으로 하여, 띄어 쓰기를 기준으로 각 word 들을 tokenization 하는 방식 (Basic Tokenizer)을 사용하고 있다. 하지만 한국어의 경우 word는 조사를 비롯한 여러 품사들이 단어와 같이 사용되는 특성이 존재하므로, 본 논문에서는 한국어 특화된 word 단 위 tokeniation을 위해서 한국어 형태소 분석기를 사용하기 로 한다. 한국어 형태소 분석기는 OKT, Mecab, KhAiii 등 이 있으며, 형태소 분석기를 혼합하여 사용할 수도 있다.
특수문자, 이미지, 표 를 제외한 context에 해당하는 가장 하위 레벨의 내용을 추출 하고 정제과정을 거쳐 기초 데이터를 구축 후 NLTK(Natural Language Tool Kit) sentence tokenizer를 이용해 문장 분리를 한다. 한 줄에 한 문장씩 위치시키고, 한 문단이 끝나면 문단 간 구분을 위해 공백 줄을 삽입시키는 과정을 반복적 으로 실행함으로써 총 5,780 문장의 학습 코퍼스를 구축하였다.
한국어 포함 103 languages 언어처리가 가능한 BERT-base Multilingual Cased 모델로 대형 코퍼스에서 unsupervised learning으로 general-purpose language understanding 모델을 구축하고 supervised learning으로 fine-tuning 하여 태스크를 해결한다. 자연어처리에서 일반적으로 사용하는 recurrent neural network 방식과 달리 BERT 모델은 recurrent 하지 않아서 장기 의존성 문제점(Long term dependency)을 해결하였고, 더 좋은 성능을 낼 수 있는 양방향성을 가진 transformer의 인코더를 사용한 self-attention mechanism 모델링[5] 기법이다.

대상 데이터

Pre-training에 사용할 코퍼스의 유형과 양에 대한 비교 실험을 위해 수집한 한국어 위키백과 472만 문장의 코퍼스를 학습한다.
기계독해 테스크를 위한 데이터 셋으로는 영문으로 된 SQuAD (Stanford Question Answering Dataset)[1]가 대표적이며, 한국어 데이터 셋으로는 SQuAD를 벤치마킹하여 구축한 KorQuAD(the Korean Question Answering Dataset)[2]가 대표적인 표준 데이터 셋이다.
본 논문에서는 특허상담분야에서 기계독해 연구를 할 수 있도록 특허상담 데이터 셋을 구축하였다. 특허상담 코퍼스와 질의응답 데이터 셋은 추가 구축 및 품질 개선이 이루어진 후 공개 할 예정이다.
연구에 사용한 장비는 OS : Ubuntu 16.04, CPU : 24 cores, Memory : 128GB, GPU : NVIDIA Tesla P100 12GB * 2개를 사용하여 실험하였다.
특허상담 데이터 셋의 수집 대상문서는 특허고객 상담센터의 상담이력 데이터, 특허법령 및 출원ㆍ심사ㆍ등록ㆍ심판 등 지식재산권별 절차와 질의응답으로 서술 되어있는 특허고객 상담사례집을 수집하였고 단순 질의유형 및 질의비중이 높은 산업재산권제도>등록절차>수수료>중간절차>심사절차>심판 절차 순으로 대상을 선정하였다.

데이터처리

1에서 성능평가 지표는 EM(Exact Match)와 F1 score 로 EM score는 한국어 기준 정답의 어절단위가 정확하게 일치하는 정도이고, F1 score는 예측한 정답과 실제 정답 간의 정밀도와 재현율의 조화평균 값이다. 이후 실험에 대한 모든 성능평가 지표는 EM, F1 score로 평가를 한다.

이론/모형

Google Cloud Platform과 Google Colaboratory를 이용하였고 train batch size는 16, max sequence length는 128, max predictions per seq는 20, learning rate는 3e-5로 설정하여 최적의 학습률을 얻기 위해 6일간의 학습 기간을 거쳐 400만 global step에서 masked lm accuracy 는 86%, next sentence prediction은 100%을 달성한 pre-trained Patent 모델을 사용하였다.
기계독해 알고리즘은 Q&A(Question and Answering), 챗봇 (ChatBot)과 같은 자동 질의응답 시스템의 핵심이 될 수 있는 인공 지능 기술이며, 본 논문에서는 Google에서 공개한 고성능의 언어모델인 BERT(pre-training of Deep Bidirectional Transformers for Language Understanding) 모델[3]을 사용한다.
기계독해 언어모델은 BERT-base Multilingual Cased 모델(transformer block:12, self-attention head:12, hidden size:768, activate function:gelu, vocab size:119547)을 base 모델로 사용한다. 실험은 pre-training에서는 base 모델, base 모델을 기반으로 patent 코퍼스를 추가 학습한 모델, base 모델을 기반으로 한국어 위키백과 코퍼스를 추가 학습한 모델 등 코퍼스 종류에 따른 성능 평가, fine-tuning 에서는 한국어 tokenization 기법, 하이퍼 파라미터 최적화 여부에 따른 성능 평가, 제안한 언어처리 알고리즘 적용 여부에 따른 성능 평가로 나누어서 비교 실험을 진행한다.
위키백과 코퍼스를 학습한 pre-trained wiki 모델과 비교 실험을 위해 patent 코퍼스를 사용하여 pre-trained patent 모델과 pre-trained wiki+patent 모델을 생성한다.

성능/효과

Fine-tuning에서 ReTE을 적용하였고, pre-trained base 모델과 pre-trained patent 모델과의 비교 평가에서는 EM은 65.88%에서 66.50%로 상승하였고, F1도 81.90%에서 82.45% 로 상승하였다. 그리고 wiki 코퍼스까지 추가로 학습한 pretrained wiki+patent 모델에서는 큰 변화가 보이지 않았다.
Pre-trained base 모델과 pre-trained wiki 모델에서 최적화한 fine-tuning을 진행한 결과에도 EM은 34.43%에서 31.60% 로 하락하였고, F1도 63.91%에서 59.04%로 하락하였다.
68%로 큰 폭으로 상승하였다는 것을 알 수 있다. ReTE 기법을 KorQuAD에 적용해 본 결과 pre-trained wiki 모델에서 EM은 69.41%에서 85.38%, F1은 89.03%에서 93.42%로 큰 폭으로 상승하면서 가장 높은 점수를 기록하였다.
ReTE 기법을 적용함으로써 pre-trained base 모델에서 EM은 34.43%에서 65.88%로 상승하였고, F1은 63.91%에서 81.90%으로 크게 상승하였다. pre-trained wiki 모델에서 는 EM은 31.
Representation language model인 BERT 모델을 활용한 특허상담분야 기계독해 실험에서는 위키백과 코퍼스를 사용하지 않고 patent 코퍼스만을 학습한 pre-trained patent 모델과 ReTE를 적용한 fine-tuning에서 EM 66.50%, F1 82.45%로 점수가 가장 높게 나왔다.
결과적으로 특허상담 데이터 셋에 대한 평가는 pretrained patent 모델과 ReTE를 적용한 실험에서 가장 높은 점수를 얻었다. Table 11은 평가결과이다.
결론적으로 데이터 셋의 context에서 answer로 지정된 token의 복원된 값들이 real answer와 일치하도록 하여 용어 인식의 탈락을 최소화하여 모델학습을 하는 것으로 성능을 올릴 수 있다. 다만, prediction 단계에서는 정답을 미리 알 수 없기 때문에 ReTE 알고리즘을 적용하지 않지만 ReTE 를 통해 성능이 올라간 모델을 사용하여 prediction을 하기 때문에 결국 전체 평가에서 성능이 향상된 결과를 보인다.
기본 설정 값에서 KorQuAD 데이터에 대한 기계독해 평가는 실험 장비의 하드웨어 성능에 맞추어 batch size을 32로 학습하여 EM 66.73%, F1 86.99%로 나왔다. 특허상담 데이터 셋 에 대한 기계독해 평가는 EM 31.
논문 [6]에서 제안하는 것은 max sequence length 파라 미터에 의해 학습에 사용하지 않는 문자열이 발생하는 문제가 있는데 길이가 512보다 긴 시퀀스 경우 한 번에 처리할 수 있도록 개선한 Multi-level attention에 Co-attention과 Fusion 함수를 결합하여 적용한 모델을 제안하여 F1 92.43% 정확도를 달성 하였다. 논문 [7]에서는 ETRI에서 공개한 BERT 모델에 자질(exact match, term frequency, NER)과 SRU (Simple Recurrent Unit)[8]을 추가한 기법을 제안하여 F1 93.
대용량 코퍼스를 pre-training하고 fine-tuning을 통해 대체적으로 성능 향상을 이루었지만, 해결하고자 하는 분야에 맞는 코퍼스로 pre-training을 하고 fine-tuning 최적화 과정을 통해 더 좋은 성능평가 결과가 나왔다는 결과를 도출하였다. 또한 모델학습 과정에서 본 논문에서 제안한 한국어 형태소 분석기(Mecab)와 한국어 언어처리 알고리즘(ReTE)을 input embedding 영역에 적용하였을 때 가장 큰 효과가 있었다.
대용량 코퍼스를 pre-training하고 fine-tuning을 통해 대체적으로 성능 향상을 이루었지만, 해결하고자 하는 분야에 맞는 코퍼스로 pre-training을 하고 fine-tuning 최적화 과정을 통해 더 좋은 성능평가 결과가 나왔다는 결과를 도출하였다. 또한 모델학습 과정에서 본 논문에서 제안한 한국어 형태소 분석기(Mecab)와 한국어 언어처리 알고리즘(ReTE)을 input embedding 영역에 적용하였을 때 가장 큰 효과가 있었다.
위키백과 코퍼스로 pre-training한 모델에서 최적의 하이퍼 파라미터 설정 값으로 fine-tuning한 결과 KorQuAD 평가에서는 EM은 67.68%에서 69.41%로, F1은 87.59%에서 89.03%로 소폭 상승하지만, 특허상담 데이터 셋 기계독해 평가에서는 Table 7의 결과처럼 EM은 36.63%에서 31.60%로 하락하였고, F1도 64.21%에서 59.04%로 크게 하락하였다.
3은 baseline을 기준으로 fine-tuning 평가와 pretrained wiki 모델의 기계독해 평가 결과이다. 일반상식분야의 위키백과를 학습한 pre-trained wiki 모델에서의 평가 결과는 특허상담 데이터 셋에서 성능이 상승한 것으로 확인했던 fine-tuning의 설정 값을 적용 하였지만, baseline 보다는 점수가 높게 나왔고, pre-trained base 모델에서 fine-tuning으 로 최적화한 모델 보다 낮게 나왔다.
특허상담 데이터 셋 기계독해 평가에서 baseline 대비 EM 은 31.28%에서 34.43%로 상승하였고, F1은 58%에서 63.91% 로 크게 상승 하였다.
특허상담 데이터 셋의 경우 데이터 특성에 따라 token error count가 많이 발생하였기 때문에 ReTE를 적용함으로써 높은 성능 효과를 볼 수 있었다. 일반상식분야의 데이터 셋 상승 폭 보다 더 높은 상승 폭의 결과가 나왔다.

후속연구

공개되어 있는 일반상식분야의 한국어 표준 데이터 셋과 본 연구에서 구축한 특허상담 데이터 셋을 대상으로 기계독해 태스크 결과를 baseline으로 하고, 다양한 실험 과정에서 기계독해 성능 향상을 이룬 모델학습 방법 및 언어처리 알고리즘을 제안한다. 또한 추가적으로 구축한 patent 코퍼스를 사용하여 최적화된 patent 언어모델을 사용하는 것이 특허 상담 기계독해 태스크에서 성능이 향상 되는지를 실험하고 평가한 결과를 제공한다.
우리는 구축한 특허상담 데이터 셋과 기계독해 실험을 통해 최적화한 노하우를 바탕으로 다양한 모습으로 진화하고 있는 자동 질의응답 연구를 지속하고자 한다. 뿐만 아니라 학습 데이터를 확장 구축하여 다양한 분야의 질의에 대응하도록 하고, 다른 개선된 심층 신경망 네트워크 적용 및 특허분야 언어처리 알고리즘 개선을 통해 기존보다 성능 향상을 기대할 수 있는 방안에 대해서 연구 할 예정이다.
본 논문에서는 특허상담분야에서 기계독해 연구를 할 수 있도록 특허상담 데이터 셋을 구축하였다. 특허상담 코퍼스와 질의응답 데이터 셋은 추가 구축 및 품질 개선이 이루어진 후 공개 할 예정이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	시나리오 기반으로 접근하는 방식의 한계는 무엇인가?	지금까지의 기술은 다양한 질의 유형과 표현에 대응하기 위해서 머신러닝 기반의 자연어처리를 하여 시나리오 기반인 액션의 흐름에 따라 정답을 찾아가는 과정이 필요하다. 시나리오 기반으로 접근하는 방식은 다양한 산업분야에서 유연하게 적용하기 어렵고, 전문지식이 필요한 질의에 는 정확한 정보 전달을 위해 직접 관련 문서를 찾아야하기 때문에 신속하고 정확하게 답변하는 데에는 한계가 있다. 특히 특허상담분야에서 전문 상담을 위해서는 법률적 지식과 업무 도메인에 특화된 전문용어를 이해할 수 있는 전문 지식을 필요로 한다.
	기계독해란 무엇인가?	기계독해는(Machine reading comprehension) 사용자 질의와 관련된 문서를 기계가 이해한 후 정답을 추론하는 인공지능 자연어처리 태스크를 말하며, 이러한 기계독해는 챗봇과 같은 자동상담 서비스에 활용될 수 있다. 최근 자연어처리 분야에서 가장 높은 성능을 보이고 있는 BERT 언어모델은 대용량의 데이터를 pre-training 한 후에 각 자연어처리 태스크에 대해 fine-tuning하여 학습된 모델로 추론함으로써 문제를 해결하는 방식이다.
	BERT 모델을 활용한 학습방법은 무엇이 있는가?	BERT[3]의 학습 방법은 두 가지가 있는데 첫 번째 masked language model(MLM)는 앞의 n개의 단어를 가지고 뒤에 단어를 예측하는 일반적인 unidirectional 방식과 달리 input전체의 token 중 일정 비율의 token을 masking 하고 input 전체와 mask된 token을 한번에 transformer encoder 구조에 넣어서 주변 단어의 context만을 보고 mask된 단어를 예측하는 deep bidirectional 학습방식이다. 두 번째 next sentence prediction(NSP) 방식은 두 문장에 대해서 두 번째 문장이 코퍼스 내에서 첫 번째 문장의 바로 다음에 오는지 여부를 예측하는 학습방법이다. 위 두 가지 학습방식을 이용하여 BERT 모델의 마지막 transformer layer에 기계독해 태스크를 위한 자질을 추가하고 fine-tuning 함으로써 질의응답 문제를 해결한다.

참고문헌 (12)

P. Rajpurkar, J. Zhang, K. Lopyrev, and P. Liang, "Squad: 100,000+ questions for machine comprehension of text," arXiv preprint arXiv:1606.05250, 2016.
S. Lim, M. Kim, and J. Lee, "KorQuAD: Korean QA Dataset for Machine Comprehension," in Proceedings of the Korea Software Congress 2018, pp.539-541, 2018.
D. Jacob, C. Ming-Wei, L. Kenton, and T. Kristina, "Bert: pre-training of deep bidirectional transformers for language understanding," arXiv preprint arXiv:1810.04805, 2018.
A. Wang, A. Singh, J. Michael, F. Hill, O. Levy, and S. R. Bowman, "Glue: A multi-task benchmark and analysis platform for natural language understanding," arXiv preprint arXiv:1804.07461, 2018.
A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, and L. Kaiser, "Attention is all you need," Advances in Neural Information Processing Systems. 2017.
K. H. Park, S. H. Na, Y.S. Choi, and D. S. Chang, "BERT and Multi-level Co-Attention Fusion for Machine Reading Comprehension," in Proceedings of the Korea Software Congress 2019, pp.643-645, 2019.
D. Lee, C. Park, C. Lee, S. Park, S. Lim, M. Kim, and J. Lee, "Korean Machine Reading Comprehension using BERT," in Proceedings of the Korea Computer Congress 2019, pp.557-559, 2019.
T. Lei, Y. Zhang, S.I. Wang, H. Dai, and Y. Artzi. "Simple Recurrent Units for highly Parallelizable Recurrence," arXiv:1709.02755v5, 2018.
Z. Yang, Z. Dai, Y. Yang, J. Carbonell, R. R. Salakhutdinov, and Q. V. Le, "XLNet: Generalized Autoregressive Pretraining for Language Understanding," arXiv preprint arXiv: 1906.08237, 2019.
Z. Lan, M. Chen, S. Goodman, K. Gimpel, P. Sharma, and R. Soricut, "Albert: A lite bert for self-supervised learning of language representations," arXiv preprint arXiv:1909.11942, 2019.
Y. Wu, M. Schuster, Z. Chen, Q, V. Le, and M. Norouzi, "Google's neural machine translation system: Bridging the gap between human and machine translation," arXiv preprint arXiv:1609.08144, 2016.
D. P. Kingma and J. L. Ba, "Adam: A method for stochastic optimization," arXiv preprint arXiv:1412.6980, 2014.

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증