[논문]한국어 기술문서 분석을 위한 BERT 기반의 분류모델

황상흠; 김도현

doi:10.7838/jsebs.2020.25.1.203

한국어 기술문서 분석을 위한 BERT 기반의 분류모델
BERT-based Classification Model for Korean Documents 원문보기

한국전자거래학회지 = The Journal of Society for e-Business Studies, v.25 no.1, 2020년, pp.203 - 214

황상흠 (Department of Industrial & Information Systems Engineering, Seoul National University of Science and Technology) , 김도현 (Department of Industrial and Management Engineering, Myongji University)

초록
AI-Helper

최근 들어 기술개발 현황, 신규기술 분야 출현, 기술융합과 학제 공동연구, 기술의 트렌드 변화 등을 파악하기 위해 R&D 과제정보, 특허와 같은 기술문서의 분류정보가 많이 활용되고 있다. 이러한 기술문서를 분류하기 위해 주로 텍스트마이닝 기법들이 활용되어 왔다. 그러나 기존 텍스트마이닝 방법들로 기술문서를 분류하기 위해서는 기술문서들을 대표하는 특징들을 직접 추출해야 하는 한계점이 있다. 따라서 본 연구에서는 딥러닝 기반의 BERT모델을 활용하여 기술문서들로부터 자동적으로 문서 특징들을 추출한 후, 이를 문서 분류에 직접 활용하는 모델을 제안하고, 이에 대한 성능을 검증하고자 한다. 이를 위해 텍스트 기반의 국가 R&D 과제 정보를 활용하여 BERT 기반 국가 R&D 과제의 중분류코드 예측 모델을 생성하고 이에 대한 성능을 평가한다.

Abstract ▼ AI-Helper

It is necessary to classify technical documents such as patents, R&D project reports in order to understand the trends of technology convergence and interdisciplinary joint research, technology development and so on. Text mining techniques have been mainly used to classify these technical documents. However, in the case of classifying technical documents by text mining algorithms, there is a disadvantage that the features representing technical documents must be directly extracted. In this study, we propose a BERT-based document classification model to automatically extract document features from text information of national R&D projects and to classify them. Then, we verify the applicability and performance of the proposed model for classifying documents.

주제어

표/그림 (9)

그림 BERT-based Document Classification Model
표 Prediction Performances Averaged over all Outputs
그림 Precision-Recall Curve on Categories
그림 Actual Category Histogram of Test Data
표 Prediction Performances Averaged over Categories
그림 F-score of Technology Categories
그림 Document Frequency with Respect to the Number of Categories
표 Prediction Performances Averaged over Documents
그림 Document Frequency with Respect to F-score

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구에서는 한국어 BERT 기반 분류 모델의 기술문서 분류 예측 가능성을 확인했다. 이를 위해 사전 학습된 한국어 BERT 모델을 fine-tuning하여 분류 모델을 학습했다.
[1]는 BERT 모델을 문장 분류, 자연어 기반 질의 응답 등에 관한 벤치마크 데이터로 fine-tuning하여 가장 좋은 벤치마크 테스트 성능을 보였다. 본 연구에서는 한국어 데이터로 학습된 BERT 모델을 기반으로 인공지능분과, 지능형로봇 분과에 해당되는 국가과제의 중분류기술명을 예측하는 딥러닝 모델의 예측성능을 확인하고 이를 바탕으로 한국어 BERT 모델의 적용가능성을 살펴보고자 한다. 이를 위해 제2장에서는 관련연구로 Transformer와 BERT 모델에 대해서 살펴보고, 제3장에서는 한국어 BERT 모델을 기반으로 학습된 기술문서분류 모델을 소개한다.
본 장에서는 사전 학습된 한국어 BERT 모델과 국가과제 기술문서 데이터에 대한 설명, 그리고 한국어 BERT 모델을 기반으로 학습된 기술문서 분류 모델에 대해 소개한다.

제안 방법

기술분류 단위의 성능을 보기 위해 총 33개의 기술분류들을 대상으로 각각의 기술분류에 대한 예측성능을 평가했다. 먼저 기술분류 단위로 테스트 데이터의 분포를 시각화하면 [Figure3]과 같다.
이렇게 제거된 입력 단어를 출력 계층에서 예측하게 함으로써 단어의 임베딩을 학습한다. 또한, 단어뿐만 아니라 주어진 문장 사이의 관계도 학습하기 위해 두 개의 문장을 주고 각 문장의 관계를 예측하도록 한다. 예를 들어, A와 B 두 개의 문장을 주고 B 문장이 A 문장 이후에 나타나는 문장인지를 묻는 방식이다.
마지막으로 문서 단위로 예측성능을 평가했다. 먼저 개별 문서들이 몇 개의 기술분야에 속하는지 그 분포를 시각화해보면 [Figure 5]와같다.
성능을 평가하기 위해 구체적으로 개별 기술분류에 대해 각각 F-score, 정밀도, 재현율 값을 계산하고 이의 평균값을 산출하였다. 정확도의 평균값은 개별요소 단위의 예측 성능과 동일하기 때문에 생략하였다.
여기서는 개별 문서 별로 F-score, 정밀도,재현율을 계산하고 전체 문서에 대해 평균을 내어 성능을 평가하였다. 그 성능은 [Table 3]과 같다.
텍스트마이닝을 적용하기 위해서는 먼저 각 기술문서들의 내용을 정확하게 요약하는 특징을 추출하고, 이를 특징값의 벡터로 표현하여야 한다. 이를 위해 빈도, 카이제곱 정보량(chi-square statistics), 상호정보량(mutual information) 등의 다양한 측도를 통해 자동으로 문서상의 중요한 요소(키워드, 구문, 문장 등)를 추출하고,이를 바탕으로 SVM(support vector machine),KNN(k-nearest neighborhood) 등의 데이터마이닝 알고리즘을 통해 기술문서를 분류하게 된다.
각각의 기술문서는 소수의 기술분야에 속하기 때문에 주어진 데이터는 클래스 불균형 문제를 안고 있다. 이에 대한 영향을 줄이기 위해 positive 클래스에 대해 가중치를 부여하는 방식으로 최종 손실함수를 구성했다. 최적의 가중치는 3이었고 이는 반복 실험을 통해 결정되었다.
BERT 모델의 핵심은 사전 학습 과정에서 단어들에 대한 좋은 임베딩을 학습하는 것이다. 주어진 문장들의 앞뒤 맥락을 모두 고려하기 위해 Transformer의 인코더를 여러 층 쌓았고,특정 단어를 예측할 때 간접적인 방식으로 스스로 참조하는 것을 막기 위해 입력 단어의 일정 비율을 제거한다. 이렇게 제거된 입력 단어를 출력 계층에서 예측하게 함으로써 단어의 임베딩을 학습한다.
주어진 문제는 개별 기술문서에 대해 총 33개의 중분류 기술명 중에서 각각의 기술명에 속하는지를 분류하는 문제이기 때문에 개별 중분류 기술명에 속하는지 여부를 손실함수로 모델링했다. 따라서 개별 중분류 기술명에 속하는지 여부가 이진 분류 문제가 되고 모든 기술분류에 대해 평균적인 손실을 계산하여 개별문서의 손실값을 계산한다.
학습된 분류 모델의 성능은 테스트 데이터에 대해 개별요소 단위, 기술분류 단위, 문서 단위로 나누어 평가했다.

대상 데이터

인공지능 분과에 해당되는 기술문서는 총 4,159개이고 지능형로봇 분과에 해당되는 기술문서는 총 2,959개이다. 두 분야의 기술문서는 공통으로 33개의 중분류기술명로 분류되기 때문에 본 연구에서는 두 분야의 기술문서를 모두 합쳐 총 7,118개의 데이터를 학습 대상으로 했다. 개별 기술문서는 국문과제명, 연구목표요약, 연구내용요약, 과제의 한글키워드, 과제의 영문키워드 정보를 가지고 있는데 이 중에서 과제의 영문키워드는 제외했고, 나머지 정보들은 모두 순서대로 나열하여 통합했다.
이 중에서 무작위로 추출된 약 30%의 데이터는 학습된 분류모델의 성능 평가에 활용했다. 따라서 학습에 활용된 데이터는 총 4,976개, 테스트에 활용된데이터는 총 2,132개이다.
구글에서 공개한 다국어 지원 BERT 모델도 활용할 수 있지만 한국어에 특화되어 있지 않아 한국어 데이터에 대해 최적의 성능을 보이지 않는다. 본 연구에서 사용한 BERT 모델은 500만 개 이상의 문장으로 구성된 한국어 위키와 2천만 개 이상의 문장으로 구성된 한국어 뉴스 데이터로 학습되었다. 이 BERT 모델의 사전의 크기는 8,002이고 한국어 텍스트를 토큰화하기 위해 한글 위키와 뉴스 텍스트를 기반으로 문장 단위토크나이저(SentencePiece tokenizer)를 따로 학습하여 제공한다.
본 연구에서 활용한 데이터는 국가과학기술지식정보서비스(NTIS)에 등록되어 있는 인공지능 분과와 지능형로봇 분과의 국가과제 데이터이다. 인공지능 분과에 해당되는 기술문서는 총 4,159개이고 지능형로봇 분과에 해당되는 기술문서는 총 2,959개이다.
이를 위해 사전 학습된 한국어 BERT 모델을 fine-tuning하여 분류 모델을 학습했다. 분류모델의 학습을 위해 7,000건 이상의 국가과제기술문서를 데이터로 활용했고 주어진 기술문서가 해당되는 총 33개의 기술분류를 각각 예측하도록 했다.
이렇게 해서 추려진 데이터의 총 개수는 7,108개이다. 이 중에서 무작위로 추출된 약 30%의 데이터는 학습된 분류모델의 성능 평가에 활용했다. 따라서 학습에 활용된 데이터는 총 4,976개, 테스트에 활용된데이터는 총 2,132개이다.
먼저 문자가 아닌 특별한 기호 등은 모두 제거하였고 각 문서의 중분류기술명이 숫자가 아닌 경우는 학습 데이터에서 제외하였다. 이렇게 해서 추려진 데이터의 총 개수는 7,108개이다. 이 중에서 무작위로 추출된 약 30%의 데이터는 학습된 분류모델의 성능 평가에 활용했다.
개별요소 단위의 성능은 개별 테스트 기술문서에 대한 33개의 예측 값을 모두 독립적으로 보고 평가한 것이다. 총 2,132개의 테스트용 기술문서가 있고 개별 문서는 33개의 독립적인 예측을 수행하기 때문에 개별요소 단위 평가의 대상이 되는 예측값은 총 70,356개이다. 이 중 실제로 positive 클래스에 해당되는 개별요소는 5,035개로 클래스 불균형이 매우 심한 것을 알 수 있다.
00005로 했다. 학습은 총 50 epoch 수행했고, minibatch의 크기는 32로 했다.

이론/모형

설계된 BERT 모델은 fine-tuning 방식으로 학습되었다. 모델을 학습하기 위해 Adam optimizer[6]를 사용했고 초기 학습률은 0.00005로 했다. 학습은 총 50 epoch 수행했고, minibatch의 크기는 32로 했다.
본 연구에서는 SK TBrain에서 공개한 한국어 BERT 모델(https://github.com/SKTBrain/KoBERT)을 이용하여 분류 모델을 학습하였다. 이 BERT 모델은 구글에서 개발한 원래의 BERT 모델과 같은 구조를 가지고 있다.
설계된 BERT 모델은 fine-tuning 방식으로 학습되었다. 모델을 학습하기 위해 Adam optimizer[6]를 사용했고 초기 학습률은 0.
본 연구에서는 한국어 BERT 기반 분류 모델의 기술문서 분류 예측 가능성을 확인했다. 이를 위해 사전 학습된 한국어 BERT 모델을 fine-tuning하여 분류 모델을 학습했다. 분류모델의 학습을 위해 7,000건 이상의 국가과제기술문서를 데이터로 활용했고 주어진 기술문서가 해당되는 총 33개의 기술분류를 각각 예측하도록 했다.
[Figure 1]에서 [CLS]는 모든 입력문장의 시작을 나타내는 특별한 토큰이고, Tok 1부터 Tok N은 토큰화 과정을 거친 입력 문장의 각 토큰들을 의미한다. 토큰화 과정은 한글 위키와 뉴스 텍스트 데이터를 기반으로 학습된 토크나이저를 활용한다(https://github.com/SKTBrain).또한 기술 문서의 과제명, 과제요약, 기대효과 등 다양한 속성의 텍스트들은 그 속성을 무시하고 하나의 문장으로 취급하여 입력으로 사용한다.
[Table 1]은 개별요소 예측의 성능을 평가한 것이다. 평가 측도로는 정확도, F-score, 정밀도, 재현율을 사용했다. 위에서 밝힌 바와 같이 클래스 불균형이 매우 심하기 때문에 정확도 성능 측도는 크게 의미가 없다.

성능/효과

[Table 2]는 기술분류단위의 예측성능을 나타낸다. 개별 기술분류에 대해 평균적으로 0.54 정도의 F-score 값을 보였고, 정밀도와 재현율 모두 평균적으로 0.5 이상의 성능을 보였다.
그리고 F-score는 정밀도와 재현율의 조화평균값이다. 본 연구에서 사용된 기술문서 데이터의 클래스 불균형이 심하다는 점, 개별 기술문서가 속하는 기술분류의 수가 상당히 적다는 점 등을 고려할 때, 우수한 예측 성능을 보인다고 판단할 수 있다. 이러한 데이터의 특성들은 뒤이어 기술된 분석 결과들을 통해 알아본다.
먼저 개별 문서들이 몇 개의 기술분야에 속하는지 그 분포를 시각화해보면 [Figure 5]와같다. 전체 테스트 데이터의 79.6%인 1,698개의기술문서들이 1개 내지 3개의 기술분야에 속하고, 8개 이상의 기술분야에 동시에 속하는 기술문서도 소수 존재하는 것을 알 수 있다.
학습된 모델의 성능 평가 결과, 데이터와 주어진 과제의 특성을 고려했을 때 어느 정도 예측력을 보임을 확인했다. 학습된 모델은 평균적으로 0.5 이상의 F-score 및 평균 정밀도 값을 보였고, 문서단위의 분류에서는 이러한 성능이 실제로도 의미가 있음을 확인했다. 본 연구를 통해 한국어 BERT 기반 분류 모델이 기술문서 분류에 활용가능하다는 점을 확인하였으며, 향후에 한국어 BERT 기반 분류 모델이 다양한 한글 문서의 분류에 활용될 수 있을 것으로 기대한다.
학습된 모델의 성능 평가 결과, 데이터와 주어진 과제의 특성을 고려했을 때 어느 정도 예측력을 보임을 확인했다. 학습된 모델은 평균적으로 0.

후속연구

추후 연구과제로는 과제명, 연구목표요약, 연구내용요약 등의 변수들을 개별적으로 처리하여 학습시키는 방식으로 분류모델의 성능을 높이는 고도화 연구가 포함될 수 있다. 또한, 학습 데이터의 수를 더 확보하여 모델을 학습하면 사람의 문서 의미 파악에 실제로 근접한 분류 성능을 가지는 모델을 얻을 수 있을 것으로 생각한다.
5 이상의 F-score 및 평균 정밀도 값을 보였고, 문서단위의 분류에서는 이러한 성능이 실제로도 의미가 있음을 확인했다. 본 연구를 통해 한국어 BERT 기반 분류 모델이 기술문서 분류에 활용가능하다는 점을 확인하였으며, 향후에 한국어 BERT 기반 분류 모델이 다양한 한글 문서의 분류에 활용될 수 있을 것으로 기대한다.
본 연구에서는 주어진 기술문서에 대한 정보를 모두 하나의 문장으로 처리했다는 점에서 한계를 가진다. 추후 연구과제로는 과제명, 연구목표요약, 연구내용요약 등의 변수들을 개별적으로 처리하여 학습시키는 방식으로 분류모델의 성능을 높이는 고도화 연구가 포함될 수 있다. 또한, 학습 데이터의 수를 더 확보하여 모델을 학습하면 사람의 문서 의미 파악에 실제로 근접한 분류 성능을 가지는 모델을 얻을 수 있을 것으로 생각한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	딥러닝의 특징은 무엇인가?	최근 들어 자연어 및 시계열 데이터 분석 영역 특히 문서에 내재된 의미를 이해하고, 요약하는 자연어 처리 분야에서 딥러닝 기반의 모델들이 괄목할 만한 성과를 보이고 있다[7, 11,12]. 딥러닝은 텍스트 데이터로부터 자동적으로 문서 특징들을 추출하고 및 이에 대한 표현을 가능하게 한다는 특징이 있다. 이에 따라 딥러닝을 기술문서 분류에도 활용하는 연구들이 많이 진행되고 있다[2, 3, 4, 10].
	추출요약 방법들은 무엇이 있는가?	그러나 지금까지 대부분의 연구는 자연어 처리 기술의 한계로 추출요약 방법 위주로 연구되어 왔다. 대표적인 방법으로 문장의 특성을 통계적으로 분석하여 주제문과 거리가 먼 문장들을 제거해가는 방법,문서내 단어의 빈도수를 바탕으로 단어별 중요도를 계산하고, 단어 중요도를 바탕으로 문장의 중요도를 결정하는 TF-IDF 방법, 문장들의 유사도를 바탕으로 그린 네트워크상에서 노드(문장)의 중요성을 계산하여 문장의 중요도를 결정하는 그래프 기반 랭킹 방법 등이 있다. 그런데 추출요약 방법에는 문제점이 존재한다.
	문서를 요약하는 것에 중요한 특징을 추출하는 방법은 무엇이 있는가?	문서를 요약하는 중요한 특징을 추출하는 방법은 크게 추출요약(extraction)과 생성요약(abstraction)으로 나누어진다. 추출요약 방법은 존재하는 단어, 구문, 문장 중에서 중요도를 바탕으로 의미있는 요소를 선별하는 작업이며,생성요약 방법은 시스템이 각 요소들의 내재된의미를 이해하고 자연어 처리 기술을 바탕으로 문서를 요약하는 것이다.

참고문헌 (12)

Devlin, J., Chang, M. W., and Lee, K. T., "BERT: Pre-training of deep bidirectional transformers for language understanding," arXiv:1810.04805, 2018.
Jo, H., Kim, J. H., Yoon, S., Kim, K. M., and Zhang, B. T., "Large-scale text classification methodology with convolutional neural network," Proceedings of the 2015 Korean Information Science Society Conference, pp. 792-794, 2015.
Kim, J. M. and Lee, J. H., "Text document classification based on recurrent neural network using word2vec," Journal of Korean Institute of Intelligent Systems, Vol. 27, No. 6, 2017.
Kim, Y., "Convolutional neural network for sentence classification," Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 1746-1751, 2014.
Kim, Y. J., Kim, T. H., Lim, C. S., and Kim, J. S., "A study on NTIS standard code and classification service development," Proceedings of the 2007 Korea Contents Association Conference, pp. 376-380, 2007.
Kingma, D. and Ba, J., "Adam: A method for stochastic optimization," Proceedings of the 3rd International Conference on Learning Representations, 2015.
Oh, S. W., Lee, H., Shin, J. Y., and Lee, J. H., "Antibiotics-resistant bacteria infection prediction based on deep learning," The Journal of Society for e-Business Studies, Vol. 24, No. 1, pp. 105-120, 2019.
Srivastava, N., Hinton, G., krizhevsky, A., Sutskever, I., and Salakhutdinov, R., "Dropout: A simple way to prevent neural networks from overfitting," Journal of Machine Learning Research, Vol. 15, pp. 1929-1958, 2014.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., and Polosukhin, I., "Attention is all you need," Proceedings of the 31st Conference on Neural Information Processing Systems, 2017.
Yang, Y. J., Lee, B. H., Kim, J. S., and Lee, K. Y., "Development of an automatic classification system for game reviews based on word embedding and vector similarity," The Journal of Society for e-Business Studies, Vol. 24, No. 2, pp. 1-14, 2019.
Yoon, D., Kim, S., and Kim, D., “Clustering of time series data using deep learning,” Journal of Applied Reliability, Vol. 19, No. 2, pp. 167-178, 2019.

상세보기
Young, T., Hazarika, D., Poria, S., and Cambria, E., "Recent trends in deep learning based natural language processing," arXiv:1708.02709, 2017.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증