$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

한국어 기술문서 분석을 위한 BERT 기반의 분류모델
BERT-based Classification Model for Korean Documents 원문보기

한국전자거래학회지 = The Journal of Society for e-Business Studies, v.25 no.1, 2020년, pp.203 - 214  

황상흠 (Department of Industrial & Information Systems Engineering, Seoul National University of Science and Technology) ,  김도현 (Department of Industrial and Management Engineering, Myongji University)

초록
AI-Helper 아이콘AI-Helper

최근 들어 기술개발 현황, 신규기술 분야 출현, 기술융합과 학제 공동연구, 기술의 트렌드 변화 등을 파악하기 위해 R&D 과제정보, 특허와 같은 기술문서의 분류정보가 많이 활용되고 있다. 이러한 기술문서를 분류하기 위해 주로 텍스트마이닝 기법들이 활용되어 왔다. 그러나 기존 텍스트마이닝 방법들로 기술문서를 분류하기 위해서는 기술문서들을 대표하는 특징들을 직접 추출해야 하는 한계점이 있다. 따라서 본 연구에서는 딥러닝 기반의 BERT모델을 활용하여 기술문서들로부터 자동적으로 문서 특징들을 추출한 후, 이를 문서 분류에 직접 활용하는 모델을 제안하고, 이에 대한 성능을 검증하고자 한다. 이를 위해 텍스트 기반의 국가 R&D 과제 정보를 활용하여 BERT 기반 국가 R&D 과제의 중분류코드 예측 모델을 생성하고 이에 대한 성능을 평가한다.

Abstract AI-Helper 아이콘AI-Helper

It is necessary to classify technical documents such as patents, R&D project reports in order to understand the trends of technology convergence and interdisciplinary joint research, technology development and so on. Text mining techniques have been mainly used to classify these technical documents....

주제어

표/그림 (9)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 연구에서는 한국어 BERT 기반 분류 모델의 기술문서 분류 예측 가능성을 확인했다. 이를 위해 사전 학습된 한국어 BERT 모델을 fine-tuning하여 분류 모델을 학습했다.
  • [1]는 BERT 모델을 문장 분류, 자연어 기반 질의 응답 등에 관한 벤치마크 데이터로 fine-tuning하여 가장 좋은 벤치마크 테스트 성능을 보였다. 본 연구에서는 한국어 데이터로 학습된 BERT 모델을 기반으로 인공지능분과, 지능형로봇 분과에 해당되는 국가과제의 중분류기술명을 예측하는 딥러닝 모델의 예측성능을 확인하고 이를 바탕으로 한국어 BERT 모델의 적용가능성을 살펴보고자 한다. 이를 위해 제2장에서는 관련연구로 Transformer와 BERT 모델에 대해서 살펴보고, 제3장에서는 한국어 BERT 모델을 기반으로 학습된 기술문서분류 모델을 소개한다.
  • 본 장에서는 사전 학습된 한국어 BERT 모델과 국가과제 기술문서 데이터에 대한 설명, 그리고 한국어 BERT 모델을 기반으로 학습된 기술문서 분류 모델에 대해 소개한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
딥러닝의 특징은 무엇인가? 최근 들어 자연어 및 시계열 데이터 분석 영역 특히 문서에 내재된 의미를 이해하고, 요약하는 자연어 처리 분야에서 딥러닝 기반의 모델들이 괄목할 만한 성과를 보이고 있다[7, 11,12]. 딥러닝은 텍스트 데이터로부터 자동적으로 문서 특징들을 추출하고 및 이에 대한 표현을 가능하게 한다는 특징이 있다. 이에 따라 딥러닝을 기술문서 분류에도 활용하는 연구들이 많이 진행되고 있다[2, 3, 4, 10].
추출요약 방법들은 무엇이 있는가? 그러나 지금까지 대부분의 연구는 자연어 처리 기술의 한계로 추출요약 방법 위주로 연구되어 왔다. 대표적인 방법으로 문장의 특성을 통계적으로 분석하여 주제문과 거리가 먼 문장들을 제거해가는 방법,문서내 단어의 빈도수를 바탕으로 단어별 중요도를 계산하고, 단어 중요도를 바탕으로 문장의 중요도를 결정하는 TF-IDF 방법, 문장들의 유사도를 바탕으로 그린 네트워크상에서 노드(문장)의 중요성을 계산하여 문장의 중요도를 결정하는 그래프 기반 랭킹 방법 등이 있다. 그런데 추출요약 방법에는 문제점이 존재한다.
문서를 요약하는 것에 중요한 특징을 추출하는 방법은 무엇이 있는가? 문서를 요약하는 중요한 특징을 추출하는 방법은 크게 추출요약(extraction)과 생성요약(abstraction)으로 나누어진다. 추출요약 방법은 존재하는 단어, 구문, 문장 중에서 중요도를 바탕으로 의미있는 요소를 선별하는 작업이며,생성요약 방법은 시스템이 각 요소들의 내재된의미를 이해하고 자연어 처리 기술을 바탕으로 문서를 요약하는 것이다.
질의응답 정보가 도움이 되었나요?

참고문헌 (12)

  1. Devlin, J., Chang, M. W., and Lee, K. T., "BERT: Pre-training of deep bidirectional transformers for language understanding," arXiv:1810.04805, 2018. 

  2. Jo, H., Kim, J. H., Yoon, S., Kim, K. M., and Zhang, B. T., "Large-scale text classification methodology with convolutional neural network," Proceedings of the 2015 Korean Information Science Society Conference, pp. 792-794, 2015. 

  3. Kim, J. M. and Lee, J. H., "Text document classification based on recurrent neural network using word2vec," Journal of Korean Institute of Intelligent Systems, Vol. 27, No. 6, 2017. 

  4. Kim, Y., "Convolutional neural network for sentence classification," Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 1746-1751, 2014. 

  5. Kim, Y. J., Kim, T. H., Lim, C. S., and Kim, J. S., "A study on NTIS standard code and classification service development," Proceedings of the 2007 Korea Contents Association Conference, pp. 376-380, 2007. 

  6. Kingma, D. and Ba, J., "Adam: A method for stochastic optimization," Proceedings of the 3rd International Conference on Learning Representations, 2015. 

  7. Oh, S. W., Lee, H., Shin, J. Y., and Lee, J. H., "Antibiotics-resistant bacteria infection prediction based on deep learning," The Journal of Society for e-Business Studies, Vol. 24, No. 1, pp. 105-120, 2019. 

  8. Srivastava, N., Hinton, G., krizhevsky, A., Sutskever, I., and Salakhutdinov, R., "Dropout: A simple way to prevent neural networks from overfitting," Journal of Machine Learning Research, Vol. 15, pp. 1929-1958, 2014. 

  9. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., and Polosukhin, I., "Attention is all you need," Proceedings of the 31st Conference on Neural Information Processing Systems, 2017. 

  10. Yang, Y. J., Lee, B. H., Kim, J. S., and Lee, K. Y., "Development of an automatic classification system for game reviews based on word embedding and vector similarity," The Journal of Society for e-Business Studies, Vol. 24, No. 2, pp. 1-14, 2019. 

  11. Yoon, D., Kim, S., and Kim, D., “Clustering of time series data using deep learning,” Journal of Applied Reliability, Vol. 19, No. 2, pp. 167-178, 2019. 

  12. Young, T., Hazarika, D., Poria, S., and Cambria, E., "Recent trends in deep learning based natural language processing," arXiv:1708.02709, 2017. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로