$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

국가 과학기술 표준분류 체계 기반 연구보고서 문서의 자동 분류 연구
Research on Text Classification of Research Reports using Korea National Science and Technology Standards Classification Codes 원문보기

한국산학기술학회논문지 = Journal of the Korea Academia-Industrial cooperation Society, v.21 no.1, 2020년, pp.169 - 177  

최종윤 (금오공과대학교 컴퓨터공학과) ,  한혁 (한국과학기술정보연구원) ,  정유철 (금오공과대학교 컴퓨터공학과)

초록
AI-Helper 아이콘AI-Helper

과학기술 분야의 연구·개발 결과는 연구보고서 형태로 국가과학기술정보서비스(NTIS)에 제출된다. 각 연구보고서는 국가과학기술 표준 분류체계 (K-NSCC)에 따른 분류코드를 가지고 있는데, 보고서 작성자가 제출 시에 수동으로 입력하게끔 되어있다. 하지만 2000여 개가 넘는 세분류를 가지고 있기에, 분류체계에 대한 정확한 이해가 없이는 부정확한 분류코드를 선택하기 십상이다. 새로이 수집되는 연구보고서의 양과 다양성을 고려해 볼 때, 이들을 기계적으로 보다 정확하게 분류할 수 있다면 보고서 제출자의 수고를 덜어줄 수 있을 뿐만 아니라, 다른 부가 가치적인 분석 서비스들과의 연계가 수월할 것이다. 하지만, 국내에서 과학기술표준 분류체계에 기반을 둔 문서 자동 분류 연구 사례는 거의 없으며 공개된 학습데이터도 전무하다. 본 연구는 KISTI가 보유하고 있는 최근 5년간 (2013년~2017년) NTIS 연구보고서 메타정보를 활용한 최초의 시도로써, 방대한 과학기술표준 분류체계를 기반으로 하는 국내 연구보고서들을 대상으로 높은 성능을 보이는 문서 자동 분류기법을 도출하는 연구를 진행하였다. 이를 위해, 과학기술 표준분류 체계에서 과학기술 분야의 연구보고서를 분류하기에 적합한 중분류 210여 개를 선별하였으며, 연구보고서 메타 데이터의 특성을 고려한 전처리를 진행하였다. 특히, 가장 영향력 있는 필드인 과제명(제목)과 키워드만을 이용한 TK_CNN 기반의 딥러닝 기법을 제안한다. 제안 모델은 텍스트 분류에서 좋은 성능을 보이고 있는 기계학습법들 (예, Linear SVC, CNN, GRU등)과 비교하였으며, Top-3 F1점수 기준으로 1~7%에 이르는 성능 우위를 확인하였다.

Abstract AI-Helper 아이콘AI-Helper

In South Korea, the results of R&D in science and technology are submitted to the National Science and Technology Information Service (NTIS) in reports that have Korea national science and technology standard classification codes (K-NSCC). However, considering there are more than 2000 sub-categories...

주제어

표/그림 (5)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 각 문서에서 사용 가능한 데이터는 Table 2에서 보는 바와 같이 여러 개의 범주로 국문 과제명, 영문과제명, 연구목표 요약, 연구내용 요약, 기대효과 요약, 과제 한글 키워드, 과제 영문키워드가 있다. 문서의 카테고리를 분류하기 위해 모든 범주를 사용하여 학습을 시도하였으며 이때 모든 텍스트가 문장의 형식으로 이루어져 있는 것이 아니기 때문에 문서를 분류하기 위해 본 연구에서는 모든 데이터를 일괄적으로 처리하는 방식과 각 데이터를 별도로 처리하는 방법을 고려하였다. 모든 메타 데이터를 하나의 데이터로 합쳐 사용할 시 텍스트의 길이가 길어지며, 이는 CNN과 같은 알고리즘에서 고정 길이로 입력데이터를 제한할 때 핵심단어나 다른 데이터에 비해 많은 양의 데이터를 가지고 있는 데이터의 손실이 발생할 수 있다.
  • 본 연구에서는 연구보고서 메타정보의 특성을 고려하여 가장 영향력 있는 자질인 과제명과 키워드만을 입력으로 하는 TK_CNN기법을 제안한다. 또한 제안 기법은 최근 수행되는 전처리 기법, 워드임베딩, 그리고 텍스트 분류에서 많이 사용되는 기계학습기법들과 조합 실험 후 비교를 진행하였다.
  • 본 장에서는 제안한 TK_CNN기법과 더불어 텍스트 분류에서 좋은 성능을 보여주고 있는, SVM, CNN, LSTM/GRU 등의 알고리즘에 대해 소개한다. 특히, 성능 향상을 위해 선택적으로 사용되는 워드임베딩 기법과 연구 보고서 각 필드 별 특성을 감안하기 위해 Concatenation Model에 대해서도 소개한다.
  • 이렇게 제안된 모델에서 단어의 나열 형태로 나오는 필드의 경우에는 CNN 기법을 적용하였으며 연구의 목표 요약, 연구의 내용 요약과 같은 순서가 있는 데이터의 경우는 각각의 데이터 특성을 고려하여 LSTM, GRU 등의 기법을 적용하였다. 이와 같은 방법을 적용하여 제안 모델은 한 분류에 대해서 여러 가지의 항목이 있는 경우 각 데이터의 구조를 무시한 일괄적인 처리 및 중간점을 찾은 후의 처리방식보다는 Fig. 1과 같이 각 데이터를 별도로 처리하는 목적에서 제안되었다.
  • 대분류는 연구와 적용 분야로 2차원 분류체계를 도입하면서 OECD 연구 개발 활동조사지침 및 대다수 국가의 R&D 통계 범위와 인문, 사회과학 분야가 포함되어 있다. 중, 소분류는 분야별 자체 분류체계와의 호환성을 제공하며 소분류 복수 선택 및 가중치 도입을 통한 융합기술 등 신기술의 발전 추세를 보다 정확하게 표현하고자 하였다.
  • 본 장에서는 제안한 TK_CNN기법과 더불어 텍스트 분류에서 좋은 성능을 보여주고 있는, SVM, CNN, LSTM/GRU 등의 알고리즘에 대해 소개한다. 특히, 성능 향상을 위해 선택적으로 사용되는 워드임베딩 기법과 연구 보고서 각 필드 별 특성을 감안하기 위해 Concatenation Model에 대해서도 소개한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
텍스트 분류에 주로 쓰이는 알고리즘은 무엇인가? 텍스트 분류는 스팸 메일을 판단하거나 영화의 댓글을 통해 반응을 구별하는 것과 같은 2가지의 분류코드가 존재하는 경우에서부터, 20 Newsgroups와 본 연구와 같이 수십 ~ 수백 여개의 분류 중에서 적합한 분류코드를 찾는 다중 분류가 있다. 이러한 텍스트 분류에 쓰인 알고리즘으로는 SVM이 가장 대표적이다. 최근에는 딥러닝 계열의 알고리즘들인 CNN[2]과 RNN[3]이 많이 쓰인다.
국가과학기술 표준 분류체계 (K-NSCC)에 따른 분류코드를 보고서 작성자가 제출 시에 수동으로 입력하게끔 되어있어 발생하는 문제점은 무엇인가? 각 연구보고서는 국가과학기술 표준 분류체계 (K-NSCC)에 따른 분류코드를 가지고 있는데, 보고서 작성자가 제출 시에 수동으로 입력하게끔 되어있다. 하지만 2000여 개가 넘는 세분류를 가지고 있기에, 분류체계에 대한 정확한 이해가 없이는 부정확한 분류코드를 선택하기 십상이다. 새로이 수집되는 연구보고서의 양과 다양성을 고려해 볼 때, 이들을 기계적으로 보다 정확하게 분류할 수 있다면 보고서 제출자의 수고를 덜어줄 수 있을 뿐만 아니라, 다른 부가 가치적인 분석 서비스들과의 연계가 수월할 것이다.
NTIS 시스템에서 관리되는 연구보고서의 분류체계는 무엇을 기본으로 하고있는가? NTIS 시스템에서 관리되는 연구보고서의 분류체계는 과학기술 정통부의 국가 과학기술 표준 분류체계 (National Science & Technology Standards Classification Codes)[1]를 기본으로 하고 있다. 연구보고서의 메타정보는 과제명, 연구목표 요약, 기대효과 요약과 같은 항목을 가지고 있기는 하지만, 작성자에 따라 그 내부 작성형태는 매우 다양하다.
질의응답 정보가 도움이 되었나요?

참고문헌 (27)

  1. C. H. Song, and S. S. Sung. 2006. "A Study on the Problems of Current National Standard Classification of Science and Technology for National Science and Technology Information System." : pp.496-513. 

  2. Y. Kim. 2014. "Convolutional Neural Networks for Sentence Classification." EMNLP 2014: 1746-51. DOI: https://doi.org/10.3115/v1/D14-1181 

  3. P. Liu, X. Qiu, and X. Huang. 2016. "Recurrent Neural Network for Text Classification with Multi-Task Learning." AAAI Publications, Twenty-Ninth AAAI Conference on Artificial Intelligence: 2267-2273. 

  4. S. Fabrizio. 2002. "Machine Learning in Automated Text Categorization." ACM Computing Surveys 34: 1-47. DOI:https://doi.org/10.1145/505282.505283 

  5. L. Saitta. 1995. Nov "Support-Vector Networks." Machine Learning 20(3): 273-97. DOI: https://doi.org/10.1007/BF00994018 

  6. C. Nello, J. Shawe-Taylor, and B. Williamson. 2001. "On the Algorithmic Implementation of Multiclass Kernel-Based Vector Machines." Machine Learning Research 2: 265-92. DOI: https://doi.org/10.1007/BF00994018 

  7. Y. H. Kim, S. Y. Kang, and M. J. Choi. 2015. "Improvement of National Science and Technology Standard Classification System in 2015" Research and Development, Korea Institute of Science and Technology Evaluation and Planning, Korea, pp.1-221. 

  8. J. Weston, et al. 2000. "Feature Selection for SVMs." Advances in Neural Information Processing Systems 13: 668-674. 

  9. Scikit learn's SVC, Available at https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html 

  10. X. Zhang, J. Zhao, and Y. LeCun. 2015. Character-level convolutional networks for text classification. arXiv preprint arXiv:1509.01626. 

  11. S. Hochreiter, and J. Schmidhuber. 1997. "Long Short-Term Memory." Neural Computation 9(8): p.1735-1780. DOI: https://doi.org/10.1162/neco.1997.9.8.1735 

  12. J. Y. Chung, G. Caglar, K. H. Cho, and Y. Bengio. 2014. "Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling." NIPS 2014 Workshop on Deep Learning: p.1-9. 

  13. P. Zhou et al. 2016. "Text Classification Improved by Integrating Bidirectional LSTM with Two-Dimensional Max Pooling." Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics 2(1): 3485-95. 

  14. T. Mikolov, et al. 2013. "Distributed Representations of Words and Phrases and Their Compositionality." Advances in Neural Information Processing Systems 26 (NIPS 2013): 1-9. 

  15. J. Pennington, R. Socher, and C. D. Manning. 2014. "GloVe : Global Vectors for Word Representation." EMNLP: 1532-1543. DOI: https://doi.org/10.3115/v1/D14-1162 

  16. H. Jo, et al. 2015. "Large-Scale Text Classification Methodology with Convolutional Neural Network." Korean Information Science Society: 792-94. DOI: http://dx.doi.org/10.5626/KTCP.2017.23.5.322 

  17. E. J. Park, and S. Z. Cho. 2014. "KoNLPy : Korean Natural Language Processing in Python." Annual Conference on Human and Language Technology: pp.133-136. 

  18. Gensim Word2Vec, Available at https://radimrehurek.com/gensim/models/word2vec.html 

  19. Scikit learn's Linear SVC, Available at https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html 

  20. H. Y. Jo, et al. 2017. "Large-Scale Text Classification with Deep Neural Networks." KIISE Transactions on Computing Practices 23: 322-27. DOI: https://doi.org/10.5626/KTCP.2017.23.5.322 

  21. J. S. Jeong et al. 2019. "Related Documents Classification System by Similarity between Documents." The Korean Society Of Broad Engineers 24(1): 77-86. DOI: https://doi.org/10.5909/JBE.2019.24.1.77 

  22. K. Y. Kim and C. J. Park. 2019. "Automatic IPC Classification of Patent Documents Using Word2Vec and Two Layers Bidirectional Long Short Term Memory Network." THE JOURNAL OF KOREAN INSTITUTE OF NEXT GENERATION COMPUTING 15(2): 50-60. 

  23. M. J. Seo, G. S. Ahn, and S. Hur. 2019. "Feature Selection Method from Multiclass Text with Class Imbalance Problem." Journal of the Korean Institute of Industrial Engineers (April): 1-8. 

  24. K. Kowsari et al. 2017. "HDLTex : Hierarchical Deep Learning for Text Classification." 2017 16th IEEE International Conference on Machine Learning and Applications (ICMLA): 364-71. DOI: https://doi.org/10.1109/ICMLA.2017.0-134 

  25. Jacob, Devlin, Ming-wei Chang, Kenton Lee, and Kristina Toutanova. 2019. "BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding." NAACL-HLT: 4171-4186. 

  26. R. A. Sinoara et al. 2019. "Knowledge-Based Systems Knowledge-Enhanced Document Embeddings for Text Classification." Knowledge-Based Systems 163: 955-71. DOI: https://doi.org/10.1016/j.knosys.2018.10.026 

  27. S. Lai, L. Xu, K. Liu, and J. Zhao. 2015. "Recurrent Convolutional Neural Networks for Text Classification." Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence Recurrent: 2267-73. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로