[논문]텍스트 마이닝에서 심층 신경망을 이용한 문서 분류

이보희; 이수진; 최용석

doi:10.5351/kjas.2020.33.5.615

텍스트 마이닝에서 심층 신경망을 이용한 문서 분류
Document classification using a deep neural network in text mining 원문보기

응용통계연구 = The Korean journal of applied statistics, v.33 no.5, 2020년, pp.615 - 625

이보희 (신라대학교 광고홍보학과) , 이수진 (부산대학교 통계학과) , 최용석 (부산대학교 통계학과)

초록
AI-Helper

문서-용어 빈도행렬은 그룹정보가 존재하는 문서들의 용어를 추출한 것으로 일반적인 텍스트 마이닝에서의 자료이다. 본 연구에서는 연구 분야 성격에 따른 문서 분류를 위해 문서-용어 빈도행렬을 생성하고, 전통적인 용어 가중치 함수인 TF-IDF와 최근 잘 알려진 용어 가중치 함수인 TF-IGM을 적용하였다. 또 용어 가중치가 적용된 문서-용어 가중행렬에 문서분류 정확도 향상을 위해 핵심어를 추출하여 문서-핵심어 가중행렬을 생성하였다. 핵심어가 추출된 행렬을 바탕으로, 심층 신경망을 이용해 문서를 분류하였다. 심층 신경망에서 최적의 모델을 찾기 위해 매개변수인 은닉층과 은닉노드수를 변화해가며 문서 분류 정확도를 확인하였다. 그 결과 8개의 은닉층을 가진 심층 신경망 모델이 가장 높은 정확도를 보였으며 매개변수 변화에 따른 모든 TF-IGM 문서 분류 정확도가 TF-IDF 문서 분류 정확도보다 높은 것을 확인하였다. 또한 개별 범주에 대한 문서 분류 분석 결과를 서포트 벡터 머신과 비교했을 때 심층 신경망이 대부분의 결과에서 더 좋은 정확도를 보임을 확인하였다.

Abstract ▼ AI-Helper

The document-term frequency matrix is a term extracted from documents in which the group information exists in text mining. In this study, we generated the document-term frequency matrix for document classification according to research field. We applied the traditional term weighting function term frequency-inverse document frequency (TF-IDF) to the generated document-term frequency matrix. In addition, we applied term frequency-inverse gravity moment (TF-IGM). We also generated a document-keyword weighted matrix by extracting keywords to improve the document classification accuracy. Based on the keywords matrix extracted, we classify documents using a deep neural network. In order to find the optimal model in the deep neural network, the accuracy of document classification was verified by changing the number of hidden layers and hidden nodes. Consequently, the model with eight hidden layers showed the highest accuracy and all TF-IGM document classification accuracy (according to parameter changes) were higher than TF-IDF. In addition, the deep neural network was confirmed to have better accuracy than the support vector machine. Therefore, we propose a method to apply TF-IGM and a deep neural network in the document classification.

주제어

표/그림 (8)

그림 Figure 2.1. The process of nding an elbow point.
표 Table 2.1. Document-term weighted matrix generation scheme M1 and M2
표 Table 3.1. Classication of the nineteen government-funded research institutes
표 Table 3.2. PDF files and terms of periodical publication by institute
그림 Figure 3.1. Deep neural network structure of Model 5.
표 Table 3.3. Model accuracy according to the number of hidden layers and hidden nodes
표 Table 3.4. SVM and DNN classication results for M1 (TF-IDF)
표 Table 3.5. SVM and DNN classication results for M2 (TF-IGM)

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서 본 연구에서는 용어 가중치 함수로 term frequency-inverse document frequency (TF-IDF)와 term frequency-inverse gravity moment (TF-IGM)을, 그리고 문서 분류 알고리즘으로 SVM과 DNN을 적용하여 더 높은 정확도를 보이는 최적의 조합을 찾는 것이 목적이다. 이를 위해 2장에서는 문서-용어 빈도행렬에서 중요도를 수치화하기 용어 가중치 및 문서-핵심어 가중행렬을 생성하는 과정을 소개한다.
그러나 특징들을 추출하는 경우 많은 시간을 투자해야하고 제대로 추출되지 않을 경우에는 사용자가 직접 처리해야하므로 효율이 떨어진다 (Jeon, 2018). 따라서 본 연구에서는 이러한 단점을 보완하기 위해 심층 신경망으로 컴퓨터가 직접 판단하고 찾아 문서를 분류 하는 것을 목표로 하여 설계하였다.
3장에서는 실제 텍스트 데이터를 활용하여 문서-용어 빈도행렬을 생성하고 용어 가중치를 적용한다. 또한 SVM과 DNN을 적용하여 이들의 성능과 용어 가중치의 성능을 비교하여 문서 분류에서 최적화된 방법을 찾아보고자 한다. 끝으로 4장의 결론에서는 본 연구 내용을 정리 및 요약한다.
또한 최근 대용량 데이터들의 급증으로 딥러닝 알고리즘인 심층 신경망(deep neural network; DNN), 합성곱 신경망(convolution network), 순환 신경망(recurrent neural network) 등 다양한 딥러닝 학습 모델들이 탄생하였고 자연어처리, 컴퓨터비젼, 음성인식 등의 분야에 적용되어 놀라운 결과들을 보여주고 있다 (Joo, 2018). 본 연구에서는 문서 분류에서 높은 성능을 보이며 가장 많이 이용되었던 머신러닝 알고리즘 중 하나인 SVM과 최근 각광을 받는 딥러닝 알고리즘 중 하나인 DNN을 사용하여 문서 분류를 실시하고, 이들의 성능을 정확도로 비교하고자 한다.
본 연구에서는 총 문서수 343개를 7 : 3의 비율로 훈련표본과 실험표본으로 데이터를 나누었으며, 각 문서에 나타난 용어 26,915개의 특징을 바탕으로 하여 문서 343개가 경제정책, 자원·인프라, 공공정책, 인적자원의 네 가지 연구 분야로 잘 분류되는지를 확인하고자 하였다.

제안 방법

네 가지로 분류된 기관들을 C1−C4로 정의하여 각 연구기관의 성격에 알맞게 분류가 되었는지 2.3절에서 생성된 문서-핵심어 가중행렬에 심층 신경망을 활용하여 확인하고자 한다.
또한 제안된 심층 신경망 모델을 문서 분류에서 가장 많이 이용되었던 서포트 벡터 머신과 비교했을 때 대부분의 심층 신경망 결과에서 더 높은 정확도를 보였다. 따라서 개체 정보가 존재하는 문서를 분류하는데 있어서 TF-IGM 용어가중치를 이용하며 심층 신경망을 적용하는 방법을 제안한다.
따라서 본 연구에서는 꼬꼬마 형태소 분석기를 사용하여 말뭉치에서 한국어 형태소 품사 중 일반 명사와 고유 명사만을 추출하였으며, 이 과정에서 미등록어, 오·탈자, 띄어쓰기, 영문 및 기호 등을 제거하였다.
또한 Bengio 등 (2013)에 따르면 심층 신경망 구조는 하위 계층에서 상위 계층으로 갈수록 차원이 축소되어야 하며, LeCun 등(1989)에 따르면 은닉층이 깊으면 깊을수록 정교한 모델 생성이 가능하다고 하였다. 따라서 본 연구에서는 최적의 모수를 찾기 위해 총 문서수 343개를 기준으로 1/4, 1/2, 1, 2, 4배씩 첫 번째 은닉층에 입력하고 절반씩 감소시켜가며 분석을 수행하였다.
비정형 데이터인 문서에서 추출된 명사들의 빈도를 센 것을 바탕으로 정형 데이터인 문서-용어 빈도행렬을 생성하고, 개체들의 정보가 존재하는 문서-용어 빈도행렬에서 용어 가중치 함수 TF-IDF와 TF-IGM을 적용하여 문서에 대한 용어의 중요도를 반영하였다. 또한 가중치가 적용된 문서-용어 빈도행렬의 문서 분류 정확도 향상을 위해 핵심어를 추출하여 최종 문서 분류 행렬을 생성하였다. 이러한 과정을 거친 문서-핵심어 가중행렬에 최근 각광받고 있는 딥 러닝 기법 중 하나인 심층 신경망을 활용하여 개체들이 각각의 연구 분야 성격에 알맞게 분류되는지 확인하였다.
본 연구는 R 프로그램에서 Tensoflow기반 keras 라이브러리를 활용하여 심층 신경망을 구현한다. 다음으로 딥 러닝에서 데이터를 정규화하면 학습속도가 빨라지는 장점이 있으므로 변수의 범위를 정규화하는 과정을 거쳤다.
본 연구에서는 파이썬(Python) 프로그램을 이용하여 각 기관들의 정기간행물들의 PDF 파일들을 크롤링(crawling)하고 TXT 파일로 저장하여 활용하였고, 파이썬에 가장 많이 사용되는 한국어 자연어 처리 패키지 KoNLPy(Korean NLP in Python)를 사용하였다. KoNLPy는 한나눔(Hannanum), 꼬꼬마(Kkma), Komoran, Mecab, Twitter와 같은 5개 형태소 분석기를 지원하고 있다.
2절에서 설명한 활성화 함수를 이용하여 은닉층에서 ReLU 함수를, 출력층에서 softmax 함수를 사용하였다. 비용함수는 다중분류에 적절한 오차 함수인 categorical crossentropy를 사용하고, 최적화 함수로 adam을 사용하였다. 그리고 전체 샘플이 200회 반복될 때까지 실험을 진행하되 한번에 입력되는 값은 5로 하였으며, 과적합을 피하기 위하여 validation split을 0.
비정형 데이터인 문서에서 추출된 명사들의 빈도를 센 것을 바탕으로 정형 데이터인 문서-용어 빈도행렬을 생성하고, 개체들의 정보가 존재하는 문서-용어 빈도행렬에서 용어 가중치 함수 TF-IDF와 TF-IGM을 적용하여 문서에 대한 용어의 중요도를 반영하였다. 또한 가중치가 적용된 문서-용어 빈도행렬의 문서 분류 정확도 향상을 위해 핵심어를 추출하여 최종 문서 분류 행렬을 생성하였다.
본 연구에서는 총 문서수 343개를 7 : 3의 비율로 훈련표본과 실험표본으로 데이터를 나누었으며, 각 문서에 나타난 용어 26,915개의 특징을 바탕으로 하여 문서 343개가 경제정책, 자원·인프라, 공공정책, 인적자원의 네 가지 연구 분야로 잘 분류되는지를 확인하고자 하였다. 심층 신경망 학습에 대한 매개변수 옵션으로는 먼저 3.2절에서 설명한 활성화 함수를 이용하여 은닉층에서 ReLU 함수를, 출력층에서 softmax 함수를 사용하였다. 비용함수는 다중분류에 적절한 오차 함수인 categorical crossentropy를 사용하고, 최적화 함수로 adam을 사용하였다.
심층 신경망의 은닉층과 은닉노드에 변화를 주며 M1과 M2 방법 각각의 정확도를 산출하였다. 그 결과 제일 깊은 은닉층을 가진 심층 신경망 모델이 가장 높은 정확도를 보였고, 모든 결과에서 M2의 정확도가 M1에 비해 높거나 같은 값을 보였다.
또한 가중치가 적용된 문서-용어 빈도행렬의 문서 분류 정확도 향상을 위해 핵심어를 추출하여 최종 문서 분류 행렬을 생성하였다. 이러한 과정을 거친 문서-핵심어 가중행렬에 최근 각광받고 있는 딥 러닝 기법 중 하나인 심층 신경망을 활용하여 개체들이 각각의 연구 분야 성격에 알맞게 분류되는지 확인하였다.
이러한 단점을 극복하기 위해 Cho 등 (2015)이 소개한 팔꿈치 지점(elbow point)을 기준으로 핵심어를 필터링(filtering)하여 분석의 질을 높이고 소요시간을 단축시키는 방법을 사용하고자 한다. 이 방법은 팔꿈치 지점을 기준으로 하여 필터링하면 W에서 각 용어들의 평균 가중점수를 산출한 후 점수가 급격하게 감소하는 지점을 기준으로 점수가 높은 상위 용어를 핵심어로 선정하는 것이다.

대상 데이터

0의 사이의 값을 가진다. 본 연구에서는 Jeong 등 (2019)의 문서 분류 정확도에서 가장 좋은 결과를 보인 7.0을 사용하였다. d_rj는 j번째 용어가 적어도 한 번이라도 출현한 r번째 개체에 포함된 문서의 수이며 총 문서 수는 d_1j, d_2j, .
본 연구의 자료는 Jung 등 (2019)에서의 연구 자료를 인용하였다. 경제·인문사회연구회 소속 정부출연 연구기관에서 2016년 동안 발간된 정기간행물 중 텍스트 추출이 불가능한 간행물 자료를 제공하는 건축도시공간연구소, 국토연구원, 에너지경제연구원, 한국농촌경제연구원, 한국법제연구원, 조세재정연구원, KDI 국제정책연구원은 제외하였다.
총 19개 연구기관을 분석대상으로 선정하였으며, 한국법제연구원 홈페이지에 게재된 공고문(2008)을 바탕으로 연구 분야의 성격에 따라 경제정책, 자원·인프라, 공공정책, 인적자원으로 분류하여 Table 3.1에 정리하였다.
따라서 본 연구에서는 꼬꼬마 형태소 분석기를 사용하여 말뭉치에서 한국어 형태소 품사 중 일반 명사와 고유 명사만을 추출하였으며, 이 과정에서 미등록어, 오·탈자, 띄어쓰기, 영문 및 기호 등을 제거하였다. 최종적으로 Table 3.2의 기관별 대표 정기간행물 문서 343개와 문서에서 추출한 용어 26,915개로 구성된 문서-용어 빈도행렬을 분석에 사용하였다.

이론/모형

본 연구에서는 분류 모델의 성능을 평가하기 위한 지표로 가장 많이 이용되는 정확도(accuracy)를 이용하였으며, 이는 다음의 식 (3.8)로 계산할 수 있다.

성능/효과

2.2절에서 생성된 문서-용어 가중행렬 W는 모든 개체와 용어를 포함하고 있기 때문에 차원의 수가 매우 크고 0의 값이 많은 행렬이다. 따라서 TF-IDF와 TF-IGM만으로 핵심어가 추출된다고 보기 어렵다.
그 결과 Table 3.4의 인적자원과 Table 3.5의 자원·인프라를 제외한 모든 결과에서 심층 신경망의 문서 분류 정확도가 더 높음을 확인하였다.
3은 은닉층과 은닉노드 변화에 따라 방법 M1과 M2의 모델 정확도를 나타낸 표이다. 그 결과 은닉층 당 노드의 수가 가장 많은 모델 5에서 M1과 M2의 정확도가 약 83%와 85%로 가장 높게 나타나 문서를 가장 잘 분류 한 것으로 볼 수 있다.
심층 신경망의 은닉층과 은닉노드에 변화를 주며 M1과 M2 방법 각각의 정확도를 산출하였다. 그 결과 제일 깊은 은닉층을 가진 심층 신경망 모델이 가장 높은 정확도를 보였고, 모든 결과에서 M2의 정확도가 M1에 비해 높거나 같은 값을 보였다. 또한 제안된 심층 신경망 모델을 문서 분류에서 가장 많이 이용되었던 서포트 벡터 머신과 비교했을 때 대부분의 심층 신경망 결과에서 더 높은 정확도를 보였다.
5의 자원·인프라를 제외한 모든 결과에서 심층 신경망의 문서 분류 정확도가 더 높음을 확인하였다. 따라서 가중치를 부여한 문서-용어 빈도행렬의 문서 분류를 하는 데 있어서 서포트 벡터 머신보다 심층 신경망이 더 적합한 방법이라 판단된다.
그 결과 제일 깊은 은닉층을 가진 심층 신경망 모델이 가장 높은 정확도를 보였고, 모든 결과에서 M2의 정확도가 M1에 비해 높거나 같은 값을 보였다. 또한 제안된 심층 신경망 모델을 문서 분류에서 가장 많이 이용되었던 서포트 벡터 머신과 비교했을 때 대부분의 심층 신경망 결과에서 더 높은 정확도를 보였다. 따라서 개체 정보가 존재하는 문서를 분류하는데 있어서 TF-IGM 용어가중치를 이용하며 심층 신경망을 적용하는 방법을 제안한다.

후속연구

그러나 하나의 연구자료를 분석에 활용하였기 때문에 결과를 일반화하기엔 무리가 있다. 따라서 다양한 문서자료를 이용해 다양한 가중치와 심층 신경망 매개변수 변화 등을 통해 더 나은 문서 분류 기법을 찾는 연구가 필요하다고 생각된다. 또한 비정형 데이터를 정형 데이터로 변환하기 위해 최근 구글에서 개발한 Word2Vec (2013)나 스탠포드에서 개발한 GolVe (2014) 등을 활용하면 다양한 연구 결과를 얻을 수 있을 것이라 생각한다.
따라서 다양한 문서자료를 이용해 다양한 가중치와 심층 신경망 매개변수 변화 등을 통해 더 나은 문서 분류 기법을 찾는 연구가 필요하다고 생각된다. 또한 비정형 데이터를 정형 데이터로 변환하기 위해 최근 구글에서 개발한 Word2Vec (2013)나 스탠포드에서 개발한 GolVe (2014) 등을 활용하면 다양한 연구 결과를 얻을 수 있을 것이라 생각한다.
본 연구에서 제안한 방법을 텍스트 마이닝 단계와 심층 신경망 모델 구현에 활용한다면 용어 중요도를 확인하고 특징 추출없이 문서를 분류할 수 있을 것이다. 그러나 하나의 연구자료를 분석에 활용하였기 때문에 결과를 일반화하기엔 무리가 있다.

참고문헌 (16)

Bengio, Y., Courville, A., and Vincent, P. (2013). Representation learning: a review and new perspectives, IEEE Transactions on Pattern Analysis and Machine Intelligence, 35, 1798-1828.

상세보기
Chen, K., Zhang, Z., Long, J., and Zhang, H. (2016). Turning from TF-IDF to TF-IGM for term weighting in text classification, Expert System with Applications, 66, 245-260.
Cho, H. Y., Kim, Y. H., and Im, H. H. (2018). Forecast of wind-shear alert using deep neural networks, Asia-Pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology, 8, 749-757.
Cho, S. G., Cho, J. H., and Kim, S. B. (2015). Discovering meaningful trends in the inaugural addresses of United States Presidents Via text mining, Journal of Korean Institute of Industrial Engineers, 41, 453-460.
Choi, M. J. (2017). Forecasting the number of tourists in Jeju Island using deep learning algorithm (Master thesis), Hanyang University.
Jeon, E. K. (2018). Implementation of arrhythmia classification system using deep neural network (Master thesis), Soonchunhyang University.
Jeong, H. Y., Shin, S. M., and Choi, Y. S. (2019). Comparison of term weighting schemes for document classification, The Korean Journal of Applied Statistics, 32, 265-276.
Joo, W. K. (2018). Automatic classification method for atypical texts that include structure information using deep learning (Doctoral thesis), Chungnam National University.
Jung, M. J. (2017). A study on clustering methods for proximity data in text mining (Master thesis), Pusan National University.
Jung, M. J., Shin, S. M., and Choi, Y. S. (2019). Creation and clustering of proximity data for text data analysis, The Korean Journal of Applied Statistics, 32, 451-462.
LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W., and Jackel, L. D. (1989). Backpropagation applied to handwritten zip code recognition, Neural Computation, 1, 541-551.

상세보기
Lee, D. J., Yeon, J. H., Hwang, I. B., and Lee, S. G. (2010). KKMA: a tool for utilizing Sejong corpus based on relational database, Communications of the Korean Institute of Information Scientists and Engineers, 16, 1046-1050.
Lee, G. G., Ha, H. S., Hong, H. G., and Kim, H. B. (2018). Exploratory research on automating the analysis of scientific argumentation using machine learning, Journal of the Korean Association for Science Education, 38, 219-234.
Lee, M. R. and Bae, H. K. (2002). Design of keyword extraction system using TFIDF, The Korean Society for Cognitive Science, 13, 1-11.
Satopaa, V., Albrecht, J., Irwin, D., and Raghavan, B. (2011). Finding a "kneedle" in a haystack: detecting knee points in system behavior, Distributed Computing Systems Workshops (ICDCSW) 2011 31st International Conference on, IEEE, 166-171.
Schmidhuber, J. (2015). Deep learning in neural networks: an overview, Neural Networks, 61, 85-117.

상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증