[논문]단어의 의미와 문맥을 고려한 순환신경망 기반의 문서 분류

주종민; 김남훈; 양형정; 박혁로

doi:10.3745/ktsde.2018.7.7.259

단어의 의미와 문맥을 고려한 순환신경망 기반의 문서 분류
Document Classification using Recurrent Neural Network with Word Sense and Contexts 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.7 no.7, 2018년, pp.259 - 266

주종민 (전남대학교 전자컴퓨터공학부) , 김남훈 (전남대학교 전자컴퓨터공학부) , 양형정 (전남대학교 전자컴퓨터공학부) , 박혁로 (전남대학교 전자컴퓨터공학부)

초록
AI-Helper

본 논문에서는 단어의 순서와 문맥을 고려하는 특징을 추출하여 순환신경망(Recurrent Neural Network)으로 문서를 분류하는 방법을 제안한다. 단어의 의미를 고려한 word2vec 방법으로 문서내의 단어를 벡터로 표현하고, 문맥을 고려하기 위해 doc2vec으로 입력하여 문서의 특징을 추출한다. 문서분류 방법으로 이전 노드의 출력을 다음 노드의 입력으로 포함하는 RNN 분류기를 사용한다. RNN 분류기는 신경망 분류기 중에서도 시퀀스 데이터에 적합하기 때문에 문서 분류에 좋은 성능을 보인다. RNN에서도 그라디언트가 소실되는 문제를 해결해주고 계산속도가 빠른 GRU(Gated Recurrent Unit) 모델을 사용한다. 실험 데이터로 한글 문서 집합 1개와 영어 문서 집합 2개를 사용하였고 실험 결과 GRU 기반 문서 분류기가 CNN 기반 문서 분류기 대비 약 3.5%의 성능 향상을 보였다.

Abstract ▼ AI-Helper

In this paper, we propose a method to classify a document using a Recurrent Neural Network by extracting features considering word sense and contexts. Word2vec method is adopted to include the order and meaning of the words expressing the word in the document as a vector. Doc2vec is applied for considering the context to extract the feature of the document. RNN classifier, which includes the output of the previous node as the input of the next node, is used as the document classification method. RNN classifier presents good performance for document classification because it is suitable for sequence data among neural network classifiers. We applied GRU (Gated Recurrent Unit) model which solves the vanishing gradient problem of RNN. It also reduces computation speed. We used one Hangul document set and two English document sets for the experiments and GRU based document classifier improves performance by about 3.5% compared to CNN based document classifier.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

GRU(Gated Recurrent Unit) 방법은 LSTM의 망각 게이트와 입력 게이트를 하나의 업데이트 게이트(update gate)로 통일하고 출력 게이트 대신에 리셋 게이트(reset gate)를 추 가하였다[15]. LSTM과 마찬가지로 그라디언트 소실 문제를 해결함과 동시에 게이트를 일부 생략함으로써 계산량을 낮춘 셀의 구조다.
[8], [20]에서는 합성곱 신경망 대신 LSTM (Long-Short Term Memory) 알고리즘과 word2vec 모델을 적용하여 문서 분류를 수행하였다. LSTM을 사용하여 긴 시퀀스의 입력에도 과거의 입력을 이용하여 효과적인 문서 분류가 가능하게 하였다. 그러나 문장을 하나의 벡터로 표현하지 못하였고 GRU에 비해 학습 시간이 오래 걸린다는 단점이 있다.
doc2vec에서 표현되는 문서의 특징 벡터 크기에 따른 실험 성능을 알아보기 위해 50, 100, 200, 300으로 설정하여 실험하였다. 데이터는 ‘AG News’를 사용하였고 분류기를 GRU로 사용하여 실험한 결과 Fig.
[5]의 연구에서는 감정 자질의 효과적인 추출 방법과 추출된 감정의 가중치를 강화한 한국어 문서 감정 분류 방법을 제시하였다. 먼저 감정 자질 추출을 위해 영어 단어 유의어 정보를 이용하여 자질들을 확장하였고, 영한사전을 통해 확장된 자질들을 번역하여 감정 자질들 추출한다. 추출된 감정 자질로 카이 제곱 통계량을 통해 감정 강도를 구한다.
word2vec을 이용하여 단어를 벡터로 표현하고 이 단어벡터를 doc2vec에 문서 아이디와 함께 입력하여 문서 벡터를 생성한다. 문서 벡터를 RNN의 GRU 분류기에 입력으로 사용해 정확도(Accuracy)를 구하여 성능을 평가하였다. GRU의 문서벡터 입력차원은 실험을 통해 가장 높은 정확도를 보이는 100차원으로 결정하였다.
한 문서는 동사, 명사, 조사, 형용사, 부사 등 다양한 품사 Description 로 구성되어있지만 모든 품사를 문서의 특징으로 사용하면 불필요한 정보가 다수 포함된다. 본 논문에서는 명사를 문서의 주요 특징으로 보고 형태소 분석을 통해 명사만을 추출한다. 추출된 명사 중에서도 다수의 문서에서 출현하는 단어는 문서간의 분별력을 낮추기 때문에 제거한다.
본 논문에서는 문서 내의 단어의 의미와 순서를 문서 벡터로 표현하기 위해 단어의 의미와 문맥을 고려하는 word2vec 과 doc2vec을 이용하여 문서를 표현하고, 순환 신경망 분류기를 이용하여 문서를 분류하는 방법을 제안한다. 전체적인 시스템 구조도는 Fig.
’와 같은 문장에서 ‘쇼트트랙’이라는 단어가 입력 데이터로 주어진 다면 ‘국내’, ‘훈련’이라는 단어를 출력 데이터로 학습시킨다. 본 논문에서는 입력층(Input layer)에 주어진 단어들을 원핫 인코딩(one-hot encoding) 방식으로 입력한다. 원핫 인코딩 방식은 단어를 하나의 1의 값을 갖는 비트와 0의 값을 갖는 나머지 비트로 이루어진 것을 말한다.
본 논문에서는 형태소 분석을 통해 문서에서 명사만을 추출하였다. 그러나 문맥을 이해하기 위해서는 명사뿐만 아니라 형용사나 동사같은 주요 품사도 필요하다.
최종적으로 학습이 끝나면 추가적으로 입력했던 문서 아이디가 문서용 벡터가 된다. 본 연구에서는 word2vec에서 일반적으로 성능이 더 우수하다고 평가되는 word2vec의 스킵그램 방식과 doc2vec의 DM 모델을 통해 문서를 벡터로 표현한다[13].
실험의 학습 반복 수(epoch)에 따른 실험 성능을 알아보기 위해 10, 30, 50, 70, 90으로 설정하여 ‘AG News’ 데이터에 대해 GRU를 사용하였다.

대상 데이터

‘AG news’는 총 127,600개의 신문기사를 모은 것으로 4개의 범주로 분류되어 있다. 각 범주에는 31,900개의 문서가 존재한다. Table 6은 실험에 사용된 데이터 집합의 설명이다.
실험을 위해 형태소 분석은 파이썬의 Konlpy[18] 라이브러리에서 twitter 패키지를 사용하여 실시하였고 DF(Document Frequency)를 추출하여 빈도수가 50%가 넘는 어절은 불용어로 처리하였다. 데이터의 90%를 훈련데이터로 사용하고 10%를 테스트 데이터로 사용하였다. word2vec을 이용하여 단어를 벡터로 표현하고 이 단어벡터를 doc2vec에 문서 아이디와 함께 입력하여 문서 벡터를 생성한다.
본 논문에서 분류시스템의 학습과 분류 실험을 위하여 사용된 데이터는 ‘한국일보 20000[10]’ (HKIB-20000), ‘20-news[16]’, ‘AG news[17]’이다.
‘20-news’는 영문으로 작성되었고 18,828개의 신문기사가 주제별로 20개의 범주로 분류되어있다. 실험 비교를 위해 범주의 경계가 확실히 구분되는 12개의 범주만을 사용하였다. 다음 Table 5는 실험에 사용된 문서 범주와 해당 문서 개수를 보여준다.

데이터처리

먼저 감정 자질 추출을 위해 영어 단어 유의어 정보를 이용하여 자질들을 확장하였고, 영한사전을 통해 확장된 자질들을 번역하여 감정 자질들 추출한다. 추출된 감정 자질로 카이 제곱 통계량을 통해 감정 강도를 구한다. 마지막으로 긍정 문서에서는 긍정 감정 자질만 강화하고 부정 문서에서는 부정 감정 자질만 강화하여 서포터 벡터 머신으로 분류한다.

이론/모형

RNN 분류기를 통해 다른 모델과 비교하여 성능이 향상된 것을 확인하였다. RNN 분류 모델 중에서도 과거의 입력들을 장기간 기억하면서 그라디언트 소실 문제를 해결해주고 계산량을 줄여주는 GRU모델을 사용하였다. 실험 결과 CNN 분류모델보다 GRU 모델에서 약 3.
word2vec에는 스킵그램(Skip-gram)과 CBOW (Continuous Bag of Words) 두 가지 방식이 있는데 본 논문에서는 스킵 그램 방식을 이용한다. 스킵그램은 하나의 단어를 통해 주위의 다른 단어들을 유추하는 방법이다.
본 논문에서는 문서분류 성능을 향상시키기 위해 딥 러닝 기반의 색인 방법과 분류 모델을 사용하였다. 단어의 빈도기반 문서 벡터 표현 방법인 Tf-iDf 방식의 단점을 해결하는 방법인 단어의 의미와 문맥을 고려할 수 있는 word2vec과 doc2vec을 사용하여 문서를 벡터로 색인하였다. RNN 분류기를 통해 다른 모델과 비교하여 성능이 향상된 것을 확인하였다.
본 논문에서는 문서 분류를 위해 순환 신경망(RNN) 중 GRU를 사용한다. RNN의 기본 구조는 Fig.
본 논문에서는 문서분류 성능을 향상시키기 위해 딥 러닝 기반의 색인 방법과 분류 모델을 사용하였다. 단어의 빈도기반 문서 벡터 표현 방법인 Tf-iDf 방식의 단점을 해결하는 방법인 단어의 의미와 문맥을 고려할 수 있는 word2vec과 doc2vec을 사용하여 문서를 벡터로 색인하였다.
결과적으로 CBOW와 스킵그램은 같은 작업을 거치고 비슷한 단어 벡터를 생성하게 된다. 본 논문에서는 일반적으로 성능이 더 우수하다고 알려진 스킵그램 방식을 이용하여 문서를 벡터로 표현한다[13].
본 논문에서는 효율적인 문서 색인을 위해 word2vec과 doc2vec을 사용한다. word2vec을 사용해 일반적인 Tf-iDf 방식보다 단어를 의미 있게 표현하고 doc2vec을 통해 문맥을 고려하여 문서를 벡터로 표현한다.
Table 9는 word2vec과 doc2vec이 문서의 특징을 얼마나 잘 보여주는지 알기 위해 다른 자질들과 비교 실험한 것을 보여준다. 분류기는 GRU 모델을 사용하였다. 성능 평가 모델은 Equation (16)과 같은 정확도와 F1-measure로 측정하였다.
분류기는 GRU 모델을 사용하였다. 성능 평가 모델은 Equation (16)과 같은 정확도와 F1-measure로 측정하였다.
실험을 위해 형태소 분석은 파이썬의 Konlpy[18] 라이브러리에서 twitter 패키지를 사용하여 실시하였고 DF(Document Frequency)를 추출하여 빈도수가 50%가 넘는 어절은 불용어로 처리하였다. 데이터의 90%를 훈련데이터로 사용하고 10%를 테스트 데이터로 사용하였다.
word2vec을 사용해 일반적인 Tf-iDf 방식보다 단어를 의미 있게 표현하고 doc2vec을 통해 문맥을 고려하여 문서를 벡터로 표현한다. 추출된 특징 벡터를 분류하기 위해 순환신경망(RNN)을 사용한다. RNN은 일반적인 신경망 학습에서 기억능력을 추가하여 그 전의 입력들까지 기억하는 방식으로 자연어 처리 분야에서 널리 사용되고 있다.

성능/효과

단어의 빈도기반 문서 벡터 표현 방법인 Tf-iDf 방식의 단점을 해결하는 방법인 단어의 의미와 문맥을 고려할 수 있는 word2vec과 doc2vec을 사용하여 문서를 벡터로 색인하였다. RNN 분류기를 통해 다른 모델과 비교하여 성능이 향상된 것을 확인하였다. RNN 분류 모델 중에서도 과거의 입력들을 장기간 기억하면서 그라디언트 소실 문제를 해결해주고 계산량을 줄여주는 GRU모델을 사용하였다.
데이터는 ‘AG News’를 사용하였고 분류기를 GRU로 사용하여 실험한 결과 Fig. 7과 같으며 특징 벡터의 크기가 100일 때 가장 좋은 성능을 보였다.
본 논문에서 제안하는 word2vec과 doc2vec을 활용하고 RNN의 GRU 분류기를 사용하였을 때 정확도가 더 높은 것을 확인할 수 있다. 또한 word2vec 모델만을 사용했을 때보다 doc2vec 모델을 같이 사용할 경우 성능이 향상되는 것을 확인하였다.
Table 10은 다른 방법들과의 결과를 비교하여 보여준다. 본 논문에서 제안하는 word2vec과 doc2vec을 활용하고 RNN의 GRU 분류기를 사용하였을 때 정확도가 더 높은 것을 확인할 수 있다. 또한 word2vec 모델만을 사용했을 때보다 doc2vec 모델을 같이 사용할 경우 성능이 향상되는 것을 확인하였다.
RNN 분류 모델 중에서도 과거의 입력들을 장기간 기억하면서 그라디언트 소실 문제를 해결해주고 계산량을 줄여주는 GRU모델을 사용하였다. 실험 결과 CNN 분류모델보다 GRU 모델에서 약 3.5% 정도 성능이 향상되었다.
실험 결과 다른 분류기 모델보다 GRU 모델을 사용했을 때 성능이 향상되었는데, 이것은 특정 단어가 출현할 확률이 가까이 인접해 있는 단어뿐만 아니라 멀리 떨어져 있는 단어의 영향력도 고려되었기 때문이라고 판단된다. 따라서 GRU 모델이 CNN이나 LSTM보다 자연어 처리 분야에서 좀 더 좋은 성능을 보였다.
실험 결과 대부분의 경우에 tfidf 보다 word2vec 특징이 더 좋은 결과를 보이고 word2vec+doc2vec 특징이 실험대상 데이터 집합에 대해 가장 좋은 실험결과를 보였다.
실험의 학습 반복 수(epoch)에 따른 실험 성능을 알아보기 위해 10, 30, 50, 70, 90으로 설정하여 ‘AG News’ 데이터에 대해 GRU를 사용하였다. 실험 결과 실험 반복 회수가 커질수록 실험 성능 또한 향상되지만 일정 수 이상 지나면 큰 차이가 없는 것을 확인하였다(Fig. 8).
마지막으로 긍정 문서에서는 긍정 감정 자질만 강화하고 부정 문서에서는 부정 감정 자질만 강화하여 서포터 벡터 머신으로 분류한다. 실험 결과 일반적인 Tf-iDf 모델보다 성능 향상을 보였다. 그러나 영한사전을 통한 번역이 확실치 않고 문맥을 고려하지 않아 단어의 감정값이 확실치 않다는 단점이 있다.
RNN은 일반적인 신경망 학습에서 기억능력을 추가하여 그 전의 입력들까지 기억하는 방식으로 자연어 처리 분야에서 널리 사용되고 있다. 실험결과 RNN에서 그라디언트가 소실되는 문제를 해결해주고 계산량을 줄이는 GRU(Gated Recurrent Units) 방식이 CNN을 사용한 모델보다 약 3.5%의 우수한 결과를 보였다.

후속연구

그러나 문맥을 이해하기 위해서는 명사뿐만 아니라 형용사나 동사같은 주요 품사도 필요하다. 향후 연구에서는 품사를 고려하여 실험 성능을 높일 수 있는 체계적인 분석이 필요하다.

참고문헌 (22)

J. H. Kim, J. H, Kim, K. M. Kim, and B. T. Zhang, "Large-Scale Text Classification with Convolution Neural Networks," Korean Information Science Society Conference Proceedings, pp.792-794, 2015.
P. Soucy and G. W. Mineau, "Beyond TFIDF weighting for text categorization in the vector space model," IJCAI, Vol. 5, 2005.
C. H. Lee, Chang and S. C. Park, "BPNN Algorithm Using SVD for Korean Document Classification," Journal of the Korea Industrial Information System Society, Vol.15, No.2 pp.49-57, 2010.
G. Salton, A. Wong, and C. S. Yang, "A vector space model for automatic indexing," Communications of the ACM, Vol.18, No.11, pp.613-620, 1975.

상세보기
J. W. Hwang and Y, J, Ko, "A Studyon Sentiment Features Extractionand Their Weight Boosting Methodfor Korean Document Sentiment Classification," Journal of KISS: Computing Practice and Letters, Vol.14, No.3, pp.336-340, 2008.
Y., Goldberg and O. Levy, "word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method," arXiv preprint arXiv:1402.3722, 2014.
A. Krizhevsky, I. Sutskever, and G. E. Hinton, "Imagenet classification with deep convolutional neural networks," Advances in Neural Information Processing Systems, 2012.
J. M. Kim and J. H. Lee, "Text Document Classification Based on Recurrent Neural Network Using Word2vec," Journal of Korea Institute of Intelligent Systems, Vol.27, No.6, pp.560-565, 2017.

상세보기
T. Mikolov, I. Sutskever, K. Chen, G. S., Corrado, and J. Dean, "Distributed representations of words and phrases and their compositionality," Advances in Neural Information Processing Systems, 2013.
HANTEC Data Set [Internet], http://www.kristalinfo.com/TestCollections/#hkib
M. Cassel, and F. Lima, "Evaluating one-hot encoding finite state machines for SEU reliability in SRAM-based FPGAs," On-Line Testing Symposium, 2006. IOLTS 2006. 12th IEEE International, IEEE, 2006.
J. H. Lau, and T. Baldwin, "An empirical evaluation of doc2vec with practical insights into document embedding generation," arXiv preprint arXiv:1607.05368.
Q. Le and T. Mikolov, "Distributed representations of sentences and documents," International Conference on Machine Learning, 2014.
F. A. Gers, J. Schmidhuber, and F. Cummins, "Learning to forget: Continual prediction with LSTM," pp.850-855, 1999.
K. Cho, B. Van Merrienboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk, and Y. Bengio, "Learning phrase representations using RNN encoder-decoder for statistical machine translation,"？arXiv preprint arXiv:1406.1078,？2014.
20Newsgroups Data Set [Internet], http://qwone.com/-jason/20Newsgroups/
Text Classification Data Sets [Internet], http://goo.gl/JyCnZq
Python Package for Natural Language Processing [Internet], http://konlpy.org/en/v0.4.4/
J. Y. Lee, "A Study on the Improvement of Document Classification Performance of SVM Classifier Using Document Similarity," Journal of the Korean Society for Information Management, Vol.22 No.3, pp.261-287, 2005.

원문보기 상세보기
J. M. Kim and J. H. Lee, "A study on RNN based document classification using Word2vec," Journal of Korea Institute of Intelligent Systems, Vol.27, No.6, pp.560-565, 2017.

상세보기
Jiang, Z., Zhang, S., & Zeng, J. "A hybrid generative/discriminative method for semi-supervised classification," Knowledge-Based Systems, Vol.37, pp.137-145, 2013.

상세보기
N. H. Kim and H. J. Yang, "Classification of Hangul Documents Based on CNN Using Document Indexing Method Considering Meaning and Order of Words," Korean Computer Education Association Conference Paper, Vol.21, No.2, pp.41-45, 2017.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증