$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

단어의 의미와 문맥을 고려한 순환신경망 기반의 문서 분류
Document Classification using Recurrent Neural Network with Word Sense and Contexts 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.7 no.7, 2018년, pp.259 - 266  

주종민 (전남대학교 전자컴퓨터공학부) ,  김남훈 (전남대학교 전자컴퓨터공학부) ,  양형정 (전남대학교 전자컴퓨터공학부) ,  박혁로 (전남대학교 전자컴퓨터공학부)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 단어의 순서와 문맥을 고려하는 특징을 추출하여 순환신경망(Recurrent Neural Network)으로 문서를 분류하는 방법을 제안한다. 단어의 의미를 고려한 word2vec 방법으로 문서내의 단어를 벡터로 표현하고, 문맥을 고려하기 위해 doc2vec으로 입력하여 문서의 특징을 추출한다. 문서분류 방법으로 이전 노드의 출력을 다음 노드의 입력으로 포함하는 RNN 분류기를 사용한다. RNN 분류기는 신경망 분류기 중에서도 시퀀스 데이터에 적합하기 때문에 문서 분류에 좋은 성능을 보인다. RNN에서도 그라디언트가 소실되는 문제를 해결해주고 계산속도가 빠른 GRU(Gated Recurrent Unit) 모델을 사용한다. 실험 데이터로 한글 문서 집합 1개와 영어 문서 집합 2개를 사용하였고 실험 결과 GRU 기반 문서 분류기가 CNN 기반 문서 분류기 대비 약 3.5%의 성능 향상을 보였다.

Abstract AI-Helper 아이콘AI-Helper

In this paper, we propose a method to classify a document using a Recurrent Neural Network by extracting features considering word sense and contexts. Word2vec method is adopted to include the order and meaning of the words expressing the word in the document as a vector. Doc2vec is applied for cons...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

  • GRU(Gated Recurrent Unit) 방법은 LSTM의 망각 게이트와 입력 게이트를 하나의 업데이트 게이트(update gate)로 통일하고 출력 게이트 대신에 리셋 게이트(reset gate)를 추 가하였다[15]. LSTM과 마찬가지로 그라디언트 소실 문제를 해결함과 동시에 게이트를 일부 생략함으로써 계산량을 낮춘 셀의 구조다.
  • [8], [20]에서는 합성곱 신경망 대신 LSTM (Long-Short Term Memory) 알고리즘과 word2vec 모델을 적용하여 문서 분류를 수행하였다. LSTM을 사용하여 긴 시퀀스의 입력에도 과거의 입력을 이용하여 효과적인 문서 분류가 가능하게 하였다. 그러나 문장을 하나의 벡터로 표현하지 못하였고 GRU에 비해 학습 시간이 오래 걸린다는 단점이 있다.
  • doc2vec에서 표현되는 문서의 특징 벡터 크기에 따른 실험 성능을 알아보기 위해 50, 100, 200, 300으로 설정하여 실험하였다. 데이터는 ‘AG News’를 사용하였고 분류기를 GRU로 사용하여 실험한 결과 Fig.
  • [5]의 연구에서는 감정 자질의 효과적인 추출 방법과 추출된 감정의 가중치를 강화한 한국어 문서 감정 분류 방법을 제시하였다. 먼저 감정 자질 추출을 위해 영어 단어 유의어 정보를 이용하여 자질들을 확장하였고, 영한사전을 통해 확장된 자질들을 번역하여 감정 자질들 추출한다. 추출된 감정 자질로 카이 제곱 통계량을 통해 감정 강도를 구한다.
  • word2vec을 이용하여 단어를 벡터로 표현하고 이 단어벡터를 doc2vec에 문서 아이디와 함께 입력하여 문서 벡터를 생성한다. 문서 벡터를 RNN의 GRU 분류기에 입력으로 사용해 정확도(Accuracy)를 구하여 성능을 평가하였다. GRU의 문서벡터 입력차원은 실험을 통해 가장 높은 정확도를 보이는 100차원으로 결정하였다.
  • 한 문서는 동사, 명사, 조사, 형용사, 부사 등 다양한 품사 Description 로 구성되어있지만 모든 품사를 문서의 특징으로 사용하면 불필요한 정보가 다수 포함된다. 본 논문에서는 명사를 문서의 주요 특징으로 보고 형태소 분석을 통해 명사만을 추출한다. 추출된 명사 중에서도 다수의 문서에서 출현하는 단어는 문서간의 분별력을 낮추기 때문에 제거한다.
  • 본 논문에서는 문서 내의 단어의 의미와 순서를 문서 벡터로 표현하기 위해 단어의 의미와 문맥을 고려하는 word2vec 과 doc2vec을 이용하여 문서를 표현하고, 순환 신경망 분류기를 이용하여 문서를 분류하는 방법을 제안한다. 전체적인 시스템 구조도는 Fig.
  • ’와 같은 문장에서 ‘쇼트트랙’이라는 단어가 입력 데이터로 주어진 다면 ‘국내’, ‘훈련’이라는 단어를 출력 데이터로 학습시킨다. 본 논문에서는 입력층(Input layer)에 주어진 단어들을 원핫 인코딩(one-hot encoding) 방식으로 입력한다. 원핫 인코딩 방식은 단어를 하나의 1의 값을 갖는 비트와 0의 값을 갖는 나머지 비트로 이루어진 것을 말한다.
  • 본 논문에서는 형태소 분석을 통해 문서에서 명사만을 추출하였다. 그러나 문맥을 이해하기 위해서는 명사뿐만 아니라 형용사나 동사같은 주요 품사도 필요하다.
  • 최종적으로 학습이 끝나면 추가적으로 입력했던 문서 아이디가 문서용 벡터가 된다. 본 연구에서는 word2vec에서 일반적으로 성능이 더 우수하다고 평가되는 word2vec의 스킵그램 방식과 doc2vec의 DM 모델을 통해 문서를 벡터로 표현한다[13].
  • 실험의 학습 반복 수(epoch)에 따른 실험 성능을 알아보기 위해 10, 30, 50, 70, 90으로 설정하여 ‘AG News’ 데이터에 대해 GRU를 사용하였다.

대상 데이터

  • ‘AG news’는 총 127,600개의 신문기사를 모은 것으로 4개의 범주로 분류되어 있다. 각 범주에는 31,900개의 문서가 존재한다. Table 6은 실험에 사용된 데이터 집합의 설명이다.
  • 실험을 위해 형태소 분석은 파이썬의 Konlpy[18] 라이브러리에서 twitter 패키지를 사용하여 실시하였고 DF(Document Frequency)를 추출하여 빈도수가 50%가 넘는 어절은 불용어로 처리하였다. 데이터의 90%를 훈련데이터로 사용하고 10%를 테스트 데이터로 사용하였다. word2vec을 이용하여 단어를 벡터로 표현하고 이 단어벡터를 doc2vec에 문서 아이디와 함께 입력하여 문서 벡터를 생성한다.
  • 본 논문에서 분류시스템의 학습과 분류 실험을 위하여 사용된 데이터는 ‘한국일보 20000[10]’ (HKIB-20000), ‘20-news[16]’, ‘AG news[17]’이다.
  • ‘20-news’는 영문으로 작성되었고 18,828개의 신문기사가 주제별로 20개의 범주로 분류되어있다. 실험 비교를 위해 범주의 경계가 확실히 구분되는 12개의 범주만을 사용하였다. 다음 Table 5는 실험에 사용된 문서 범주와 해당 문서 개수를 보여준다.

데이터처리

  • 먼저 감정 자질 추출을 위해 영어 단어 유의어 정보를 이용하여 자질들을 확장하였고, 영한사전을 통해 확장된 자질들을 번역하여 감정 자질들 추출한다. 추출된 감정 자질로 카이 제곱 통계량을 통해 감정 강도를 구한다. 마지막으로 긍정 문서에서는 긍정 감정 자질만 강화하고 부정 문서에서는 부정 감정 자질만 강화하여 서포터 벡터 머신으로 분류한다.

이론/모형

  • RNN 분류기를 통해 다른 모델과 비교하여 성능이 향상된 것을 확인하였다. RNN 분류 모델 중에서도 과거의 입력들을 장기간 기억하면서 그라디언트 소실 문제를 해결해주고 계산량을 줄여주는 GRU모델을 사용하였다. 실험 결과 CNN 분류모델보다 GRU 모델에서 약 3.
  • word2vec에는 스킵그램(Skip-gram)과 CBOW (Continuous Bag of Words) 두 가지 방식이 있는데 본 논문에서는 스킵 그램 방식을 이용한다. 스킵그램은 하나의 단어를 통해 주위의 다른 단어들을 유추하는 방법이다.
  • 본 논문에서는 문서분류 성능을 향상시키기 위해 딥 러닝 기반의 색인 방법과 분류 모델을 사용하였다. 단어의 빈도기반 문서 벡터 표현 방법인 Tf-iDf 방식의 단점을 해결하는 방법인 단어의 의미와 문맥을 고려할 수 있는 word2vec과 doc2vec을 사용하여 문서를 벡터로 색인하였다. RNN 분류기를 통해 다른 모델과 비교하여 성능이 향상된 것을 확인하였다.
  • 본 논문에서는 문서 분류를 위해 순환 신경망(RNN) 중 GRU를 사용한다. RNN의 기본 구조는 Fig.
  • 본 논문에서는 문서분류 성능을 향상시키기 위해 딥 러닝 기반의 색인 방법과 분류 모델을 사용하였다. 단어의 빈도기반 문서 벡터 표현 방법인 Tf-iDf 방식의 단점을 해결하는 방법인 단어의 의미와 문맥을 고려할 수 있는 word2vec과 doc2vec을 사용하여 문서를 벡터로 색인하였다.
  • 결과적으로 CBOW와 스킵그램은 같은 작업을 거치고 비슷한 단어 벡터를 생성하게 된다. 본 논문에서는 일반적으로 성능이 더 우수하다고 알려진 스킵그램 방식을 이용하여 문서를 벡터로 표현한다[13].
  • 본 논문에서는 효율적인 문서 색인을 위해 word2vec과 doc2vec을 사용한다. word2vec을 사용해 일반적인 Tf-iDf 방식보다 단어를 의미 있게 표현하고 doc2vec을 통해 문맥을 고려하여 문서를 벡터로 표현한다.
  • Table 9는 word2vec과 doc2vec이 문서의 특징을 얼마나 잘 보여주는지 알기 위해 다른 자질들과 비교 실험한 것을 보여준다. 분류기는 GRU 모델을 사용하였다. 성능 평가 모델은 Equation (16)과 같은 정확도와 F1-measure로 측정하였다.
  • 분류기는 GRU 모델을 사용하였다. 성능 평가 모델은 Equation (16)과 같은 정확도와 F1-measure로 측정하였다.
  • 실험을 위해 형태소 분석은 파이썬의 Konlpy[18] 라이브러리에서 twitter 패키지를 사용하여 실시하였고 DF(Document Frequency)를 추출하여 빈도수가 50%가 넘는 어절은 불용어로 처리하였다. 데이터의 90%를 훈련데이터로 사용하고 10%를 테스트 데이터로 사용하였다.
  • word2vec을 사용해 일반적인 Tf-iDf 방식보다 단어를 의미 있게 표현하고 doc2vec을 통해 문맥을 고려하여 문서를 벡터로 표현한다. 추출된 특징 벡터를 분류하기 위해 순환신경망(RNN)을 사용한다. RNN은 일반적인 신경망 학습에서 기억능력을 추가하여 그 전의 입력들까지 기억하는 방식으로 자연어 처리 분야에서 널리 사용되고 있다.
본문요약 정보가 도움이 되었나요?

참고문헌 (22)

  1. J. H. Kim, J. H, Kim, K. M. Kim, and B. T. Zhang, "Large-Scale Text Classification with Convolution Neural Networks," Korean Information Science Society Conference Proceedings, pp.792-794, 2015. 

  2. P. Soucy and G. W. Mineau, "Beyond TFIDF weighting for text categorization in the vector space model," IJCAI, Vol. 5, 2005. 

  3. C. H. Lee, Chang and S. C. Park, "BPNN Algorithm Using SVD for Korean Document Classification," Journal of the Korea Industrial Information System Society, Vol.15, No.2 pp.49-57, 2010. 

  4. G. Salton, A. Wong, and C. S. Yang, "A vector space model for automatic indexing," Communications of the ACM, Vol.18, No.11, pp.613-620, 1975. 

  5. J. W. Hwang and Y, J, Ko, "A Studyon Sentiment Features Extractionand Their Weight Boosting Methodfor Korean Document Sentiment Classification," Journal of KISS: Computing Practice and Letters, Vol.14, No.3, pp.336-340, 2008. 

  6. Y., Goldberg and O. Levy, "word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method," arXiv preprint arXiv:1402.3722, 2014. 

  7. A. Krizhevsky, I. Sutskever, and G. E. Hinton, "Imagenet classification with deep convolutional neural networks," Advances in Neural Information Processing Systems, 2012. 

  8. J. M. Kim and J. H. Lee, "Text Document Classification Based on Recurrent Neural Network Using Word2vec," Journal of Korea Institute of Intelligent Systems, Vol.27, No.6, pp.560-565, 2017. 

  9. T. Mikolov, I. Sutskever, K. Chen, G. S., Corrado, and J. Dean, "Distributed representations of words and phrases and their compositionality," Advances in Neural Information Processing Systems, 2013. 

  10. HANTEC Data Set [Internet], http://www.kristalinfo.com/TestCollections/#hkib 

  11. M. Cassel, and F. Lima, "Evaluating one-hot encoding finite state machines for SEU reliability in SRAM-based FPGAs," On-Line Testing Symposium, 2006. IOLTS 2006. 12th IEEE International, IEEE, 2006. 

  12. J. H. Lau, and T. Baldwin, "An empirical evaluation of doc2vec with practical insights into document embedding generation," arXiv preprint arXiv:1607.05368. 

  13. Q. Le and T. Mikolov, "Distributed representations of sentences and documents," International Conference on Machine Learning, 2014. 

  14. F. A. Gers, J. Schmidhuber, and F. Cummins, "Learning to forget: Continual prediction with LSTM," pp.850-855, 1999. 

  15. K. Cho, B. Van Merrienboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk, and Y. Bengio, "Learning phrase representations using RNN encoder-decoder for statistical machine translation,"?arXiv preprint arXiv:1406.1078,?2014. 

  16. 20Newsgroups Data Set [Internet], http://qwone.com/-jason/20Newsgroups/ 

  17. Text Classification Data Sets [Internet], http://goo.gl/JyCnZq 

  18. Python Package for Natural Language Processing [Internet], http://konlpy.org/en/v0.4.4/ 

  19. J. Y. Lee, "A Study on the Improvement of Document Classification Performance of SVM Classifier Using Document Similarity," Journal of the Korean Society for Information Management, Vol.22 No.3, pp.261-287, 2005. 

  20. J. M. Kim and J. H. Lee, "A study on RNN based document classification using Word2vec," Journal of Korea Institute of Intelligent Systems, Vol.27, No.6, pp.560-565, 2017. 

  21. Jiang, Z., Zhang, S., & Zeng, J. "A hybrid generative/discriminative method for semi-supervised classification," Knowledge-Based Systems, Vol.37, pp.137-145, 2013. 

  22. N. H. Kim and H. J. Yang, "Classification of Hangul Documents Based on CNN Using Document Indexing Method Considering Meaning and Order of Words," Korean Computer Education Association Conference Paper, Vol.21, No.2, pp.41-45, 2017. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로