$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

Word2vec을 활용한 RNN기반의 문서 분류에 관한 연구
Text Document Classification Based on Recurrent Neural Network Using Word2vec 원문보기

한국지능시스템학회 논문지 = Journal of Korean institute of intelligent systems, v.27 no.6, 2017년, pp.560 - 565  

김정미 (인하대학교 컴퓨터.정보공학과) ,  이주홍 (인하대학교 컴퓨터.정보공학과)

초록
AI-Helper 아이콘AI-Helper

자연어 처리 분야에서도 심층 신경망 기술이 주목되고 있으며, 최근에는 convolutional neural network (CNN)기반의 심층 신경망 구조가 이미지 분류뿐만 아니라 자연어 처리의 문서 분류에서도 좋은 성능이 입증되었다. 하지만 convolutional neural network (CNN)을 이용한 문서 분류 연구에서는 문장의 평균 단어 수가 16개로 이루어진 짧은 문장에 한하여 적용되었으며, 구문 전체와 의미론적 관계가 복잡한 전체 문장을 다루기 어렵다는 단점을 가지고 있다. 본 논문은 기존 연구의 한계점을 극복하고 더 정확한 문서 분류 성능을 위하여 word2vec를 활용한 recurrent neural network (RNN)기반의 심층 신경망의 접근법을 새롭게 제안한다. 이를 위해 장기 의존성 문제를 해결한 long short-term memory (LSTM)을 사용하여 긴 시퀀스의 입력에서도 효과적인 문서 분류가 가능하도록 하였고, 제안 방식의 효율성을 검증하기 위해 영문 데이터 뿐 아니라 한국어 영화 리뷰 데이터에 대해서도 실험을 수행하였다. 그 결과 장문을 포함하고 있는 영문 신문 기사에서는 87%, 단문으로 구성된 영문 영화 리뷰 문서에서는 90%, 한국어 영화 리뷰에서는 88%의 문서 분류 정확도를 보였다.

Abstract AI-Helper 아이콘AI-Helper

Deep neural network based methods have obtained remarkable progress on natural language processing (NLP) task. Recently, convolutional neural network (CNN) based approaches often outperform not only in image classification, but also in document classification. However, convolutional neural network (...

주제어

참고문헌 (20)

  1. KIM, Yoon. "Convolutional neural networks for sentence classification." arXiv preprint arXiv:1408.5882, 2014. 

  2. Wang, Peng, et al. "Semantic expansion using word embedding clustering and convolutional neural network for improving short text classification." Neurocomputing vol. 174, no. 1, pp.806-814, 2016 

  3. Dowoo Kim, Myoung-Wan Koo. "Categorization of Korean News Articles Based on Convolutional Neural Network Using Doc2Vec and Word2Vec", Journal of KIISE, vol.44. no. 7, pp.742-747, 2017 

  4. In-Su Kang. A Comparative Study on Using SentiWordNet for English Twitter Sentiment Analysis. Journal of Korean Institute of Intelligent Systems, vol. 23, no. 4 , pp. 317-324, 2013. 

  5. Mikolov, Tomas, et al. "Efficient estimation of word representations in vector space." arXiv preprint arXiv:1301.3781, 2013. 

  6. Mei-Ying Ren, Sinjae Kang. "Comparison Between Optimal Features of Korean and Chinese for Text Classification." Joural of Korean Institute of Intelligent Systems, vol. 25, no. 4, pp. 386-391, 2015. 

  7. Dong-Wook Lee, Seo-Hyeon Baek, Min-Ji Park, JinHee Park, Hye-Wuk Jung, Jee-Hyong Lee. "Document Summarization Using Mutual Recommendation with LSA and Sense Analysis." Journal of Korean Institute of Intelligent Systems, vol. 22, no. 5 , pp. 656-662, 2012 

  8. Sunghae Jun. "A Big Data Preprocessing using Statistical Text Mining." Journal of Korean Institute of Intelligent Systems, vol. 25, no. 5, pp. 470-476, 2015 

  9. Recurrent Neural Network(RNN) Tutorial-Part1, "Team AI Korea", Available: http://aikorea.org/blog/rnn-tutorial-1/, 2015, [Accessed: July 26 2017] 

  10. Hochreiter,S. & Schmidhuber, J. "Long short-term memory" Neural computation, vol. 9, no. 8 , pp. 1735-1780, 1997 

  11. Su Jeong Choi, Seong-Bae Park. "Categorization of POIs Using Word and Context information." Journal of Korean Institute of Intelligent Systems, vol, 24, no. 5, pp. 470-476, 2014 

  12. Kingma, Diederik, and Jimmy Ba. "Adam: A method for stochastic optimization." arXiv preprint arXiv:1412.6980, 2014. 

  13. mmihaltz, "word2vec-GoogleNews-vectors", Available:ttps://github.com/mmihaltz/word2vec-GoogleNews-vectors, 2016, [Accessed: July 2 2017] 

  14. "The 20 Newsgroups data set", Available: http://qwone.com/-jason/20Newsgroups/ 2008, [Accessed: March 9, 2017] 

  15. "Naver sentiment movie corpus v1.0", Available: https://github.com/e9t/nsmc 2015, [Accessed: July 9, 2017] 

  16. "Stanford Sentiment Treebank", Available: https://nlp.stanford.edu/sentiment/ 2011, [Accessed: July 20, 2017] 

  17. Genkin, Alexander, David D. Lewis, and David Madigan. "Large-scale Bayesian logistic regression for text categorization." Technometrics vol. 49, no. 3, pp. 291-304, 2007 

  18. Drucker, Harris, Donghui Wu, and Vladimir N. Vapnik. "Support vector machines for spam categorization." IEEE Transactions on Neural networks, vol. 10, no.5, pp. 1048-1054, 1999 

  19. BLEI, David M.; NG, Andrew Y.; JORDAN, Michael I. "Latent dirichlet allocation", Advances in neural information processing systems, 2002 

  20. Lai, Siwei, et al. "Recurrent Convolutional Neural Networks for Text Classification." AAAI, vol. 333, no. 1, 2015. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로