[논문]Doc2Vec을 활용한 CNN기반 한국어 신문기사 분류에 관한 연구

김도우; 구명완

Doc2Vec을 활용한 CNN기반 한국어 신문기사 분류에 관한 연구
A Study on Categorization of Korean News Article based on CNN using Doc2Vec 원문보기

한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회, 2016 Oct. 07, 2016년, pp.67 - 71

김도우 (서강대학교, 정보통신대학원) , 구명완 (서강대학교, 정보통신대학원)

초록
AI-Helper

본 논문에서는 word2vec과 doc2vec을 함께 CNN에 적용한 문서 분류 방안을 제안한다. 먼저 어절, 형태소, WPM(Word Piece Model)을 각각 사용하여 생성한 토큰(token)으로 doc2vec을 활용하여 문서를 vector로 표현한 후, 초보적인 문서 분류에 적용한 결과 WPM이 분류율 79.5%가 되어 3가지 방법 중 최고 성능을 보였다. 다음으로 CNN의 입력자질로써 WPM을 이용하여 생성한 토큰을 활용한 word2vec을 범주 10개의 문서 분류에 사용한 실험과 doc2vec을 함께 사용한 실험을 수행하였다. 실험 결과 word2vec만을 활용하였을 때 86.89%의 분류율을 얻었고, doc2vec을 함께 적용한 결과 89.51%의 분류율을 얻었다. 따라서 제안한 모델을 통해서 분류율이 2.62% 향상됨을 확인하였다.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 문서 분류를 위하여 doc2vec과 word2vec을 함께 활용한 CNN 모델을 제안한다.
본 논문에서는, word2vec과 CNN을 이용한 기존의 분류 방법[3]을 수정하여, 한국어 신문기사로부터 doc2vec을 활용하여 문서의 vector 표현을 생성하고 수정된 CNN에 word2vec을 활용한 단어의 vector 표현과 함께 적용함으로써 이를 바탕으로 기사를 적합한 범주로 자동 분류하는 방안을 제안하며, word2vec만을 활용한 기존 CNN 기법에 비해 문서의 vector 표현을 함께 사용했을 때 분류 율이 향상됨을 검증하는 것이 목적이다. 분류율은 검증에 사용한 전체 문서 중에서 정확하게 분류된 문서가 차지하는 비율을 말하며 다음 식으로 나타낸다[1].
본 연구에서는 word2vec만을 사용한 기존 CNN 모델에 doc2vec을 함께 적용하는 것이 문서 분류율에 끼치는 영향을 검증하는 것이 목적이기 때문에, doc2vec 및 CNN의 튜닝은 연구대상에 포함하지 않았으나, 모델의 튜닝 및 모델의 topology를 개선하는 등의 분류율 향상 시도가 향후 필요할 것으로 보인다. 또한 다른 데이터셋으로 제안 모델의 성능을 실험하여 데이터셋에 독립적으로 성능 향상을 보이는지 여부와 범주 4와 7에서 word2vec만 사용하였을 때보다 분류율이 낮은 이유의 분석 또한 필요할 것으로 생각된다.
그러나, 문서 자체를 vector로 표현하는 방법인 doc2vec의 활용은 고려되지 않았다. 이에 본 논문에서는 그림 2와 같이 doc2vec을 함께 활용한 CNN 모델을 제안한다.

제안 방법

NewsML[7]형식으로 작성된 신문기사를 XML 파싱 (parsing)한 후 제목, 본문, 범주 정보를 추출하여 범주 별로 파일에 저장하였다. 파일에 저장시 HTML tag를 제거하고, 각 기사를 하나의 라인으로 바꾸어 저장하였다.
문서 분류에 더 나은 성능을 보이는 tokenizing 방법을 찾기 위해, 기사를 어절 단위, 형태소 분석, WPM 적용의 3가지 방법으로 tokenizing한 후, 해당 token들로 doc2vec 알고리즘을 이용하여 생성한 문서의 vector 표현을 적용하여 Logistic Regression(LR) 분류기로 분류율을 실험해보았다. tokenizing 방법을 찾는 실험시, 데이터셋은 9:1로 나누어 90%를 훈련에 사용하고, 10%로 테스트를 수행하였다. 수행 결과는 표 2과 같이 WPM을 적용한 결과가 분류율이 79.
따라서, word2vec을 활용한 CNN 모델과 doc2vec을 함께 활용한 CNN 모델의 성능 비교 실험시, CNN의 입력자질로 입력되는 기사의 token 개수를 고정하여 수행하였다. token의 개수는 100개부터 1,000개까지 100개 단위로 증가시키며, zero-padding을 적용하였다. token 개수 100은 문서내 token의 개수가 1개부터 100개 사이인 경우를 의미한다.
신문기사는 가변길이로 token의 개수가 고정되어 있지 않으나, CNN은 입력 자질로 고정길이를 요구한다. 따라서, word2vec을 활용한 CNN 모델과 doc2vec을 함께 활용한 CNN 모델의 성능 비교 실험시, CNN의 입력자질로 입력되는 기사의 token 개수를 고정하여 수행하였다. token의 개수는 100개부터 1,000개까지 100개 단위로 증가시키며, zero-padding을 적용하였다.
단어와 문서의 vector 표현 생성을 위해 word2vec과 doc2vec 알고리즘을 사용하기 위해서는, 먼저 문서를 token으로 나누어야 한다. 문서 분류에 더 나은 성능을 보이는 tokenizing 방법을 찾기 위해, 기사를 어절 단위, 형태소 분석, WPM 적용의 3가지 방법으로 tokenizing한 후, 해당 token들로 doc2vec 알고리즘을 이용하여 생성한 문서의 vector 표현을 적용하여 Logistic Regression(LR) 분류기로 분류율을 실험해보았다. tokenizing 방법을 찾는 실험시, 데이터셋은 9:1로 나누어 90%를 훈련에 사용하고, 10%로 테스트를 수행하였다.
tokenizing 방법을 찾는 실험시, 데이터셋은 9:1로 나누어 90%를 훈련에 사용하고, 10%로 테스트를 수행하였다. 수행 결과는 표 2과 같이 WPM을 적용한 결과가 분류율이 79.5%로 가장 높았기 때문에, 이어지는 실험에서는 WPM을 적용하여 생성한 token들을 doc2vec과 word2vec의 입력으로 사용하였다. 리소스 사용 및 성능을 고려하여, 각각 token별로 vector는 300차원으로 생성하였다.
제안하는 모델에서는, doc2vec을 활용한 문서의 vector 표현이 문서 분류 수행시마다 한번만 사용되고, 분류시 doc2vec vector의 값들이 최대한 활용될 수 있도록, 그림 2와 같이, word2vec vector들에 대한 convolutional layer와 pooling layer의 출력 vector와 doc2vec vector를 연결(concatenation)한 vector를 fully-connected layer의 입력자질로써 활용하도록 구성하였다.
NewsML[7]형식으로 작성된 신문기사를 XML 파싱 (parsing)한 후 제목, 본문, 범주 정보를 추출하여 범주 별로 파일에 저장하였다. 파일에 저장시 HTML tag를 제거하고, 각 기사를 하나의 라인으로 바꾸어 저장하였다.

대상 데이터

2013년 5월에서 7월 사이에 77개 신문사에서 작성된 한국어 신문기사 528,735개중 범주가 분류되어 있는 146,691개를 대상으로, 범주별 기사수가 1,000개 이상인 10개 범주를 선정한 후, 범주별로 1,000개의 기사를 추출하여 데이터셋을 구성하고 실험을 수행하였다. 선정된 범주와 label은 표 1과 같다.

데이터처리

실험 데이터의 개수가 적은 것을 고려하여 10-fold cross validation을 이용하여 분류율을 측정하였다.

이론/모형

두 모델의 설정은 Yoon Kim[3]이 제안한 모델의 기본 설정(baseline configuration)을 기반으로 하여 적용하였고, 표 3에 기술하였다.

성능/효과

CNN의 입력자질로 사용할 word2vec과 doc2vec을 생성하기에 앞서, word2vec과 doc2vec에 입력될 token을 생성하기 위한 tokenizing 방법을 선정하기 위해 수행한 실험을 통하여, 음성인식기에 효과적이라고 알려진 WPM을 활용하여 생성한 doc2vec을 이용한 경우가 분류율 79.5%로 어절과 형태소 분석을 이용하는 경우보다 문서 분류에 더 도움이 됨을 확인하였다. 그러나, WPM이 문서 분류시에 끼치는 영향은 향후 분석이 필요할 것으로 보인다.
word2vec만 사용한 CNN은 token 개수 700에서 최고 성능을 보이고 이후 유지되는 경향을 보이며, doc2vec을 함께 사용한 CNN은 token 개수 600에서 최고 성능을 보이며, 이후 유지되는 경향을 보였다. 표 4, 그림 5에서볼 수 있듯이 doc2vec을 word2vec과 함께 적용한 경우, word2vec만을 또는 doc2vec만을 적용한 모델보다 성능이 항상 높게 측정되었다.
그림 6을 통해서 볼 수 있듯이, 범주 4와 7을 제외한 나머지 범주에서 모두 doc2vec을 함께 활용한 모델의 분류율이 높았으며, precision, recall, F-measure, accuracy 모두 doc2vec을 함께 활용한 모델이 높음을 그림 7을 통해 확인할 수 있다.
표 4, 그림 5에서볼 수 있듯이 doc2vec을 word2vec과 함께 적용한 경우, word2vec만을 또는 doc2vec만을 적용한 모델보다 성능이 항상 높게 측정되었다. 두 모델의 최고 분류율의 차이는 doc2vec을 함께 적용한 모델이 word2vec만을 적용한 모델보다 분류율이 2.62% 높았고, 19.98%의 개선율을 보였다.
98%로 좀 더 높은 성능을 보임을 검증하였다. 또한 전체 문서의 80%가 포함하는 token 개수 이상이 되면 분류율이 더 높아지지 않고 유지되는 것을 확인 할 수 있었다.
실험을 통해, doc2vec과 word2vec을 함께 활용하여 CNN에 적용하는 것이, word2vec만을 활용한 CNN보다 분류율 2.62% 향상, 개선율 19.98%로 좀 더 높은 성능을 보임을 검증하였다. 또한 전체 문서의 80%가 포함하는 token 개수 이상이 되면 분류율이 더 높아지지 않고 유지되는 것을 확인 할 수 있었다.
우선, doc2vec만을 활용하였을 때보다 doc2vec과 word2vec을 함께 활용하는 모델의 성능이 더 향상됨을 확인하기 위하여, 그림 4와 같이 제안 모델에서 word2vec 적용 부분을 제외하고, fully-connected layer 의 입력자질로 doc2vec만을 이용하여 실험한 결과 81.81%의 분류율을 얻었다.

후속연구

5%로 어절과 형태소 분석을 이용하는 경우보다 문서 분류에 더 도움이 됨을 확인하였다. 그러나, WPM이 문서 분류시에 끼치는 영향은 향후 분석이 필요할 것으로 보인다.
본 연구에서는 word2vec만을 사용한 기존 CNN 모델에 doc2vec을 함께 적용하는 것이 문서 분류율에 끼치는 영향을 검증하는 것이 목적이기 때문에, doc2vec 및 CNN의 튜닝은 연구대상에 포함하지 않았으나, 모델의 튜닝 및 모델의 topology를 개선하는 등의 분류율 향상 시도가 향후 필요할 것으로 보인다. 또한 다른 데이터셋으로 제안 모델의 성능을 실험하여 데이터셋에 독립적으로 성능 향상을 보이는지 여부와 범주 4와 7에서 word2vec만 사용하였을 때보다 분류율이 낮은 이유의 분석 또한 필요할 것으로 생각된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	문서 분류의 자동화를 위하여 기존에는 어떤 방법을 이용했는가?	문서 분류의 자동화를 위하여 기존에는 단순히 문서에 나타나는 단어의 빈도를 이용하여 분류 범주를 지정하는 통계적인 분류방법을 이용하거나[1], 분류에 필요한 주요 단어들을 추출하고 추출된 단어들을 기반으로 K-NN, 의사결정 트리, 베이지언 네트워크, 인공신경망 등의 데이터 마이닝 알고리즘을 이용한 연구가 진행되었다[2]. 최근에는 딥러닝 알고리즘인 컨볼루션 신경망(Convolutional neural network, CNN)이 자연어 처리에 효과적이라는 것이 알려지면서, 문서에 포함된 단어들을 각각 vector로 표현하는 방법인 word2vec[5]과 CNN을 이용한 문서 분류 방법[3]이 제안되었고, 실제로 놀라운 결과를 보여주었다[3].
	딥러닝 알고리즘인 컨볼루션 신경망이 무엇에 효과적인가?	문서 분류의 자동화를 위하여 기존에는 단순히 문서에 나타나는 단어의 빈도를 이용하여 분류 범주를 지정하는 통계적인 분류방법을 이용하거나[1], 분류에 필요한 주요 단어들을 추출하고 추출된 단어들을 기반으로 K-NN, 의사결정 트리, 베이지언 네트워크, 인공신경망 등의 데이터 마이닝 알고리즘을 이용한 연구가 진행되었다[2]. 최근에는 딥러닝 알고리즘인 컨볼루션 신경망(Convolutional neural network, CNN)이 자연어 처리에 효과적이라는 것이 알려지면서, 문서에 포함된 단어들을 각각 vector로 표현하는 방법인 word2vec[5]과 CNN을 이용한 문서 분류 방법[3]이 제안되었고, 실제로 놀라운 결과를 보여주었다[3]. 그러나, CNN을 이용한 문서 분류 방법에서 문서 자체를 vector로 표현하는 방법인 doc2vec[6]의 활용은 고려되지 않았다.
	문서 분류의 자동화에 대한 필요성이 증대되고 있는 이유는?	이에 따라 국내외 언론사들은 인터넷 기사 서비스를 위한 별도의 체계를 구성·운영하여 정규 뉴스보도 외에도 사용자들이 시간과 장소에 구애받지 않고 신속하게 뉴스 서비스를 이용할 수 있도록 지원하고 있다. 대부분의 언론사에서는 기사를 인터넷에 게시하기 전에 분류 전문가를 통해 기사를 분류하고 검증하는 단계를 거친다. 그러나 이러한 수작업 처리 방법은 정보시스템의 급속한 발달로 인해 처리해야 할 정보와 문서의 양이 점점 방대해지고 복잡해지는 현대 시대에 빠르게 전달해야 하는 뉴스의 속도를 저하시킬 뿐만 아니라 인력 자원의 투입으로 인한 많은 비용을 소비하고 있다. 따라서 문서 분류의 자동화에 대한 필요성은 더욱 증대되고 있다[1].

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

Doc2Vec을 활용한 CNN기반 한국어 신문기사 분류에 관한 연구
A Study on Categorization of Korean News Article based on CNN using Doc2Vec 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

Doc2Vec을 활용한 CNN기반 한국어 신문기사 분류에 관한 연구 A Study on Categorization of Korean News Article based on CNN using Doc2Vec 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

Doc2Vec을 활용한 CNN기반 한국어 신문기사 분류에 관한 연구
A Study on Categorization of Korean News Article based on CNN using Doc2Vec 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper