[논문]딥러닝 기반의 뉴스 분석을 활용한 주제별 최신 연관단어 추출 기법

김성진; 김건우; 이동호

문제 정의

본 논문에서는 Word2Vec를 통해 검색엔진에서 얻은 다양한 텍스트 데이터를 분석하여 벡터 테이블을 생성하였다. 생성된 벡터 테이블을 바탕으로 사용자가 입력한 주제와 관련된 일주일 분량의 뉴스기사들의 단어들을 벡터 테이블을 통해 벡터화 시키고 합성곱 신경망을 통해 특징 벡터를 학습하여 연관단어를 생성하는 시스템을 제안하였다.
본 논문에서는 이러한 단점을 극복하기 위해 사용자가 원하는 주제어와 관련된 근래의 뉴스 데이터를 분석하고 최근 주목받고 있는 여러 키워드들을 연관단어로 추출하여 사용자에게 제공하는 시스템을 구축한다.
전처리과정에서 학습과정이 계속해서 이루어지고, 유저가 입력한 주제어가 주어지면, 검색엔진에서 주제어와 관련된 일주일 분량의 뉴스기사들을 찾아낸다. 본 논문의 최종 목적은 주제어를 잘 나타내는 연관단어를 추출하는 것이기 때문에, 더 정확한 분석을 위해 뉴스기사의 단어들 중 be동사, 대명사, 관사 등 불용어를 제거하는 작업이 필요하다. Stanford POS Tagger 라이브러리를 사용해 단어의 품사를 판단하여 불용어를 제거하는 과정을 먼저 거친다.

제안 방법

본 논문에서는 합성곱 신경망을 통해 문서의 특징 벡터를 학습하여 학습된 벡터를 토대로 연관단어를 찾아낸다. 따라서 특징 벡터를 더 잘 학습할 수 있는 특징을 가진 합성곱 신경망의 강점에 주목하여합성곱 신경망을 통해 연관단어를 추출한다.
본 논문에서는 기존의 연관단어 추출에 사용되던 기계학습 기법에서 벗어나 딥러닝을 활용하여 연관단어를 추출한다. 먼저, 검색엔진에서 생성되는 다양한 텍스트 데이터를 인공 신경망 기반 단어 벡터 생성기인 Word2Vec[7]을 통해 단어의 벡터를 계속해서 학습시켜 룩업 테이블(Lookup Table)을 생성한다. Word2Vec는 단어가 말뭉치 내에서 가지는 의미와 역할을 고려하여 값을 측정한다.
본 논문에서는 기존의 연관단어 추출에 사용되던 기계학습 기법에서 벗어나 딥러닝을 활용하여 연관단어를 추출한다. 먼저, 검색엔진에서 생성되는 다양한 텍스트 데이터를 인공 신경망 기반 단어 벡터 생성기인 Word2Vec[7]을 통해 단어의 벡터를 계속해서 학습시켜 룩업 테이블(Lookup Table)을 생성한다.
합성곱 신경망은 본래 컴퓨터 비전 분야에서 많이 쓰였지만, 최근 다양한 연구를 통해 자연어 처리 분야에도 좋은 성능을 보이며, 최근 텍스트 처리 연구에도 많이 활용되어 매우 좋은 성능을 보여주고 있다 [4],[5],[6]. 본 논문에서는 합성곱 신경망을 통해 문서의 특징 벡터를 학습하여 학습된 벡터를 토대로 연관단어를 찾아낸다. 따라서 특징 벡터를 더 잘 학습할 수 있는 특징을 가진 합성곱 신경망의 강점에 주목하여합성곱 신경망을 통해 연관단어를 추출한다.
본 논문의 시스템과 최근 연관단어추출에 많이 사용되는 LDA를 사용하여 연관단어를 추출하는 시스템을 ROUGE를 통해 정확률, 재현율, F-Measure를 평가하였다. 실험에 쓰인 데이터는 각종 검색엔진에서 제공하는데이터를 사용했다.
Word2Vec는 단어가 말뭉치 내에서 가지는 의미와 역할을 고려하여 값을 측정한다. 생성된 룩업 테이블을 바탕으로 합성곱 신경망 (ConvolutionalNeural Network)을 사용하여 주제와 관련된 최근 뉴스기사들을 분석하여 특징벡터로 학습하고 기사의 대표적인 특징을 가장 잘 표현할 수 있는 단어를 연관단어로 추출한다. 합성곱 신경망은 인풋 데이터를 저차원의 벡터로 변환하고 중요한 특징 데이터를 보존하며 다른 신경망들보다 상대적으로 적은 파라미터를 가져 효율적으로 학습을 가능하게 하는 강점을 가지고 있다.
본 논문에서는 Word2Vec를 통해 검색엔진에서 얻은 다양한 텍스트 데이터를 분석하여 벡터 테이블을 생성하였다. 생성된 벡터 테이블을 바탕으로 사용자가 입력한 주제와 관련된 일주일 분량의 뉴스기사들의 단어들을 벡터 테이블을 통해 벡터화 시키고 합성곱 신경망을 통해 특징 벡터를 학습하여 연관단어를 생성하는 시스템을 제안하였다. 실험을 통해 기존 연관단어 연구에서 많이 쓰이던 LDA와 비교를 하여 보다 더 높은 성능을 보임을 확인했다.
실험은 사람이 직접 일주일 분량의 뉴스기사를 읽고 추출한 연관단어와 본 시스템을 통해 생성된 연관단어를 비교하여 성능 평가를 진행하였다. 성능 평가는 평가방법에 널리 이용되는 ROUGE(Recall-Oriented Understudy for Gisting Evaluation)[9]를 이용하였다.
텍스트 데이터를 Word2Vec를 통해 분석하면, 단어마다 사용자가 사전에 지정한 d-차원의 벡터값이 생성된다. 여러 검색엔진에서 실시간으로 생성되는 많은 텍스트 데이터들을 계속해서 Word2Vec를 통해 학습한다. 이를 통해, 단어를 벡터로 변환할 수 있는 벡터 테이블을 생성하게 된다.
생성된 Feature map의 개수(k)만큼 결과물(m_k)이 생성된다. 이 과정을 주제어와 관련된 최근 일주일 분량의 기사들을 순차적으로 입력받아 합성곱, ReLU 활성화 함수, Max-Pooling과정을 계속해서 원하는 만큼 수행 한 후, 전결합층(Fully Connected Layer)을 배치하여 학습을 진행한다. 이 과정을 반복하며 특징벡터를 학습한다.
전체 시스템은 (그림 1)과 같다. 전체 시스템은 전처리과정을 통해 다양한 검색엔진에서 실시간으로 생성되는 다양한 텍스트 데이터들을 Word2Vec를 통해 계속해서 학습한다. 학습을 통해 벡터 테이블이 만들어지면 인풋 주제와 관련된 최근 일주일간의 뉴스 기사들을 수집한다.
실험에 쓰인 데이터는 각종 검색엔진에서 제공하는데이터를 사용했다. 주제어 관련 검색 결과로 나온 뉴스,블로그 등의 다양한 텍스트 데이터를 수집하여 Word2Vec학습에 사용했다. 합성곱 신경망의 학습과정에는 주제어 관련 검색일 기준 최근 1주일 분량의 뉴스 검색결과들만 수집하여 사용했다.
학습을 통해 벡터 테이블이 만들어지면 인풋 주제와 관련된 최근 일주일간의 뉴스 기사들을 수집한다. 합성 곱 신경망 분석과정에서는 생성된 벡터테이블을 룩업테이블로 사용하여 합성곱 신경망을 통해 수집한 뉴스 기사들의 단어들을 벡터로 변환하고, 합성곱 신경망을 통해 뉴스 기사를 학습하여 주제어를 가장 잘 나타내는 특징 벡터를 학습한다. 마지막으로, 학습된 특징벡터가 의미하는 단어를 추출하여 연관단어를 생성한다.

대상 데이터

본 논문의 시스템과 최근 연관단어추출에 많이 사용되는 LDA를 사용하여 연관단어를 추출하는 시스템을 ROUGE를 통해 정확률, 재현율, F-Measure를 평가하였다. 실험에 쓰인 데이터는 각종 검색엔진에서 제공하는데이터를 사용했다. 주제어 관련 검색 결과로 나온 뉴스,블로그 등의 다양한 텍스트 데이터를 수집하여 Word2Vec학습에 사용했다.
전체 시스템은 전처리과정을 통해 다양한 검색엔진에서 실시간으로 생성되는 다양한 텍스트 데이터들을 Word2Vec를 통해 계속해서 학습한다. 학습을 통해 벡터 테이블이 만들어지면 인풋 주제와 관련된 최근 일주일간의 뉴스 기사들을 수집한다. 합성 곱 신경망 분석과정에서는 생성된 벡터테이블을 룩업테이블로 사용하여 합성곱 신경망을 통해 수집한 뉴스 기사들의 단어들을 벡터로 변환하고, 합성곱 신경망을 통해 뉴스 기사를 학습하여 주제어를 가장 잘 나타내는 특징 벡터를 학습한다.
주제어 관련 검색 결과로 나온 뉴스,블로그 등의 다양한 텍스트 데이터를 수집하여 Word2Vec학습에 사용했다. 합성곱 신경망의 학습과정에는 주제어 관련 검색일 기준 최근 1주일 분량의 뉴스 검색결과들만 수집하여 사용했다. 자료들을 학습시켜 나온 연관단어들을 바탕으로 LDA와의 성능을 비교한 결과는 다음과 같다.

이론/모형

실험은 사람이 직접 일주일 분량의 뉴스기사를 읽고 추출한 연관단어와 본 시스템을 통해 생성된 연관단어를 비교하여 성능 평가를 진행하였다. 성능 평가는 평가방법에 널리 이용되는 ROUGE(Recall-Oriented Understudy for Gisting Evaluation)[9]를 이용하였다.

성능/효과

(그림 4)와 에서 볼 수 있듯이, LDA를 사용하여 생성된 연관단어보다 본 논문의 시스템(딥러닝 기반연관단어 추출)을 사용했을 때, 전체적으로 더 높은 정확률과 재현율 그리고 F-Measure 값을 보이는 것을 확인할 수 있다.
생성된 벡터 테이블을 바탕으로 사용자가 입력한 주제와 관련된 일주일 분량의 뉴스기사들의 단어들을 벡터 테이블을 통해 벡터화 시키고 합성곱 신경망을 통해 특징 벡터를 학습하여 연관단어를 생성하는 시스템을 제안하였다. 실험을 통해 기존 연관단어 연구에서 많이 쓰이던 LDA와 비교를 하여 보다 더 높은 성능을 보임을 확인했다. 이를 통해, 텍스트 문서를 분석하여 내용을 대표할 수 있는 연관단어를 추출성능에 큰 영향을 미친다는 사실을 알 수 있었고, 앞으로의 연구들에도 크게 기여할 수 있을 것이라고 본다.

후속연구

실험을 통해 기존 연관단어 연구에서 많이 쓰이던 LDA와 비교를 하여 보다 더 높은 성능을 보임을 확인했다. 이를 통해, 텍스트 문서를 분석하여 내용을 대표할 수 있는 연관단어를 추출성능에 큰 영향을 미친다는 사실을 알 수 있었고, 앞으로의 연구들에도 크게 기여할 수 있을 것이라고 본다. 본 시스템은 영어 기반 텍스트 문서에 적용하여 사용하였다.
현재 딥러닝을 통해 한글 문서를 분석하여 연관단어를 생성하는 연구는 많이 진행되지 않았다. 후속 연구로 한글 문서를 딥러닝을 통해 분석, 연관단어를 생성해 내는 연구를 진행할 예정이다.

핵심어	질문	논문에서 추출한 답변
	단시간 내에 원하는 주제에 대한 정보를 파악하기 어려워지는 이유는?	최근 SNS, 전자 메일, 검색 엔진 서비스 등 온라인상에서 많은 양의 텍스트 데이터가 생성되고 있다. 이러한 데이터들은 매우 빠르고 방대하게 생성되고 있기 때문에, 사용자가 단시간 내에 원하는 주제에 대한 정보를 파악하기가 어려워지고 있다.
	데이터를 가장 잘 나타내는 연관단어를 추출 및 추천하는 연구가 활발히 이루어지고 있는 까닭은?	최근 정보검색의 효율성을 위해 데이터를 분석하여 해당 데이터를 가장 잘 나타내는 연관단어를 추출 및 추천하는 연구가 활발히 이루어지고 있다. 현재 관련 연구들은 출현 빈도수를 사용하는 방법이나 LDA와 같은 기계학습 기법을 활용해 데이터를 분석하여 연관단어를 생성하는 방법을 제안하고 있다.
	기계학습 기법의 단점은?	기계학습 기법은 결과 값을 찾는데 사용되는 특징들을 전문가가 직접 설계해야 하며 좋은 결과를 내는 적절한 특징을 찾을 때까지 많은 시간이 필요하다. 또한, 파라미터들을 직접 설정해야 하므로 많은 시간과 노력을 필요로 한다는 단점을 지닌다. 이러한 기계학습 기법의 단점을 극복하기 위해 인공신경망을 다층구조로 배치하여 데이터를 분석하는 딥러닝이 최근 각광받고 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

딥러닝 기반의 뉴스 분석을 활용한 주제별 최신 연관단어 추출 기법
A Topic Related Word Extraction Method Using Deep Learning Based News Analysis 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

딥러닝 기반의 뉴스 분석을 활용한 주제별 최신 연관단어 추출 기법 A Topic Related Word Extraction Method Using Deep Learning Based News Analysis 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

딥러닝 기반의 뉴스 분석을 활용한 주제별 최신 연관단어 추출 기법
A Topic Related Word Extraction Method Using Deep Learning Based News Analysis 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper