[논문]트위터 해시 태그를 이용한 End-to-end 뉴럴 모델 기반 키워드 추출

이영훈; 나승훈

트위터 해시 태그를 이용한 End-to-end 뉴럴 모델 기반 키워드 추출
End-to-end Neural Model for Keyphrase Extraction using Twitter Hash-tag Data 원문보기

이영훈 (전북대학교) , 나승훈 (전북대학교)

트위터는 최대 140자의 단문을 주고받는 소셜 네트워크 서비스이다. 트위터의 해시 태그는 주로 문장의 핵심 단어나 주요 토픽 등을 링크하게 되는데 본 논문에서는 이러한 정보를 이용하여 키워드 추출에 활용한다. 문장을 Character CNN, Bi-LSTM을 통해 문장 표현을 얻어내고 각 Span에서 이러한 문장 표현을 활용하여 Span 표현을 생성한다. Span 표현을 이용하여 각 Span에 대한 Score를 얻고 높은 점수의 Span을 이용하여 키워드를 추출한다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

본 논문에서는 트위터의 해시 태그의 단어와 트윗 문장을 이용하여 데이터 셋을 구축한다. 구축된 트위터 데이터 셋을 이용하여 Scoring 구조의 End-to-end Neural 모델을 학습하고 성능을 측정할 것이다.
문장은 형태소 분석을 거쳐 워드 임베딩 Vector를 얻어내고, 각 어절에 대해 1차원 Convolution 연산과 Max-pooling을 적용하여 전체 문장의 Vector인 x을 얻어내었다. 다음은 Character CNN의 정의이다.
실험에 사용된 데이터 셋의 각 문장이 가지는 태그의 수가 최소 1개에서 최대 10개까지 그 수가 모두 다르기 때문에 실험 평가에 어려움이 있다. 본 논문에서는 가장 높은 Score를 가지는 Span이 정답 Span과 일치할 경우와 정확률과 재현율, F1-Score를 이용하여 실험 평가에 사용하였다.
트위터의 해시 태그는 주로 주제어나 주요 토픽을 나타낸다. 본 논문에서는 이러한 문장을 활용하여 실험 데이터 셋을 구축하고 End-to-End 뉴럴 모델을 학습시켰다. 문장에 대한 각 Span의 Score를 얻어 가장 높은 점수를 가지는 키워드를 예측하여 73.
본 논문에서는 트위터의 해시 태그의 단어와 트윗 문장을 이용하여 데이터 셋을 구축한다. 구축된 트위터 데이터 셋을 이용하여 Scoring 구조의 End-to-end Neural 모델을 학습하고 성능을 측정할 것이다.
전체 데이터 개수는 14103개이며 학습 셋과 평가 셋을 랜덤하게 7:3 비율로 나누어 구성하였다. 각 문장에서 태그의 개수는 최소 1개 이상이며, 최대 10개의 태그로 구성되어 있다.
[10]에서 사용된 모델 중 Mention Score 모델 파트와 동일하다. 한국어에 적용할 수 있도록 형태소 분석을 거쳐 Character CNN을 통하여 전체 문장의 Vector를 얻어 내었다. 모델은 Bi-LSTM(Bidirectional Long Short-Term Memory)[11]을 이용하여 전체 문장을 표현하고 각각 문장 표현의 Span들을 통하여 핵심 단어의 후보들을 만든다.

대상 데이터

문장에 들어있는 해시 태그(Hash-tag, #)로 링크 되어 있는 Mention을 Keyword 로 사용하였고 그 Mention이 포함된 문장을 Context로 사용하였다. 단, 각 문장에는 하나 이상의 해시 태그가 존재하며, 해시 태그의 Mention이 문장의 단어로 사용되는 데이터만을 사용하였다.
실험에 사용된 데이터는 Twitter[12]의 트윗(Tweet)을 이용하여 데이터를 구축하였다. 문장에 들어있는 해시 태그(Hash-tag, #)로 링크 되어 있는 Mention을 Keyword 로 사용하였고 그 Mention이 포함된 문장을 Context로 사용하였다.

이론/모형

한국어에 적용할 수 있도록 형태소 분석을 거쳐 Character CNN을 통하여 전체 문장의 Vector를 얻어 내었다. 모델은 Bi-LSTM(Bidirectional Long Short-Term Memory)[11]을 이용하여 전체 문장을 표현하고 각각 문장 표현의 Span들을 통하여 핵심 단어의 후보들을 만든다. 또, Attention Mechanism을 이용하여 Syntactic head를 얻어내어 Span의 표현에 사용한다.

성능/효과

각 Span의 Score를 비교하여 높은 점수를 가지는 Span이 정답 단어의 Span과 일치하면 정답으로 간주하고 평가를 진행한 결과, 73.29%의 정확도를 보였다.
본 논문에서는 이러한 문장을 활용하여 실험 데이터 셋을 구축하고 End-to-End 뉴럴 모델을 학습시켰다. 문장에 대한 각 Span의 Score를 얻어 가장 높은 점수를 가지는 키워드를 예측하여 73.29%의 정확도를 얻었다.

후속연구

향후에는 Threshold 값을 이용하여 임계값 이상의 키워드를 이용하여 문장 내의 Keyword를 추천하는 시스템에 적용할 예정이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

트위터 해시 태그를 이용한 End-to-end 뉴럴 모델 기반 키워드 추출
End-to-end Neural Model for Keyphrase Extraction using Twitter Hash-tag Data 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

트위터 해시 태그를 이용한 End-to-end 뉴럴 모델 기반 키워드 추출 End-to-end Neural Model for Keyphrase Extraction using Twitter Hash-tag Data 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

트위터 해시 태그를 이용한 End-to-end 뉴럴 모델 기반 키워드 추출
End-to-end Neural Model for Keyphrase Extraction using Twitter Hash-tag Data 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper