[논문]한글 문서의 단어 동시 출현 정보에 개선된 TextRank를 적용한 키워드 자동 추출 기법

송광호; 민지홍; 김유성

한글 문서의 단어 동시 출현 정보에 개선된 TextRank를 적용한 키워드 자동 추출 기법
Keyword Automatic Extraction Scheme with Enhanced TextRank using Word Co-Occurrence in Korean Document 원문보기

송광호 (인하대학교, 정보통신공학과) , 민지홍 (인하대학교, 정보통신공학과) , 김유성 (인하대학교, 정보통신공학과)

문서의 의미 기반 처리를 위해서 문서의 내용을 대표하는 키워드를 추출하는 것은 정확성과 효율성 측면에서 매우 중요한 과정이다. 그러나 단일문서로부터 키워드를 추출해 내는 기존의 연구들은 정확도가 낮거나 한정된 분야에 대해서만 검증을 수행하여 결과를 신뢰하기 어려운 문제가 있었다. 따라서 본 연구에서는 정확하면서도 다양한 분야의 텍스트에 적용 가능한 키워드 추출 방법을 제시하고자 단어의 동시출현 정보와 그래프 모델을 바탕으로 TextRank 알고리즘을 변형한 새로운 형태의 알고리즘을 동시에 적용하는 키워드 추출 기법을 제안하였다. 제안한 기법을 활용하여 성능평가를 진행한 결과 기존의 연구들보다 향상된 정확도를 얻을 수 있음을 확인하였다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

그러나 [2]와 [3]의 연구들은 실제 활용하기에 부족한 수준의 정확도를 보였으며, [4]의 연구는 [2,3]보다 나은 성능을 보이긴 하였으나 제한된 영역의 데이터에 대한 검증결과만을 제시하였다. 따라서 본 논문에서는 단어의 동시출현 정보와 TextRank 알고리즘을 변형한 새로운 형태의 알고리즘을 함께 적용하여 비교적 정확도가 높은 방법을 제안하고 다양한 주제를 가진 텍스트 데이터를 이용한 평가를 진행하여 제안한 방법이 다양한 분야의 텍스트에서도 균일한 성능을 보이는지에 대한 검증 결과를 제시하고자 한다.
따라서 본 논문에서는 정확도 높은 키워드 추출을 위해 단어의 동시출현 정보와 TextRank 알고리즘을 변형한 알고리즘을 동시에 적용한 새로운 키워드 추출 기법을 제안한다. 또한 이를 다양한 분야의 데이터에 적용하는 실험을 통해 일반적 데이터에 대한 적용가능성을 살피고 기존 연구들과 동일한 평가방법을 사용하여 성능비교실험을 진행, 그 성능과 타당성을 제시한다.
본 논문에서는 정확하면서도 다양한 분야의 텍스트에 적용 가능한 키워드 추출 방법을 제시하고자 단어의 동시출현 정보와 그래프 모델을 바탕으로 TextRank 알고리즘을 변형한 새로운 형태의 알고리즘을 동시에 적용하는 키워드 추출 기법을 제안하였다. 그 결과 정확도 성능이 기존 연구들 대비 최대 31%의 증진됨을 볼 수 있었다.
앞서 언급한 바와 같이 본 논문에서는 정확도 높은 키워드 추출을 위해 단어의 동시출현정보와 TextRank 알고리즘을 변형한 알고리즘을 동시에 적용한 새로운 키워드 추출 기법을 제안하고자 한다.

제안 방법

3장에서 제안한 키워드 추출기법을 이용하여 다음과 같은 2가지 실험을 진행하였다. 실험 대상은 [표 2]와 같이 [4]에서 실험 대상 분야로 선정했던 ‘정치, 경제’분야와 더불어 ‘컴퓨터, 물리학, 질병, 방위산업, 생태학’를 더한 6개 분야의 논문들로 하였으며 각 분류 당 5개씩 총 30개 논문을 사용하였다.
[표 3] 제목에 출현한 단어 검출 정확도 다음은 [3]에서 수행한 바와 같이 추출된 키워드와 저자가 선정한 키워드 단어를 비교했을 때의 정확도를 평가하는 실험을 진행하였다. 실험 대상은 앞선 실험과 동일하며 결과는 [표 4]와 같이 분야마다 편차가 있지만 평균적으로 66.
계산을 마친 후 TextRank 알고리즘을 응용하기 위해 그래프를 구성한다. 기존 연구에서는 비방향성 그래프를 사용했지만 본 연구에서는 Vertex간의 영향관계를 반영하기 위해 방향성 그래프로 구성된다.
따라서 본 논문에서는 정확도 높은 키워드 추출을 위해 단어의 동시출현 정보와 TextRank 알고리즘을 변형한 알고리즘을 동시에 적용한 새로운 키워드 추출 기법을 제안한다. 또한 이를 다양한 분야의 데이터에 적용하는 실험을 통해 일반적 데이터에 대한 적용가능성을 살피고 기존 연구들과 동일한 평가방법을 사용하여 성능비교실험을 진행, 그 성능과 타당성을 제시한다. 다만 [4]의 연구의 경우는 대조군을 저자들이 직접 정의하여 실험의 재현성이 없고 본 논문의 주제인 키워드 추출과는 [4]의 연구목적이 주요문장추출로서 상이하므로 성능을 직접적으로 비교하는 실험은 진행하지 않는다.
먼저 첫 번째 실험에서는 [2]에서 평가한 바와 같이 추출된 키워드와 제목에 출현한 단어를 비교하여 정확도를 평가하는 실험을 진행하였다. 그 결과는 [표 3]와 같이 전체 평균 74.
이 기법은 [그림 1]과 같이 총 3단계의 과정으로 이루어진다. 첫 번째는 전처리(Pre-Processing) 단계로 문서를 문장단위로 분리하고 그 문서에서 출현 문장 수가 2개를 이상인 명사들을 추출하여 그 단어와 출현 문장 및 문장길이, 문장 내 위치 등을 저장한다. 이때 그 단어가 복합(Compound)명사일 경우 복합명사를 구성하는 구성명 사도 함께 출현한 것으로 처리한다.
[4]에서는 기존의 연구들이 사용한 벡터공간모델 대신 동시출현 관계에 있는 단어들을 이용한 그래프모델을 적용하였다. 텍스트를 문장으로 구분하고 문장에 출현한 단어들을 Vertex로 표현하고, 함께 출현한 단어들을 Edge로 연결시킨 연결그래프를 만든 후 이를 TextRank 알고리즘[6]으로 훈련하여 주요단어들로 이루어진 중요 문장을 추출하는 연구를 진행하였다. TextRank 알고리즘[6]이란 PageRank 알고리즘을 텍스트에 맞게 변형, 적용한 알고리즘으로 중요한 단어는 다른 다양한 단어들과 함께 나온다는 점을 이용하여 단어 그래프를 구성하고 그래프의 Vertex V_i의 중요도(Score) S(V_i)를 [식 1]을 이용해 계산한다.

대상 데이터

실험 대상은 [표 2]와 같이 [4]에서 실험 대상 분야로 선정했던 ‘정치, 경제’분야와 더불어 ‘컴퓨터, 물리학, 질병, 방위산업, 생태학’를 더한 6개 분야의 논문들로 하였으며 각 분류 당 5개씩 총 30개 논문을 사용하였다.

데이터처리

마지막으로 [6]에서 수행한 바와 같이 추출된 키워드 중 관련 전문가가 옳은 것으로 판정한 키워드의 비율을 Precision으로 하여 정확도를 산출하였다. 비록 [6]은 영어로 이루어진 문서로 실험하여 직접적인 비교에 큰 의의가 있는 것은 아니나 [표 5]에서 보이는바와 같이 평균적으로 40.

성능/효과

그러나 이 방법은 키워드 추출에 있어서는 정확도가 낮은 문제점을 갖고 있었고 그에따라 [2]에서는 TF-IDF 뿐 아니라 다양한 변형공식들을 적용하고 그에 더해 공식 적용 전 단계에 용어클러스터링을 도입하여 그 성능을 더 향상시키려 하였다. 그 결과 [2]에서 제안된 방법으로 추출한 키워드와 제목에 출현한 단어를 비교했을 때 정확도가 최대 약 52%로 나타났다.
그 결과 연구진에서 자체적으로 준비한 정답 문장과 추출된 키워드로 이루어진 중요 문장의 정확도를 비교했을 때 약 65%의 정확도를 얻었다. 이는 알고리즘이 얻고자 하는 목적에 따른 [식 1]의 변형이 유효한 효과를 보일 수 있다는 것을 보여준다.
본 논문에서는 정확하면서도 다양한 분야의 텍스트에 적용 가능한 키워드 추출 방법을 제시하고자 단어의 동시출현 정보와 그래프 모델을 바탕으로 TextRank 알고리즘을 변형한 새로운 형태의 알고리즘을 동시에 적용하는 키워드 추출 기법을 제안하였다. 그 결과 정확도 성능이 기존 연구들 대비 최대 31%의 증진됨을 볼 수 있었다. 또한 여러 분야의 텍스트 데이터들에 적용을 하여 검증함으로써 텍스트의 분야에 크게 영향을 받지 않는 방법임을 보였다.
먼저 [3]에서는 텍스트를 복합 어절 단위로 분할 한 후 분할된 영역에서 동시에 출현한 단어의 빈도를 계산하여 동시출현 행렬을 구성한 후 행렬의 값을 이용해 각 단어마다 가중치를 계산하여 문서의 주제어를 추출하는 방식을 제안하였다. 그 결과 추출된 키워드와 저자가 선정한 키워드 단어를 비교했을 때 정확도가 최대 36%로 나타났다.
그 결과 정확도 성능이 기존 연구들 대비 최대 31%의 증진됨을 볼 수 있었다. 또한 여러 분야의 텍스트 데이터들에 적용을 하여 검증함으로써 텍스트의 분야에 크게 영향을 받지 않는 방법임을 보였다. 그러나 실험과정에서 나타난 복합명사 처리 문제나 형태소 분석기의 Stemming 성능 문제로 인한 성능 하락 등은 Vertex 병합 또는 합성명사의 구성명사분석 등의 방법을 고안하여 보완하여야 할 과제이다.
[표 3] 제목에 출현한 단어 검출 정확도 다음은 [3]에서 수행한 바와 같이 추출된 키워드와 저자가 선정한 키워드 단어를 비교했을 때의 정확도를 평가하는 실험을 진행하였다. 실험 대상은 앞선 실험과 동일하며 결과는 [표 4]와 같이 분야마다 편차가 있지만 평균적으로 66.0%의 정확도를 보여 [3]의 결과인 36%의 정확도보다 향상된 정확도를 보였다.
위 세 실험의 결과로부터 제안한 방식이 기존 TF-IDF 기반 키워드 추출법이나 단어의 동시출현 정보만을 사용하는 방법보다 나은 결과를 얻을 수 있음과 동시에 기존 TextRank보다도 나은 성능을 얻을 수 있음을 확인할 수 있다.

후속연구

또한 여러 분야의 텍스트 데이터들에 적용을 하여 검증함으로써 텍스트의 분야에 크게 영향을 받지 않는 방법임을 보였다. 그러나 실험과정에서 나타난 복합명사 처리 문제나 형태소 분석기의 Stemming 성능 문제로 인한 성능 하락 등은 Vertex 병합 또는 합성명사의 구성명사분석 등의 방법을 고안하여 보완하여야 할 과제이다.

핵심어

질문

논문에서 추출한 답변

문서에서 키워드를 추출해내는 방법은 무엇이 있는가?

문서에서 키워드를 추출해내는 방법에는 기본적으로 문서에 나타난 단어들의 빈도를 이용하는 빈도기반 접근법과 그에 더해 문서들이 가진 언어학적 요소들을 가미하는 특징기반 접근법 그리고, 최근 연구되기 시작한 기계학습기반 접근법 등이 있다[7]. 그 중 빈도기반 접근법은 1958년 Luhn[8]이 처음 제안한 후 지금까지도 가장 많이 연구되는 방법이다.

키워드 추출의 어려운 점은?

키워드 추출은 대체로 여러 문서들의 집합에서 나온 대량의 단어들 중에서 각 문서들을 구별하는데 핵심적 역할을 하는 단어를 추려내는 방법으로 이루어진다. 그러나 [5]에 따르면 문서 집합에서 추출된 단어들 중 실제 각각의 문서를 구별하는 핵심적인 역할을 할 수 있는 단어 즉, 각 문서가 가진 고유성을 잘 기술할 수 있는 단어들은 약 10% 정도로 매우 적은 수이기 때문에 각각의 문서들이 가진 의미를 잘 표현할 수 있는 단어들을 각 문서마다 걸러내는데에 많은 어려움이 따른다. 따라서 최근에는 문서 군집이 아닌 단일 문서를 대상으로 그 문서만의 키워드를 추출해 내는 연구들이 활발히 진행되고 있다.

키워드 추출이란?

이렇게 선별된 속성들은 이후의 처리 단계에서 중요한 영향을 미치기 때문에 이를 정확하고 효율적으로 선별해내는 것은 매우 중요하다. 특히 단어(Word)는 텍스트 마이닝 연구에서 가장 널리 쓰이는 주요 속성으로써 주제를 대표할 수 있는 적은 수의 대표 단어(Representative Term)를 주어진 텍스트로부터 자동추출해내는 키워드 추출(Keyword Extraction)[1] 연구들이 활발히 진행되고 있다[2][3][4].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

한글 문서의 단어 동시 출현 정보에 개선된 TextRank를 적용한 키워드 자동 추출 기법
Keyword Automatic Extraction Scheme with Enhanced TextRank using Word Co-Occurrence in Korean Document 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

한글 문서의 단어 동시 출현 정보에 개선된 TextRank를 적용한 키워드 자동 추출 기법 Keyword Automatic Extraction Scheme with Enhanced TextRank using Word Co-Occurrence in Korean Document 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

한글 문서의 단어 동시 출현 정보에 개선된 TextRank를 적용한 키워드 자동 추출 기법
Keyword Automatic Extraction Scheme with Enhanced TextRank using Word Co-Occurrence in Korean Document 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper