[논문]TF-IDF의 변형을 이용한 전자뉴스에서의 키워드 추출 기법

이성직; 김한준

문제 정의

그래서 본 연구에서는 각 분야에서 1차 생성한 후보 키워드들을 비교하여 동일 단어의 출현을 억제함으로써 키워드 선정의 정확도를 높이고자 한다. <그림 2>에서 보는 바와 같이, 첫 단계로서, 키워드 추출 모듈이 인터넷 포털 사이트에 HTML 페이지 형식으로 게재되어 있는 뉴스 문서를 수집하여 분야별 후보 키워드집합을 생성한다.
그리고 NTF2는 해당 단어의 문서에서의 발생빈도를 각 문서의 모든 단어에 대한 발생빈도로 나누어 더한 값으로 정의한다. 기본적으로 BTF 값이 큰 단어가 중요도가 높을 가능성이 크지만, 뉴스문서 길이가 일정하지 않은 경우에 공정하지 못하므로, NTF1과 NTF2와 같이 문서 길이가 달라서 생기는 가중치의 과도한 편차를 최소화하고자 한다.
본 논문에서는 인터넷 포털 사이트에 게재되는 대용량 뉴스기사로부터 요약하여 보여줄 수 있는 방법으로 키워드 추출을 제시하였다. 분야별 뉴스에서 의미 있는 키워드를 추출하기 위해서, 검색엔진 개발에 활용되고 있는 기존의 TF-IDF 가중치 모델을 변형하여, 전체 문서집합에 적용할 수 있는 6가지 TF-IDF 변형식을 제안하였으며, 분야간 교차비교 분석을 통해 불용어 수준의 키워드를 제거하였다.
본 연구에서는 기존 TF-IDF 모델의 수정과 뉴스 분야간 교차비교 분석을 이용하여 뉴스 문서집합에서 각 분야별 주요 키워드를 추출하는 기법을 제안하였다. 이 기법의 실제적 의미를 평가하기 위해 인터넷 포털사이트 네이버(http://www.
앞서 언급한 바와 같이, 본 연구의 목적은 개별 문서가 아닌 적정 문서집합으로부터 주요 키워드를 추출하는 것이다. 그래서 주어진 문서집합에서 출현 단어의 중요도를 측정하기 위해 TF-IDF 가중치를 변형하고자 한다.
그래서 주어진 문서집합에서 출현 단어의 중요도를 측정하기 위해 TF-IDF 가중치를 변형하고자 한다. 우선 본래의 TF-IDF 가중치 모델을 살펴보기로 한다.
본 연구의 키워드 추출은 개별 문서 범위가 아닌 ‘문서 집합 전체’ 범위를 가정하기 때문에 기존 TF-IDF 모델의 원리를 유지하면서 추출 범위를 고려한 변형식을 제안한다. 즉 본 논문에서는 주어진 뉴스문서 집합 전체 범위에서 키워드를 추출하기 위해 6가지의 수정된 TF-IDF 가중치 모델과 이를 통해 얻은 키워드 집합을 한층 더 개선하기 위해 분야별 후보 키워드 집합을 통계적으로 교차비교하는 기법을 소개한다. 본 제안 기법에 의해 추출된 키워드는 뉴스 문서 집합의 요약 정보를 보여 줄 수 있으며, 이에 따라 뉴스 기사의 분류, 효율적인 뉴스 탐색 등에 활용될 수 있을 것으로 평가한다.

제안 방법

가장 기본적인 BTF와 TFIDF 식을 사용하여 각 10,000개의 단어를 가진 후보 키워드를 생성하였고 그 리스트들을 에 제시하였다.
본 논문에서 제안한 키워드 추출 기법은 다른 종류의 문서 집합의 주제 탐색에도 활용될 수 있으며, 특히 우리는 검색엔진의 개인화와 오피니언 마이닝(Opinion Mining)의 연구에 활용할 예정이다. 검색엔진의 개인화는 사용자 성향을 반영한 검색어의 확장으로 구현될 수 있는데, 여기서 본 논문의 제안 기법을 적용하여 사용자가 과거 선택한 웹페이지에서 주요 키워드를 추출, 사용자 프로파일을 구성할 수 있다. 오피니언 마이닝은 상품평 등의 오피니언 데이터로부터 사용자의 주관적인 의견 정보를 추출하는 분야로서, 핵심적인 연구 이슈가 주관적 의지를 담고 있는 감정단어와 이에 관련된 속성을 찾는 것이다.
앞서 언급한 바와 같이, 본 연구의 목적은 개별 문서가 아닌 적정 문서집합으로부터 주요 키워드를 추출하는 것이다. 그래서 주어진 문서집합에서 출현 단어의 중요도를 측정하기 위해 TF-IDF 가중치를 변형하고자 한다. 우선 본래의 TF-IDF 가중치 모델을 살펴보기로 한다.
또한 이 키워드들에 분야간 교차비교분석을 적용하여 그 결과인 키워드들을 에 제시하였다.
이 실험은 2008년 1월 3일에 게재된 정치 분야 1547개, 경제 분야 3587개, 연예 분야 1,232개, 사회 분야 803개의 뉴스가 포함된 분야별 문서 집합을 대상으로 하였다. 먼저 TF-IDF 변형식에 의하여 높은 가중치를 받은 상위 10,000개의 단어들로 분야별 후보키워드를 구성한다. 이에 대해 교차 비교를 수행하여 의미없는 단어를 제거하게 되며, 이 때 적용하는 순위간 표준편차의 임계값을 10, 100, 1000, 10000으로 설정하였다(<표 6> 참조).
본 연구에서는 복합명사의 추출을 위해 <표 2>의 복합명사 생성 패턴을 이용한다. 본 실험에서는 KLT 라이브러리²⁾를 이용하여 단일 명사 추출과 형태소 분석을 수행한다[1]. 단일명사 추출은 KLT의 색인어 추출 함수를 이용하였으며, 이는 불용어 사전을 활용하여 의미 없는 단어를 제거해준다.
본 연구에서 제안하는 키워드 추출 기법은 2단계로 이루어진다. 첫 단계로서, 전체 문서 집합에 존재하는 단어를 정의된 가중치로 정렬하여 그 값이 주어진 임계값 보다 큰 ‘후보 키워드’들을 골라낸다.
본 연구에서는 복합명사의 추출을 위해 의 복합명사 생성 패턴을 이용한다.
본 연구의 키워드 추출은 개별 문서 범위가 아닌 ‘문서 집합 전체’ 범위를 가정하기 때문에 기존 TF-IDF 모델의 원리를 유지하면서 추출 범위를 고려한 변형식을 제안한다.
그래서 두 번째 단계로서, 각 분야에서 얻어진 후보 단어들의 순위를 교차비교함으로써 각 분야의 대표단어로서의 키워드 집합을 얻게 된다. 본 절에서는 키워드 추출이 근간이 되는 TF-IDF 가중치 모델과 그것의 6가지 변형, 그리고 키워드의 분야간 교차비교 기법을 소개한다.
오피니언 마이닝은 상품평 등의 오피니언 데이터로부터 사용자의 주관적인 의견 정보를 추출하는 분야로서, 핵심적인 연구 이슈가 주관적 의지를 담고 있는 감정단어와 이에 관련된 속성을 찾는 것이다. 본 제안 기법은 데이터의 특성을 감안한 튜닝 및 기계 학습 알고리즘의 융합을 통해 오피니언 속성 추출 기법으로 승화시킬 것이다.
본 논문에서는 인터넷 포털 사이트에 게재되는 대용량 뉴스기사로부터 요약하여 보여줄 수 있는 방법으로 키워드 추출을 제시하였다. 분야별 뉴스에서 의미 있는 키워드를 추출하기 위해서, 검색엔진 개발에 활용되고 있는 기존의 TF-IDF 가중치 모델을 변형하여, 전체 문서집합에 적용할 수 있는 6가지 TF-IDF 변형식을 제안하였으며, 분야간 교차비교 분석을 통해 불용어 수준의 키워드를 제거하였다. 제안 기법의 효용성을 검증하기 위해 국내의 대표적 인터넷 포털 사이트인 네이버에 게재되는 뉴스문서에서 추출한 키워드의 품질을 평가하였으며, 이러한 키워드들이 실제로 사회적 관심도의 변화에 따라 그 순위가 변화하는지를 관찰하였다.
키워드 추출을 위해 구축된 데이터 베이스는 뉴스문서, 사전, 단어출현사실, TF-IDF 가중치 등의 테이블을 포함한다. 수집된 문서는 뉴스문서 테이블에 저장하고, 이 테이블을 조회하여 출현 단어를 확인한 후에 사전 테이블과 단어출현사실 테이블에 관련 정보를 입력한다. 여기서 사전 테이블은 출현 단어를 중복 없이 관리하기 위한 것이고, 단어출현사실 테이블은 각 문서에서의 단어 출현 사실을 기록하기 위한 것이다.
<그림 1>에서 보는 바와 같이, BTF, NTF1, NTF2 등의 TF 변형식을 사용하여 계산한 값과 IDF 식을 이용해 계산한 값을 사용해서 최종적으로 TF-IDF 변형식을 계산한다. 여기서 BTF와 NTF2의 식으로 계산한 TF값이 로그를 내재한 IDF값보다 상대적으로 매우 커질 수 있으므로, 두 인자가 유사한 범위의 값을 가지도록, TF값에도 로그를 취하여 IDF 값과 곱하는 방법이 필요할 수 있다.
에서 보는 바와 같이, 뉴스 문서 집합으로부터 키워드 추출을 위하여 의 TF 변형 식 세 가지, 즉 BTF, NTF1, NTF2을 제안한다.
에서는 대상이 되는 7일 동안의 정치분야의 주요 쟁점과 관련하여 ‘화물연대’, ‘이명박 대통령’과 ‘등원’의 세 키워드를 살펴보았다.
이런 단어들은 각 분야의 뉴스 문서집합에서 키워드로서 부적절하므로 제거되어야 한다. 이를 위해 본 논문에서는 분야간 교차비교 기법을 제안한다. 본 논문의 키워드 추출 문제 문제는 자동문서분류(Text Classification) 분야에서의 클래스(Class)별 대표 속성(Feature)을 추출하는 문제와 유사하다.
이는 TF값이 지나치게 큰 단어가 오히려 불용어 수준의 단어에 해당할 수 있기 때문이다. 이를 해결하기 위해 IDF 인자를 도입한다.
이에 대해 교차 비교를 수행하여 의미없는 단어를 제거하게 되며, 이 때 적용하는 순위간 표준편차의 임계값을 10, 100, 1000, 10000으로 설정하였다( 참조).
분야별 뉴스에서 의미 있는 키워드를 추출하기 위해서, 검색엔진 개발에 활용되고 있는 기존의 TF-IDF 가중치 모델을 변형하여, 전체 문서집합에 적용할 수 있는 6가지 TF-IDF 변형식을 제안하였으며, 분야간 교차비교 분석을 통해 불용어 수준의 키워드를 제거하였다. 제안 기법의 효용성을 검증하기 위해 국내의 대표적 인터넷 포털 사이트인 네이버에 게재되는 뉴스문서에서 추출한 키워드의 품질을 평가하였으며, 이러한 키워드들이 실제로 사회적 관심도의 변화에 따라 그 순위가 변화하는지를 관찰하였다.

대상 데이터

2007년 11월 25일에 게재된 정치 분야 991개, 경제 분야 1025개, 연예 분야 480개 그리고 사회 분야의 뉴스 문서 1437개를 대상으로 분야간 교차비교를 실험하였다. 가장 기본적인 BTF와 TFIDF 식을 사용하여 각 10,000개의 단어를 가진 후보 키워드를 생성하였고 그 리스트들을 <표 4>에 제시하였다.
³⁾ 네이버는 실시간 인터넷기사를 속보, 정치, 경제, 사회, 생활/문화, 세계, IT/과학, 연예, 칼럼, 영문, 매거진, 전문지 등으로 분류하여 제공하고 있다. 본 실험에서는 정치, 경제, 사회, 연예 등의 네 분야의 뉴스 기사를 실험 대상으로 하였다. 평일 하루 동안에 정치분야에서 약 1,500개, 경제분야에서 약 6,000개, 사회분야 약 4,000개, 연예분야 약 1,200개의 뉴스를 수집하여 각 분야별 뉴스 문서집합을 구성한다.
본 절에서는 2008년 6월 14일부터 20일 기간 동안 정치 분야에 게재된 8,261개의 뉴스 문서들을 대상으로 키워드를 추출하여 시간에 따른 추이를 분석하였다. <그림 6>에서는 대상이 되는 7일 동안의 정치분야의 주요 쟁점과 관련하여 ‘화물연대’, ‘이명박 대통령’과 ‘등원’의 세 키워드를 살펴보았다.
본 연구에서는 기존 TF-IDF 모델의 수정과 뉴스 분야간 교차비교 분석을 이용하여 뉴스 문서집합에서 각 분야별 주요 키워드를 추출하는 기법을 제안하였다. 이 기법의 실제적 의미를 평가하기 위해 인터넷 포털사이트 네이버(http://www.naver.com)에 게재되는 뉴스 문서를 대상으로 하여 키워드 추출 실험을 수행하였다.³⁾ 네이버는 실시간 인터넷기사를 속보, 정치, 경제, 사회, 생활/문화, 세계, IT/과학, 연예, 칼럼, 영문, 매거진, 전문지 등으로 분류하여 제공하고 있다.
분야간 교차비교 시 사용되는 표준편차 임계값에 따른 키워드 리스트의 변화를 확인하는 것이 필요하다. 이 실험은 2008년 1월 3일에 게재된 정치 분야 1547개, 경제 분야 3587개, 연예 분야 1,232개, 사회 분야 803개의 뉴스가 포함된 분야별 문서 집합을 대상으로 하였다. 먼저 TF-IDF 변형식에 의하여 높은 가중치를 받은 상위 10,000개의 단어들로 분야별 후보키워드를 구성한다.
<그림 4>는 키워드 추출 모듈의 내부 구조를 보여준다. 키워드 추출을 위해 구축된 데이터 베이스는 뉴스문서, 사전, 단어출현사실, TF-IDF 가중치 등의 테이블을 포함한다. 수집된 문서는 뉴스문서 테이블에 저장하고, 이 테이블을 조회하여 출현 단어를 확인한 후에 사전 테이블과 단어출현사실 테이블에 관련 정보를 입력한다.
본 실험에서는 정치, 경제, 사회, 연예 등의 네 분야의 뉴스 기사를 실험 대상으로 하였다. 평일 하루 동안에 정치분야에서 약 1,500개, 경제분야에서 약 6,000개, 사회분야 약 4,000개, 연예분야 약 1,200개의 뉴스를 수집하여 각 분야별 뉴스 문서집합을 구성한다.

이론/모형

키워드 추출을 위해 [4]에서는 단어들이 동시에 출현하는 통계적 정보를 활용하였으며, [9]에서는 인터넷 검색을 위한 색인 생성에 사용되는 PageRank 알고리즘을 이용하였다. 또한 기계학습(Machine Learning)의 원리를 적용한 연구가 있으며, [10]에서는 Support Vector Machine 알고리즘을,[3]에서는 Neural Network Model 알고리즘을 이용하였다. 기계학습 알고리즘을 이용한 방법은 키워드 추출을 위한 예측모델을 만들기 위해 고품질의 학습데이터를 준비해야 하는데 이에 대한 비용이 매우 클 뿐만 아니라, 그것의 정확도가 학습데이터에 의존하므로 수시로 변화하는 뉴스 문서에 이를 적용하는 것은 바람직하지 못하다.
인터넷상의 전자문서의 증가와 함께 주제 탐사를 목적으로 한 키워드 추출 연구가 활발히 수행되고 있다. 키워드 추출을 위해 [4]에서는 단어들이 동시에 출현하는 통계적 정보를 활용하였으며, [9]에서는 인터넷 검색을 위한 색인 생성에 사용되는 PageRank 알고리즘을 이용하였다. 또한 기계학습(Machine Learning)의 원리를 적용한 연구가 있으며, [10]에서는 Support Vector Machine 알고리즘을,[3]에서는 Neural Network Model 알고리즘을 이용하였다.

성능/효과

, 의 분석을 통해, 시간의 추이에 따라 키워드 순위가 사회적 이슈 및 사건과 동조함을 알 수 있었다.
<표 3>에서 보는 바와 같이 기존 TF-IDF가중치를 통해 추출한 키워드들은 ‘한나라당’을 제외하고 대부분 불용어 수준에 가까운 것이다. 비교해서, NTF2식을 이용한 2가지 결과를 제외하고는 기존의 TF-IDF 조합보다 개선된 결과를 보여준다. 이는 일반적으로 게재되는 뉴스 기사의 길이가 짧아서 문서 내 TF 값에 지나치게 영향을 받기 때문이다.
하지만, 임계값을 10,000로 높였을 경우 의미있는 키워드까지 제거되는 현상이 발생하게 된다. 이로써 표준편차 임계값에 대한 적절한 설정을 통하여 키워드 선택이 가능함을 확인할 수 있었으며, 본 실험에서 사용한 뉴스 문서의 경우 적정한 표준편차 값은 100～1000 범위에 존재한다.

후속연구

본 논문에서 제안한 키워드 추출 기법은 다른 종류의 문서 집합의 주제 탐색에도 활용될 수 있으며, 특히 우리는 검색엔진의 개인화와 오피니언 마이닝(Opinion Mining)의 연구에 활용할 예정이다. 검색엔진의 개인화는 사용자 성향을 반영한 검색어의 확장으로 구현될 수 있는데, 여기서 본 논문의 제안 기법을 적용하여 사용자가 과거 선택한 웹페이지에서 주요 키워드를 추출, 사용자 프로파일을 구성할 수 있다.
즉 본 논문에서는 주어진 뉴스문서 집합 전체 범위에서 키워드를 추출하기 위해 6가지의 수정된 TF-IDF 가중치 모델과 이를 통해 얻은 키워드 집합을 한층 더 개선하기 위해 분야별 후보 키워드 집합을 통계적으로 교차비교하는 기법을 소개한다. 본 제안 기법에 의해 추출된 키워드는 뉴스 문서 집합의 요약 정보를 보여 줄 수 있으며, 이에 따라 뉴스 기사의 분류, 효율적인 뉴스 탐색 등에 활용될 수 있을 것으로 평가한다.

핵심어	질문	논문에서 추출한 답변
	TF 값이란?	<표 1>에서 보는 바와 같이, TF-IDF 가중치는 TF(Term Frequency)값과 IDF(Inverse Document Frequency)값을 곱한 것이다. TF 값은 한 문서 내에서 특정 단어가 출현한 빈도수를 의미한다. 이 값을 가중치 모델에 포함시키는 것은, 주어진 단어가 문서 내에서 많이 출현할수록 상대적으로 더 중요하다는 가정을 반영한 것이다.
	키워드 추출은 어떤 분야에서 기반이 되는 기술인가?	키워드 추출은 정보검색, 문서 분류, 요약, 주제탐지 등의 텍스트 마이닝 분야에서 기반이 되는 기술이다. 대용량 전자문서로부터 추출된 키워드들은 텍스트 마이닝을 위한 중요 속성으로 활용되어 문서 브라우징, 주제탐지, 자동분류, 정보검색 시스템 등의 성능을 높이는데 기여한다.
	본 연구에서 제안하는 키워드 추출 기법은 어떻게 이루어지는가?	본 연구에서 제안하는 키워드 추출 기법은 2단계로 이루어진다. 첫 단계로서, 전체 문서 집합에 존재하는 단어를 정의된 가중치로 정렬하여 그 값이 주어진 임계값 보다 큰 ‘후보 키워드’들을 골라낸다. 그 후보 키워드 집합은 적정 수준의 키워드를 포함하고는 있지만, TF-IDF의 한계로 인해 불용어(Stopword) 수준의 단어(예를 들면, ‘기자’, ‘신문사’)가 포함될 수 있다. 그래서 두 번째 단계로서, 각 분야에서 얻어진 후보 단어들의 순위를 교차비교함으로써 각 분야의 대표단어로서의 키워드 집합을 얻게 된다. 본 절에서는 키워드 추출이 근간이 되는 TF-IDF 가중치 모델과 그것의 6가지 변형, 그리고 키워드의 분야간 교차비교 기법을 소개한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

TF-IDF의 변형을 이용한 전자뉴스에서의 키워드 추출 기법
Keyword Extraction from News Corpus using Modified TF-IDF 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

TF-IDF의 변형을 이용한 전자뉴스에서의 키워드 추출 기법 Keyword Extraction from News Corpus using Modified TF-IDF 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

김한준 (27)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

TF-IDF의 변형을 이용한 전자뉴스에서의 키워드 추출 기법
Keyword Extraction from News Corpus using Modified TF-IDF 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper