$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

TF-IDF의 변형을 이용한 전자뉴스에서의 키워드 추출 기법
Keyword Extraction from News Corpus using Modified TF-IDF 원문보기

한국전자거래학회지 = The Journal of Society for e-Business Studies, v.14 no.4, 2009년, pp.59 - 73  

이성직 (서울시립대학교 전자전기컴퓨터공학부) ,  김한준 (서울시립대학교 전자전기컴퓨터공학부)

초록
AI-Helper 아이콘AI-Helper

키워드 추출은 정보검색, 문서 분류, 요약, 주제탐지 등의 텍스트 마이닝 분야에서 기반이 되는 기술이다. 대용량 전자문서로부터 추출된 키워드들은 텍스트 마이닝을 위한 중요 속성으로 활용되어 문서 브라우징, 주제탐지, 자동분류, 정보검색 시스템 등의 성능을 높이는데 기여한다. 본 논문에서는 인터넷 포털 사이트에 게재되는 대용량 뉴스문서집합을 대상으로 키워드 추출을 수행하여 분야별 주제를 제시할 수 있는 키워드를 추출하는 새로운 기법을 제안한다. 기본적으로 키워드 추출을 위해 기존 TF-IDF 모델을 고찰, 이것의 6가지 변형식을고안하여 이를 기반으로 각 분야별 후보 키워드를 추출한다. 또한 분야별로 추출된 단어들의 분야간 교차비교분석을 통해 불용어 수준의 의미 없는 단어를 제거함으로써 그 성능을 높인다. 제안 기법의 효용성을 입증하기 위해 한글 뉴스 기사 문서에서 추출한 키워드의 질을 비교하였으며, 또한 주제 변화를 탐지하기 위해 시간에 따른 키워드 집합의 변화를 보인다.

Abstract AI-Helper 아이콘AI-Helper

Keyword extraction is an important and essential technique for text mining applications such as information retrieval, text categorization, summarization and topic detection. A set of keywords extracted from a large-scale electronic document data are used for significant features for text mining alg...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 그래서 본 연구에서는 각 분야에서 1차 생성한 후보 키워드들을 비교하여 동일 단어의 출현을 억제함으로써 키워드 선정의 정확도를 높이고자 한다. <그림 2>에서 보는 바와 같이, 첫 단계로서, 키워드 추출 모듈이 인터넷 포털 사이트에 HTML 페이지 형식으로 게재되어 있는 뉴스 문서를 수집하여 분야별 후보 키워드집합을 생성한다.
  • 그리고 NTF2는 해당 단어의 문서에서의 발생빈도를 각 문서의 모든 단어에 대한 발생빈도로 나누어 더한 값으로 정의한다. 기본적으로 BTF 값이 큰 단어가 중요도가 높을 가능성이 크지만, 뉴스문서 길이가 일정하지 않은 경우에 공정하지 못하므로, NTF1과 NTF2와 같이 문서 길이가 달라서 생기는 가중치의 과도한 편차를 최소화하고자 한다.
  • 본 논문에서는 인터넷 포털 사이트에 게재되는 대용량 뉴스기사로부터 요약하여 보여줄 수 있는 방법으로 키워드 추출을 제시하였다. 분야별 뉴스에서 의미 있는 키워드를 추출하기 위해서, 검색엔진 개발에 활용되고 있는 기존의 TF-IDF 가중치 모델을 변형하여, 전체 문서집합에 적용할 수 있는 6가지 TF-IDF 변형식을 제안하였으며, 분야간 교차비교 분석을 통해 불용어 수준의 키워드를 제거하였다.
  • 본 연구에서는 기존 TF-IDF 모델의 수정과 뉴스 분야간 교차비교 분석을 이용하여 뉴스 문서집합에서 각 분야별 주요 키워드를 추출하는 기법을 제안하였다. 이 기법의 실제적 의미를 평가하기 위해 인터넷 포털사이트 네이버(http://www.
  • 앞서 언급한 바와 같이, 본 연구의 목적은 개별 문서가 아닌 적정 문서집합으로부터 주요 키워드를 추출하는 것이다. 그래서 주어진 문서집합에서 출현 단어의 중요도를 측정하기 위해 TF-IDF 가중치를 변형하고자 한다.
  • 그래서 주어진 문서집합에서 출현 단어의 중요도를 측정하기 위해 TF-IDF 가중치를 변형하고자 한다. 우선 본래의 TF-IDF 가중치 모델을 살펴보기로 한다.
  • 본 연구의 키워드 추출은 개별 문서 범위가 아닌 ‘문서 집합 전체’ 범위를 가정하기 때문에 기존 TF-IDF 모델의 원리를 유지하면서 추출 범위를 고려한 변형식을 제안한다. 즉 본 논문에서는 주어진 뉴스문서 집합 전체 범위에서 키워드를 추출하기 위해 6가지의 수정된 TF-IDF 가중치 모델과 이를 통해 얻은 키워드 집합을 한층 더 개선하기 위해 분야별 후보 키워드 집합을 통계적으로 교차비교하는 기법을 소개한다. 본 제안 기법에 의해 추출된 키워드는 뉴스 문서 집합의 요약 정보를 보여 줄 수 있으며, 이에 따라 뉴스 기사의 분류, 효율적인 뉴스 탐색 등에 활용될 수 있을 것으로 평가한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
TF 값이란? <표 1>에서 보는 바와 같이, TF-IDF 가중치는 TF(Term Frequency)값과 IDF(Inverse Document Frequency)값을 곱한 것이다. TF 값은 한 문서 내에서 특정 단어가 출현한 빈도수를 의미한다. 이 값을 가중치 모델에 포함시키는 것은, 주어진 단어가 문서 내에서 많이 출현할수록 상대적으로 더 중요하다는 가정을 반영한 것이다.
키워드 추출은 어떤 분야에서 기반이 되는 기술인가? 키워드 추출은 정보검색, 문서 분류, 요약, 주제탐지 등의 텍스트 마이닝 분야에서 기반이 되는 기술이다. 대용량 전자문서로부터 추출된 키워드들은 텍스트 마이닝을 위한 중요 속성으로 활용되어 문서 브라우징, 주제탐지, 자동분류, 정보검색 시스템 등의 성능을 높이는데 기여한다.
본 연구에서 제안하는 키워드 추출 기법은 어떻게 이루어지는가? 본 연구에서 제안하는 키워드 추출 기법은 2단계로 이루어진다. 첫 단계로서, 전체 문서 집합에 존재하는 단어를 정의된 가중치로 정렬하여 그 값이 주어진 임계값 보다 큰 ‘후보 키워드’들을 골라낸다. 그 후보 키워드 집합은 적정 수준의 키워드를 포함하고는 있지만, TF-IDF의 한계로 인해 불용어(Stopword) 수준의 단어(예를 들면, ‘기자’, ‘신문사’)가 포함될 수 있다. 그래서 두 번째 단계로서, 각 분야에서 얻어진 후보 단어들의 순위를 교차비교함으로써 각 분야의 대표단어로서의 키워드 집합을 얻게 된다. 본 절에서는 키워드 추출이 근간이 되는 TF-IDF 가중치 모델과 그것의 6가지 변형, 그리고 키워드의 분야간 교차비교 기법을 소개한다.
질의응답 정보가 도움이 되었나요?

참고문헌 (10)

  1. 강승식, "한국어 형태소 분석과 정보 검색", 홍릉과학출판사, 서울, 2002, pp. 507-549. 

  2. 한국인터넷진흥원, "2007년 하반기 정보화 실태조사 요약 보고서", 2008. 

  3. Jo, Taeho, Lee, Malrey, and Gatton, T. M, "Keyword extraction from documents using a neural network model," ICHIT'06, Vol. 2, 2006, pp. 194-197. 

  4. Matsuo, Y., and Ishizuka, M., "Keyword extraction from a single document using word co-occurrence statistical information," International Journal on Artificial Intelligence Tools, Vol. 13, No. 1, 2003, pp. 157-169. 

  5. Robertson, S., "Understanding inverse document frequency:on theoretical arguments for IDF," Journal of Documentation, Vol. 60, No. 5, 2004, pp. 503-520. 

  6. Robertson, S. E., "Term specificity," Journal of Documentation, Vol. 28, 1972, pp. 164-165. 

  7. Robertson, S. E., "Specificity and weighted retrieval," Journal of Documentation, Vol. 30, No. 1, 1974, pp. 41-46. 

  8. Robertson, S. E., "The probability ranking principle in information retrieval," Journal of Documentation, Vol. 33, 1977, pp. 294-304. 

  9. Wang, J., Liu, J., Wang, and Cong, "Keyword extraction based on PageRank," Lecture notes in computer science, 2007, pp. 857-864. 

  10. Yu, J. X., Kitsuregawa, M., and Leong, H. V., "Keyword Extraction using Support Vector Machine," Lecture notes in computer science, Vol. 4016, 2006, pp. 85-96. 

저자의 다른 논문 :

LOADING...
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로