[논문]TF-IDF를 활용한 k-means 기반의 효율적인 대용량 기사 처리 및 요약 알고리즘

장민서; 오수진; 김응모

TF-IDF를 활용한 k-means 기반의 효율적인 대용량 기사 처리 및 요약 알고리즘
Article Analytic and Summarizing Algorithm by facilitating TF-IDF based on k-means 원문보기

장민서 (성균관대학교 문과대학) , 오수진 (성균관대학교 정보통신대학) , 김응모 (성균관대학교 소프트웨어대학)

본 논문에서는 뉴스기사 데이터를 활용하여 대규모 뉴스기사를 소주제로 분류하는 군집 분석 방법을 제안한다. 또한, 분류된 뉴스기사를 사용자가 빠르게 이해하고 접할 수 있도록 핵심 문장을 추출하여 제공하는 방법을 제안한다. 분석 데이터는 포털 사이트 점유율 1위인 네이버의 경제 분야 뉴스기사를 크롤링하여 수집한다. 뉴스기사의 분석을 위해 전 처리를 통해 특수문자, 조사, 어미, 구두점 등의 불 용어 처리를 수행한다. 또한, k-means 알고리즘을 이용하여 대용량의 뉴스기사를 주제 별로 분류하는 것을 진행하며 그것을 토대로 핵심 문장을 추출한다. 추출된 핵심 문장은 분류된 뉴스기사의 주제를 나타내며 사용자에게 빠르게 정보를 전달하기 위해 활용한다. 본 논문의 연구 내용이 여러 언론사 사이트에 반영되면 사이트 품질과 사용자 만족도 향상에 기여할 수 있을 것으로 보인다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구에서는 기술의 발달로 스마트 기기와 컴퓨터를통해 무수히 쏟아지는 무분별한 정보 속에서 사용자에게 양질의 정보를 제공하는 방법을 제안한다. 대규모의 뉴스기사를 k-means알고리즘을 활용하여 다시 소주제로 군집화한다.
이에 본 논문에서는 관련된 정보를 탐색하여 제공하기 위해 뉴스기사 데이터를 활용하여, 대규모 뉴스기사를 소주제로 분류하는 군집 분석을 진행한다. 또한, 분류된 뉴스기사를 사용자가 빠르게 이해하고 접할 수 있도록 핵심 문장을 추출한다.
인터넷 상의 정보들을 분석하여 사용자에게 양질의 정보들을 제공하여 사용자의 검색을 최소화하고 원하는 정보에 빠르게 접근함으로써 사용자 만족도 향상에 목적을 둔다.

제안 방법

다음으로 TF-IDF를 활용하여 뉴스기사 내에서 불필요한 문장들을 제거하고 그와 동시에 중요한 문장들을 추출한다. TF-IDF을 이용하여, 각 문장에 속해있는 단어들을 비교하고 문장의 유사도를 측정한다. 비슷한 공간에 매핑 될 때를 유사성이 높다고 판단하며, 전체 문서 집합에서 여러 문장에 걸쳐서 함께 등장하는 단어 간에는 관련성이 있다고 판단한다.
그 다음으로, 앞서 구한 빈출 빈도가 높은 단어와 문장의 유사도를 기반으로 각 군집별로 한 개의 핵심문장을 추출한다. 다른 문장들과의 유사도 합이 높을수록 문서 내에서 중요한 문장으로 구분된다.
다음으로 TF-IDF를 활용하여 뉴스기사 내에서 불필요한 문장들을 제거하고 그와 동시에 중요한 문장들을 추출한다. TF-IDF을 이용하여, 각 문장에 속해있는 단어들을 비교하고 문장의 유사도를 측정한다.
이에 본 논문에서는 관련된 정보를 탐색하여 제공하기 위해 뉴스기사 데이터를 활용하여, 대규모 뉴스기사를 소주제로 분류하는 군집 분석을 진행한다. 또한, 분류된 뉴스기사를 사용자가 빠르게 이해하고 접할 수 있도록 핵심 문장을 추출한다. 추출된 핵심 문장은 분류된 뉴스 기사의 주제를 나타내며 이는 사용자에게 빠르게 정보를 전달하기 위해 활용될 것이다.
본 논문에서 제안하는 시스템은 R 프로그래밍을 사용하여 구현되었으며, k-means 알고리즘과 TF-IDF 가중치 모델을 이용하여 데이터 분석을 진행한다. 제안 시스템은 크게 두 단계로 구성되어 있다.
본 논문에서 제안하는 시스템은 k-means 알고리즘과TF-IDF 가중치 모델을 활용하여 대용량의 기사를 소주제별로 군집화하고 빈출 단어와 문장의 유사도를 기반으로 핵심 문장을 추출한다. 본 논문에서 사용한 데이터에서는최적 k값을 15로 정하였기 때문에, 기사들은 총 15개의군집으로 분류되었으며, 각 군집마다 1개씩의 핵심문장을추출하여 <표 2>와 같이 핵심 문장이 추출되었다.
본 연구에선 방대한 양의 뉴스기사를 소주제로 분류하는 군집 분석 방법을 제안하며 또한, 분류된 뉴스기사를 사용자가 빠르고 쉽게 이해하고 접할 수 있도록 핵심문장을 추출하여 제공하는 방법을 제안한다. 1장에선 연구배경과 목표에 대하여 설명하고 2장에선 본 연구와 관련 있는 선행 연구들에 대한 조사를 진행한다.
table 라이브러리와 한글 형태소 분석 라이브러리인 KoNLP, rJava 라이브러리를 사용한다. 이 후, 데이터 분석을 위해 arules, tm, proxy 라이브러리를 추가적으로 이용한다.
비슷한 공간에 매핑 될 때를 유사성이 높다고 판단하며, 전체 문서 집합에서 여러 문장에 걸쳐서 함께 등장하는 단어 간에는 관련성이 있다고 판단한다. 이와 같은 방식으로 얻어진 문장 유사도와 단어 간 관련성의 평균을 이용하여 불필요한 문장들을 제거한다. 문장 간의 유사도를 측정하기 전, TF-IDF를 이용해 추출한 단어의 예로는 일자리, 가상화폐, 소득, 고용보험 등이 있으며 이의 분포도는 (그림 3)과 같다[6].

대상 데이터

이 작업엔 R 프로그래밍에서 제공하는 한국어 자연어 처리(KoNLP) 패키지를 사용한다. KoNLP에서 지원하는 NIA 사전의 98만여 개의 단어를 활용하여 수집한 데이터에서 명사만을 추출한다. 그 후, 구두점과 숫자, 영단어를 처리한다.
여러 포털사이트 중 점유율 1위¹⁾를 차지하고 있는 네이버의 온라인 뉴스 기사를 연구 데이터로 선정하였으며 이 중에서도 경제 분야의 기사를 대상으로 한다. 기사 데이터는 크롤링 작업을 통해 수집한다. 크롤링을 위한 코드는 R 프로그래밍 언어로 작성되었으며, 네이버 뉴스 기사에 관한 naverNewsParser²⁾ 라이브러리를 활용하여 수집되었다.
본 논문에서 사용한 데이터에서는최적 k값을 15로 정하였기 때문에, 기사들은 총 15개의군집으로 분류되었으며, 각 군집마다 1개씩의 핵심문장을추출하여 와 같이 핵심 문장이 추출되었다.
그리고 TF-IDF 가중치 모델을 적용하여 불필요한 문장을 제거하고 핵심 문장을 추출한다. 본 연구에선 텍스트마이닝을 진행하기 위한 data.table 라이브러리와 한글 형태소 분석 라이브러리인 KoNLP, rJava 라이브러리를 사용한다. 이 후, 데이터 분석을 위해 arules, tm, proxy 라이브러리를 추가적으로 이용한다.
크롤링을 위한 코드는 R 프로그래밍 언어로 작성되었으며, 네이버 뉴스 기사에 관한 naverNewsParser²⁾ 라이브러리를 활용하여 수집되었다. 수집된 데이터는 2018년 1월 11일자 네이버 경제 분야의 기사이며, 총 2,379건의 기사가 수집되었다. 수집된 데이터의 속성은 기사의 카테고리, 제목, 작성자, 작성일, 내용으로 구성된다[4].
따라서 수집된 데이터 역시 포털사이트에서 제공하는 온라인 뉴스이다. 여러 포털사이트 중 점유율 1위¹⁾를 차지하고 있는 네이버의 온라인 뉴스 기사를 연구 데이터로 선정하였으며 이 중에서도 경제 분야의 기사를 대상으로 한다. 기사 데이터는 크롤링 작업을 통해 수집한다.
기사 데이터는 크롤링 작업을 통해 수집한다. 크롤링을 위한 코드는 R 프로그래밍 언어로 작성되었으며, 네이버 뉴스 기사에 관한 naverNewsParser²⁾ 라이브러리를 활용하여 수집되었다. 수집된 데이터는 2018년 1월 11일자 네이버 경제 분야의 기사이며, 총 2,379건의 기사가 수집되었다.

이론/모형

‘오늘’, ‘그리고’ 와 같은 다수의 문서에서 자주 사용되지만, 그 의미는 중요하지 않는 단어를 처리하기 위해서 IDF (역문서빈도, inverse document frequency)를 사용한다.
우선 k-means 알고리즘을 적용하여 대용량 기사를 k개의 군집으로 분류한다. 그리고 TF-IDF 가중치 모델을 적용하여 불필요한 문장을 제거하고 핵심 문장을 추출한다. 본 연구에선 텍스트마이닝을 진행하기 위한 data.
대규모의 뉴스기사를 k-means알고리즘을 활용하여 다시 소주제로 군집화한다. 그리고 분류된 기사를 TF-IDF 가중치 모델을 이용하여 각 군집마다 하나의 핵심 문장을 추출한다. 추출된핵심 문장은 각 군집내의 문서에서 가장 큰 비중을 차지하는 문장이다.
k-means 알고리즘의 효율은 군집의 개수 k에 따라 결정되며, 가장 적은 오차 값을 가지는 k 값을 선정해야 한다. 본 논문에서는 최적의 k값을 정하기 위해 elbow방법을 이용했다. 문서 군집에서 가장 적합하다고 여겨지는 거리 코사인 유사도를 사용하며, 초기값으로 20을 지정한다.
본 단계에서는 k-means 알고리즘을 활용하여 대용량 기사를 처리하여 소주제의 군집으로 분류하는 군집 분석을 진행한다. k-means 알고리즘의 효율은 군집의 개수 k에 따라 결정되며, 가장 적은 오차 값을 가지는 k 값을 선정해야 한다.
제안 시스템은 크게 두 단계로 구성되어 있다. 우선 k-means 알고리즘을 적용하여 대용량 기사를 k개의 군집으로 분류한다. 그리고 TF-IDF 가중치 모델을 적용하여 불필요한 문장을 제거하고 핵심 문장을 추출한다.

성능/효과

IDF 값은 문서의 성격에 따라 결정된다. 특정 문서 내에서 단어 빈도가 높을수록, 그리고 전체 문서들 중 그 단어를 포함한 문서가 적을수록 TF-IDF값이 높아진다. 본 논문에서 사용하는 문서 가중치 값(TF-IDF)은 아래와 같은 수식으로 표현된다.

후속연구

본 논문은 인터넷 뉴스기사 중 경제 분야 뉴스기사에 대해서만 연구를 수행하였기 때문에 타 웹문서나 분야에 대한 다른 뉴스기사에 대한 검증도 필요하다. 하지만 본 연구의 결과는 사용자가 짧은 시간을 투자하여 핵심 문장만을 읽음으로써 용을 한 눈에 알아볼 수 있다는 점에서 사용자 만족도 향상에 도움을 줄 것으로 예상되기 때문에, 향후 연구 가치를 가진다.
또한, 분류된 뉴스기사를 사용자가 빠르게 이해하고 접할 수 있도록 핵심 문장을 추출한다. 추출된 핵심 문장은 분류된 뉴스 기사의 주제를 나타내며 이는 사용자에게 빠르게 정보를 전달하기 위해 활용될 것이다.
본 논문은 인터넷 뉴스기사 중 경제 분야 뉴스기사에 대해서만 연구를 수행하였기 때문에 타 웹문서나 분야에 대한 다른 뉴스기사에 대한 검증도 필요하다. 하지만 본 연구의 결과는 사용자가 짧은 시간을 투자하여 핵심 문장만을 읽음으로써 용을 한 눈에 알아볼 수 있다는 점에서 사용자 만족도 향상에 도움을 줄 것으로 예상되기 때문에, 향후 연구 가치를 가진다.

핵심어

질문

논문에서 추출한 답변

TF-IDF란 무엇인가?

TF-IDF는 주로 정보 검색과 텍스트마이닝에서 이용하는 가중치 지표로 어떤 단어가 특정 문서내에서 얼마나 중요한 것인지를 나타내는 통계적 수치이다. 문서의 핵심어를 추출하거나, 검색 엔진에서 검색 결과의 순위를 결정하거나, 문서들 사이의 비슷한 정도를 구하는 등의 용도로 사용된다.

데이터마이닝의 6단계는?

데이터마이닝(Data Mining)은 자동화되고 지능을 갖춘 데이터베이스 분석기법이다. 데이터마이닝은 일반적으로 데이터 선택, 데이터 정제, 데이터 변환, 데이터마이닝, 패턴평가, 지식 표현의 6단계로 되어있다. 데이터 패턴을 추출하기 위해서 실제 데이터마이닝 알고리즘이 적용되는 단계는 데이터마이닝 전 과정 중 핵심 단계로서 일반적으로 데이터마이닝이라고 한다.

k-means 알고리즘은 어떻게 수행되는 기법인가?

k-means 알고리즘은 가장 널리 알려진 클러스터링 알고리즘이다. 비계층적 클러스터링 기법으로 문서와 군집의 중심 값을 나타내는 센트로이드와의 유사도를 측정하여 문서를 적합한 군집에 재배치하는 기법이다. 여기에서 클러스터 센트로이드(중심)는 클러스터에 속하는 문서들의 평균 백터 값을 이용한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

TF-IDF를 활용한 k-means 기반의 효율적인 대용량 기사 처리 및 요약 알고리즘
Article Analytic and Summarizing Algorithm by facilitating TF-IDF based on k-means 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

TF-IDF를 활용한 k-means 기반의 효율적인 대용량 기사 처리 및 요약 알고리즘 Article Analytic and Summarizing Algorithm by facilitating TF-IDF based on k-means 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

TF-IDF를 활용한 k-means 기반의 효율적인 대용량 기사 처리 및 요약 알고리즘
Article Analytic and Summarizing Algorithm by facilitating TF-IDF based on k-means 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper