[논문]문서 분류를 위한 용어 가중치 기법 비교

정호영; 신상민; 최용석

doi:10.5351/kjas.2019.32.2.265

문서 분류를 위한 용어 가중치 기법 비교
Comparison of term weighting schemes for document classification 원문보기

응용통계연구 = The Korean journal of applied statistics, v.32 no.2, 2019년, pp.265 - 276

정호영 (부산대학교 통계학과) , 신상민 (동아대학교) , 최용석 (부산대학교 통계학과)

초록
AI-Helper

문서-용어 빈도행렬은 텍스트 마이닝에서 분석하고자 하는 개체 정보를 가지고 있는 일반적인 자료 형태이다. 본 연구에서 문서 분류를 위해 문서-용어 빈도행렬에 적용되는 기존의 용어 가중치인 TF-IDF를 소개한다. 추가하여 최근에 알려진 용어 가중치인 TF-IDF-ICSDF와 TF-IGM의 정의와 장단점을 소개하고 비교한다. 또한 문서 분류 분석의 질을 높이기 위해 핵심어를 추출하는 방법을 제시하고자 한다. 추출된 핵심어를 바탕으로 문서 분류에 있어서 가장 많이 활용된 기계학습 알고리즘 중에서 서포트 벡터 머신을 이용하였다. 본 연구에서 소개한 용어 가중치들의 성능을 비교하기 위하여 정확률, 재현율, F1-점수와 같은 성능 지표들을 이용하였다. 그 결과 TF-IGM 방법이 모두 높은 성능 지표를 보였고, 텍스트를 분류하는데 있어 최적화 된 방법으로 나타났다.

Abstract ▼ AI-Helper

The document-term frequency matrix is a general data of objects in text mining. In this study, we introduce a traditional term weighting scheme TF-IDF (term frequency-inverse document frequency) which is applied in the document-term frequency matrix and used for text classifications. In addition, we introduce and compare TF-IDF-ICSDF and TF-IGM schemes which are well known recently. This study also provides a method to extract keyword enhancing the quality of text classifications. Based on the keywords extracted, we applied support vector machine for the text classification. In this study, to compare the performance term weighting schemes, we used some performance metrics such as precision, recall, and F1-score. Therefore, we know that TF-IGM scheme provided high performance metrics and was optimal for text classification.

주제어

표/그림 (6)

표 Table 2.1. IGM calculation example
표 Table 2.2. Document-term weighted matrix generation scheme M1–M6
그림 Figure 2.1. The process of ﬁnding an elbow point.
표 Table 3.1. PDF ﬁles and terms of Periodical publication by institute
표 Table 3.2. Performance comparison with M1–M6 method for individual categories
그림 Figure 3.1. Performance comparison with M1–M6 method for entire categories.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

그러나 다수의 개체(object)들이 각각 둘 이상의 문서를 발행한 경우에는 발행된 문서들에 대한 특징을 파악하고 주어진 문서들을 분류하는 것에만 목적을 두는 것이 아니라, 문서들의 특징을 이용하여 개체들에 대한 분류에도 목적을 둘 필요가 있다. 따라서 본 연구에서는 다수의 개체들이 각각 둘 이상의 문서를 발행한 경우에 문서 및 개체의 특징을 파악하기 위한 다양한 용어 가중치들을 소개하고 이들의 계산법과 장단점을 정리하여 간단한 예시와 함께 이해를 돕고자한다.
본 연구에서는 분석대상이 되는 정부출연연구기관을 경제·인문사회연구회 소속 26개 연구기관으로 한정함으로써 한국의 경제 및 사회 분야로 분석 범위를 좁히고자 한다.
문서-용어 빈도행렬에서 단순히 빈도가 높은 용어를 핵심어로 인식하여 개체를 분류하고자 할 경우, 문서와 개체들의 특수성과 대표성이 있는 용어들을 반영하지 못하기 때문에 텍스트를 분류하는 데 있어서 좋은 결과를 얻을 수 없다. 본 연구에서는 이러한 문제를 극복하기 위해 6가지 용어 가중치 함수를 이용하여 문서-용어 가중행렬을 생성하고 핵심어를 추출하는 방법을 고찰하였다. 그리고 2016년 한 해 동안 정부출연연구기관에서 발간한 정기간행물을 수집하고 이를 자료로 활용하여 6개의 문서-핵심어 가중행렬을 생성한 후 문서 분류에서 가장 많이 활용된 SVM을 적용하였다.
여기에 2.3절에서 설명한 용어 필터링 방법을 적용한 문서-핵심어 가중행렬 X1–X6을 바탕으로 SVM을 적용하여 최종적으로 정기간행물들이 각 연구기관의 발간목적에 맞게 제대로 분류가 되었는지 용어 가중치들의 성능을 보고자 한다.
이 절에서는 용어의 정보를 양적으로 나타낸 대표적인 용어 가중치인 TF-IDF와 최근에 제안된 용어가중치인 TF-IDF-ICSDF, TF-IGM을 소개하고자 한다. 이를 위해 우선, r번째 개체의 i번째 문서에서 추출한 j번째 용어의 출현빈도에 대한 지역적 가중치를 L_r(i, j)라 하고, 문서 또는 개체에 대한 j번째 용어의 전역적 가중치를 G(j)라고 하면, r번째 개체의 i번째 문서에서 추출한 j번째 용어에 대한 문서-용어 가중점수를 식 (2.
즉 문서와 용어 사이의 정보만을 표현할 뿐 개체들의 정보를 무시하는 문제점이 있다. 이를 보완하고자 Ren과 Sohrab (2013)이 소개한 TF-IDF-inverse class space density frequency (TF-IDF-ICSDF) 용어 가중치에 대해 설명을 하고자 한다. TF-IDF-ICSDF에 의한 가중점수 # 를 산출하기 위한 지역적·전역적 가중치 함수는 식 (2.
가장 대표적인 용어 가중치인 term frequency-inverse document frequency (TF-IDF)는 컴퓨터공학, 정보통신공학, 문헌정보학뿐만 아니라 생물학, 의학, 인문학 등 모든 분야에서 다양하게 활용할 수 있다. 텍스트 마이닝과 관련된 지금까지의 선행연구들은 대다수 이러한 TF-IDF와 같은 용어 가중치를 이용하여 다수의 문서들에 대한 특징을 파악하고 주어진 문서들을 분류하는 것을 목적으로 하고 있다. 그러나 다수의 개체(object)들이 각각 둘 이상의 문서를 발행한 경우에는 발행된 문서들에 대한 특징을 파악하고 주어진 문서들을 분류하는 것에만 목적을 두는 것이 아니라, 문서들의 특징을 이용하여 개체들에 대한 분류에도 목적을 둘 필요가 있다.

가설 설정

2.2절에서 생성된 문서-용어 가중행렬들은 문서-용어 빈도행렬에서의 모든 용어를 포함하고 있기 때문에 차원 수가 크고 0의 값이 많은 희소(sparse) 행렬이다. 일반적으로 문서의 수보다 용어의 수가 매우 크기 때문에 문서-용어 가중행렬을 그대로 분석을 하게 된다면 많은 시간이 소요되고 분석의 질을 저하시키는 일이 생긴다.

제안 방법

본 연구에서는 이러한 문제를 극복하기 위해 6가지 용어 가중치 함수를 이용하여 문서-용어 가중행렬을 생성하고 핵심어를 추출하는 방법을 고찰하였다. 그리고 2016년 한 해 동안 정부출연연구기관에서 발간한 정기간행물을 수집하고 이를 자료로 활용하여 6개의 문서-핵심어 가중행렬을 생성한 후 문서 분류에서 가장 많이 활용된 SVM을 적용하였다.
그리고 개체의 수가 4개이므로 SVM을 적용할 때 일대일 분류 방법을 이용하였고 커널함수는 선형커널을 이용하였다. 일반적으로 분류 성능이 뛰어나고 많은 유형의 데이터에 적용이 된다고 알려진 가우시안 RBF 커널을 사용하지만 Hornik 등 (2006)은 본 연구와 같이 문서 분류 분야에서 데이터가 희소행렬인 경우에는 선형커널을 이용하는 경우가 더 좋은 결과를 가져온다고 한다.
본 연구에서는 파이썬(Python) 프로그램을 이용하여 각 기관에서 수집된 간행물 PDF 파일로부터 텍스트를 크롤링하여 말뭉치를 TXT 파일로 저장한다. 그리고 한국어 자연어 처리(Natural Language Processing; NLP)를 위한 파이썬에서 제공하는 패키지 Korean NLP in Python (KoNLPy)를 이용하였고 형태소 분석기는 꼬꼬마(Kkma) 형태소 분석기를 사용하였다. 텍스트 자료를 정형화하기 위해 먼저 말뭉치에서 띄어쓰기, 문장부호, 특수문자, 영문 및 기호 등을 제거하는 정제화 작업을 시행한다.
따라서 A개체와 C개체에 대하여 완벽한 정확률을 보이고 B개체에 대하여 완벽한 재현율을 보이고 모든 지표에서 가장 작은 표준편차 값을 가지기 때문에 M₆ 방법이 가장 안정적이라 할 수 있다. 다음으로 전체 범주에 대한 분류 결과를 살펴보기 위해 매크로평균 F₁점수와 마이크로평균 F₁점수를 매 시행마다 계산하여 평균을 구한다. 이 평균을 M₁–M₆ 방법에 따라 계산한 결과를 Figure 3.
점수가 다른 방법에 비해 가장 높은 값을 보였다. 따라서 개체 정보가 존재하는 텍스트 자료를 분류하는 데 있어서 지역적 가중치 함수를 빈도에 제곱근을 적용하고 전역적 가중치 함수를 IGM으로 적용하는 문서-용어 가중행렬 생성 방법을 제안한다. 본 연구에서 제안한 방법을 개체 정보가 존재하는 문서 분류를 하는 목적에 활용을 한다면 개체를 대표하는 용어에 더욱 효과적인 가중점수를 부여한 데이터를 생성함을 기대할 수 있다.
분류 결과의 타당성을 높이기 위해 교차 검증을 200번 반복하였다. 또한 매회 교차검증을 반복할 때마다 훈련 샘플들을 중복되지 않게 층화추출법(stratified sampling method)을 적용하고 각 개체의 문서에 대해 골고루 훈련과 테스트를 할 수 있게 하였다.
말뭉치에서 정제화 및 용어를 추출하는 과정 이후로는 R 프로그램을 이용하였고 수집한 자료를 바탕으로 2.1절의 개체 정보가 존재하는 문서-용어 빈도행렬을 생성한다. 분석의 대상이 되는 개체는 경제·인문사회연구회 소속 4개 연구기관이며 빈도행렬의 행에 해당하는 문서는 2016년 한 해 동안 발간된 연구기관별 간행물 224개, 열에 해당하는 용어는 13,980개의 명사 용어가 된다.
문서-핵심어 가중행렬 X1–X6에서 224개의 문서의 수에 대해 8:2의 비율로 훈련과 테스트를 적용하였다.
5)와 같이 정의된다. 본 연구에서는 개별 범주에 대한 정확률, 재현율, F₁점수와 전체 범주의 성능을 평가하기 위해 매크로 F₁점수와 마이크로 F₁점수를 이용한다.
본 연구에서는 파이썬(Python) 프로그램을 이용하여 각 기관에서 수집된 간행물 PDF 파일로부터 텍스트를 크롤링하여 말뭉치를 TXT 파일로 저장한다. 그리고 한국어 자연어 처리(Natural Language Processing; NLP)를 위한 파이썬에서 제공하는 패키지 Korean NLP in Python (KoNLPy)를 이용하였고 형태소 분석기는 꼬꼬마(Kkma) 형태소 분석기를 사용하였다.
또한 훈련 데이터의 20%는 최적의 모수를 찾기 위해 검증 데이터 집합으로 지정하였다. 분류 결과의 타당성을 높이기 위해 교차 검증을 200번 반복하였다. 또한 매회 교차검증을 반복할 때마다 훈련 샘플들을 중복되지 않게 층화추출법(stratified sampling method)을 적용하고 각 개체의 문서에 대해 골고루 훈련과 테스트를 할 수 있게 하였다.
이를 위해 2장에서는 기존의 문서-용어 빈도행렬에 개체 정보를 추가한 새로운 문서-용어 빈도행렬을 정의하고, 이에 대해 적용가능한 다양한 용어 가중치들의 특징을 소개하고자 한다. 그리고 3장에서는 활용사례를 이용하여 비정형의 텍스트 데이터를 정형화하는 과정과 정형화된 텍스트 데이터에 대해 각각의 용어 가중치를 적용하는 과정을 기술하며, 문서 분류에서 가장 많이 이용되는 서포트 벡터 머신(support vector machine; SVM)을 적용하여 용어 가중치들 중에서 문서 및 개체 분류에 대해 최적화된 방법을 찾아보고자 한다.
그리고 한국어 자연어 처리(Natural Language Processing; NLP)를 위한 파이썬에서 제공하는 패키지 Korean NLP in Python (KoNLPy)를 이용하였고 형태소 분석기는 꼬꼬마(Kkma) 형태소 분석기를 사용하였다. 텍스트 자료를 정형화하기 위해 먼저 말뭉치에서 띄어쓰기, 문장부호, 특수문자, 영문 및 기호 등을 제거하는 정제화 작업을 시행한다. 그 이후 한국어 형태소 품사 중에서도 체언에 해당하는 일반 명사와 고유 명사만을 추출하여 용어로 활용하였다.

대상 데이터

본 연구에서는 분석대상이 되는 정부출연연구기관을 경제·인문사회연구회 소속 26개 연구기관으로 한정함으로써 한국의 경제 및 사회 분야로 분석 범위를 좁히고자 한다. 2016년 동안 발간된 정기간행물 중에서 기관별 대표 정기간행물을 다음과 같은 기준으로 선별하였다.
본 연구의 자료 수집은 Jung (2017)의 연구 자료를 인용하며 일부분을 사용하였다. 본 연구에서는 분석대상이 되는 정부출연연구기관을 경제·인문사회연구회 소속 26개 연구기관으로 한정함으로써 한국의 경제 및 사회 분야로 분석 범위를 좁히고자 한다.
분석의 대상이 되는 개체는 경제·인문사회연구회 소속 4개 연구기관이며 빈도행렬의 행에 해당하는 문서는 2016년 한 해 동안 발간된 연구기관별 간행물 224개, 열에 해당하는 용어는 13,980개의 명사 용어가 된다.
분석의 대상이 되는 개체는 대외경제정책연구원, 한국보건사회연구원, 한국청소년정책연구원, 한국정책 평가연구원 4개의 연구기관이다. 대외경제정책연구원에서 발행되는 간행물은 ‘정책연구브리핑’으로 주요연구보고서의 연구결과를 제시하거나 정책 시사점을 정리하였다.
선별기준에 적합한 간행물 파일을 제공하지 않는 7개 기관과 정기 간행물의 문서의 수가 적다고 판단한 간행물 15개 기관을 제외한 4개 연구기관을 분석대상으로 선정하였다. 각 기관에서의 간행물 문서 수가 적은 간행물을 제외한 이유는 3.

성능/효과

전역적 가중치 함수 중에는 IGM을 이용한 M₃, M₆ 방법이 가장 F₁점수 값들이 높음을 알 수 있다. IDF와 IDF-ICSDF는 지역적 가중치 함수를 빈도로 이용했을 때는 IDF-ICSDF가 높게 나오지만 빈도에 제곱근을 이용했을 때는 IDF가 높게 나타나므로 두 전역적 가중치 함수는 개체 분류를 하는 데 있어서 IGM에 비해 상대적으로 좋은 방법이 아니라 판단된다.
SVM 모형의 분류 분석 결과로 모든 가중치 부여 방법 중에서 M₆ 방법이 매크로평균 F₁점수와 마이크로평균 F₁점수가 다른 방법에 비해 가장 높은 값을 보였다. 따라서 개체 정보가 존재하는 텍스트 자료를 분류하는 데 있어서 지역적 가중치 함수를 빈도에 제곱근을 적용하고 전역적 가중치 함수를 IGM으로 적용하는 문서-용어 가중행렬 생성 방법을 제안한다.
순으로 나타났다. 두 F₁점수 값들은 모든 가중치 부여 방법에 대해 비슷한 경향을 보임을 알 수 있고 마이크로평균 F₁점수가 매크로평균 F₁점수가 크게 나타나므로 빈도의 수가 많은 범주에 영향을 받았음을 알 수 있다. 그러나 M₆ 방법에 대해서 매크로평균 F₁점수는 0.
0 사이의 값을 가진다. 본 연구에서는 조정 가능계수를 7.0으로 설정했을 때 가장 좋은 결과가 나타났다.
전체적으로 매크로평균 F1점수와 마이크로평균 F1점수 값은 M6 > M4 > M3 > M5 > M2 > M1 순으로 나타났다.

후속연구

용어 가중치는 정보 검색이나 텍스트 마이닝 분야에 이용되고 있으며 여러 문서로 이루어진 문서집단이 있을 때 어떤 용어가 특정 문서 내에서 얼마나 중요한지를 나타내는 통계적 수치이다. 따라서 효과적인 용어 가중치를 이용한다면 비정형 자료로부터 더욱 유용한 가치와 의미를 도출함과 동시에 문서 분류에 있어서 더 좋은 결과를 얻을 수 있다.
따라서 개체 정보가 존재하는 텍스트 자료를 분류하는 데 있어서 지역적 가중치 함수를 빈도에 제곱근을 적용하고 전역적 가중치 함수를 IGM으로 적용하는 문서-용어 가중행렬 생성 방법을 제안한다. 본 연구에서 제안한 방법을 개체 정보가 존재하는 문서 분류를 하는 목적에 활용을 한다면 개체를 대표하는 용어에 더욱 효과적인 가중점수를 부여한 데이터를 생성함을 기대할 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	TF-IDF는 모든 문서에서 등장하는 중요도가 낮은 용어는 어떠한 값을 가지는가?	TF-IDF는 특정한 문서에서 많이 등장하는 용어일수록 해당문서의 특성이 되는 용어이므로 높은 가중치를 얻는다. 그러나 모든 문서에서 등장하는 중요도가 낮은 용어는 log 1의 값을 가져 가중치가 0이 된다. 예를 들어 어느 문서에서나 등장할 법한 일반적인 용어의 가중치는 상대적으로 작을 것이고 가중치가 0이 되면 용어 집합에서 제외할 수 있음을 의미한다.
	크롤링이란?	특정 문서나 웹 페이지에서 원하는 텍스트 데이터를 추출하는 행위를 크롤링(crawling)이라고 한다. 그리고 크롤링을 이용하여 텍스트 데이터를 추출하게 되면, 대용량의 텍스트 집합이 생성되는데 이를 Miner 등 (2012)은 말뭉치(corpus)로 정의하였다.
	크롤링을 이용하여 텍스트 데이터를 추출하게 되면 무엇이 생성되는가?	특정 문서나 웹 페이지에서 원하는 텍스트 데이터를 추출하는 행위를 크롤링(crawling)이라고 한다. 그리고 크롤링을 이용하여 텍스트 데이터를 추출하게 되면, 대용량의 텍스트 집합이 생성되는데 이를 Miner 등 (2012)은 말뭉치(corpus)로 정의하였다. 말뭉치는 비정형 자료이기 때문에 정형화된 자료로 변환시켜 주어야 하는데, 이를 위해 우선 문장부호, 특수문자, 불용어(stop words) 등의 제거와 같은 정제(cleaning) 과정이 필요하다.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증