$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

문서 분류를 위한 용어 가중치 기법 비교
Comparison of term weighting schemes for document classification 원문보기

응용통계연구 = The Korean journal of applied statistics, v.32 no.2, 2019년, pp.265 - 276  

정호영 (부산대학교 통계학과) ,  신상민 (동아대학교) ,  최용석 (부산대학교 통계학과)

초록
AI-Helper 아이콘AI-Helper

문서-용어 빈도행렬텍스트 마이닝에서 분석하고자 하는 개체 정보를 가지고 있는 일반적인 자료 형태이다. 본 연구에서 문서 분류를 위해 문서-용어 빈도행렬에 적용되는 기존의 용어 가중치인 TF-IDF를 소개한다. 추가하여 최근에 알려진 용어 가중치인 TF-IDF-ICSDF와 TF-IGM의 정의와 장단점을 소개하고 비교한다. 또한 문서 분류 분석의 질을 높이기 위해 핵심어를 추출하는 방법을 제시하고자 한다. 추출된 핵심어를 바탕으로 문서 분류에 있어서 가장 많이 활용된 기계학습 알고리즘 중에서 서포트 벡터 머신을 이용하였다. 본 연구에서 소개한 용어 가중치들의 성능을 비교하기 위하여 정확률, 재현율, F1-점수와 같은 성능 지표들을 이용하였다. 그 결과 TF-IGM 방법이 모두 높은 성능 지표를 보였고, 텍스트를 분류하는데 있어 최적화 된 방법으로 나타났다.

Abstract AI-Helper 아이콘AI-Helper

The document-term frequency matrix is a general data of objects in text mining. In this study, we introduce a traditional term weighting scheme TF-IDF (term frequency-inverse document frequency) which is applied in the document-term frequency matrix and used for text classifications. In addition, we...

주제어

표/그림 (6)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 그러나 다수의 개체(object)들이 각각 둘 이상의 문서를 발행한 경우에는 발행된 문서들에 대한 특징을 파악하고 주어진 문서들을 분류하는 것에만 목적을 두는 것이 아니라, 문서들의 특징을 이용하여 개체들에 대한 분류에도 목적을 둘 필요가 있다. 따라서 본 연구에서는 다수의 개체들이 각각 둘 이상의 문서를 발행한 경우에 문서 및 개체의 특징을 파악하기 위한 다양한 용어 가중치들을 소개하고 이들의 계산법과 장단점을 정리하여 간단한 예시와 함께 이해를 돕고자한다.
  • 본 연구에서는 분석대상이 되는 정부출연연구기관을 경제·인문사회연구회 소속 26개 연구기관으로 한정함으로써 한국의 경제 및 사회 분야로 분석 범위를 좁히고자 한다.
  • 문서-용어 빈도행렬에서 단순히 빈도가 높은 용어를 핵심어로 인식하여 개체를 분류하고자 할 경우, 문서와 개체들의 특수성과 대표성이 있는 용어들을 반영하지 못하기 때문에 텍스트를 분류하는 데 있어서 좋은 결과를 얻을 수 없다. 본 연구에서는 이러한 문제를 극복하기 위해 6가지 용어 가중치 함수를 이용하여 문서-용어 가중행렬을 생성하고 핵심어를 추출하는 방법을 고찰하였다. 그리고 2016년 한 해 동안 정부출연연구기관에서 발간한 정기간행물을 수집하고 이를 자료로 활용하여 6개의 문서-핵심어 가중행렬을 생성한 후 문서 분류에서 가장 많이 활용된 SVM을 적용하였다.
  • 여기에 2.3절에서 설명한 용어 필터링 방법을 적용한 문서-핵심어 가중행렬 X1–X6을 바탕으로 SVM을 적용하여 최종적으로 정기간행물들이 각 연구기관의 발간목적에 맞게 제대로 분류가 되었는지 용어 가중치들의 성능을 보고자 한다.
  • 이 절에서는 용어의 정보를 양적으로 나타낸 대표적인 용어 가중치인 TF-IDF와 최근에 제안된 용어가중치인 TF-IDF-ICSDF, TF-IGM을 소개하고자 한다. 이를 위해 우선, r번째 개체의 i번째 문서에서 추출한 j번째 용어의 출현빈도에 대한 지역적 가중치를 Lr(i, j)라 하고, 문서 또는 개체에 대한 j번째 용어의 전역적 가중치를 G(j)라고 하면, r번째 개체의 i번째 문서에서 추출한 j번째 용어에 대한 문서-용어 가중점수를 식 (2.
  • 즉 문서와 용어 사이의 정보만을 표현할 뿐 개체들의 정보를 무시하는 문제점이 있다. 이를 보완하고자 Ren과 Sohrab (2013)이 소개한 TF-IDF-inverse class space density frequency (TF-IDF-ICSDF) 용어 가중치에 대해 설명을 하고자 한다. TF-IDF-ICSDF에 의한 가중점수 # 를 산출하기 위한 지역적·전역적 가중치 함수는 식 (2.
  • 가장 대표적인 용어 가중치인 term frequency-inverse document frequency (TF-IDF)는 컴퓨터공학, 정보통신공학, 문헌정보학뿐만 아니라 생물학, 의학, 인문학 등 모든 분야에서 다양하게 활용할 수 있다. 텍스트 마이닝과 관련된 지금까지의 선행연구들은 대다수 이러한 TF-IDF와 같은 용어 가중치를 이용하여 다수의 문서들에 대한 특징을 파악하고 주어진 문서들을 분류하는 것을 목적으로 하고 있다. 그러나 다수의 개체(object)들이 각각 둘 이상의 문서를 발행한 경우에는 발행된 문서들에 대한 특징을 파악하고 주어진 문서들을 분류하는 것에만 목적을 두는 것이 아니라, 문서들의 특징을 이용하여 개체들에 대한 분류에도 목적을 둘 필요가 있다.

가설 설정

  • 2.2절에서 생성된 문서-용어 가중행렬들은 문서-용어 빈도행렬에서의 모든 용어를 포함하고 있기 때문에 차원 수가 크고 0의 값이 많은 희소(sparse) 행렬이다. 일반적으로 문서의 수보다 용어의 수가 매우 크기 때문에 문서-용어 가중행렬을 그대로 분석을 하게 된다면 많은 시간이 소요되고 분석의 질을 저하시키는 일이 생긴다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
TF-IDF는 모든 문서에서 등장하는 중요도가 낮은 용어는 어떠한 값을 가지는가? TF-IDF는 특정한 문서에서 많이 등장하는 용어일수록 해당문서의 특성이 되는 용어이므로 높은 가중치를 얻는다. 그러나 모든 문서에서 등장하는 중요도가 낮은 용어는 log 1의 값을 가져 가중치가 0이 된다. 예를 들어 어느 문서에서나 등장할 법한 일반적인 용어의 가중치는 상대적으로 작을 것이고 가중치가 0이 되면 용어 집합에서 제외할 수 있음을 의미한다.
크롤링이란? 특정 문서나 웹 페이지에서 원하는 텍스트 데이터를 추출하는 행위를 크롤링(crawling)이라고 한다. 그리고 크롤링을 이용하여 텍스트 데이터를 추출하게 되면, 대용량의 텍스트 집합이 생성되는데 이를 Miner 등 (2012)은 말뭉치(corpus)로 정의하였다.
크롤링을 이용하여 텍스트 데이터를 추출하게 되면 무엇이 생성되는가? 특정 문서나 웹 페이지에서 원하는 텍스트 데이터를 추출하는 행위를 크롤링(crawling)이라고 한다. 그리고 크롤링을 이용하여 텍스트 데이터를 추출하게 되면, 대용량의 텍스트 집합이 생성되는데 이를 Miner 등 (2012)은 말뭉치(corpus)로 정의하였다. 말뭉치는 비정형 자료이기 때문에 정형화된 자료로 변환시켜 주어야 하는데, 이를 위해 우선 문장부호, 특수문자, 불용어(stop words) 등의 제거와 같은 정제(cleaning) 과정이 필요하다.
질의응답 정보가 도움이 되었나요?

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로