$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

텍스트 데이터 분석을 위한 근접성 데이터의 생성과 군집화
Creation and clustering of proximity data for text data analysis 원문보기

응용통계연구 = The Korean journal of applied statistics, v.32 no.3, 2019년, pp.451 - 462  

정민지 (부산대학교 통계학과) ,  신상민 ,  최용석 (부산대학교 통계학과)

초록
AI-Helper 아이콘AI-Helper

문서-용어 빈도행렬은 텍스트 마이닝 분야에서 보편적으로 사용되는 데이터의 한 유형으로, 여러 개체들이 제공하는 문서를 기반으로 만들어진다. 그러나 대다수의 연구자들은 개체 정보에 무게를 두지 않고 여러 문서에서 공통적으로 등장하는 공통용어 중 핵심적인 용어를 효과적으로 찾아내는 방법에 집중하는 경향을 보인다. 공통용어에서 핵심어를 선별할 경우 특정 문서에서만 등장하는 중요한 용어들이 공통용어 선정단계에서부터 배제될 뿐만 아니라 개별 문서들이 갖는 고유한 정보가 누락되는 등의 문제가 야기된다. 본 연구에서는 이러한 문제를 극복할 수 있는 데이터를 근접성 데이터라 정의한다. 그리고 근접성 데이터를 생성할 수 있는 12가지 방법 중 개체 군집화의 관점에서 가장 최적화된 방법을 제안한다. 개체 특성 파악을 위한 군집화 알고리즘으로는 다차원척도법K-평균 군집분석을 활용한다.

Abstract AI-Helper 아이콘AI-Helper

Document-term frequency matrix is a type of data used in text mining. This matrix is often based on various documents provided by the objects to be analyzed. When analyzing objects using this matrix, researchers generally select only terms that are common in documents belonging to one object as keyw...

주제어

표/그림 (8)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  •   이때 다양한 거리측도를 사용하면 두 문서 간의 거리, 즉 비유사성을 계산할 수 있는데 본 연구에서는다음 세 가지 거리측도를 사용하고자 한다.
  • 개체 군집화에 최적화된 근접성 데이터 생성법을 제안하기 위하여, 2016년 한 해 동안 경제·인문사회연구회 소속 정부출연연구기관들이 기관별 홈페이지에 무료로 배포한 정기간행물을 연구 자료로 활용하고자 한다.
  •   다차원척도법도는 비유사성 행렬이 갖는 값에 따라 형태가 변하므로 비유사성을 측정하는 거리측도에  따라 결과는 달라진다. 거리측도만 다르게 적용한 근접성 데이터의 다차원척도법도를 살펴보자. Fig-ure 3.
  • 그러나  이 방법은 개별 문서가 갖는 고유 정보를 누락시킬 뿐만 아니라 특정 문서에서만 발생빈도가 높은 잠재  적 핵심어를 제거하는 문제를 초래한다. 본 연구에서는 이러한 문제를 극복할 수 있는 근접성 데이터 생성법 12가지를 개발하였다. 12가지 방법 중 텍스트 데이터 군집에 특화된 방법을 찾기 위하여 2016년 한 해 동안 정부출연연구기관에서 발간한 정기간행물을 연구 자료로 활용하여 근접성 데이터를 생성하고 다차원척도법과 K-평균 군집분석을 적용하였다.
  • 개체 정보는 고려하였을지라도 각 문서가 가지고 있는 고유한 정보는 고려하지 않았기 때문이다. 이러한 문제를 극복하기 위하여 각 문서별 핵심어 정보가 반영된 문서 간 비유사성 행렬을 생성하고자 한다. g개의 개체 정보가 존재하며 크기가 n×q인 문서-핵심어 가중행렬 X는 크기가 nr ×q, r = 1, .
  • 이어지는 [용어 필터링 방법]에서 용어를 필터링하는 두 가지 방법을 소  개하고 핵심어를 선정하는 과정을 상세히 설명하고자 한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
TF-IDF만 사용할 때 문서-용어 빈도행렬에서 발생하는 단점은? 즉 일반적으로 흔하게 사용되는 용어에는 낮은 가중치가 부여되고 특정 문서에서 유독 많이 사용하는 용어에는 높은 가중치가 부여되는 것이다. 그러나 단순히  TF-IDF만 사용하면 문서-용어 빈도행렬 Y 전체에 가중치가 일괄적으로 부여되므로 개체 정보가 무의  미해지는 단점이 존재한다. 아래에서 소개할 [TF-IDF 가중치 부여 방법]에서는 단순한 TF-IDF인 [방법 W1]을 먼저 설명한 후 본 연구에서 새롭게 제안하는 개체별 용어 가중치 계산법인 [방법 W2]를 정의하고자 한다.
문서-용어 빈도행렬이란? 문서-용어 빈도행렬(document-term frequency matrix)은 행에는 문서가 열에는 문서에서 추출한 용  어가 나열되고 각 용어의 발생빈도를 원소(element)로 하는 데이터이다. 분석하고자 하는 특정 개  체(object)가 존재할 때 해당 개체가 제공하는 문서를 바탕으로 문서-용어 빈도행렬을 만든다.
문서-용어 빈도행렬에서 개체가 두 개 이상인 경우 행렬을 생성하는 방법은? 개체가 두 개 이상인 경우 다음과 같은 두 가지 방법으로 행렬을 생성할 수 있다. 첫째, 여러 개체가 제공하는 모든 문서를 종합하여 하나의 문서-용어 빈도행렬을 만  든다. 둘째, 개체들이 가지고 있는 공통 용어를 찾아내어 행에는 다수의 개체가 열에는 공통 용어가 나  열된 새로운 개체-공통어 빈도행렬을 만드는 것이다. 전자는 각 개체의 특성을 반영하지 못하고, 후자는  공통어가 아닐 경우 개별 문서에서 중요한 용어라 할지라도 삭제하기 때문에 두 방법 모두 문제가 있다.
질의응답 정보가 도움이 되었나요?

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로