머신 러닝 분야의 대표적인 비지도 학습 방법 중 하나인 군집분석은 데이터를 서로 유사한 집단끼리 묶어주는 분석으로, 마케팅, 공학, 의학 등 다양한 분야에서 활용되고 있다(Wilson et al, 2011). 오늘날 군집 분석과 관련된 연구는 꾸준히 진행되고 있는데, 데이터가 수치형 일 때 활용될 수 있는 연구가 주를 이루고 있으며 범주형 데이터의 군집분석과 관련된 연구는 활발하게 진행되고 있지 않다(Mingoti et al, 2012). 이에 본 연구에서는 범주형 데이터의 군집분석 시, ...
머신 러닝 분야의 대표적인 비지도 학습 방법 중 하나인 군집분석은 데이터를 서로 유사한 집단끼리 묶어주는 분석으로, 마케팅, 공학, 의학 등 다양한 분야에서 활용되고 있다(Wilson et al, 2011). 오늘날 군집 분석과 관련된 연구는 꾸준히 진행되고 있는데, 데이터가 수치형 일 때 활용될 수 있는 연구가 주를 이루고 있으며 범주형 데이터의 군집분석과 관련된 연구는 활발하게 진행되고 있지 않다(Mingoti et al, 2012). 이에 본 연구에서는 범주형 데이터의 군집분석 시, 텍스트 분석에서 주로 사용되고 있는 워드 임베딩 기법을 활용하여 데이터를 수치형으로 변환을 한 뒤 수치형 데이터에 대한 군집분석 방법을 적용하는 방법을 제시하고자 한다. 워드 임베딩은 현재 가장 많이 사용 되고 있는 기법인 Word2vec, FastText, Glove 기법을 각각 적용하였고, 각 기법 적용시 어떠한 성능의 차이를 보이는지를 비교분석 하였다. 또한 제시하는 모형의 성능을 기존의 범주형 데이터의 군집분석 모형과 비교해 보면서 모형의 우수성을 검증하였고, 이때 가장 많이 알려진 방법인 K-mode, ROCK 등 의 방법과 비교분석 하였다. 데이터의 구조에 따른 모형의 성능의 변화를 파악하기 위해 시뮬레이션을 통해 다양한 조건의 데이터를 생성한 뒤 각 데이터 조건별 모형의 성능을 비교 하였고, 나아가 실제 데이터에서도 모형이 잘 군집하는지를 평가하기 위하여 실제 데이터를 통해 모형의 성능을 평가 하였다.
머신 러닝 분야의 대표적인 비지도 학습 방법 중 하나인 군집분석은 데이터를 서로 유사한 집단끼리 묶어주는 분석으로, 마케팅, 공학, 의학 등 다양한 분야에서 활용되고 있다(Wilson et al, 2011). 오늘날 군집 분석과 관련된 연구는 꾸준히 진행되고 있는데, 데이터가 수치형 일 때 활용될 수 있는 연구가 주를 이루고 있으며 범주형 데이터의 군집분석과 관련된 연구는 활발하게 진행되고 있지 않다(Mingoti et al, 2012). 이에 본 연구에서는 범주형 데이터의 군집분석 시, 텍스트 분석에서 주로 사용되고 있는 워드 임베딩 기법을 활용하여 데이터를 수치형으로 변환을 한 뒤 수치형 데이터에 대한 군집분석 방법을 적용하는 방법을 제시하고자 한다. 워드 임베딩은 현재 가장 많이 사용 되고 있는 기법인 Word2vec, FastText, Glove 기법을 각각 적용하였고, 각 기법 적용시 어떠한 성능의 차이를 보이는지를 비교분석 하였다. 또한 제시하는 모형의 성능을 기존의 범주형 데이터의 군집분석 모형과 비교해 보면서 모형의 우수성을 검증하였고, 이때 가장 많이 알려진 방법인 K-mode, ROCK 등 의 방법과 비교분석 하였다. 데이터의 구조에 따른 모형의 성능의 변화를 파악하기 위해 시뮬레이션을 통해 다양한 조건의 데이터를 생성한 뒤 각 데이터 조건별 모형의 성능을 비교 하였고, 나아가 실제 데이터에서도 모형이 잘 군집하는지를 평가하기 위하여 실제 데이터를 통해 모형의 성능을 평가 하였다.
Clustering algorithms is technique for grouping similar data and have been used in a variety of fileds such as engineering, medicine, marketing, etc. There are lot of study about clustering analysis but, majority of studies are about algorithms for nimerical data. In this study, we propose a met...
Clustering algorithms is technique for grouping similar data and have been used in a variety of fileds such as engineering, medicine, marketing, etc. There are lot of study about clustering analysis but, majority of studies are about algorithms for nimerical data. In this study, we propose a method that transform categorical data to numerical data using word embedding. We used three word embedding model(Skip-gram, FastText, Glove) and compared the performance with algorithms for categorical data(K-mode, ROCK). To determine the performance of the model depending on the structure of the data, we generated data with different conditions and furthermore, evaluated performance of the model through real data. we used Silhouette score and Adjusted Rand score for performance evaluation. By the Simulation, We Compared performance of the model by the number of categories and the number of data and as a result, embedding using the glove shown the best performance except where the number of categories is high and the number of data is low. We compared performance of the model through the real hospital care data and performance was good in order of K-means using glove embedding, K-mode, K-means using word2vec, K-means using FastText.
Clustering algorithms is technique for grouping similar data and have been used in a variety of fileds such as engineering, medicine, marketing, etc. There are lot of study about clustering analysis but, majority of studies are about algorithms for nimerical data. In this study, we propose a method that transform categorical data to numerical data using word embedding. We used three word embedding model(Skip-gram, FastText, Glove) and compared the performance with algorithms for categorical data(K-mode, ROCK). To determine the performance of the model depending on the structure of the data, we generated data with different conditions and furthermore, evaluated performance of the model through real data. we used Silhouette score and Adjusted Rand score for performance evaluation. By the Simulation, We Compared performance of the model by the number of categories and the number of data and as a result, embedding using the glove shown the best performance except where the number of categories is high and the number of data is low. We compared performance of the model through the real hospital care data and performance was good in order of K-means using glove embedding, K-mode, K-means using word2vec, K-means using FastText.
주제어
#군집분석 워드 임베딩 word2vec FastText Glove K-means K-mode
학위논문 정보
저자
조현
학위수여기관
국민대학교 일반대학원
학위구분
국내석사
학과
데이터사이언스전공 데이터사이언스전공
지도교수
정여진
발행연도
2019
총페이지
vi, 32 p.
키워드
군집분석 워드 임베딩 word2vec FastText Glove K-means K-mode
※ AI-Helper는 부적절한 답변을 할 수 있습니다.