대부분의 실세계의 시스템들, 즉 경제, 주식시장, 의료분야 등의 많은 시스템들은 동적이며 복잡한 현상을 갖는다. 이러한 특징들의 시스템을 이해하는 전형적인 방법은 시스템행위에 대한 모델을 세우고 분석하는 것이다. 본 연구에서는 실세계의 동적 시스템에서 발생되는 시계열데이터들에 대하여 최적의 클러스터를 형성하기 위한 방법을 연구한다. 먼저 클러스터 수를 결정하는 기준으로 베이지안정보기준(BIC : Bayesian Information Criterion)근사법의 활용도를 검증하고 데이터 크기와 베이지안정보기준값의 상관관계를 파악함으로 탐색 효율을 높이는 방안을 제안하며 클러스터링 과정으로 모델기반과 유사기반의 방법론을 비교 확인하여 본다. 실제의 시계열데이터(주가)에 대해 실험을 시행하였고 베이지안정보기준 근사 측도는 데이터의 크기에 따라 파티션의 사이즈를 정확히 추정하는 것을 확인하였으며 또한 유사기반의 방식보다 모델기반의 방법론이 클러스터링에서 더 나은 결과를 갖는 것을 확인하였다.
대부분의 실세계의 시스템들, 즉 경제, 주식시장, 의료분야 등의 많은 시스템들은 동적이며 복잡한 현상을 갖는다. 이러한 특징들의 시스템을 이해하는 전형적인 방법은 시스템행위에 대한 모델을 세우고 분석하는 것이다. 본 연구에서는 실세계의 동적 시스템에서 발생되는 시계열데이터들에 대하여 최적의 클러스터를 형성하기 위한 방법을 연구한다. 먼저 클러스터 수를 결정하는 기준으로 베이지안정보기준(BIC : Bayesian Information Criterion)근사법의 활용도를 검증하고 데이터 크기와 베이지안정보기준값의 상관관계를 파악함으로 탐색 효율을 높이는 방안을 제안하며 클러스터링 과정으로 모델기반과 유사기반의 방법론을 비교 확인하여 본다. 실제의 시계열데이터(주가)에 대해 실험을 시행하였고 베이지안정보기준 근사 측도는 데이터의 크기에 따라 파티션의 사이즈를 정확히 추정하는 것을 확인하였으며 또한 유사기반의 방식보다 모델기반의 방법론이 클러스터링에서 더 나은 결과를 갖는 것을 확인하였다.
Most real word systems such as world economy, stock market, and medical applications, contain a series of dynamic and complex phenomena. One of common methods to understand these systems is to build a model and analyze the behavior of the system. In this paper, we investigated methods for best clust...
Most real word systems such as world economy, stock market, and medical applications, contain a series of dynamic and complex phenomena. One of common methods to understand these systems is to build a model and analyze the behavior of the system. In this paper, we investigated methods for best clustering over time series data. As a first step for clustering, BIC (Bayesian Information Criterion) approximation is used to determine the number of clusters. A search technique to improve clustering efficiency is also suggested by analyzing the relationship between data size and BIC values. For clustering, two methods, model-based and similarity based methods, are analyzed and compared. A number of experiments have been performed to check its validity using real data(stock price). BIC approximation measure has been confirmed that it suggests best number of clusters through experiments provided that the number of data is relatively large. It is also confirmed that the model-based clustering produces more reliable clustering than similarity based ones.
Most real word systems such as world economy, stock market, and medical applications, contain a series of dynamic and complex phenomena. One of common methods to understand these systems is to build a model and analyze the behavior of the system. In this paper, we investigated methods for best clustering over time series data. As a first step for clustering, BIC (Bayesian Information Criterion) approximation is used to determine the number of clusters. A search technique to improve clustering efficiency is also suggested by analyzing the relationship between data size and BIC values. For clustering, two methods, model-based and similarity based methods, are analyzed and compared. A number of experiments have been performed to check its validity using real data(stock price). BIC approximation measure has been confirmed that it suggests best number of clusters through experiments provided that the number of data is relatively large. It is also confirmed that the model-based clustering produces more reliable clustering than similarity based ones.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이러한 문제를 해결하기 위하여 각 상태에서 특징들에 대한 적합한 확률함수를 사용하여 연속적인 값을 갖는 시계 열 시퀀스를 쉽게 다루며, 다수의 시계열 특징들을 가진 데이터의 묘사가 쉬운 은닉마코프모델을 사용하는 것이 일반적 시계열 데이터의 클러스러링에서는 효과적이라고 할 수 있다. 그러므로 시계열데이터의 클러스터링은 유사기반 방식보다 모델기반 방식이 더욱 적합하며 본 연구에서는 은닉마코프모델의 모델 기반으로 시계열 데이터의 클러스터링과정에서 최적의 클러스터를 결정짓는 방법의 유효성을 살펴본다.
둘째, 각각의 클러스터에 가장 적합한 모델을 생성하는 것이다. 본 연구에서는 위의 두 가지 과제 중에서 첫 번째 과제인 최적의 클러스터 수를 결정하는 과정에 대해서 살펴보고자 한다.
두 단계의 과정으로 이루어진다. 본 연구에서는 첫 번째 과정인 최적의 클러스터 수를 결정하는 과정에 대해서 살펴보았다. 클러스터 수를 추정함과 클러스터링 방법론으로 유사기반과 모델기반의 방법론을 비교하였다.
본 연구에서는 최근 들어 폭발적인 증가를 보이고 있는 상업적이거나 과학적인 실세계의 동적인 시스템에서 발생되어 관측기간 동안 의미 있게 변하는 시간적 특징들로 묘사되는 데이터들을 대상으로 연구 분석한다. 주가 데이터, 환율데이터, 기업성장률 데이터, 기온과 같은 날씨 데이터, 기기 측정 데이터 등에 내재하는 현상을 쉽게 이해하는데 필요한 최적 클러스터 집합의 구성을 찾는 모델 기반 클러스터 링 방법론을 살펴본다.
클러스터 형성과정은 두 객체간 또는 두 시퀀스간의 거리측정에 의해서 유도된다. 본 절에서는 유클리디안 거리, 구간 상수 근사기 법 (PCA), 기 호집 합근사기 법 (SAX) 방법 을 살펴보고자 한다.
우리의 목적은 데이터에 대한 최적의 혼합모델 M을 찾는 것이다. 최적의 클러스터링 혼합모델 Me 가장 높은 분할사후확률(PPP),| X)를 갖는다.
가설 설정
는 클러스터 내의 의미있는 파라메터의 수를 나타낸다. 데이터우도가계산되어질 때, 데이터가 완벽하다는 것을 가정한다. 즉, 각 객체는 분할에서 알려진 하나의 클러스터에 할당된다.
첫째, 데이터에 대하여 최적의 클러스터 수 결정과 클러스터링을 통한 최적 집합을 찾는 것이다. 둘째, 각각의 클러스터에 가장 적합한 모델을 생성하는 것이다. 본 연구에서는 위의 두 가지 과제 중에서 첫 번째 과제인 최적의 클러스터 수를 결정하는 과정에 대해서 살펴보고자 한다.
즉, 모델에서 은닉층 수, 노드들에서 사용되는 기준함수뿐만 아니라 각 층에서 노드들의 수가 정해져 있다는 것이다. 둘째, 모델의 해석을 지원하지 않는 것이다. 이는 훈련과정동안, 모델 파라메터값들의 조정목적은 객관적 기준함수에 따라 산출 층에 값들을 최적화하는 것이다.
모델기반 방법들은 각 클러스터에 대하여 분석적인 함수 또는 오토마타 기반 모델들로 가정한다. 클러스터링 과정의 목적은 데이터에 가장 적합한 모델들을 찾는 것이다.
모델기반 클러스터링에서, 데이터는 확률분포의 혼합(Mxture)에 의해 생성되어지는 것을 가정한다. 혼합모델 M은 K개의 컴포넌트 모델들에 의해 표현되고 독립적 이산변수인 C로 표현된다.
제안 방법
먼저 시퀀스의 길이에 따라 클러스터를 정확히 추정하는지 결과를 살펴보기 위해 두 모델에서 생성된 시퀀스의 길이는 10, 30, 60 그리고 각 시퀀스의 수는 각 모델별로 4개의 시퀀스로 하였다. [그림 1]와 [그림 2]에서의 X축은 클러스터의 수를 나타내며 Y축은 각 클러스터의 수에서의 우도값을 나타낸다.
베이지안정보기준에 의해 추정된 클러스터 수를 통해 모델기반의 클러스터링 결과를 확인한다. 미리 추정된 클러스터 수에 따른 시퀀스들의 할당 방식은 k-means에서와 같이 주어진 클러스터에 대하여 최대의 우도값을 갖는 시퀀스를 할당하는 방식을 적용한다.
베이지안정보기준의 효용성을 살펴보기 위한 실험으로 데이터 시퀀스의 수와 각 시퀀스의 길이 변화에 따라 정확한 클러스터의 수를 추정하는지를 확인한다.
주가 데이터, 환율데이터, 기업성장률 데이터, 기온과 같은 날씨 데이터, 기기 측정 데이터 등에 내재하는 현상을 쉽게 이해하는데 필요한 최적 클러스터 집합의 구성을 찾는 모델 기반 클러스터 링 방법론을 살펴본다. 대용량의 데이터에서는 각각의 데이터를 요약하는 것보다 전체를 유사한 클러스터로 구분하여, 복잡한 전체 데이터 대신에 클러스터들을 분석함으로서 전체 데이터에 대한 의미 있는 정보를 얻을 수 있다.
실험을 통하여, 두 가지 요소를 확인한다. 첫 번째 클러스터의 수를 결정짓는 판단기준으로 사용된 베이지 안 정보 기준의 효용성을 살펴보고, 두 번째 추정된 클러스터 수를 통해 모델기반과 유사기반 방법론의 클러스터링 결과를 비교 확인하여 본다.
최적의 클러스터 수를 결정할 베이지안정보기준[3] 측정에 대해서 고찰과 실험을 통해 유효성을 살펴보고 클러스터링 과정으로는 모델 기반과 유사기반의 방법을 비교 확인하여 본다. 결과에서는 베이지안 정보 기준 근사 측도는 데이터의 크기가 비교적 클 경우에 정확한 클러스터 수를 추정함을 확인하였으며 실제의 주가 데이터에 적용하였을 때 모델기반의 클러스터링은 유사 기반의 방법론보다 더 나은 클러스터 링 결과를 산출하는 것을 확인하였다.
본 연구에서는 첫 번째 과정인 최적의 클러스터 수를 결정하는 과정에 대해서 살펴보았다. 클러스터 수를 추정함과 클러스터링 방법론으로 유사기반과 모델기반의 방법론을 비교하였다.
대상 데이터
실험데이터의 생성은 실제의 주가데이테를 통해 2 개의 클러스터 모델을 생성 후2 해당 모델로부터 생성된 임의의 여러 데이터 시퀀스들을 대상으로 실험하였다.
실험에 사용된 시퀀스는 1번부터 6번이 같은 모델에서 생성되었고 7번부터 12번, 13번부터 18번이 각각 다른 모델에서 생성된 시퀀스들이다. 거리측정의 결과를 살펴보면 수치가 작을수록 유사한 시퀀스를 보여주는데 같은 모델이 아닌 다른 모델에서 생성된 시퀀스가 유사한 형태를 보여주는 작은 값들이 많이 나타나고 있다.
이론/모형
미리 추정된 클러스터 수에 따른 시퀀스들의 할당 방식은 k-means에서와 같이 주어진 클러스터에 대하여 최대의 우도값을 갖는 시퀀스를 할당하는 방식을 적용한다. 두 모델3에서 각 모델별로 6개의 시퀀스 즉, 12개의 시퀀스를 생성하였으며 주어진 클러스터들에 대하여 일반적인 k-means 알고리즘을 적용하였다. [그림 3]에서의 X축은 두 모델로부터 생성된 시퀀스들의 번호이며 Y축은 각 시퀀스별로 해당 모델에 대한 우도값을 나타낸다.
우리는 혼합모델의 한계우도 P(X│M)를 분할사후확률에 근사시킨다. 여기에서 클러스터 분할선택을 위한 한계 우도의 계산에 베이지안정보기준을 적용한다. 베이지안 정보 기준은 다량의 데이터가 있을 때 우도함수나 사전확률이 다변량 가우시안 분포로 근사된다는 점에서 유도되어진다[10].
성능/효과
비교 확인하여 본다. 결과에서는 베이지안 정보 기준 근사 측도는 데이터의 크기가 비교적 클 경우에 정확한 클러스터 수를 추정함을 확인하였으며 실제의 주가 데이터에 적용하였을 때 모델기반의 클러스터링은 유사 기반의 방법론보다 더 나은 클러스터 링 결과를 산출하는 것을 확인하였다.
이것은 계산적으로 매우 큰 비용이 소요된다. 그러므로 본연구에서의 주된 아이디어는 미리 선택되어 정의된 베이지 안 정보 기준 함수에 의해, 최선의 분할사이즈는 하나의 클러스터 수로부터 시작하여 클러스터의 수를 하나씩 증가하여 계속 반복해 나가다가 가장 높은 기준함수의 값을 갖는 클러스터의 수가 최적의 클러스터 수가 된다. 이와 같은 특성은 뒤에 소개될 베이지안 정보 기준 측도의 특성의 활용에 대한 근거에 의한 것이다.
모델기반과 유사기반 방법론의 클러스터링 결과를 비교한 결과 모델기반의 방법론이 정확한 결과가 나타남을 확인하였으며 모델기반 클러스터링에서 적용된 k-means 알고리즘에서는 모델에 대한 시퀀스의 우도값뿐만 아니라 모델과 시퀀스의 상태수를 고려하여 할당되어진 것이 일반적으로 우도값 만을 고려하여 할당된 것보다 정확한 클러스터링 결과를 보여주었다.
위의 두 실험을 통해 본 결과 데이터 시퀀스의 수와 길이가 충분하다면 베이지안정보기준 값은 초기의 값으로부터 증가하는 방향으로 값이 변화하다가 어느 시점에서부터는 하강하는 방향으로 진행하는 형태를 가지며 정확한 클러스터의 수를 추정함을 확인하였다.
6개의 시퀀스는 해당 모델에 대하여 유사한 우도값을 보여 정확히 분할되어지지만 나머지 12개의 시퀀스는 유사한 우도값을 보여주며 시퀀스가 생성된 모델이 아닌 다른 모델에 대하여 높은 우도값을 보여주는 경우도 있다. 좀 더 정확한 클러스터링 위해 시퀀스가 두 모델에 대하여 유사한 우도값을 가질 경우 클러스터의 모델 상태수와 시퀀스의 상태 수를 비교하여 같은 상태수를 같는 모델에 할당할 경우 더욱 정확한 클러스터 링 결과를 얻을 수 있다. [그림 5]는 각 업종별 모델에서의 상태의 수를 나타낸다.
[그림 1]의 (b)(c)를 보면 데이터 시퀀스의 길이가 30, 60인 경우에는 클러스터의 수가 2개인 경우에서 가장 큰 우도 값들을 갖는다. 즉, 실험을 위하여 생성한 클러스터 모델의 수인 2개의 클러스터 수를 정확히 추정하는 것을 확인하였다.
그러므로 일반적인 시계열 데이터가 클러스터링에 사용될 때 다음과 같은 제한점이 있다. 첫째, 마코프모델은 연속적인 값을 갖는 시계열 데이터의 특징을 묘사하는데 적합하지 않으며 둘째, 다수의 시계열 특징에 의하여 묘사되는 데이터 표현이 어렵다. 이러한 문제를 해결하기 위하여 각 상태에서 특징들에 대한 적합한 확률함수를 사용하여 연속적인 값을 갖는 시계 열 시퀀스를 쉽게 다루며, 다수의 시계열 특징들을 가진 데이터의 묘사가 쉬운 은닉마코프모델을 사용하는 것이 일반적 시계열 데이터의 클러스러링에서는 효과적이라고 할 수 있다.
최적의 클러스터 수를 결정짓는 과정인 베이지 안 정보 기준 측도에 대하여 고찰한 결과 실험결과는 베이지 안 정보 기준 측도가 일반적으로 클러스터 수를 정확하게 추정하는 결과를 보여주고 있으나 데이터객체의 수와 특징의 길이에 영향을 받는 것을 확인하였다. 이점은 베이지 안 정보 기준 측도의 유도가 자료의 개수가 많은 경우에 다변량 가우시안 분포로 근사할 수 있다는 점에서 볼 때 당연한 결과로 예측된 것이다.
후속연구
문제이다. 이상의 연구가 이루어진다면 일반적인 용도의 시계열 데이터의 클러스터링과 모델링 방법론을 개발하는 것으로서 이러한 방법론이 복잡하고 동적인 시스템들과 프로세스들을 가진 현상들을 이해하는 것에 도움이 될 것이다.
향후 연구해야 할 내용은 추정되어진 클러스터들에 대해 개별 클러스터에 대한 모델을 생성하는 문제이다. 이상의 연구가 이루어진다면 일반적인 용도의 시계열 데이터의 클러스터링과 모델링 방법론을 개발하는 것으로서 이러한 방법론이 복잡하고 동적인 시스템들과 프로세스들을 가진 현상들을 이해하는 것에 도움이 될 것이다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.