[논문]시계열자료의 효율적 군집분석을 위한 구간특징화와 계층적 베이지안 기법의 융합

정영애; 전진호

doi:10.14400/jdc.2015.13.7.169

초록
AI-Helper

주가지표처럼 동적이며 시간흐름을 따르는 시계열자료들을 이해하는 효과적인 방법은 주어진 시계열자료들에 대하여 모델을 결정함으로서 이해하는 것이 좋다. 주어진 자료들에 대한 모델 결정과정은 수집되어진 대용량 시계열자료 전체를 한 번에 다 살펴보는 것보다 자료를 특정의 중요한 몇 개의 하위그룹으로 군집화하여 각 군집별 모델결정을 통해 자료 전체를 이해하는 것이 효율적이다. 본 연구에서는 주어진 시계열자료들에 대하여 하위그룹으로의 효율적 군집화 과정 그리고 각 군집별 모델결정의 두 과정 중 첫 번째 과정인 하위집단으로 군집화 과정에 자료의 구간특징화 기법과 휴리스틱 베이지안기법의 융합을 이용하여 시간 및 계산비용을 감소시킬 수 있는 기법을 제안하였으며 실제적인 주가지표를 이용한 실험을 통해 제안하는 기법의 유효성을 확인하였다.

Abstract ▼ AI-Helper

An effective way to understand the dynamic and time series that follows the passage of time, as valuation is to establish a model to analyze the phenomena of the system. Model of the decision process is efficient clustering information of the total mass of the time series data of the relevant popula...

An effective way to understand the dynamic and time series that follows the passage of time, as valuation is to establish a model to analyze the phenomena of the system. Model of the decision process is efficient clustering information of the total mass of the time series data of the relevant population been collected in a particular number of sub-groups than to look at all a time to an understand of the overall data through each community-specific model determination. In this study, a sub-grouping of the group and the first of the two process model of each cluster by determining, in the following in sub-population characterized by a fusion with heuristic Bayesian clustering techniques proposed a process which can reduce calculation time and cost was confirmed by experiments using actual effectiveness valuation.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 시계열자료의 군집과정에서 시간 및 계산비용의 절감을 위하여 구간특징화를 이용한 베이지안 군집과정을 제안하였다.
본 연구에서 제안하는 구간특징화를 이용한 계층적 베이지안 군집기법이 효율적인 군집을 추정하는지 실험을 통하여 살펴본다. 실험을 위한 자료길이는 매해 1월 2일을 기준으로 20일, 40일, 60일로 2012년, 2013년, 2014년의 코스피(KOSPI) 종합주가지수와 업종별에서 전기전자, 제조업, 유통업의 총 네 가지의 주가 자료를 선정하였으며 수집되어진 자료를 통해 마아코프모델을 생성한 후 생성된 모델로부터 각 모델별로 실험데이터 자료를 5개체, 10개체, 15개체를 생성하였다.
또 다른 기법으로서는 주어진 임계 기준값을 통하여 점진적 과정을 거쳐 가장 큰 임계값을 갖는 것을 유효한 군집 수로 결정하는 휴리스틱 기법이 있다. 본 연구에서는 시계열자료의 군집과정에 자료의 구간특징화와 마아코프체인 모델을 이용한 휴리스틱 기반의 베이지안 군집 과정을 제안한다.
본 연구에서는 집단전체의 자료를 특정의 하위집단으로 군집화 과정에 있어서 시계열자료에 대하여 구간특징화와 계층적 베이지안 군집 방법을 이용하여 시간과 계산비용을 감소시킬 수 있는 효율적인 계층적 군집과정을 제안하는 것이 목적이며 다양한 경제지표 중 실제적인 주가지표를 통하여 실험하여 그 유효성을 확인하였다.

가설 설정

베이지안 군집은 모델기반 군집문제를 베이지안 모델 선택의 문제형태로 바꾼 것이다. 모델기반 군집화에서 자료는 확률분포의 혼합(Mixture)에 의해 생성되어지는 것을 가정하며 혼합모델 M은 K개의 모델들에 의해 표현되고 독립 이산변수 C로 표현된다. C의 각 값인 i는 λ_i에 의해 모델 되어지는 군집의 수를 표현한다.

제안 방법

본 연구에서 제안하는 군집기법은 주어진 자료를 구간화하여 각 구간을 특징하는 대표값으로 차원을 줄인 후 자료들에 대하여 베이지안 군집기법을 이용한다. 이러한 제안하는 기법을 통하여 기존의 군집과정보다 시간 및 계산비용의 절감 효율성을 얻을 수 있다.
실험방법으로서 각 모델로부터 임의로 생성된 실험데이터에 대한 군집과정은 첫 번째, 마아코프모델에 대하여 가장 큰 우도를 주는 모델에 할당하는 기법(Markov Model Likelihood : MML), 두 번째는 가장 큰 사후확률에 모델 복잡도에 따른 패널티값을 같이 고려하는 계층적 휴리스틱 베이지안 군집과정 기법 (Hierarchical Heuristic Bayesian : HHB), 세 번째는 두 번째 기법에 세그먼트(구간)를 3일로 설정한 후 구간에 대하여 구간 특징화를 적용한 기법(Piecewise Character Bayesian : PCB)으로 세 방식에 대한 실험을 통해 제안한 구간특징화를 통한 베이지안 군집기법에 대한 유효성 및 효율성을 살펴본다.
코스피, 전기전자, 유통업 세 가지 지수에 대한 군집추정을 실험하였다. 먼저 시계열자료의 길이에 따라 세 업종의 군집화가 정확하게 이루어지는지 확인하기 위하여 주어진 자료로부터 생성된 임의의 실험자료 길이를 20일, 40일, 60일로 하였으며 각 모델별로 실험자료 데이터는 5개체, 10개체, 15개체로 하였다.

대상 데이터

코스피, 전기전자, 유통업 세 가지 지수에 대한 군집추정을 실험하였다. 먼저 시계열자료의 길이에 따라 세 업종의 군집화가 정확하게 이루어지는지 확인하기 위하여 주어진 자료로부터 생성된 임의의 실험자료 길이를 20일, 40일, 60일로 하였으며 각 모델별로 실험자료 데이터는 5개체, 10개체, 15개체로 하였다.
본 연구에서 제안하는 구간특징화를 이용한 계층적 베이지안 군집기법이 효율적인 군집을 추정하는지 실험을 통하여 살펴본다. 실험을 위한 자료길이는 매해 1월 2일을 기준으로 20일, 40일, 60일로 2012년, 2013년, 2014년의 코스피(KOSPI) 종합주가지수와 업종별에서 전기전자, 제조업, 유통업의 총 네 가지의 주가 자료를 선정하였으며 수집되어진 자료를 통해 마아코프모델을 생성한 후 생성된 모델로부터 각 모델별로 실험데이터 자료를 5개체, 10개체, 15개체를 생성하였다.

성능/효과

위의 그림을 표로 요약하면 [Table 1], [Table 2]와 같다. [Table 1], [Table 2]에서 보는 것처럼 자료의 길이가 40일, 60일처럼 충분한 길이의 자료와 자료 데이터가 10개체, 15개체처럼 충분한 자료의 객체에서는 세 기법 모두 정확하게 군집을 추정하는 것을 확인할 수 있다.
또한 세 모델들에서 생성된 실험 자료들을 통해 계층적 베이지안과 구간특징화 베이지안 군집이 아닌 마아코프모델 우도를 고려한 군집과정에서도 3군집이 아닌 2군집으로 잘못 추정된 이유는 실험에 사용된 세 군집 중 코스피(KOSPI)와 전기전자 모델에서 유사한 우도를 보여준 수치가 많았다. 이는 우리나라 대표기업인 삼성전자의 주가가 전기전자 업종별과 전체 코스피(KOSPI)지수에 많은 영향을 주기 때문으로 코스피(KOSPI)와 전기전자 업종 지수가 유사한 운동패턴을 보이는 것으로 생각된다.
실제의 주가지수들을 이용하여 모델을 결정하고 모델로부터 실험데이터를 생성하여 실험을 하였으며 실험결과, 짧은 길이와 적은 양의 자료 객체에서는 기존 기법과 제시한 군집과정이 시계열자료의 특징으로 인해 정확한 군집과정이 어려웠다. 하지만 충분한 자료의 길이와 충분한 양의 자료 객체가 주어진다면 기존의 기법들과 제안하는 구간특징화를 이용한 계층적 베이지안 군집과정도 같은 결과를 보여주는 것을 확인하였다.
본 연구에서 제안하는 군집기법은 주어진 자료를 구간화하여 각 구간을 특징하는 대표값으로 차원을 줄인 후 자료들에 대하여 베이지안 군집기법을 이용한다. 이러한 제안하는 기법을 통하여 기존의 군집과정보다 시간 및 계산비용의 절감 효율성을 얻을 수 있다.
실제의 주가지수들을 이용하여 모델을 결정하고 모델로부터 실험데이터를 생성하여 실험을 하였으며 실험결과, 짧은 길이와 적은 양의 자료 객체에서는 기존 기법과 제시한 군집과정이 시계열자료의 특징으로 인해 정확한 군집과정이 어려웠다. 하지만 충분한 자료의 길이와 충분한 양의 자료 객체가 주어진다면 기존의 기법들과 제안하는 구간특징화를 이용한 계층적 베이지안 군집과정도 같은 결과를 보여주는 것을 확인하였다. 특히 본 연구에서 제시된 기법을 이용한다면 점차 대용량으로 발생되는 시계열자료들의 군집과정에 시간 및 계산비용을 절감시킴으로서 효율적인 적용이 가능할 것이다.

후속연구

하지만 충분한 자료의 길이와 충분한 양의 자료 객체가 주어진다면 기존의 기법들과 제안하는 구간특징화를 이용한 계층적 베이지안 군집과정도 같은 결과를 보여주는 것을 확인하였다. 특히 본 연구에서 제시된 기법을 이용한다면 점차 대용량으로 발생되는 시계열자료들의 군집과정에 시간 및 계산비용을 절감시킴으로서 효율적인 적용이 가능할 것이다.
향 후 더 다양한 부분의 일반화된 시계열자료에 적용가능한 연구를 통하여 일반적이고 유연한 분석에 적용할 수 있는 부분으로 연구영역의 확대가 필요할 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	시계열자료는 어떠한 것들의 집합인가?	이렇게 시간의 흐름에 의해 표현되는 자료를 수집하여 기록한 자료를 시계열자료라 한다. 즉, 시계열자료(Time Series Data)란 동적으로 변화되는 값들의 연속으로 구성된 데이터시퀀스(Data Sequence)들의 집합이다.
	시계열자료들에 대한 군집기법 연구는 어떻게 세 영역으로 구분되어지는가?	시계열자료들에 대한 군집기법 연구는 일반적으로 세 영역으로 구분되어진다. 첫 번째 영역으로 자료들 사이에 유사도 또는 거리측정을 이용하는 방식으로 상관측정(Correlation Measure), 헤밍거리(Hemming Distance)[1], 스트링편집거리(String Edit Distance)[2] 및 동적시간정합(Dynamic Time Warping)[3] 등이 있다. 두 번째 영역으로는 자료들의 특징을 추출하여 이용하는 방식으로 퓨리에 기술자(Fourier Descriptor), 웨이블릿 분석(Wavlet Analysis)[4], MDL[5] 등이 있다. 세 번째 영역으로 주어진 자료들에 대하여 설명하는 모델결정의 방법으로 회귀모델, 신경망, 마아코프체인[6,7,8] 등이 있다. 회귀모델은 주로 단기간의 자료들의 분석에 이용되므로 시계열자료에 대한 유용한 해석이 쉽지 않으며 신경망은 모델의 구조가 알려져 있으나 해석을 지원하지 않아 군집 모델링에는 적합하지 않다[7]는 단점을 가지고 있다.
	군집화기법의 목적은 무엇인가?	군집화기법은 이질적이며 이해하기 어려운 전체 자료 집합에 대하여 동일 군집내에서는 유사도가 크게 각 군집사이에서는 비유사도가 최대가 되도록 함으로서 전체 자료에 대하여 윤곽 파악을 쉽게 하는 것이 목적이다. 군집 기법들에 대한 연구는 계층적 기법들로부터 최적화기법들까지 다양한 영역에서 발전되어 왔다.

참고문헌 (15)

A. K. Jain and D. C. Dube, Algorithms for Clustering Data, Prentice Hall, 1988.
T. Okuda, E, Tanara and T. Kasai, "A Method for the Correction of Garbled Words based on the Levenshtein Metric", IEEE Transaction on Computers C25, 2, pp.172-177, 1976(2).
T. Oates, "Identifying Distinctive Subsequence in Multivariate Time Series by Clustering", Proceedings of the Sixteenth International Conference on Machine Learning, 1999.
Y. Huhtala, J. Karkkinen, H. Toivonen and N. R, "Mining for Similarity in aligned Time Series using Wavlets", Proceedings of SPIE on Data Mining and Knowledge Discover: Theory, Tools and Technology, 1999.
S. ManGanaris, "Learning to Classify Sensor Data", IJCAI'95 Workshop on Machine Learning in Engineering, 1995.
Y. Cho and G. Lee., "Modeling and Prediction of Time Seires Data based on Markov Model", The Korea Society of Computer and Information", Vol. 16, no. 2, pp. 225-233, 2011.
L. Rabiner., "A Tutorial on Hidden Markov Models and selected applications in speech recognition," Proc. of IEEE77, pp.257-286, 1989.
M. Siddiqi, J. Gordon and W. Moore., "Fast State Discovery for HMM Moel Selection and Learning," In Proc. Int'l Conference on Artificial Intelligence and Statistics, 2007.
J. Jeon., "A Study on Determining Prediction Models using Model-based Clustering of Time Series Data", Dankook Univ Ph. D, 2007.
J. Jeon and m. Kim.,"A Study of Economic Indicator Prediction Model using Dimensions Decrease Techniques and HMM",The Journal of Digital Policy & Management, Vol. 11, no 10, pp305-311. 2013.
Y. Cho and G. Lee., "Prediction on Clusters by using Information Crtterion and Multiple Seeds", The Institute of Webcasting, Internet and Telecommunication, Vol. 10, no. 6, pp 145-152, 2010.
Y. Byungki and F. Christos., "Fast Time Sequence Indexing for Arbitrary Lp norms", In The VLDB Journal, pp 385-394, 2000.
L. Jessica, K. Eamonn, L. Stefano and C. Bill., "A Symbolic Representation of Time Series, with Impliction for Streaming Algorithms", 8th ACM SIGMOD Workshop on Research Issues in DMKD, 2003.
J. Jeon and m. Kim.,"A Study of Criterion for Efficient Clustering Estimation of Temporal Data", The Institute of Webcasting, Internet and Telecommunication, Vol. 11, no. 5, pp 139-144, 2011.
J. Jeon and m. Kim.,"A Study on Prediction the Movement Pattern of Time Series Data using Information Criterion and Effective Data Length", The Institute of Webcasting, Internet and Telecommunication, Vol. 13, no. 1, pp 101-107, 2013.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

시계열자료의 효율적 군집분석을 위한 구간특징화와 계층적 베이지안 기법의 융합
A Fusion of the Period Characterized and Hierarchical Bayesian Techniques for Efficient Cluster Analysis of Time Series Data 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

시계열자료의 효율적 군집분석을 위한 구간특징화와 계층적 베이지안 기법의 융합 A Fusion of the Period Characterized and Hierarchical Bayesian Techniques for Efficient Cluster Analysis of Time Series Data 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

정영애 (4)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

시계열자료의 효율적 군집분석을 위한 구간특징화와 계층적 베이지안 기법의 융합
A Fusion of the Period Characterized and Hierarchical Bayesian Techniques for Efficient Cluster Analysis of Time Series Data 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper