[국내논문] 이상탐지 기반의 효율적인 시계열 유사도 측정 및 순위화
Efficient Time-Series Similarity Measurement and Ranking Based on Anomaly Detection

Journal of Internet Computing and Services = 인터넷정보학회논문지, v.25 no.2, 2024년, pp.39 - 47  

최지현 (Department of Information and Communication, Hanshin University) ,  안현 (Department of Information and Communication, Hanshin University)

시계열 분석은 시간 순서로 정렬된 데이터로부터 다양한 정보와 인사이트를 발견하기 위한 방법으로 많은 조직에서 비즈니스 문제 해결을 위해 적용하고 있다. 그중에서 시계열 유사도 측정은 패턴이 비슷한 시계열들을 식별하기 위한 단계로서 시계열 검색 및 군집화와 같은 시계열 분석 응용에서 매우 중요하다. 본 연구에서는 전체 시계열이 아닌 이상치들을 중심으로 시계열 유사도 측정을 계산 효율적으로 수행하는 방법을 제안한다. 이와 관련하여 이상탐지를 통해 추출된 서브시퀀스 집합에 대한 유사도 측정 결과와 시계열 전체에 대한 유사도 측정 결과 사이의 순위 상관관계를 측정 및 분석하여 제안 방법을 검증한다. 실험 결과로써, 주식 종목 시계열 데이터에 이상치 비율 10% 을 적용한 유사도 측정으로부터 최대 0.9 이상의 스피어만 순위 상관계수를 확인하였다. 결론적으로 제안 방법을 통해 시계열 유사도 측정에 소요되는 계산량을 유의미하게 절감하는 동시에 신뢰 가능한 시계열 검색 및 군집화 결과를 기대할 수 있다.

Time series analysis is widely employed by many organizations to solve business problems, as it extracts various information and insights from chronologically ordered data. Among its applications, measuring time series similarity is a step to identify time series with similar patterns, which is very...


문제 정의

  • 본 논문에서는 이상탐지 기법에 의해 추출된 서브시퀀스 집합을 대상으로 시계열 유사도를 효율적으로 측정하는 방법을 제안한다. 이상치는 일반적인 데이터 패턴에서 벗어난 값으로서 제거의 대상으로 고려되지만, 본 연구에서는 시계열들을 구별하기 위한 효과적인 특징으로서 활용한다.

가설 설정

  • 이상치는 일반적인 데이터 패턴에서 벗어난 값으로서 제거의 대상으로 고려되지만, 본 연구에서는 시계열들을 구별하기 위한 효과적인 특징으로서 활용한다. 즉, 이상탐지에 의해 식별된 서브시퀀스 집합에 해당되는 데이터 패턴이 시계열별로 유의미한 차이를 가진다는 것이 본 연구의 주요한 가정이다. 제안 방법은 선택된 기준 시계열의 이상치들에 해당되는 서브시퀀스 집합을 추출하여, 이들을 비교 대상 시계열들과 일대다(one-to-many) 방식으로 유사도를 측정한다.
