$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

유사 시퀀스 매칭을 위한 하이브리드 저차원 변환
Hybrid Lower-Dimensional Transformation for Similar Sequence Matching 원문보기

정보처리학회논문지. The KIPS transactions. Part D. Part D, v.15D no.1, 2008년, pp.31 - 40  

문양세 (강원대학교 IT특성화대학 컴퓨터과학) ,  김진호 (강원대학교 IT특성화대학 컴퓨터과학)

초록
AI-Helper 아이콘AI-Helper

유사 시퀀스 매칭에서는 고차원인 시퀀스를 저차원의 점으로 변환하기 위하여 저차원 변환을 사용한다. 그런데, 이러한 저차원 변환은 시계열 데이터의 종류에 따라 인덱싱 성능에 있어서 큰 차이를 나타낸다. 즉, 어떤 저차원 변환을 선택하느냐가 유사 시퀀스 매칭의 인덱싱 성능에 큰 영향을 주게 된다. 이 문제를 해결하기 위하여, 본 논문에서는 하나의 인덱스에서 두 개 이상의 저차원 변환을 통합하여 사용하는 하이브리드 접근법을 제안한다. 먼저, 하나의 시퀀스에 두 개 이상의 저차원 변환을 적용하는 하이브리드 저차원 변환의 개념을 제안하고, 변환된 시퀀스간의 거리를 계산하는 하이브리드 거리를 정의한다. 다음으로, 이러한 하이브리드 접근법 사용하면 유사 시퀀스 매칭을 정확하게 수행할 수 있음을 정형적으로 증명한다. 또한, 제안한 하이브리드 접근법을 사용하는 인덱스 구성 및 유사 시퀀스 매칭 알고리즘을 제시한다. 다양한 시계열 데이터에 대한 실험 결과, 제안한 하이브리드 접근법은 단일 저차원 변환을 사용하는 경우에 비해서 우수한 성능을 보이는 것으로 나타났다. 이 같은 결과를 볼 때, 제안한 하이브리드 접근법은 다양한 특성을 지닌 다양한 시계열 데이터에 두루 적용될 수 있는 우수한 방법이라 사료된다.

Abstract AI-Helper 아이콘AI-Helper

We generally use lower-dimensional transformations to convert high-dimensional sequences into low-dimensional points in similar sequence matching. These traditional transformations, however, show different characteristics in indexing performance by the type of time-series data. It means that the sel...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 그리고, 이러한 하이브리드 변환을 유사 시퀀스 매칭에 사용하기 위해서, 하이브리드 변환된 두 시퀀스간의 거리를 계산하기 위한 하이브리드 거리(hybrid distance)를 정의한다. 다음으로, 이러한 하이브리드 변환과 하이브리드 거리를 사용하면 유사 시퀀스 매칭을 정확하게 수행할 수 있음을 정리로서 제시하고 증명한다. 또한, 제안한 하이브리드 변환과 하이브리드 거리를 사용한 인덱스 구성 알고리즘과 유사 시퀀스 매칭 알고리즘을 제시한다.
  • 셋째, E-Index는 내부적으로 여러 인덱스가 구성되므로, 여러 인덱스 관리에 따른 오버헤드가 뒤따른다. 따라서, 본 논문에서는 하나의 인덱스에서 두 개 이상의 저차원 변환을 통합하여 사용하는 하이브리드 접근법을 제안한다. 제안하는 하이브리드 접근법은 각 시계열 데이터에 대해서 두 개 이상의 인덱스를 모두 사용하므로, 상기의 문제점이 발생하지 않는다.
  • 본 논문에서는 DFT, DWT, PAA 등의 많은 저차원 변환이 대부분의 에너지를 소수의 특성에만 집중한다는 점에 착안하여 새로운 저차원 변환을 제안한다. 즉, 여러 저차원 변환의 결과인 여러 특성들을 하나로 통합하는 새로운 저차원 변환을 정의한다.
  • 반면에, 서브시퀀스 매칭은 데이터 시퀀스에 포함된 서브시퀀스들 중에서 질의 시퀀스와 유사한 서브시퀀스를 찾는 문제로서, 사용자는 임의 길이의 시퀀스를 질의 시퀀스로 사용할 수 있다. 본 논문에서는 이러한 전체 매칭과 서브시퀀스 매칭 모두에 적용되는 저차원 변환(lower-dimensional transformation) 문제를 다룬다. 저차원 변환이란 고차원 공간의 점, 즉 고차원 시퀀스를 저차원 공간의 점으로 변환하는 기법으로, 많은 유사 시퀀스 매칭에서 사용되었다[1-10].
  • 본 논문에서는 하나의 인덱스에서 두 개 이상의 저차원 변환을 통합하여 사용하는 하이브리드 접근법을 새로운 저차원 변환 기법으로 제안한다. 본 논문에서 “하이브리드”라는 용어를 사용한 이유는 제안한 접근법이 기존의 여러 저차원 변환을 통합하여 사용하기 때문이다.
  • 본 논문에서는 하이브리드 저차원 변환의 개념을 제시하고, 이를 사용한 유사 시퀀스 매칭 방법을 제안하였다. 제안한 하이브리드 저차원 변환은 하나의 시계열 데이터에 여러 저차원 변환을 동시에 적용하는 방법으로서, 하나의 인덱스에서 두 개 이상의 저차원 변환들을 통합하여 사용하도록 하였다.
  • 이와 같이 저차원 변환은 유사 시퀀스 매칭에서의 인덱스 사용을 가능하게 하였으며, 이러한 인덱스 사용의 효과를 극대화하기 위하여 보다 인덱싱 성능이 우수한 저차원 변환에 대한 많은 연구가 진행되었다[2, 6, 8-10, 15, 17]. 본 논문의 제3장 및 제4장에서 제안하는 하이브리드 접근법은 이러한 기존의 저차원 변환들의 장점을 취합하여, 보다 인덱싱 성능을 높이자는데 그 목적이 있다. 이와 같이 인덱싱 성능을 높일 수 있다면 궁극적으로 유사 시퀀스 매칭의 전체 성능을 크게 향상 시킬 수 있기 때문이다.
  • 이와 같이 하이브리드 변환을 사용하는 이유는 각각의 저차원 변환이 서로 다른 특징을 가지므로[10], 하나의 인덱스에서 이들 여러 저차원 변환에 의해 추출한 특성들을 통합하여 사용하기 위해서이다. 즉, 하나의 시퀀스에 대해 여러 저차원 변환을 통해 다양한 특성들을 추출하여 통합하여 사용함으로써, 여러 저차원 변환의 장점을 고루 발휘하자는데 그 목적이 있다.
  • 정의 2의 하이브리드 거리의 의미는 하이브리드 저차원 변환을 사용할 때, 여러 저차원 변환 중에서 변환된 두 시퀀스 간의 거리를 최대로 하는 저차원 변환을 선택함을 의미한다. 즉, 하이브리드 변환된 두 시퀀스를 비교할 때 가장 큰 거리 값을 인덱싱에 사용하자는데 그 목적이 있다. 이와 같이 가장 큰 거리 값을 하이브리드 거리로 사용하게 되면, 궁극적으로 유사 시퀀스 매칭에 있어서 보다 높은 인덱싱 성능을 나타낼 수 있기 때문이다[2, 3]
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
시계열 데이터란 어떤 값의 시퀀스인가요? 시계열 데이터(time-series data)란 각 시간별로 측정한 실수 값의 시퀀스로, 그 예로는 주식 데이터, 환율 데이터, 날씨 변동 데이터 등이 있다[1, 2, 3, 4]. 시계열 데이터베이스에 저장된 시계열 데이터를 데이터 시퀀스라 부르며, 사용자에 의해 주어진 시퀀스를 질의 시퀀스라 부른다.
유사 시퀀스 매칭은 어떻게 구분되나요? 유사 시퀀스 매칭은 크게 전체 매칭(whole matching)과서브시퀀스 매칭(subsequence matching)의 두 가지로 구분 한다[2]. 전체 매칭은 질의 시퀀스와 유사한 데이터 시퀀스를 찾는 문제로서, 질의 시퀀스와 데이터 시퀀스의 길이가동일한 특징을 갖는다[1].
유사 시퀀스 매칭에서 구분되는 전체 매칭은 어떤 문제로서, 어떤 특징을 갖나요? 유사 시퀀스 매칭은 크게 전체 매칭(whole matching)과서브시퀀스 매칭(subsequence matching)의 두 가지로 구분 한다[2]. 전체 매칭은 질의 시퀀스와 유사한 데이터 시퀀스를 찾는 문제로서, 질의 시퀀스와 데이터 시퀀스의 길이가동일한 특징을 갖는다[1]. 반면에, 서브시퀀스 매칭은 데이터 시퀀스에 포함된 서브시퀀스들 중에서 질의 시퀀스와 유사한 서브시퀀스를 찾는 문제로서, 사용자는 임의 길이의 시퀀스를 질의 시퀀스로 사용할 수 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (18)

  1. Agrawal, R., Faloutsos, C., and Swami, A., 'Efficient Similarity Search in Sequence Databases,' In Proc. the 4th Int'l Conf. on Foundations of Data Organization and Algorithms, Chicago, Illinois, pp.69-84, Oct., 1993 

  2. Faloutsos, C., Ranganathan, M., and Manolopoulos, Y., 'Fast Subsequence Matching in Time-Series Databases,' In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, Minneapolis, Minnesota, pp.419-429, May, 1994 

  3. Moon, Y.-S., Whang, K.-Y., and Loh, W.-K., 'Duality-Based Subsequence Matching in Time-Series Databases,' In Proc. the 17th Int'l Conf. on Data Engineering(ICDE), IEEE, Heidelberg, Germany, pp.263-272, April, 2001 

  4. Keogh, E. J. et al., 'LB_Keogh Supports Exact Indexing of Shapes under Rotation Invariance with Arbitrary Representations and Distance Measures,' In Proc. Int'l Conf. on Very Large Data Bases (VLDB), Seoul, Korea, pp.882-893, Sept., 2006 

  5. Moon, Y.-S., Whang, K.-Y., and Han, W.-S., 'General Match: A Subsequence Matching Method in Time-Series Databases Based on Generalized Windows,' In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, Madison, Wisconsin, pp.382-393, June, 2002 

  6. Chan, K.-P., Fu, A. W.-C., and Yu, C. T., 'Haar Wavelets for Efficient Similarity Search of Time-Series: With and Without Time Warping,' IEEE Trans. on Knowledge and Data Engineering, Vol.15, No.3, pp.686-705, Jan./Feb., 2003 

  7. Loh, W.-K., Kim, S.-W., and Whang, K.-Y., 'A Subsequence Matching Algorithm that Supports Normalization Transform in Time-Series Databases,' Data Mining and Knowledge Discovery, Vol.9, No.1, pp.5-28, July, 2004 

  8. Keogh, J., Chakrabarti, K., Mehrotra, S., and Pazzani, M. J., 'Locally Adaptive Dimensionality Reduction for Indexing Large Time Series Databases,' In Proc. of Int'l Conf. on Management of Data, ACM SIGMOD, Santa Barbara, CA, pp.151-162, May, 2001 

  9. Keogh, J., Chakrabarti, K., Pazzani, M. J., and Mehrotra, S., 'Dimensionality Reduction for Fast Similarity Search in Large Time Series Databases,' Knowledge and Information Systems, Vol.3, No.3, pp.263-286, Aug., 2001 

  10. Keogh, E. J., Chu, S., and Pazzani, M. J., 'Ensemble-Index: A New Approach to Indexing Large Databases,' In Proc. of the 7th Int'l Conf. on Knowledge Discovery and Data Mining, ACM SIGKDD, San Francisco, CA, pp.117-125, Aug., 2001 

  11. Berchtold, S., Bohm, C., and Kriegel, H.-P., 'The Pyramid- Technique: Towards Breaking the Curse of Dimensionality,' In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, Seattle, Washington, pp.142-153, June, 1998 

  12. Beckmann, N., Kriegel, H.-P., Schneider, R., and Seeger, B., 'The R*-tree: An Efficient and Robust Access Method for Points and Rectangles,' In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, Atlantic City, New Jersey, pp.322-331, May, 1990 

  13. Lim, S.-H., Park, H.-J., and Kim, S.-W., 'Using Multiple Indexes for Efficient Subsequence Matching in Time-Series Databases,' In Proc. of the 11th Int'l Conf. on Database Systems for Advanced Applications (DASFAA 2006), Singapore, pp.65-79, Apr., 2006 

  14. Moon, Y.-S. and Kim, J., 'A Single Index Approach for Time-Series Subsequence Matching that Supports Moving Average Transform of Arbitrary Order,' In Proc. of the 10th Pacific-Asia Conf. on Knowledge Discovery and Data Mining (PAKDD 2006), Singapore, pp.739-749, Apr., 2006 

  15. Moon, Y.-S., 'An MBR-Safe Transform for High-Dimensional MBRs in Similar Sequence Matching,' In Proc. of the 12th Int'l Conf. on Database Systems for Advanced Applications (DASFAA 2007), Bangkok, Thailand, pp.79-90, April, 2007 

  16. Yi, B.-K. and Faloutsos, C., 'Fast Time Sequence Indexing for Arbitrary Lp Norms,' In Proc. of the 26th Int'l Conf. on Very Large Data Bases, Cairo, Egypt, pp.385-394, Sept., 2000 

  17. Hsieh, M. J., Chen, M. S., and Yu, P. S., 'Integrating DCT and DWT for Approximating Cube Streams,' In Proc. of the 14th ACM Int'l Conf. on Information and Knowledge Management, Bremen, Germany, pp.179-186, Oct., 2005 

  18. Gao, L. and Wang, X. S., 'Continually Evaluating Similaritybased Pattern Queries on a Streaming Time Series,' In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, Madison, Wisconsin, pp.370-381, June, 2002 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로