[논문]벌점-최소제곱법을 이용한 다중 변화점 탐색

손원; 임요한; 유동현

doi:10.5351/kjas.2016.29.6.1147

초록
AI-Helper

본 연구에서는 다중 변화점 탐색과 관련하여 최근 많은 관심을 받고 있는 ${\ell}_0$-벌점 최소제곱법과 fused-라쏘-회귀(fused lasso regression; FLR)방법을 모의 실험을 통하여 비교하였다. 모의 실험의 결과로 FLR방법은 비-변화점을 변화점으로 잘못 탐색하는 경향이 ${\ell}_0$-벌점 최소제곱법과 비교할 때 상대적으로 높게 나타났으며 ${\ell}_0$-벌점 최소제곱법이 전반적으로 FLR방법에 비하여 좋은 성능을 보였다. 더불어 ${\ell}_0$-벌점 최소제곱법은 동적프로그래밍을 통하여 FLR 방법과 유사하게 효율적인 계산이 가능하다.

Abstract ▼ AI-Helper

In this paper, we numerically compare two penalized least square methods, the ${\ell}_0$-penalized method and the fused lasso regression (FLR, ${\ell}_1$ penalization), in finding multiple change points of a signal. We find that the ${\ell}_0$-penalized method perfor...

In this paper, we numerically compare two penalized least square methods, the ${\ell}_0$-penalized method and the fused lasso regression (FLR, ${\ell}_1$ penalization), in finding multiple change points of a signal. We find that the ${\ell}_0$-penalized method performs better than the FLR, which produces many false detections in some cases as the theory tells. In addition, the computation of ${\ell}_0$-penalized method relies on dynamic programming and is as efficient as the FLR.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 변화점의 위치와 수준을 추정하는 문제, 특히 최근 통계학 분야에서 많은 관심을 받고 있는 벌점 최소제곱법을 이용한 변화점의 추정 방법들을 살펴보고자 한다. 먼저 우리가 다루고자 하는 자료와 이에 대한 통계적 모형을 살펴보면 다음과 같다.
본 논문에서는 의미의 명확성과 명칭의 편의성을 위하여 “FLR”이라는 약어를 사용하고자 한다.
본 연구에서는 ℓ₀와 ℓ_1-벌점 최소제곱법을 이용한 다중-변화점 탐색에 대하여 살펴보았다. ℓ_1-벌점 최소제곱법(또는 FLR)은 최근 많은 관심을 받고 있으며 다양한 분야에 적용, 활용되고 있으나 변화점 탐색에 있어서는 특정한 상황 하에서 점근적 일치성을 보장하지 못하는 단점이 있다.
2)의 문제는 좋은 계층적 구조를 지니고 있어 동적프로그래밍(dynamic programming)방법을 이용하여 빠른 계산이 가능함이 알려져 있다. 본 연구에서는 다중-변화점 탐색의 관점에서 FLR과 ℓ_0-벌점 최소제곱법의 성능을 수치적 실험을 통하여 비교함을 목적으로 하며, 특히 변화점 탐색의 성능 측면에서 ℓ_0-벌점 최소제곱법의 우월성을 이야기하고자 한다.
본 절에서는 모의 실험을 통하여 ℓ_0-벌점과 FLR의 다중-변화점 탐색의 성능을 비교하고자 한다. 모의 실험에서는 길이가 100인 관측 값 Y = (Y₁, Y₂, .

가설 설정

관측값 y1, . . . , yn들이 서로 독립이고 동일한 분포를 따르는(IID) 확률분포로부터 추출되었고 확률밀도함수가 시점 t = 1, . . . , n에 대해 f(yt; θt)로 정의됨을 가정한다.

이론/모형

ℓ_0-벌점 최소제곱법에 대한 동적프로그램의 자세한 절차는 Lim 등 (2012)를 참조하기 바란다. 마지막으로 유한 표본에서 변화점 갯수의 결정과 관련하여 최적의 기준 및 방법 등에 대해 아직 눈에 띄는 이론적인 연구가 발표되지 않았기에 본 모의 실험에서는 ℓ_0-벌점과 ℓ_1-벌점 모두에 있어 경험 법칙(rule of thumb)인 Bayesian Information Criterion(BIC)를 이용하였다.
모의 실험에서는 위의 [상황1]과 [상황2]에 대하여 1,000개의 데이터 셋을 각각 생성하였고 ℓ0-벌점 최소 제곱법은 1절에서 언급한 동적프로그래밍 방법을 R을 이용하여 구현하였고 ℓ1-벌점 최소제곱법은 R 패키지 “cghFLasso”를 이용하여 구현하였다 (Tibshrani와 Wang, 2008).

성능/효과

2로 부터 다음의 두 내용을 확인 할 수 있다. 첫째, 패널 (a)와 (b)의 비교 그리고 패널 (c)와 (d)의 비교를 통하여 ℓ_0-벌점 최소제곱법이 FLR과 비교하여 위-탐색율(fasle positive rate, 비-변화점을 변화점으로 판단하는 비율)이 상대적으로 낮음을 확인 할 수 있다. 참-탐색률(true positive rate, 실제 변화점을 변화점으로 판단하는 비율) 관점에서는 두 방법 모두 잘 작동하고 차이가 없었다.
2의 결과와 연동하여 생각하면 FLR 방법이 비-변화점을 변화점으로 잘못 판단하는 경향이 있음을 확인할 수 있다. 둘째, [상황1]과 [상황2]에서 두 벌점 방법에 의하여 추가적으로 탐색된 변화점들의 산포를 각각 살펴보면 FLR 방법의 퍼짐의 정도가 ℓ_0-벌점 방법보다 훨씬 크게 나타나는 것을 볼 수 있다. 마지막으로 앞의 Figure 2.
이에 반하여 ℓ_0-벌점 최소제곱법은 동적프로그래밍을 통하여 간편하게 계산이 가능함에도 불구하고 아직까지 많은 연구가 이루어지지는 않았다. 본 연구에서는 ℓ_0-벌점 최소제곱법과 FLR방법을 모의 실험을 통하여 비교하였으며 ℓ_0-벌점 최소제곱법이 변화점의 탐색 관점에서 보다 좋은 성능을 보임을 확인 하였다.
3에 히스토그램으로 나타내었으며, 이를 통하여 다음의 세 가지 내용들을 확인 할 수 있다. 첫째, 먼저 [상황1]의 ℓ_0-벌점 방법과 FLR 방법의 차이와 [상황2]의 ℓ_0-벌점과 FLR 방법의 차이를 비교하여 보면 FLR 방법이 보다 많은 점들을 변화점으로 판단하고 있으며 이를 앞의 Figure 2.2의 결과와 연동하여 생각하면 FLR 방법이 비-변화점을 변화점으로 잘못 판단하는 경향이 있음을 확인할 수 있다. 둘째, [상황1]과 [상황2]에서 두 벌점 방법에 의하여 추가적으로 탐색된 변화점들의 산포를 각각 살펴보면 FLR 방법의 퍼짐의 정도가 ℓ_0-벌점 방법보다 훨씬 크게 나타나는 것을 볼 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	변화점과 관련한 연구에서 주요 관심 분야는 크게 어떻게 구분되는가?	변화점은 연속적으로 관측되는 확률과정의 분포적 성질에 급격한 변화가 발생하는 점으로 지진파를 이용한 지진의 예측, 경제 시계열에 있어서 추세 변동점 탐지, 그리고 생산 공정의 안정적인 관리 등 다양한 분야에 있어 중요한 연구 주제이다 (Kotz 등, 2006). 이러한 변화점과 관련한 연구에서 주요 관심 분야로는 크게 (1) 변화점의 실시간 탐색(on-line detection of a change), (2) 변화점 존재 여부에 대한 검정(off-line hypotheses test), 그리고 (3) 변화점의 위치와 수준에 대한 추정(off-line estimation of the change)로 구분되어진다 (Basseville와 Nikiforov, 1993). 이러한 변화점과 관련한 연구를 위하여 각 목적에 따라 다양한 방법이 제시되었고 몇 가지 대표적 방법들로는 우도비(likelihood ratio)를 이용한 방법, 정보량기준(information criteria)을 이용한 방법, 마코프-몬테칼로에 기반한 베이지안 방법(Bayesian method), 자료의 누적합(cumulative sum; CUSUM)을 이용한 방법, 웨이블렛 근사법(wavelets approximation) 등이 있다.
	변화점이란?	변화점은 연속적으로 관측되는 확률과정의 분포적 성질에 급격한 변화가 발생하는 점으로 지진파를 이용한 지진의 예측, 경제 시계열에 있어서 추세 변동점 탐지, 그리고 생산 공정의 안정적인 관리 등 다양한 분야에 있어 중요한 연구 주제이다 (Kotz 등, 2006). 이러한 변화점과 관련한 연구에서 주요 관심 분야로는 크게 (1) 변화점의 실시간 탐색(on-line detection of a change), (2) 변화점 존재 여부에 대한 검정(off-line hypotheses test), 그리고 (3) 변화점의 위치와 수준에 대한 추정(off-line estimation of the change)로 구분되어진다 (Basseville와 Nikiforov, 1993).
	ℓ0-벌점 최소제곱법은 복잡도-벌점의 계산이 조합적 최적화 문제를 풀어야 하는 문제점을 가지고 있는데, 이를 해결하는 방법은?	하지만 Lim 등 (2012)와 Johnson (2013)에서 연구 된 것처럼 위의 식 (1.2)의 문제는 좋은 계층적 구조를 지니고 있어 동적프로그래밍(dynamic programming)방법을 이용하여 빠른 계산이 가능함이 알려져 있다. 본 연구에서는 다중-변화점 탐색의 관점에서 FLR과 ℓ0-벌점 최소제곱법의 성능을 수치적 실험을 통하여 비교함을 목적으로 하며, 특히 변화점 탐색의 성능 측면에서 ℓ0-벌점 최소제곱법의 우월성을 이야기하고자 한다.

참고문헌 (19)

Basseville, M. and Nikiforov, I. V. (1993). Detection of Abrupt Changes: Theory and Application (Vol. 104), Prentice Hall, Englewood Cliffs.
Carlstein, E., Muller, H.-G., and Siegmund, D. (1994). Change-point Problems, Institute of Mathematical Statistics, California.
Chen, J. and Gupta, A. K. (2001). On change point detection and estimation. Communications in Statistics-Simulation and Computation, 30, 665-697.

상세보기
Csorgo, M. and Horvath, L. (1997). Limit Theorems in Change-Point Analysis, John Wiley & Sons, New York.
Harchaoui, Z. and Levy-Leduc, C. (2010). Multiple change-point estimation with a total variation penalty. Journal of the American Statistical Association, 105, 1480-1493.

상세보기
Jang, W., Lim, J., Lazar, N. A., Loh, J. M., and Yu, D. (2015). Some properties of generalized fused lasso and its applications to high dimensional data. Journal of the Korean Statistical Society, 44, 352-365.

상세보기
Johnson, N. A. (2013). A dynamic programming algorithm for the fused Lasso and $L_0$ -segmentation. Journal of Computational and Graphical Statistics, 22, 246-260.

상세보기
Kotz, S., Read, C. B., Balakrishnan, N., Vidakovic, B., and Johnson, N. L. (Eds.) (2006). Encyclopedia of Statistical Sciences (2nd ed.), John Wiley & Sons, NJ.
Lim, E., Hahn, K. S., Lim, J., Kim, M., Park, J., and Yoon, J. (2012). Statistical properties of news coverage data. Communications for Statistical Applications and Methods, 19, 771-780.

원문보기 상세보기
Lin, K., Sharpnack, J., Rinaldo, A., and Tibshirani, R. J. (2016). Approximate recovery in changepoint Problems, from $\ell$ 2 estimation error rates, arXiv preprint, arXiv:1606.06746.
Qian, J. and Jia, J. (2016). On stepwise pattern recovery of the fused Lasso. Computational Statistics and Data Analysis, 94, 221-237.

상세보기
Rinaldo, A. (2009). Properties and refinements of the fused lasso. The Annals of Statistics, 37, 2922-2952.

상세보기
Rojas, C. R. and Wahlberg, B. (2015). How to monitor and mitigate stair-casing in L1 trend filtering, arXiv preprint, arXiv:1412.0607v1.
Tibshirani, R., Saunders, M., Rosset, S., Zhu, J., and Knight, K. (2005). Sparsity and smoothness via the fused lasso. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 67, 91-108.

상세보기
Tibshirani, R. and Wang, P. (2008). Spatial smoothing and hot spot detection for CGH data using the fused lasso. Biostatistics, 9, 18-29.

상세보기
Ye, G.-B. and Xie, X. (2011). Split Bregman method for large scale fused Lasso. Computational Statistics and Data Analysis, 55, 1552-1569.

상세보기
Yu, D., Won, J., Lee, T., Lim, J., and Yoon, S. (2015a). High-dimensional fused lasso regression using majorization-minimization and parallel processing. Journal of Computational and Graphical Statistics, 24, 121-153.

상세보기
Yu, D., Lee, S. J., Lee, W. J., Kim, S. C., Lim, J., and Kwon, S. W. (2015b). Classification of spectral data using fused lasso logistic regression. Chemometrics and Intelligent Laboratory Systems, 142, 70-77.

상세보기
Zhao, P. and Yu, B. (2006). On model selection consistency of Lasso. Journal of Machine Learning Research, 7, 2541-2563.

이 논문을 인용한 문헌

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

벌점-최소제곱법을 이용한 다중 변화점 탐색
Detection of multiple change points using penalized least square methods: a comparative study between ℓ0 and ℓ1 penalty 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

이론/모형

성능/효과

질의응답

참고문헌 (19)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

벌점-최소제곱법을 이용한 다중 변화점 탐색 Detection of multiple change points using penalized least square methods: a comparative study between ℓ0 and ℓ1 penalty 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

이론/모형

성능/효과

질의응답

참고문헌 (19)

이 논문을 인용한 문헌

저자의 다른 논문 :

손원 (1) 임요한 (23) 유동현 (3)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

벌점-최소제곱법을 이용한 다중 변화점 탐색
Detection of multiple change points using penalized least square methods: a comparative study between ℓ0 and ℓ1 penalty 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper