연안의 수온 모니터링 자료는 이상자료 및 결측을 포함하고 있기 때문에 통계정보를 왜곡할 수 있다. 다양한 이상자료 감지 기법이 제안되고 있으나 결측이 없고 이상자료에 대한 사전정보를 가정하고, 어떤 적용기법은 과도한 계산시간이 소요되기 때문에 적용에 제한이 따른다. 본 연구에서는 방대한 자료에서도 효과적으로 이상자료를 감지할 수 있는 실용적인 Robust 모형을 제안하였다. 이 모형은 계산시간을 크게 저감하는 부분자료 추출기법을 이용한 어림성분 추정과정 및 어림성분으로부터 계산되는 잔차성분으로부터 이상자료를 반복적으로 진단하여 제거하는 부분으로 구성되어 있다. 이 모형의 성능평가는 새만금호에서 5분 간격으로 관측한 2년 동안의 수온 자료를 이용하여 수행하였다. 모형 적용결과, 이상자료가 전체자료에서 차지하는 비율은 1.6-3.7% 정도로 파악되었으며, 전체적으로 대부분의 이상자료가 제거되는 것으로 파악되었다. 또한 어림성분 추정과정의 반복적용은 Long-span 조건을 먼저 적용하는 것이 효과적인 것으로 파악되었다.
연안의 수온 모니터링 자료는 이상자료 및 결측을 포함하고 있기 때문에 통계정보를 왜곡할 수 있다. 다양한 이상자료 감지 기법이 제안되고 있으나 결측이 없고 이상자료에 대한 사전정보를 가정하고, 어떤 적용기법은 과도한 계산시간이 소요되기 때문에 적용에 제한이 따른다. 본 연구에서는 방대한 자료에서도 효과적으로 이상자료를 감지할 수 있는 실용적인 Robust 모형을 제안하였다. 이 모형은 계산시간을 크게 저감하는 부분자료 추출기법을 이용한 어림성분 추정과정 및 어림성분으로부터 계산되는 잔차성분으로부터 이상자료를 반복적으로 진단하여 제거하는 부분으로 구성되어 있다. 이 모형의 성능평가는 새만금호에서 5분 간격으로 관측한 2년 동안의 수온 자료를 이용하여 수행하였다. 모형 적용결과, 이상자료가 전체자료에서 차지하는 비율은 1.6-3.7% 정도로 파악되었으며, 전체적으로 대부분의 이상자료가 제거되는 것으로 파악되었다. 또한 어림성분 추정과정의 반복적용은 Long-span 조건을 먼저 적용하는 것이 효과적인 것으로 파악되었다.
The statistical information of the coastal water temperature monitoring data can be biased because of outliers and missing intervals. Though a number of outlier detection methods have been developed, their applications are very limited to the in-situ monitoring data because of the assumptions of the...
The statistical information of the coastal water temperature monitoring data can be biased because of outliers and missing intervals. Though a number of outlier detection methods have been developed, their applications are very limited to the in-situ monitoring data because of the assumptions of the a prior information of the outliers and no-missing condition, and the excessive computational time for some methods. In this study, the practical robust method is developed that can be efficiently and effectively detect the outliers in case of the big-data. This model is composed of these two parts, one part is the construction part of the approximate components of the monitoring data using the robust smoothing and data re-sampling method, and the other part is the main iterative outlier detection part using the detailed components of the data estimated by the approximate components. This model is tested using the two-years 5-minute interval water temperature data in Lake Saemangeum. It can be estimated that the outlier proportion of the data is about 1.6-3.7%. It shows that most of the outliers in the data are detected and removed with satisfaction by the model. In order to effectively detect and remove the outliers, the outlier detection using the long-span smoothing should be applied earlier than that using the short-span smoothing.
The statistical information of the coastal water temperature monitoring data can be biased because of outliers and missing intervals. Though a number of outlier detection methods have been developed, their applications are very limited to the in-situ monitoring data because of the assumptions of the a prior information of the outliers and no-missing condition, and the excessive computational time for some methods. In this study, the practical robust method is developed that can be efficiently and effectively detect the outliers in case of the big-data. This model is composed of these two parts, one part is the construction part of the approximate components of the monitoring data using the robust smoothing and data re-sampling method, and the other part is the main iterative outlier detection part using the detailed components of the data estimated by the approximate components. This model is tested using the two-years 5-minute interval water temperature data in Lake Saemangeum. It can be estimated that the outlier proportion of the data is about 1.6-3.7%. It shows that most of the outliers in the data are detected and removed with satisfaction by the model. In order to effectively detect and remove the outliers, the outlier detection using the long-span smoothing should be applied earlier than that using the short-span smoothing.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
그러나 이상자료와 결측의 발생양상과 빈도 등은 매우 다양하기 때문에 어떤 하나의 기법만으로는 다양한 이상자료 감지에는 한계가 있다. 본 연구에서는 미지의 이상자료와 결측 구간이 포함되어 있는 관측자료에서 이상자료를 효과적으로 감지하는 기법을 개발하여 적용하였다. 제안된 기법은 관측 자료를 다양한 시간규모에서 변화양상을 탐지하는 Robust 평활기법을 조합하여 이상자료를 제거할 수 있으며, 다양한 시간규모에서 변화양상을 신속하게 탐지하기 위한 방법으로 부분적인 자료만을 이용하는 계산시간 저감을 위한 방법도 포함한다.
이상자료 감지기법은 감지하고자 하는 자료의 개수에 따라 소수의 한정된 이상자료 감지기법과 다수의 이상자료(outlier patch) 를 감지하는 기법으로도 분류되고 있다(Chiang, 2008). 본 연구에서는 시간변화 양상이 뚜렷한 관측 자료에서 신속하게 시간변화 양상을 파악하는 기법을 적용하고, 평균 및 표준편차 정보를 이용하는 일반적인 이상자료 판단기준을 적용하는 단계를 포함하는 실용적인 기법을 제안한다. 기종의 이상자료 감지기법과의 실질적으로 차이는 미지의 이상자료 발생 빈도 및 양상과 결측구간을 포함한 자료에서도 이상자료를 감지할 수 있다는 부분이다.
자료의 개수가 많은 방대한 자료의 경우 비교적 큰 Span (10-30%) 조건을 적용하는 경우, 과도한 계산시간이 소요되기 때문에 시간적인 측면에서 매우 비효율적이다. 본 연구에서는 이러한 과도한 계산시간을 단축하기 위한 방법으로 전체 자료에서 Span 규모에 상응하는 자료를 부분 추출하여 Robust Smoothing 기법을 적용하는 모형을 개발하였다. 부분 추출자료는 특정 시간간격에서 1-2개의 자료를 추출하는 방법으로 본 연구에서는 일 자료(144개)에서 1개의 자료를 추출하고, 추출된 자료를 이용하여 Robust Smoothing 기법을 적용하기 때문에 자료의 개수는 1/144 정도로 감소하게 되어 매우 신속한 계산이 가능하게 된다.
제안 방법
4개 지점의 구체적인 정보는 Table 1과 같다. 2012년부터 2013년까지 2년 동안 관측된 환경인자중 하나인 수온자료를 이용하여 본 연구에서는 이상자료 감지모형의 성능평가를 실시하였다. 전혀 처리과정을 거치지 않은 상태의 자료는 다른 연안 환경 모니터링 자료와 같이 결측과 빈번한 이상자료가 발생하고 있음을 알 수 있다.
Robust Smoothing 기법을 이용 한 이상자료 탐지는 Span = 15%(전체 자료의 15% 정도[약 31,579개]를 사용하여 어림성분을 추출) 조건에서 어림성분을 추출하여 잔차의 이상 자료를 제1차로 탐지·제거하고, 다음에는 Span = 144 × 3 조건(3일 동안의 자료)에서 어림성분을 추출하여 이상 자료를 제2차로 탐지·제거하였다.
가장 그럴 듯한(most likely) 통계정보는 결측구간에 해당하는 미지의 자료의 영향을 받기 때문에 결측구간의 자료를 적절한 방법으로 추정하여 채운 뒤의 통계정보가 가장 그럴듯한 정보로 간주할 수 있으나, 본 연구에서는 결측구간의 자료 보충은 수행하지 않았기 때문에 최종 단계를 적용한 경우의 자료를 기준으로 통계정보 변화 양상을 비교·분석하였다.
방대한 자료는 변화양상을 파악하는 방법이 과도한 계산시간을 유발할 수 도 있기 때문에 신속한 방법도 실용적으로 요구된다. 개발된 모형의 성능평가는 새만금호의 4개 지점에서 5분 간격으로 관측된 자료를 이용하여 수행하였다.
관측 수온자료의 시간적인 변동양상을 파악하는 Robust Smoothing 기법을 이용하여 어림 성분과 잔차 성분을 추출하고, 추출된 잔차 성분을 이용하여 이상 자료를 탐지·제거하는 모형을 개발하여 적용하였다.
3 참조). 따라서 최적 Span 조건을 도출할 필요가 있으며, 본 연구에서는 (Bias)2+ Variance 수치로 제공되는 목적함수가 최소가 되는 Span 조건을 선택하였다. Span 조건의 극단은 Span = 0조건과 Span = 100%(= 1) 조건이며, 이 조건을 이용하여 Smoothing 기법을 적용하는 경우, 각각 주어진 자료(No variance)와 똑 같은 자료와 평균(No bias)으로 어림 성분이 추정된다.
또한 자료에서 가장 최소가 되는 주요 변동양상을 일단위(day unit)로 간주하여 평균보다는 굳건한(robust) 인자로 제시되는 Median 수치와 표준편차보다는 굳건한 통계적인 수치로 제시되는 IQR(inter-quartile range) 또는 MAD(median absolute deviation) 수치(Agresti & Franklin, 2007)를 이용하여 잔차가 기준범위 (편차 기준 3.0)를 벗어나는 경우 이상 자료로 간주하여 제거하였다.
본 연구에서는 수온의 경우, 정상적인 범위를 확실하게 넘어서는 40℃ 이상 영하 10℃ 이하 자료를 이상자료로 진단하여 제거하였으며, 자료 제시과정에서 특정 수치(−9999, 0 등)로 제시되는 결측자료는 기준이 명확하기 때문에 그 기준을 이용하여 제시하였다.
전혀 처리과정을 거치지 않은 상태의 자료는 다른 연안 환경 모니터링 자료와 같이 결측과 빈번한 이상자료가 발생하고 있음을 알 수 있다. 본 연구에서는 이상자료 감지모형의 적용을 위한 사전단계로 수온 자료가 가질 수 있는 가능한 충분한 범위(영하 10℃, 영상 40℃ 범위)를 벗어나는 자료와 센서에서 결측을 판단하는 지정수치(본 자료의 경우 정수 0) 자료는 제거하고 도시하였다(Fig. 2(a) 참조).
잔차성분 자료의 분포는 이상자료를 제외하는 경우, 정규분포와 유사한 분포를 보이고 있는 것으로 파악되었다. 본 연구에서는 잔차성분의 정규성 검정(normality test)은 수행하지 않았다.
부분 추출자료는 특정 시간간격에서 1-2개의 자료를 추출하는 방법으로 본 연구에서는 일 자료(144개)에서 1개의 자료를 추출하고, 추출된 자료를 이용하여 Robust Smoothing 기법을 적용하기 때문에 자료의 개수는 1/144 정도로 감소하게 되어 매우 신속한 계산이 가능하게 된다.
본 연구에서는 미지의 이상자료와 결측 구간이 포함되어 있는 관측자료에서 이상자료를 효과적으로 감지하는 기법을 개발하여 적용하였다. 제안된 기법은 관측 자료를 다양한 시간규모에서 변화양상을 탐지하는 Robust 평활기법을 조합하여 이상자료를 제거할 수 있으며, 다양한 시간규모에서 변화양상을 신속하게 탐지하기 위한 방법으로 부분적인 자료만을 이용하는 계산시간 저감을 위한 방법도 포함한다. 방대한 자료는 변화양상을 파악하는 방법이 과도한 계산시간을 유발할 수 도 있기 때문에 신속한 방법도 실용적으로 요구된다.
한편 이상자료가 관측 자료의 통계정보에 미치는 영향을 분석하기 위하여 각각의 단계에서의 기본적인 통계정보에 해당하는 수치를 추정하여 제시하였다(Table 2 참조). 가장 그럴 듯한(most likely) 통계정보는 결측구간에 해당하는 미지의 자료의 영향을 받기 때문에 결측구간의 자료를 적절한 방법으로 추정하여 채운 뒤의 통계정보가 가장 그럴듯한 정보로 간주할 수 있으나, 본 연구에서는 결측구간의 자료 보충은 수행하지 않았기 때문에 최종 단계를 적용한 경우의 자료를 기준으로 통계정보 변화 양상을 비교·분석하였다.
이론/모형
어림 성분의 변화 양상은 Robust Smoothing 기법을 이용하여 수행하였다. Robust Smoothing 기법은 자료의 일정한 연속구간(Span)의 자료만을 대상으로 최적 직선(또는 곡선)을 Robust 기법으로 추출하는 방법으로, 비교적 이상 자료에 둔감한 방법이다(Cleveland, 1979).
부분 추출자료는 특정 시간간격에서 1-2개의 자료를 추출하는 방법으로 본 연구에서는 일 자료(144개)에서 1개의 자료를 추출하고, 추출된 자료를 이용하여 Robust Smoothing 기법을 적용하기 때문에 자료의 개수는 1/144 정도로 감소하게 되어 매우 신속한 계산이 가능하게 된다. 특정 시간규모에서의 자료의 추출시점 변화에 따른 어림성분(Robust Smoothing 기법을 이용하여 추출된 시간적인 변화 성분)의 변동은 미미한 정도로 파악되었다. 잔차성분 자료의 분포는 이상자료를 제외하는 경우, 정규분포와 유사한 분포를 보이고 있는 것으로 파악되었다.
성능/효과
관측 수온자료의 시간적인 변동양상을 파악하는 Robust Smoothing 기법을 이용하여 어림 성분과 잔차 성분을 추출하고, 추출된 잔차 성분을 이용하여 이상 자료를 탐지·제거하는 모형을 개발하여 적용하였다. 개발된 모형을 Span 조건을 달리하여 적용하는 경우 두드러지는 대부분의 이상 자료가 효과적으로 제거되었다. 또한 방대한 자료의 어림성분 추출과정에서 소요되는 과도한 계산시간은 특정 시간규모에 대한 부분적으로 추출된 자료를 이용하는 방법으로 크게 저감하여 실용적인 적용을 가능하게 하였다.
결측비율은 2년 동안의 완전한 관측 자료 개수에 대한 비율로 정의할 경우, 완전한 전체 자료의 개수는 210,528개(= 12개/시간 × 24시간/일 × (365 + 366)일)이며, 결측구간의 크기는 동진, 만경 신시, 가력에서 각각 11,250개, 12,074개, 5,207개, 4,366개로 결측비율은 각각 5.2%, 5.7%, 2.5%, 2.1% 정도로 하천 하구지점에 해당하는 동진 및 만경 지점의 결측비율이 새만금호 배수갑문 지점에 비하여 2배 이상 높다.
개발된 모형을 Span 조건을 달리하여 적용하는 경우 두드러지는 대부분의 이상 자료가 효과적으로 제거되었다. 또한 방대한 자료의 어림성분 추출과정에서 소요되는 과도한 계산시간은 특정 시간규모에 대한 부분적으로 추출된 자료를 이용하는 방법으로 크게 저감하여 실용적인 적용을 가능하게 하였다.
가장 그럴 듯한(most likely) 통계정보는 결측구간에 해당하는 미지의 자료의 영향을 받기 때문에 결측구간의 자료를 적절한 방법으로 추정하여 채운 뒤의 통계정보가 가장 그럴듯한 정보로 간주할 수 있으나, 본 연구에서는 결측구간의 자료 보충은 수행하지 않았기 때문에 최종 단계를 적용한 경우의 자료를 기준으로 통계정보 변화 양상을 비교·분석하였다. 이상자료는 부분적으로는 큰 영향(DJ, SS 지점의 Median 차이)을 미치고 있는 것으로 판단할 수 있으나 전체 자료에서 차지하는 비율이 5.8-7.5% 정도이기 때문에 평균 및 표준편차에 미치는 영향은 미미한 수준으로 파악되었다. 이상 자료를 제거하는 경우, 자료의 통계적인 분포 추정이 안정되는 것은 당연한 결과이지만, 이상자료의 적절한 제거를 의미하기도 한다.
한편 어떤 Span 조건의 조합이 최적 조합인지는 자료의 특성에 따라 다를 것으로 판단되나, 이상자료나 결측구간에 비하여 정상적이고 신뢰할 수 있는 자료가 다수를 차지하고 있다는 조건을 관측 자료가 만족한고 가정하면, Robust Smoothing 모형에 대한 최적 Span 정보를 추출할 수 있으며, 이 Span 정보로부터 출발하여 보다 작은 의미있는 특성 시간규모 수준까지 단계적으로, 대략 2-3단계로 구분하여 적용하면 대부분의 이상자료를 진단하여 제거할 수 있는 것으로 판단된다. 보다 다양한 환경인자 관측자료 및 다양한 결측구간 및 이상자료 규모에 대한 실질적인 검토 및 모형 성능평가에 대한 연구가 필요할 것으로 사료된다.
후속연구
한편 어떤 Span 조건의 조합이 최적 조합인지는 자료의 특성에 따라 다를 것으로 판단되나, 이상자료나 결측구간에 비하여 정상적이고 신뢰할 수 있는 자료가 다수를 차지하고 있다는 조건을 관측 자료가 만족한고 가정하면, Robust Smoothing 모형에 대한 최적 Span 정보를 추출할 수 있으며, 이 Span 정보로부터 출발하여 보다 작은 의미있는 특성 시간규모 수준까지 단계적으로, 대략 2-3단계로 구분하여 적용하면 대부분의 이상자료를 진단하여 제거할 수 있는 것으로 판단된다. 보다 다양한 환경인자 관측자료 및 다양한 결측구간 및 이상자료 규모에 대한 실질적인 검토 및 모형 성능평가에 대한 연구가 필요할 것으로 사료된다.
4 참조), 각각의 과정에서 자료의 특성을 고려하여 모형의 매개변수를 조정할 수 있다. 보다 세부적인 또는 전반적인 시간규모의 이상 자료제거를 위해서는 적절한 Span 조건 또는 이상 자료 진단조건을 조합하여 추가적으로 실행할 수 있다. Fig.
또한 이상 자료가 제거되지 않은 상태의 자료 분석은 잘못된 결과 또는 왜곡된 결과를 도출할 가능성이 매우 크기 때문에 이상 자료 처리기법은 기법 측면에서도 매우 중요하지만 통계적인 추론, 수학적인 기법 등이 포함되어 모형으로 구성되어 적용되고 있다. 이상 자료는 자료의 특성 및 관측센서의 특성과 직결되어 있기 때문에 다양한 환경자료 하나하나에 대한 가장 효과적인 제거기법을 개발하여 적용할 필요가 있을 것으로 사료된다.
질의응답
핵심어
질문
논문에서 추출한 답변
연안의 수온 모니터링 자료가 통계정보를 왜곡할 수 있는 이유는?
연안의 수온 모니터링 자료는 이상자료 및 결측을 포함하고 있기 때문에 통계정보를 왜곡할 수 있다. 다양한 이상자료 감지 기법이 제안되고 있으나 결측이 없고 이상자료에 대한 사전정보를 가정하고, 어떤 적용기법은 과도한 계산시간이 소요되기 때문에 적용에 제한이 따른다.
Robust 모형은 어떻게 구성되어 있는가?
본 연구에서는 방대한 자료에서도 효과적으로 이상자료를 감지할 수 있는 실용적인 Robust 모형을 제안하였다. 이 모형은 계산시간을 크게 저감하는 부분자료 추출기법을 이용한 어림성분 추정과정 및 어림성분으로부터 계산되는 잔차성분으로부터 이상자료를 반복적으로 진단하여 제거하는 부분으로 구성되어 있다. 이 모형의 성능평가는 새만금호에서 5분 간격으로 관측한 2년 동안의 수온 자료를 이용하여 수행하였다.
이상자료의 정의와 주의점은?
한정된 소수의 관측자료 또는 전담인력의 주기적인 자료관리가 가능한 경우를 제외하고는 관측자료는 이상자료와 결측구간을 포함하는 자료로 제공되고 있기 때문에 자료를 분석하고자 하는 기관이나 개인이 각자의 주관적인 방법으로 처리하고 있는 실정이다. 이상자료는 비정상적인 자료로 정의되며, 자료의 통계정보를 왜곡하기 때문에 객관적이고 적절한 감지기법을 이용하여 감지하여 제거할 필요가 있다(Agresti and Franklin, 2007; Cho and Oh, 2012; Cho et al., 2013).
참고문헌 (12)
Agresti, A. and Franklin, C. (2007). Statistics, The Art and Science of Learning from Data, Pearson Education Inc.
Barnett, V. and Lewis, T. (1994). Outliers in Statistical Data. Third Edition, John Wiley & Sons.
Basu, S. and Meckesheimer, M. (2007). Automatic outlier detection for time series: an application to sensor data, Knowledge and Information Systems, 11(2), 137-154.
Ben-Gal, I. (2005). Outlier detection, Data Mining and Knowledge Discovery Handbook: A Complete Guide for Practitioners and Researcher (Editors: Maimom, O. and Rockach, L), Chapter 1(1-16), Kluwer Academic Publishers.
Chiang, J-T. (2008). The algorithm for multiple outliers detection against masking and swamping effects, International J. of Contemporary Mathematical Sciences, 3(17), 839-859.
Cho, H.Y. Oh, J. Kim, K.O. and Shim, J.S. (2013). Outlier detection and missing data filling methods for coastal water temperature data, Journal of Coastal Research, Special Issue, No. 65, pp.1898-1903.
Cho, H.Y. and Oh J., 2012. Outlier detection of the coastal water temperature monitoring data using the approximate and detailed components, J. of the Korean Society for Marine Environmental Engineering, Technical Note, 15(2), 156-162.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.