총유기탄소(TOC)는 해양의 탄소순환 연구분야에서 직접적인 생물학적 지표로 이용되는 중요한 인자다. 가용한 TOC 자료가 상대적으로 화학적산소요구량(COD) 자료 보다 부족하기 때문에 COD 자료를 활용하여 TOC 자료를 추정할 수 있다. COD를 TOC 로의 변환 시 TOC 추정에 직접적으로 영향을 미치는 COD 관측자료에 포함된 이상자료의 탐지와 적절한 처리는 합리적이고 객관적으로 수행되어야 한다. 본 연구에서는 국내 연안해역에서 관측된 염분, COD 및 TOC 자료에 대한 최적회귀모형을 제시하였다. 최적회귀모형은 이상자료와 영향자료를 여러 가지 탐색방법으로 진단하여 제거 전 후의 자료 개수 변화, 변동계수 및 RMS 오차를 비교 및 분석하여 선택하였다. 연구수행 결과, Cook의 진단방법과 SIQR의 boxplot 방법을 조합한 방법이 가장 적절한 것으로 파악되었다. 최적 회귀 함수는 TOC(mg/L) = $0.44{\cdot}COD(mg/L)+1.53$ 이고, 결정계수는 0.47 정도로 나타났으며, RMS 오차는 0.85 mg/L이다. RMS 오차와 지레계수(leverage values)의 변동계수는 이상자료 제거 전에 비하여 각각 31%, 80%로 크게 감소되었다. 본 연구에서 제시된 방법을 통해 COD와 TOC 관측자료에 포함된 이상자료와 영향자료의 과도한 영향을 진단 및 제거하였기 때문에 보다 적절한 회귀곡선식을 제시할 수 있었다.
총유기탄소(TOC)는 해양의 탄소순환 연구분야에서 직접적인 생물학적 지표로 이용되는 중요한 인자다. 가용한 TOC 자료가 상대적으로 화학적산소요구량(COD) 자료 보다 부족하기 때문에 COD 자료를 활용하여 TOC 자료를 추정할 수 있다. COD를 TOC 로의 변환 시 TOC 추정에 직접적으로 영향을 미치는 COD 관측자료에 포함된 이상자료의 탐지와 적절한 처리는 합리적이고 객관적으로 수행되어야 한다. 본 연구에서는 국내 연안해역에서 관측된 염분, COD 및 TOC 자료에 대한 최적회귀모형을 제시하였다. 최적회귀모형은 이상자료와 영향자료를 여러 가지 탐색방법으로 진단하여 제거 전 후의 자료 개수 변화, 변동계수 및 RMS 오차를 비교 및 분석하여 선택하였다. 연구수행 결과, Cook의 진단방법과 SIQR의 boxplot 방법을 조합한 방법이 가장 적절한 것으로 파악되었다. 최적 회귀 함수는 TOC(mg/L) = $0.44{\cdot}COD(mg/L)+1.53$ 이고, 결정계수는 0.47 정도로 나타났으며, RMS 오차는 0.85 mg/L이다. RMS 오차와 지레계수(leverage values)의 변동계수는 이상자료 제거 전에 비하여 각각 31%, 80%로 크게 감소되었다. 본 연구에서 제시된 방법을 통해 COD와 TOC 관측자료에 포함된 이상자료와 영향자료의 과도한 영향을 진단 및 제거하였기 때문에 보다 적절한 회귀곡선식을 제시할 수 있었다.
Total organic carbon (TOC) is an important indicator used as an direct biological index in the research field of the marine carbon cycle. It is possible to produce the sufficient TOC estimation data by using the Chemical Oxygen Demand(COD) data because the available TOC data is relatively poor than ...
Total organic carbon (TOC) is an important indicator used as an direct biological index in the research field of the marine carbon cycle. It is possible to produce the sufficient TOC estimation data by using the Chemical Oxygen Demand(COD) data because the available TOC data is relatively poor than the COD data. The outlier detection and treatment (removal) should be carried out reasonably and objectively because the equation for a COD-TOC conversion is directly affected the TOC estimation. In this study, it aims to suggest the optimal regression model using the available salinity, COD, and TOC data observed in the Korean coastal zone. The optimal regression model is selected by the comparison and analysis on the changes of data numbers before and after removal, variation coefficients and root mean square (RMS) error of the diverse detection methods of the outlier and influential observations. According to research result, it is shown that a diagnostic case combining SIQR (Semi - Inter-Quartile Range) boxplot and Cook's distance method is most suitable for the outlier detection. The optimal regression function is estimated as the TOC(mg/L) = $0.44{\cdot}COD(mg/L)+1.53$, then determination coefficient is showed a value of 0.47 and RMS error is 0.85 mg/L. The RMS error and the variation coefficients of the leverage values are greatly reduced to the 31% and 80% of the value before the outlier removal condition. The method suggested in this study can provide more appropriate regression curve because the excessive impacts of the outlier frequently included in the COD and TOC monitoring data is removed.
Total organic carbon (TOC) is an important indicator used as an direct biological index in the research field of the marine carbon cycle. It is possible to produce the sufficient TOC estimation data by using the Chemical Oxygen Demand(COD) data because the available TOC data is relatively poor than the COD data. The outlier detection and treatment (removal) should be carried out reasonably and objectively because the equation for a COD-TOC conversion is directly affected the TOC estimation. In this study, it aims to suggest the optimal regression model using the available salinity, COD, and TOC data observed in the Korean coastal zone. The optimal regression model is selected by the comparison and analysis on the changes of data numbers before and after removal, variation coefficients and root mean square (RMS) error of the diverse detection methods of the outlier and influential observations. According to research result, it is shown that a diagnostic case combining SIQR (Semi - Inter-Quartile Range) boxplot and Cook's distance method is most suitable for the outlier detection. The optimal regression function is estimated as the TOC(mg/L) = $0.44{\cdot}COD(mg/L)+1.53$, then determination coefficient is showed a value of 0.47 and RMS error is 0.85 mg/L. The RMS error and the variation coefficients of the leverage values are greatly reduced to the 31% and 80% of the value before the outlier removal condition. The method suggested in this study can provide more appropriate regression curve because the excessive impacts of the outlier frequently included in the COD and TOC monitoring data is removed.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
, 2010). 본 논문은 이러한 근거에 따라 관측자료를 이상자료 또는 영향자료로 판단함으로써 이상자료를 처리하여 분석하였다.
본 연구에서 사용한 자료의 일련번호(data index)는 Son et al. (2003)의 자료 뿐 아니라 한강하구, 시화호 및 새만금호의 COD 및 TOC 관측자료에서 이상자료와 영향자료를 일시 적으로 명시하기 위하여 부여된 것이다. 일련번호 부여 순서는 결측된 관측자료를 제외한 후 조사 시기와 조사 정점 순으로 정렬하여 정하였다.
이상자료와 영향자료 진단 및 처리과정에서 자료 손실은 불가피하지만 가능하면 최소화 하는 것이 바람직하다. 염분, COD, TOC 자료에서 이상자료와 영향자료의 진단 및 처리를 위한 적정 방법을 찾기 위해 본 연구에서는 네 가지 분석방법을 비교하였다. 그 중에 Cook 계수와 S-boxplot 기법을 조합한 Case-2 진단방법을 최종적으로 결정하였다.
RMS 오차 저감비율의 의미를 보면, 관측된 원시자료는 이상자료와 영향자료가 모두 포함되어 있으며, 이러한 자료들을 4가지 판단방법에 따라 제거한 후 원시자료(Case 0)에 대한 제거 후 자료(Case 1~4)의 비율[(1 − 제거 후 비율/원시자료) × 100%] 을 산정하였다. 이상자료 및 영향자료 제거 후 오차 저감은 당연히 있을 수 있겠지만, 실질적으로 어느 정도의 오차 저감이 있는지 수치로 산정해 보고자 하였다.
이상자료 처리를 주관적으로 수행하는 경우, 동일한 분석을 답습할 수 없기 때문에 본 연구에서는 회귀분석과정에서의 이상자료를 다음과 같이 정의하고 객관적으로 진단·처리과정을 제시하고자 한다.
가설 설정
TOC 측정이 어려울 경우, COD 분석을 통한 TOC 추정은 유용성이 매우 높을 것이다. 해양에서 조사된 COD와 TOC 농도의 상관관계에 대한 연구는 Son et al.
제안 방법
RMS 오차 저감비율의 의미를 보면, 관측된 원시자료는 이상자료와 영향자료가 모두 포함되어 있으며, 이러한 자료들을 4가지 판단방법에 따라 제거한 후 원시자료(Case 0)에 대한 제거 후 자료(Case 1~4)의 비율[(1 − 제거 후 비율/원시자료) × 100%] 을 산정하였다.
Son et al. (2003)의 자료가 포함된 염분과 TOC 전체자료 에서 이상자료와 영향자료를 진단하고 처리하기 위해 Case-2 진단방법을 적용하였다.
Son et al. (2003)의 자료를 포함한 염분과 COD 전체자료에 Case-2 진단방법을 적용하여 이상자료와 영향자료를 진단한 후 처리하였다.
S-boxplot 방법은 하한과 상한을 각각 SIQRL = Q2− Q1, SIQRU = Q3− Q2로 정의하며, 관측자료 중에서 하한값이 관측자료의 최소값에서 Q1까지, 상한값이 Q3에서 관측자료의 최대값까지를 벗어난 자료에 대하여 이상자료로 판단한다. 다시 말해서 이상자료는 Whisker 길이가 3.0으로 강한(extreme) 이상자료 판단방법과 더불어 이상자료의 손실을 완화시킨 IQR의 반(Semi-IQR)을 활용한 S-boxplot 방법을 비교하여(Kimber, 1990; Aucremanne et al., 2004; Hubert and Vandervieren, 2008) 이상자료 판단 근거로 간주하였으며, 이상자료의 제거 비율은 상기에 제시된 모집단의 관측자료 중 대략 5~10% 비율에 해당되는 이상자료를 판단 기준으로 설정하였다.
본 연구에서는 해양환경인자인 염분, COD 및 TOC의 가용한 동시 관측 자료 전부를 이용하여 사전 회귀분석을 수행하였으며, 이 회귀분석 과정에서 발견된 이상자료와 영향자료를 진단하여 처리하였다. 처리 전과 후의 회귀분석 계수와 오차의 변화양상을 진단-처리기법 별로 비교 검토하여 객관적 이며 효율적인 이상자료 및 영향자료 진단-처리기법을 선정하고, 선정된 방법을 이용하여 최종적으로 보다 개선되고, 안정된(robust) 환산공식을 제안하였다.
전술한 바와 같이, OLS(Ordinary Least Square) 방법과 Robust 방법을 이용하여 각각 회귀식을 먼저 추정하였다. 여기서 산정된 4 가지 경우(영향자료 판단기준 2가지, 이상자료 판단기준 2가지)의 판단기준을 활용하여 이상자료 및 영향자료를 진단하였다. 분석 절차는 다음과 같다.
(2003)의 자료 뿐 아니라 한강하구, 시화호 및 새만금호의 COD 및 TOC 관측자료에서 이상자료와 영향자료를 일시 적으로 명시하기 위하여 부여된 것이다. 일련번호 부여 순서는 결측된 관측자료를 제외한 후 조사 시기와 조사 정점 순으로 정렬하여 정하였다. 관측지점이 고정지점일 경우 시간과 수심별로 정렬한 후 순서를 부여하였다(Table 1 참조).
자료 처리를 통한 자료의 품질 향상 효과 분석에 이상자료와 영향자료의 제거 전과 후의 RMS 오차와 변동계수(표준편차/평균)의 변화를 이용하여 판단하였다. 네 종류의 방법으로 자료 처리 후 전체 관측자료의 OLS 회귀분석 방법에서 RMS 오차와 영향계수에 대한 변동계수의 저감비율은 각각 29~36%와 74~80%로 나타났다.
제1단계에서 제5단계의 자료처리 과정에서 자료의 손실이 가장 적고 RMS 오차 및 변동계수 감소 기준으로 처리 효과가 가장 큰 것은 Cook 계수와 S-boxplot 기법을 조합한 Case-2 진단방법 이다. 자료의 처리효과를 파악하기 위해 이상자료 및 영향자료의 제거 전과 후의 RMS 오차와 영향계수의 변동계수를 분석하였다.
제2단계 : 관측자료에 대한 OLS 방법과 Robust 방법으로 추정 회귀식의 기울기, 절편, 결정계수 및 RMS 오차의 변화 정도로 이상자료와 영향자료의 제거 효과를 분석하였다. 여기에서 OLS 회귀분석은 Robust 회귀분석에서 가중치 함수(weight function)가 없음을 의미한다.
제3단계 : 영향자료 판단기준에 지레계수 hi ≥ 2(p+1)/n와 Cook 계수 Ci ≥ 3.67/(n-p) 를, 이상자료 판단기준에 boxplot과 S-boxplot을 활용하여 네 가지 경우의 판단방법을 적용하였다(2 × 2 = 4 Cases).
제5단계 : 이상자료 및 영향자료를 제거 후 다시 네 가지 방법을 통해 OLS와 Robust 추정 회귀식의 기울기 및 절편, 결정계수 및 RMS 오차를 산정하였다.
본 연구에서는 해양환경인자인 염분, COD 및 TOC의 가용한 동시 관측 자료 전부를 이용하여 사전 회귀분석을 수행하였으며, 이 회귀분석 과정에서 발견된 이상자료와 영향자료를 진단하여 처리하였다. 처리 전과 후의 회귀분석 계수와 오차의 변화양상을 진단-처리기법 별로 비교 검토하여 객관적 이며 효율적인 이상자료 및 영향자료 진단-처리기법을 선정하고, 선정된 방법을 이용하여 최종적으로 보다 개선되고, 안정된(robust) 환산공식을 제안하였다.
대상 데이터
부산해역의 것은 1999년 5월에 8개 정점의 표층과 2개 정점(정점 4와 8)의 수층별 자료이다. 강화대교의 시계열 자료는 1999년 12월에 9시 45분부터 17시 15분까지 30분 간격으로 관측된 자료이다. 인근 세어도 자료는 2000년 2월에 9시 30분부터 16시 30분까지 30분 간격의 측정된 자료이다(Son et al.
(2003)의 자료이다. 경기만 자료는 한강하구역의 신곡수중보, 강화도 서쪽의 염하수로, 강화도와 교동도 사이의 석모수로, 장봉도와 시도 사이에서 수집한 것이다(Fig. 1(a)).
(2003)의 자료는 경기만, 강화대교 부근, 세어도, 형산강, 부산해역 등 5개 해역에서 수집된 것이다. 경기만의 자료는 1999년 9월과 12월, 2000년 1 월과 4월에 21개 정점의 표층에서 수집된 것이다. 형산강 자료는 2000년 3월 염분 구배에 따라 19개 정점의 표층에서 획득한 것이다.
1(a)). 관측기간은 2006년 5월부터 2008년 2월까지 계절별로 총 8회이다. 표층에서 8~12시간씩 시간별로 연속 관측한 자료이다(Korea Ocean Research & Development Institute, 2008).
(2003)의 자료 150개에서 이상자료와 영향자료를 진단하였다. 관측자료의 진단과 처리에서 자료의 손실이 가장 적고 처리효과가 가장 큰 Case-2로 확인된 이상자료와 영향자료는 각각 22개와 12개 였다(Table 3). 이러한 자료들을 제거한 후에 OLS와 Robust 회귀분석을 수행하였다(Fig.
네 가지 진단방법을 적용하여 COD와 TOC 관측자료 390개와 Son et al. (2003)의 자료 150개에서 이상자료와 영향자료를 진단하였다. 관측자료의 진단과 처리에서 자료의 손실이 가장 적고 처리효과가 가장 큰 Case-2로 확인된 이상자료와 영향자료는 각각 22개와 12개 였다(Table 3).
본 연구에서 사용된 관측자료는 경기만, 시화호, 새만금호 에서 관측된 것과 Son et al. (2003)의 자료이다. 경기만 자료는 한강하구역의 신곡수중보, 강화도 서쪽의 염하수로, 강화도와 교동도 사이의 석모수로, 장봉도와 시도 사이에서 수집한 것이다(Fig.
본 연구에서 활용된 COD와 TOC의 관측자료는 전체 390개 이다. 조사 해역별로 관측자료의 개수는 한강하구 32개, 시화호 118개, 새만금호 90개, Son et al.
IQR(interquartile range)은 Q3− Q1이다. 본 연구에서는 이상자료 진단기준으로 강한 이상자료를 이용하였다. Robust 회귀분석의 가중계수 (weight)를 사용하는 이유는 관측자료 중에서 이상자료의 영향을 줄일 수 있기 때문이다.
새만금호의 관측시기는 2010년 3월부터 10월, 관측 주기는 1개월 간격이다. 시료 채취는 새만금호의 6개 정점(M1-M3, D1-D3)으로 표층과 저층에서 이루어 졌다(Fig. 1(c); Ministry of Land, Transport and Maritime Affairs, Korea Institute of Marine Science & Technology, 2011).
표층에서 8~12시간씩 시간별로 연속 관측한 자료이다(Korea Ocean Research & Development Institute, 2008). 시화호의 자료는 2006년 4월, 7월, 8월, 10월에 수집된 것이다. 표층 조사 정점은 14개, 수층별 조사 정점은 5개(정점 3, 5, 9, 12, 15) 이다(Fig.
강화대교의 시계열 자료는 1999년 12월에 9시 45분부터 17시 15분까지 30분 간격으로 관측된 자료이다. 인근 세어도 자료는 2000년 2월에 9시 30분부터 16시 30분까지 30분 간격의 측정된 자료이다(Son et al., 2003).
본 연구에서 활용된 COD와 TOC의 관측자료는 전체 390개 이다. 조사 해역별로 관측자료의 개수는 한강하구 32개, 시화호 118개, 새만금호 90개, Son et al. (2003)의 자료 150개 이다.
경기만의 자료는 1999년 9월과 12월, 2000년 1 월과 4월에 21개 정점의 표층에서 수집된 것이다. 형산강 자료는 2000년 3월 염분 구배에 따라 19개 정점의 표층에서 획득한 것이다. 부산해역의 것은 1999년 5월에 8개 정점의 표층과 2개 정점(정점 4와 8)의 수층별 자료이다.
데이터처리
4b). Case-2 진단방법 적용 후 염분과 TOC 자료에 대해 OLS와 Robust 회귀분석을 실시하였다. 두 회귀식에서 추정된 기울기, 절편, 결정계수 및 RMS 오차 등에 대한 두 분석결과의 차이는 OLS 회귀분석을 기준으로 0.
본 연구에서 사용한 염분, COD, TOC 자료에서 이상자료와 영향자료의 진단 및 처리방법의 적절성을 확인하기 위해 Son et al. (2003)과 비교하였다. Son et al.
관측자료의 진단과 처리에서 자료의 손실이 가장 적고 처리효과가 가장 큰 Case-2로 확인된 이상자료와 영향자료는 각각 22개와 12개 였다(Table 3). 이러한 자료들을 제거한 후에 OLS와 Robust 회귀분석을 수행하였다(Fig. 2(b)).
이론/모형
Robust 회귀분석 결과로 제시되는 각각의 자료에 대한 가중계수가 유난히 작은 경우에 해당하는 자료로, 가중계수의 SIQR boxplot 기법을 이용하여 진단한다. 회귀분석 양상에서 크게 벗어나는 자료로 이상자료로 진단된 자료는 전체 자료의 5% 범위 내에서 모두 제거한다.
염분, COD, TOC 자료에서 이상자료와 영향자료의 진단 및 처리를 위한 적정 방법을 찾기 위해 본 연구에서는 네 가지 분석방법을 비교하였다. 그 중에 Cook 계수와 S-boxplot 기법을 조합한 Case-2 진단방법을 최종적으로 결정하였다. Case-2를 결정한 이유는 S-boxplot은 SIQR을 활용하여 상한값이 boxplot 상한값보다 커지기 때문에 그만큼 이상자료가 줄어들어서 이상자료로 제거될 관측자료의 손실율이 낮아진다 (Hubert and Vandervieren, 2008).
본 연구에서는 이상자료의 판단기준으로 boxplot 통계기법 중에서 Whisker 길이 3.0의 하한 및 상한 이외의 범위와 IQR의 반(Semi-IQR)을 활용한 SIQR boxplot 방법(이하 Sboxplot)을 적용하였다(Kimber, 1990; Aucremanne et al., 2004; Hubert and Vandervieren, 2008). S-boxplot 방법은 하한과 상한을 각각 SIQRL = Q2− Q1, SIQRU = Q3− Q2로 정의하며, 관측자료 중에서 하한값이 관측자료의 최소값에서 Q1까지, 상한값이 Q3에서 관측자료의 최대값까지를 벗어난 자료에 대하여 이상자료로 판단한다.
즉 S-boxplot를 활용한 이상자료 일련번호의 개수가 boxplot를 활용한 이상자료 일련번호의 개수 보다 훨씬 적음을 알 수 있었다(Table 3). 영향자료의 진단과 처리를 위해 Cook 계수 및 지레계수를 활용하였다. Cook 계수가 지레계수 보다 제거될 관측자료의 개수가 훨씬 많아서 Cook 계수가 지레계수를 활용한 방법 보다 훨씬 엄격한 진단기법이기 때문이다(Chatterjee and Hadi, 1986; Hoaglin and Welsch, 1987; Kim and Storer, 1996).
영향자료의 판단기준도 다양하게 제시되고 있으나 본 연구에서는 널리 이용되고 있는 지레계수 (leverage values)와 Cook 계수(Cook’s distance)를 이용하여 판단한다(Chatterjee and Hadi, 1986).
전술한 바와 같이, OLS(Ordinary Least Square) 방법과 Robust 방법을 이용하여 각각 회귀식을 먼저 추정하였다. 여기서 산정된 4 가지 경우(영향자료 판단기준 2가지, 이상자료 판단기준 2가지)의 판단기준을 활용하여 이상자료 및 영향자료를 진단하였다.
성능/효과
2(b)). OLS와 Robust 회귀분석으로 추정된 기울기, 절편, 결정계수 및 RMS 오차 등에 대한 두 종류의 자료 차이는 OLS 회귀분석 결과를 기준으로 0.1~4.2%로 동일하게 나타났다. 이 차이는 이상자료와 영향자료 제거 후에 1/3 이상 정도로 감소하였다.
자료 처리를 통한 자료의 품질 향상 효과 분석에 이상자료와 영향자료의 제거 전과 후의 RMS 오차와 변동계수(표준편차/평균)의 변화를 이용하여 판단하였다. 네 종류의 방법으로 자료 처리 후 전체 관측자료의 OLS 회귀분석 방법에서 RMS 오차와 영향계수에 대한 변동계수의 저감비율은 각각 29~36%와 74~80%로 나타났다. Son et al.
COD와 TOC 관측 자료에서 OLS 방법과 Robust 방법을 통해 회귀식으로 추정한 결과를 Table 3에 나타내었다(Case-0). 두 종류의 자료에서 추정된 OLS와 Robust 회귀분석의 기울기, 절편, 결정계수 및 RMS 오차 등의 차이는 OLS 회귀분석 결과를 기준으로 전체자료는 0.9~15.4%, Son et al. (2003)의 자료는 3.5~18.5% 였다(Table 3). 관측자료 중에서 일부 자료는 회귀직선 상에서 과도하게 벗어나고 있다(Fig.
Case-2 진단방법 적용 후 염분과 TOC 자료에 대해 OLS와 Robust 회귀분석을 실시하였다. 두 회귀식에서 추정된 기울기, 절편, 결정계수 및 RMS 오차 등에 대한 두 분석결과의 차이는 OLS 회귀분석을 기준으로 0.1~0.4% 정도로 매우 미미하였으며, 이는 이상자료가 적절하게 제거되었음을 의미한다. 제거 후 RMS 오차의 저감비율이 42%, 영향계수의 변동계수 저감비율이 55%로 나타났다(Table 5).
또한, 이 방법을 이용 하여 최적 추정된 회귀식은 TOC(mg/L) = 0.44·COD(mg/ L) + 1.53이며, RMS 오차는 0.85 mg/L, 결정계수는 0.47이다.
본 연구를 수행한 결과, 얻어진 주요 결론으로 이상자료 및 영향자료 처리기법으로는 S-boxplot 기법과 Cook 계수를 이용한 기법을 조합한 Case-2 진단방법이 적절한 것으로 파악 되었으며, 이 방법으로 진단된 이상자료 및 영향자료는 모두 22개(전체자료에서 차지하는 비율 = 5.6%)로, 본 연구에서는 과도한 자료 제거는 발생하지 않았다. 또한, 이 방법을 이용 하여 최적 추정된 회귀식은 TOC(mg/L) = 0.
본 연구에서 Case-2 방법으로 Son et al. (2003)의 자료를 재분석하여 이상자료와 영향자료의 진단 및 처리 결과, COD와 TOC에 대한 OLS 추정회귀식은 COD(mg/L) = 1.57 × TOC(mg/L) − 0.98, 결정계수는 0.69 였다.
본 연구에서 TOC, COD, 염분 관측자료를 Cook 계수와 S-boxplot를 활용하여 이상자료와 영향자료 제거후에 OLS와 Robust 회귀분석에서 RMS 오차와 영향계수에 대한 변동계수 모두 큰 폭으로 감소하였다(Fig. 2b, 3b, 4b). 이러한 감소는 TOC, COD, 염분 관측자료에 포함된 이상자료와 영향 자료의 진단과 처리에 Cook 계수와 S-boxplot 방법이 매우 효과적임을 시사한다.
염분과 TOC의 이상자료 및 영향자료에 대한 Case-2 진단 방법을 통해 제거 전 OLS와 Robust 회귀분석으로 추정된 기울기, 절편, 결정계수 및 RMS 오차 등은 OLS 회귀분석 결과 를 기준으로 두 회귀분석의 차이는 1.8~16% 였다. 관측자료 중에서 일부 자료는 회귀직선 상에서 과도하게 벗어났다(Fig.
영향자료의 판단기준도 다양하게 제시되고 있으나 본 연구에서는 널리 이용되고 있는 지레계수 (leverage values)와 Cook 계수(Cook’s distance)를 이용하여 판단한다(Chatterjee and Hadi, 1986). 영향자료로 진단되는 경우에도 자료의 5% 범위 내에서 모두 제거하였으며, 영향 자료가 모두 제거되는 경우, 남아있는 다른 자료를 무작위로 제거하여도 회귀분석 결과에 미치는 영향은 95% 유의수준에서 미미한 수준으로 판단되어야 한다. 그러나 제거 자료의 개수를 한정하기 때문에 미미한 수준을 넘어서는 자료가 남아있을 수도 있다.
이상자료와 영향자료 제거 전 염분과 COD에 대해 OLS와 Robust 회귀분석으로 추정된 기울기, 절편, 결정계수 및 RMS 오차 등은 OLS 회귀분석 결과를 기준으로 두 분석의 차이가 1.5~13.7% 였다. 관측자료 중에서 일부 자료는 회귀직선 상에서 과도하게 벗어났다(Fig.
(2003)의 분석결과와 큰 차이가 없었다. 자료 처리 효과는 회귀분석 시 이상자료와 영향자료에 대한 변동계수의 감소율이 각각 31%와 80%에 이를 정도로 매우 컸다. 따라서 주관적인 판단방법 이외 본 연구의 Case-2 진단 방법도 매우 효율적이고 적절하다고 할 수 있다.
3(b)). 자료 처리 후 이들 자료 제거 후 OLS와 Robust 회귀분석으로 추정된 기울기, 절편, 결정계수 및 RMS 오차 등은 OLS 회귀분석 결과를 기준으로 두 분석의 차이가 0.8~3.7% 였다. 제거 후 OLS 회귀분석 방법에 대한 RMS 오차의 저감비율이 45%, 영향계수의 변동 계수 저감비율이 65%로 파악되었다(Table 5).
7% 였다. 제거 후 OLS 회귀분석 방법에 대한 RMS 오차의 저감비율이 45%, 영향계수의 변동 계수 저감비율이 65%로 파악되었다(Table 5).
4% 정도로 매우 미미하였으며, 이는 이상자료가 적절하게 제거되었음을 의미한다. 제거 후 RMS 오차의 저감비율이 42%, 영향계수의 변동계수 저감비율이 55%로 나타났다(Table 5).
Case-2를 결정한 이유는 S-boxplot은 SIQR을 활용하여 상한값이 boxplot 상한값보다 커지기 때문에 그만큼 이상자료가 줄어들어서 이상자료로 제거될 관측자료의 손실율이 낮아진다 (Hubert and Vandervieren, 2008). 즉 S-boxplot를 활용한 이상자료 일련번호의 개수가 boxplot를 활용한 이상자료 일련번호의 개수 보다 훨씬 적음을 알 수 있었다(Table 3). 영향자료의 진단과 처리를 위해 Cook 계수 및 지레계수를 활용하였다.
(2003)의 결과 보다 약간 증가하였다(Table 6). 즉, 두 분석방법에서 이와 같은 결과의 유사성은 본 연구에서 염분, COD 및 TOC 등에 포함된 이상 자료와 영향자료의 진단 및 처리에 사용한 Case-2 방법이 적절했음을 의미한다.
후속연구
본 논문에 사용한 관측자료는 문헌자료(논문 및 보고서)에 공개된 원시자료를 이용하였기 때문에 관측된 원시자료에 대하여 객관적인 신뢰성을 설명하기가 어렵고 한계가 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
총유기탄소의 역할은 무엇인가?
총유기탄소(TOC, Total Organic Carbon)는 해양생물이나 미생물의 먹이원일 뿐 아니라 탄소순환에서 저장고의 역할을 하는 중요한 인자이다(Chen and Bada, 1992; Hedges, 2002; Kim et al., 2006).
COD는 무엇을 의미하는가?
COD는 해수내의 유기물을 과망간산칼륨으로 산화시켜 소비되는 산소의 양으로부터 측정된 유기물의 농도이다. COD 의 분석 시간은 3시간에 불과(Tchobanoglous and Schroeder, 1985)하여 해양환경 관측항목에서 장기간의 측정 자료가 TOC 보다 풍부하다.
총유기탄소가 매우 유용한 이유는 무엇인가?
, 2006). 이 생물학적 인자는 해수 중 유기물의 함량을 파악할 수 있는 직접적인 지표로 매우 유용하다 (Doval and Hansell, 2000). 그러나, TOC는 화학적산소요구량(COD, Chemical Oxygen Demand)에 비해 분석비용이 2 배 정도 높고(Ministry of Maritime Affairs and Fisheries, 2013a), 최근에서야 유기물질의 중요한 지표로 인식되었기 때문에 장기간 측정 자료가 상대적으로 부족하다.
참고문헌 (27)
Aucremanne, L., Brys, G., Hubert, M., Rousseeuw, PJ. and Struyf, A. (2004). A study of belgian inflation, relative prices and nominal rigidities using new robust measures of skewness and tail weight. In: Hubert, M, Pison, G, Struyf, A, Van Aelst, S. (Eds.), Theory and Applications of Recent Robust Methods, Series: Statistics for Industry and Technology. Birkhauser, Basel, pp. 13-25.
Barnett, V. and Lewis, T. (1994). Outliers in Statistical Data, John Wiley & Sons, pp. 320-328.
Chatterjee, S. and Hadi, A.S. (1986). Influential observations, high leverage points, and outliers in linear regression, Statistical Science, Vol. 1, No. 3, pp. 379-416.
Cho, H.Y. and Oh, J.H., (2012). Outlier Detection of the Coastal Water Temperature Monitoring Data Using the Approximate and Detail Components, Journal of the Korean Society for Marine Environmental Engineering, Vol. 15, No. 2, pp. 156-162.
Doval. M.D. and Hansell, D.A. (2000). Organic carbon and apparent oxygen utilization in the western south and the central Indian Ocean, Marine Chemistry, Vol. 68, pp. 249-264.
Hubert, M. and Vandervieren, E. (2008). An adjusted boxplot for skewed distributions, Computational Statistics and Data Analysis, Vol. 52, pp. 5186-5201.
Kim, C. and Storer, B.E. (1996). Reference Values for Cook's Distance, Communications in Statistics Simulations and Computations, Vol. 25, pp. 691-708.
Kim, K.H., Son, S.K., Son, J.W. and Ju, S.J. (2006). Methodological comparison of the quantification of total carbon ad organic carbon in marine sediment, Journal of the Korean Society for Marine Environmental Engineering, Vol. 9, pp. 235-242.
Kimber, A.C. (1990). Exploratory data analysis for possibly censored data from skewed distributions, Applied Statistics, Vol. 39, pp. 21-30.
Korea Ocean Research & Development Institute. (2008). Development of management and restoration technologies for estuaries with focus on Han River estuary region, BSPE98101-2028-7, pp. 349-371 (in Korean).
Kottegoda, N.T. and Renzo, R. (1997). Statistics, Probability, and Reliability for Civil and Environmental Engineers, pp. 375-380.
Lee, J.S., Kim, S.Y., Lee, Y.K., Shin, D.W., Kim, H.J. and Jou, H.T. (2001). A Study on Outlier Adjustment for Multibeam Echosounder Data, The SeaJournal of the Korean Society for Marine Environmental Engineering, Vol. 6, No. 1, pp. 35-39.
Lyman, O.R. and Longnecker, M. (2001). An Introduction to Statistical Methods and Data Analysis, pp. 96-101.
Ministry of Land, Transport and Maritime Affairs, Korea Institute of Marine Science & Technology. (2011). Saemangeum coastal system research for marine environmental conservation, Korea Ocean Research & Development Institute, BSPM55630-2269-2, pp. 206-213 (in Korean).
Ministry of Maritime Affairs and Fisheries. (2006). Research on Marine Environmental Improvement of Shihwa Lake, Korea Ocean Research & Development Institute, BSPM38800-1825-4, pp. 158-162 (in Korean).
Ministry of Maritime Affairs and Fisheries. (2013a). Marine Environment Process Test Standard, Notification No. 2013-230 of the Ministry of Maritime Affairs and Fisheries (in Korean).
Ministry of Maritime Affairs and Fisheries. (2013b). Marine Environment Management Act Enforcement Regulations, Act No. 63 of the Ministry of Maritime Affairs and Fisheries (in Korean).
So, B.J., Kwon, H.H. and An, J.H. (2012). Trend Analysis of Extreme Precipitation Using Quantile Regression, Journal of Korea Water Resources Association, Vol. 45, No. 8, pp. 815-826.
Son, J.W., Park, Y.C. and Lee, H.J. (2003). Characteristics of Total Organic Carbon and Chemical Oxygen Demand in the Coastal Waters of Korea. The SeaJournal of the Korean Society of Oceanography, Vol. 8, No. 3, pp. 317-326.
Tchobanoglous, G. and Schroeder, E.D. (1985). Water Quality, pp. 101-104.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.