[학위논문]형광 지표와 머신러닝 기법을 적용한 한강 유역 총 유기탄소 농도 예측과 모델 성능 평가 Prediction of total organic carbon concentrations in the Han River watershed using machine learning combined with fluorescence indices and the model performance evaluation
형광 지표와 머신러닝 기법을 적용한 한강 유역 총유기탄소 농도 예측과 모델 성능 평가 국내 수계 유기물 관리는 유기탄소의 총량을 대표하는 총유기탄소(total organic carbon, TOC) 농도를 중심으로 이루어지고 있다. 그러나 고가 분석 장비, 산화 방식, 전처리 및 분석 시간 등 신속한 ...
형광 지표와 머신러닝 기법을 적용한 한강 유역 총유기탄소 농도 예측과 모델 성능 평가 국내 수계 유기물 관리는 유기탄소의 총량을 대표하는 총유기탄소(total organic carbon, TOC) 농도를 중심으로 이루어지고 있다. 그러나 고가 분석 장비, 산화 방식, 전처리 및 분석 시간 등 신속한 모니터링의 측면에서 TOC 농도 측정에 어려움이 있을 수 있고, 유역 별 상이하게 유입되는 유기물을 신속하게 모니터링하기 위한 TOC 분석법을 보완하는 추가 방법론 개발이 필요하다. 대표적으로 형광 분석은 용존 유기물질 (dissolved organic matter, DOM) 내 분포하는 아미노산/단백질, 휴믹 물질 등 난분해성 유기물 포함한 다양한 유기 성분에 대한 정보를 제공하고 적은 시료 소모, 간단한 전처리 과정, 신속한 측정이 가능하다는 장점이 있다. 최근 형광 지표를 이용해서 비균질적인 TOC의 성상을 정성적으로 이해하고자 하는 시도가 있었지만, 일부 수계에 국한 되어있어서 전체 수계를 이해하는 데에는 어려움이 있다. 이러한 점을 고려하여 본 연구는 여러 하천, 호수, 산단하천으로 이루어진 전체 한강 수계으로 대상 영역을 확장하고 비균질적인 유기물 형광 특성을 사용하여 TOC 농도 예측의 정확도를 향상시킬 수 있는 방법론을 구축하고자 하였다. 그 결과, TOC와 밀접한 관련이 있는 UV흡광도와 형광 여기-방출 매 트릭스(excitation-emission matrix, EEM) 스펙트럼 분석을 통해 분광 특성 지표를 도출하였다. 본 연구에서는 이전 문헌에서 분광 지표로 대표적으로 사 용되고 있는 UV254와 형광 영역 적분합(fluorescence regional integration, FRI;(Chen et al., 2003a))을 선택하였다. 도출된 지표를 입력 변수로 활용하 여 대표적 머신러닝 예측 모델인 deep neural network(DNN), random forest(RF), extreme gradient boosting(XGBoost)을 학습시키고 결정 계수 (coefficient of determination, R2), 평균 제곱근 오차(root mean squared error, RMSE) 결과에 대해 모델별로 TOC 예측 성능을 평가하였다. 분광지표 와 머신러닝을 적용하여 한강 중권역 수계 TOC 농도 예측할 수 있음을 확인하 였으며, UV254, FRI 지표 등 입력변수에 따라 예측 성능이 크게 달라졌음을 확 인하였다. 특히, 전통적으로 사용되어온 선형회귀기법에 비해 더 나은 결과를 보인 점이 주목할 만하다. 더 나은 TOC 농도 예측 성능 향상을 위해 한강 수계 를 하천, 호소, 산단하천으로 분할하였고, 예측 성능을 비교하였다. 또한 모델 해석을 위해 shapley additive explanations(SAHP) 분석을 통한 입력변수 기여도를 기반으로 모델을 해석해보았다. 최종적으로, 머신러닝 예측 모델 중 신경망 모델인 DNN 모델이 입력변수로 UV254 흡광도 값, FRI 형광지표를 함께 사용했을 때 한강 중권역 수계의 TOC 농도 가장 좋은 예측 성능(R2=0.8592, RMSE=0.0841mgC/L)을 보였다. 추후 여러 강, 하천들이 혼합되는 복합 수계에서 형광지표와 머신러닝 기법을 이용하여 TOC 농도 예측하는데 유용한 도구로서 사용될 수 있음을 시사한다. 주요어: 총유기탄소, 머신러닝, 분광 지표, 모델 해석, 한강 수계
형광 지표와 머신러닝 기법을 적용한 한강 유역 총유기탄소 농도 예측과 모델 성능 평가 국내 수계 유기물 관리는 유기탄소의 총량을 대표하는 총유기탄소(total organic carbon, TOC) 농도를 중심으로 이루어지고 있다. 그러나 고가 분석 장비, 산화 방식, 전처리 및 분석 시간 등 신속한 모니터링의 측면에서 TOC 농도 측정에 어려움이 있을 수 있고, 유역 별 상이하게 유입되는 유기물을 신속하게 모니터링하기 위한 TOC 분석법을 보완하는 추가 방법론 개발이 필요하다. 대표적으로 형광 분석은 용존 유기물질 (dissolved organic matter, DOM) 내 분포하는 아미노산/단백질, 휴믹 물질 등 난분해성 유기물 포함한 다양한 유기 성분에 대한 정보를 제공하고 적은 시료 소모, 간단한 전처리 과정, 신속한 측정이 가능하다는 장점이 있다. 최근 형광 지표를 이용해서 비균질적인 TOC의 성상을 정성적으로 이해하고자 하는 시도가 있었지만, 일부 수계에 국한 되어있어서 전체 수계를 이해하는 데에는 어려움이 있다. 이러한 점을 고려하여 본 연구는 여러 하천, 호수, 산단하천으로 이루어진 전체 한강 수계으로 대상 영역을 확장하고 비균질적인 유기물 형광 특성을 사용하여 TOC 농도 예측의 정확도를 향상시킬 수 있는 방법론을 구축하고자 하였다. 그 결과, TOC와 밀접한 관련이 있는 UV흡광도와 형광 여기-방출 매 트릭스(excitation-emission matrix, EEM) 스펙트럼 분석을 통해 분광 특성 지표를 도출하였다. 본 연구에서는 이전 문헌에서 분광 지표로 대표적으로 사 용되고 있는 UV254와 형광 영역 적분합(fluorescence regional integration, FRI;(Chen et al., 2003a))을 선택하였다. 도출된 지표를 입력 변수로 활용하 여 대표적 머신러닝 예측 모델인 deep neural network(DNN), random forest(RF), extreme gradient boosting(XGBoost)을 학습시키고 결정 계수 (coefficient of determination, R2), 평균 제곱근 오차(root mean squared error, RMSE) 결과에 대해 모델별로 TOC 예측 성능을 평가하였다. 분광지표 와 머신러닝을 적용하여 한강 중권역 수계 TOC 농도 예측할 수 있음을 확인하 였으며, UV254, FRI 지표 등 입력변수에 따라 예측 성능이 크게 달라졌음을 확 인하였다. 특히, 전통적으로 사용되어온 선형회귀기법에 비해 더 나은 결과를 보인 점이 주목할 만하다. 더 나은 TOC 농도 예측 성능 향상을 위해 한강 수계 를 하천, 호소, 산단하천으로 분할하였고, 예측 성능을 비교하였다. 또한 모델 해석을 위해 shapley additive explanations(SAHP) 분석을 통한 입력변수 기여도를 기반으로 모델을 해석해보았다. 최종적으로, 머신러닝 예측 모델 중 신경망 모델인 DNN 모델이 입력변수로 UV254 흡광도 값, FRI 형광지표를 함께 사용했을 때 한강 중권역 수계의 TOC 농도 가장 좋은 예측 성능(R2=0.8592, RMSE=0.0841mgC/L)을 보였다. 추후 여러 강, 하천들이 혼합되는 복합 수계에서 형광지표와 머신러닝 기법을 이용하여 TOC 농도 예측하는데 유용한 도구로서 사용될 수 있음을 시사한다. 주요어: 총유기탄소, 머신러닝, 분광 지표, 모델 해석, 한강 수계
※ AI-Helper는 부적절한 답변을 할 수 있습니다.