[논문]분류 모델 예측력 향상을 위한 자료 전처리 및 앙상블 알고리즘 선정: 사대강 조류예보제 적용 연구

윤성현

분류 모델 예측력 향상을 위한 자료 전처리 및 앙상블 알고리즘 선정: 사대강 조류예보제 적용 연구
Data preprocessing and ensemble algorithm selection for the improved predictability of classification models: an application to the Algal Bloom Alert System in South Korea 원문보기

윤성현 (서울시립대학교 일반대학원 환경공학과 국내석사)

초록 ▼
AI-Helper

전 세계적으로 녹조현상의 세기 및 빈도가 증가하고 있어 문제가 되고 있으며 우리나라의 경우도 예외는 아니다. 현재 우리나라는 녹조현상에 대응하기 위한 방안으로 조류 경보제를 운영 중이며, 조류 경보제의 관점에서 바라봤을 때, 녹조 경보 발령 여부를 예측하는 분류모델을 개발하여 효율적인 녹조 관리를 도모할 수 있다. 그러나 복잡한 녹조현상의 메커니즘으로 인해 분류모델의 예측력이 낮으며, 조류경보의 빈도가 그렇지 않은 경우에 비해 낮음으로 인해 소수계급 예측력이 낮은 데이터 불균형 문제가 발생하는 문제점이 있다.
본 연구의 목적은 데이터 불균형도가 각기 다른 실제 4대강 데이터에 대하여 조류 경보를 가장 잘 예측할 수 있는 방법론을 선정하는 것과 데이터의 불균형도가 모델 및 전처리 효과에 미치는 영향을 분석하는 것이다. 본 연구에서는 분류모델의 예측력 향상과 데이터 불균형 문제 해결을 위해 앙상블 알고리즘 모델들인 배깅, 랜덤 포레스트, 에이다 부스트 모델과 데이터 전처리 기법인 SMOTE를 사용하였다. 먼저 SMOTE 전처리의 효과를 검증하였다. 두 번째로, 앙상블 모델과 단일 모델인 결정나무의 비교, 앙상블 모델간의 비교를 통해 녹조 경보 예측을 위한 최적의 방법론을 찾고자 하였다. 세 번째로는 데이터의 불균형도가 모델의 예측성능 및 SMOTE 결과에 미치는 영향을 분석하였다. 마지막으로 녹조현상에 영향을 미치는 주요 변수 파악을 위해 변수의 상대적 중요도 분석을 수행하였다.
그 결과 SMOTE 전처리 이후 모델의 전반적인 예측 성능이 대폭 증가되는 것으로 나타났다. 단일 모델과 앙상블 모델을 비교했을 때, 앙상블 모델들의 예측성능이 전반적으로 더 우수한 것으로 나타났다. 앙상블 모델 간의 비교 시, SMOTE를 적용한 이후의 랜덤 포레스트 모델의 평균 예측 성능이 민감도 0.81, AUC 0.83, G-mean 0.83, F-measure 0.55를 나타내어 가장 우수하였다. 모델 독립변수의 상대성 중요도를 분석한 결과, 수계 및 알고리즘 별로 독립변수의 중요도는 차이가 있었으나 전반적으로 남조류 발생을 예측하는데 있어 계절적 요인(수온, 관측 월), TN, 유량이 중요한 요소로 나타났고 강수량, 조도, 모니터링 지점의 상대적 상하류 위치는 중요성이 낮은 것으로 나타났다.
결론적으로, SMOTE와 앙상블 기법인 랜럼 포레스트 모델을 결합하였을 때 가장 효과적으로 경보 발령을 예측할 수 있는 것으로 나타났으며, 모델의 독립변수 분석을 통해 남조류 발생의 중요 요인은 계절적 요인이라는 것을 밝혔다. 환경분야 모델링의 경우 녹조현상의 경우와 마찬가지로 데이터 불균형 문제가 극심한 경우가 빈번하기 때문에 본연구에서와 같이 SMOTE와 앙상블 알고리즘 기반의 모델을 결합하여 사용하는 것이 예측력 향상에 도움이 될 것으로 판단된다.

Abstract ▼ AI-Helper

Cyanobacterial blooms have been strengthened in intensity and frequency worldwidely, also for Korea. In the purpose of managing cyanobacterial blooms, algae alert system is operating. In the aspect of algae alert system, cyanobacterial blooms can be effectively managed by constructing classification model. However, because of complex mechanisms in cyanobacterial bloom makes the models’ prediction ability lower and low frequency of bloom causes data imbalance problem which make the prediction ability of minority class lower.
The aim of this study is to identify the best way to predict bloom alert and to analyse how the level of data imbalance affects to model prediction ability and data preprocessing results. We used ensemble models – Bagging, Random Forest and AdaBoost – and data preprocessing technique, SMOTE to improve model’s prediction performance and to mitigate data imbalance problem. First, we investigated effect of SMOTE. Second, investigated the best way of predicting bloom alert by comparison between single classifier, CART and ensemble classifiers and between ensemble classifiers. Third, investigated how the level of data imbalance affects to model prediction ability and SMOTE results. Last, analysed relative predictor variable importance of models to identify the key factors of cyanobacterial blooms.
The results shows overall improvement in model prediction ability after SMOTE application. Ensemble classifiers showed better prediction performance compared to single classification tree model. By comparison between ensemble classifiers, we identified that the combination of SMOTE and Random Forest is the best way to predict bloom alert showing 0.81 of mean sensitivity, 0.84 of mean AUC, 0.83 of mean G-mean and 0.55 of mean F-measure value. Variable importance analysis results shows seasonal factors such as water temperature and month, TN and flow rate are more important than precipitation, irradiance and spatial location of monitoring station although the results were slightly differed by rivers and algorithms.
In conclusion, combining SMOTE and Random Forest model were shown as the best way to predict cyanobacterial bloom and seasonal factors are important for bloom forming through variable importance analysis. Modeling environmental issues, such as cyanobacterial bloom, severe data imbalance problems are frequent. It would be advantageous to use combination of SMOTE and ensemble models like this case study when dealing with imbalanced data.

주제어

학위논문 정보

저자	윤성현
학위수여기관	서울시립대학교 일반대학원
학위구분	국내석사
학과	환경공학과
지도교수	차윤경
발행연도	2019
총페이지	vi, 98 p.
키워드	결정나무 앙상블 모델 녹조현상 남조류 데이터 불균형 머신 러닝
언어	kor
원문 URL	http://www.riss.kr/link?id=T15339771&outLink=K
정보원	한국교육학술정보원

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명(한글), 저자명(한글), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문) 관리번호, 논문명(한글), 논문명(영문), 저자명(한글), 저자명(영문), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문)
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

초록 ▼
AI-Helper

Abstract ▼ AI-Helper

주제어

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

초록 ▼ 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

초록 ▼
AI-Helper