기상 인자와 대기오염물질 인자 데이터를 이용한 기계학습 기반 미세먼지 예측 모델의 성능 비교 Performance Comparison of Machine Learning-Based Particulate Matter Prediction Models Using Meteorogical Factors and Air Pollution Material Factors Data원문보기
발암물질로 규정된 미세먼지와 초미세먼지는 최근 몇 년 동안 눈에 띄게 급증하고 있다. 미세먼지와 초미세먼지는 인체만 아니라 자연이나 생태계 등 다방면으로 심각한 영향을 초래하고 있다. 이런 악영향으로 미세먼지와 초미세먼지 농도에 대한 사전 예측기술이 필요하다. 국내에서는 미세먼지 예측에 기상 모델을 사용하고 있지만, 현재 사용되고 있는 수치예보모델에 의한 미세먼지와 초미세먼지 농도의 예측오류가 지나치게 커서 사실상 예보가 무의미한 실정이다.
미세먼지와 초미세 먼지 농도에 대한 예측 연구는 기상모델을 이용한 연구 이외에도 ...
발암물질로 규정된 미세먼지와 초미세먼지는 최근 몇 년 동안 눈에 띄게 급증하고 있다. 미세먼지와 초미세먼지는 인체만 아니라 자연이나 생태계 등 다방면으로 심각한 영향을 초래하고 있다. 이런 악영향으로 미세먼지와 초미세먼지 농도에 대한 사전 예측기술이 필요하다. 국내에서는 미세먼지 예측에 기상 모델을 사용하고 있지만, 현재 사용되고 있는 수치예보모델에 의한 미세먼지와 초미세먼지 농도의 예측오류가 지나치게 커서 사실상 예보가 무의미한 실정이다.
미세먼지와 초미세 먼지 농도에 대한 예측 연구는 기상모델을 이용한 연구 이외에도 기계학습을 이용한 연구방법이 있다. 본 논문에서는 기계학습 알고리즘을 기반으로 기상 요소 데이터와 대기오염물질 요소 데이터를 이용하여 미세먼지와 초미세 먼지의 농도를 예측하는 실험을 진행하고 그 성능을 비교했다.
본 논문에서의 핵심은 기상 요소와 대기오염물질 데이터를 학습 데이터로 이용하고 학습된 기계학습 모델을 활용한 미세먼지 및 초미세먼지 농도 예측을 통해 제안된 모델들의 성능을 비교 평가한 것이다. 실험에 쓰인 기상 요소 데이터는 평균 기온, 평균 상대습도, 최대 풍속, 최대 풍속 풍향의 4가지이며 기상청에서 수집했다. 대기오염물질 데이터는 초미세먼지(), 미세먼지(), 오존(), 일산화탄소(), 이산화질소(), 아황산가스() 농도로서 에어코리아에서 수집했다. 모든 데이터는 2016년부터 3년간 일일 수집된 데이터로서 광주광역시, 대구광역시, 대전광역시, 부산광역시, 울산광역시 및 인천광역시의 6개 광역시 데이터를 사용했다. 수집된 데이터는 병합, 삭제, 값 재설정의 3가지 전처리 과정을 사용하여 정리했다. 다층 신경망(Multi Layer Perceptron, MLP), 배깅(Bagging) 기법을 사용한 선형 회귀(Linear Regression), 랜덤 포레스트(Random Forest) 및 K-최근접 이웃 알고리즘(K-Nearest Neighbor, KNN)의 4가지의 알고리즘에 대해서 실험했다.
예측성능을 비교한 결과는 모든 광역시에서 랜덤 포레스트와 K-최근접 이웃 알고리즘이 우수한 결과를 보여주었으며, 배깅 기법을 적용한 선형회귀 알고리즘이 모든 광역시에서 안 좋은 결과를 보여주었다.
발암물질로 규정된 미세먼지와 초미세먼지는 최근 몇 년 동안 눈에 띄게 급증하고 있다. 미세먼지와 초미세먼지는 인체만 아니라 자연이나 생태계 등 다방면으로 심각한 영향을 초래하고 있다. 이런 악영향으로 미세먼지와 초미세먼지 농도에 대한 사전 예측기술이 필요하다. 국내에서는 미세먼지 예측에 기상 모델을 사용하고 있지만, 현재 사용되고 있는 수치예보모델에 의한 미세먼지와 초미세먼지 농도의 예측오류가 지나치게 커서 사실상 예보가 무의미한 실정이다.
미세먼지와 초미세 먼지 농도에 대한 예측 연구는 기상모델을 이용한 연구 이외에도 기계학습을 이용한 연구방법이 있다. 본 논문에서는 기계학습 알고리즘을 기반으로 기상 요소 데이터와 대기오염물질 요소 데이터를 이용하여 미세먼지와 초미세 먼지의 농도를 예측하는 실험을 진행하고 그 성능을 비교했다.
본 논문에서의 핵심은 기상 요소와 대기오염물질 데이터를 학습 데이터로 이용하고 학습된 기계학습 모델을 활용한 미세먼지 및 초미세먼지 농도 예측을 통해 제안된 모델들의 성능을 비교 평가한 것이다. 실험에 쓰인 기상 요소 데이터는 평균 기온, 평균 상대습도, 최대 풍속, 최대 풍속 풍향의 4가지이며 기상청에서 수집했다. 대기오염물질 데이터는 초미세먼지(), 미세먼지(), 오존(), 일산화탄소(), 이산화질소(), 아황산가스() 농도로서 에어코리아에서 수집했다. 모든 데이터는 2016년부터 3년간 일일 수집된 데이터로서 광주광역시, 대구광역시, 대전광역시, 부산광역시, 울산광역시 및 인천광역시의 6개 광역시 데이터를 사용했다. 수집된 데이터는 병합, 삭제, 값 재설정의 3가지 전처리 과정을 사용하여 정리했다. 다층 신경망(Multi Layer Perceptron, MLP), 배깅(Bagging) 기법을 사용한 선형 회귀(Linear Regression), 랜덤 포레스트(Random Forest) 및 K-최근접 이웃 알고리즘(K-Nearest Neighbor, KNN)의 4가지의 알고리즘에 대해서 실험했다.
예측성능을 비교한 결과는 모든 광역시에서 랜덤 포레스트와 K-최근접 이웃 알고리즘이 우수한 결과를 보여주었으며, 배깅 기법을 적용한 선형회귀 알고리즘이 모든 광역시에서 안 좋은 결과를 보여주었다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.