정용진
(Department of Electrical, Electronics and Communication Engineering, Korea University of Technology and Education(KOREATECH))
,
이종성
(Department of Electrical, Electronics and Communication Engineering, Korea University of Technology and Education(KOREATECH))
,
오창헌
(Department of Electrical, Electronics and Communication Engineering, Korea University of Technology and Education(KOREATECH))
미세먼지 예보에 대한 높은 정확도가 요구됨에 따라 기계 학습의 알고리즘을 적용하여 예측 정확도를 높이려는 다양한 시도들이 이루어지고 있다. 그러나 미세먼지의 특성과 불균형적인 농도별 발생 비율에 대한 문제로 예측 모델의 학습 및 예측이 잘 이루어지지 않는다. 이러한 문제를 해결하기 위해 특정 농도를 기준으로 미세먼지를 저농도와 고농도로 구분하여 예측을 수행하는 등 다양한 연구가 진행되고 있다. 본 논문에서는 미세먼지 농도의 불균형 특성으로 인한 예측 성능 향상의 문제를 해결하기 위한 미세먼지 농도의 이진 분류 모델을 제안하였다. 분류 알고리즘 중 logistic regression, decision tree, SVM 및 MLP를 이용하여 PM10에 대한 이진분류 모델들을 설계하였다. 오차 행렬을 통해 성능을 비교한 결과, 4가지 모델 중 MLP 모델이 89.98%의 정확도로 가장 높은 이진 분류 성능을 보였다.
미세먼지 예보에 대한 높은 정확도가 요구됨에 따라 기계 학습의 알고리즘을 적용하여 예측 정확도를 높이려는 다양한 시도들이 이루어지고 있다. 그러나 미세먼지의 특성과 불균형적인 농도별 발생 비율에 대한 문제로 예측 모델의 학습 및 예측이 잘 이루어지지 않는다. 이러한 문제를 해결하기 위해 특정 농도를 기준으로 미세먼지를 저농도와 고농도로 구분하여 예측을 수행하는 등 다양한 연구가 진행되고 있다. 본 논문에서는 미세먼지 농도의 불균형 특성으로 인한 예측 성능 향상의 문제를 해결하기 위한 미세먼지 농도의 이진 분류 모델을 제안하였다. 분류 알고리즘 중 logistic regression, decision tree, SVM 및 MLP를 이용하여 PM10에 대한 이진분류 모델들을 설계하였다. 오차 행렬을 통해 성능을 비교한 결과, 4가지 모델 중 MLP 모델이 89.98%의 정확도로 가장 높은 이진 분류 성능을 보였다.
High forecast accuracy is required as social issues on particulate matter increase. Therefore, many attempts are being made using machine learning to increase the accuracy of particulate matter prediction. However, due to problems with the distribution of imbalance in the concentration and various c...
High forecast accuracy is required as social issues on particulate matter increase. Therefore, many attempts are being made using machine learning to increase the accuracy of particulate matter prediction. However, due to problems with the distribution of imbalance in the concentration and various characteristics of particulate matter, the learning of prediction models is not well done. In this paper, to solve these problems, a binary classification model was proposed to predict the concentration of particulate matter needed for prediction by dividing it into two classes based on the value of 80㎍/㎥. Four classification algorithms were utilized for the binary classification of PM10. Classification algorithms used logistic regression, decision tree, SVM, and MLP. As a result of performance evaluation through confusion matrix, the MLP model showed the highest binary classification performance with 89.98% accuracy among the four models.
High forecast accuracy is required as social issues on particulate matter increase. Therefore, many attempts are being made using machine learning to increase the accuracy of particulate matter prediction. However, due to problems with the distribution of imbalance in the concentration and various characteristics of particulate matter, the learning of prediction models is not well done. In this paper, to solve these problems, a binary classification model was proposed to predict the concentration of particulate matter needed for prediction by dividing it into two classes based on the value of 80㎍/㎥. Four classification algorithms were utilized for the binary classification of PM10. Classification algorithms used logistic regression, decision tree, SVM, and MLP. As a result of performance evaluation through confusion matrix, the MLP model showed the highest binary classification performance with 89.98% accuracy among the four models.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이러한 문제를 해결하기 위해 특정 농도를 기준으로 미세먼지를 구분하여 예측을 수행하는 등 다양한 연구가 진행되고 있다. 본 논문에서는 미세먼지 농도의 불균형 특성으로 인하여 예측 성능 향상의 문제를 해결하기 위한 미세먼지 농도의 이진 분류 모델을 제안하였다. 이를 위해 천안 지역에서 10년간 수집한 기상 데이터와 대기오염물질 데이터를 이용하여 학습 데이터로 구성하였다.
본 논문에서는 미세먼지 농도의 불균형 특성으로 인하여 예측 성능 향상의 문제를 해결하기 위한 미세먼지농도의 이진 분류 모델을 제안한다. 머신러닝 알고리즘 중 logistic regression, decision tree, SVM(support vector machine), MLP(multi-layer perceptron) 모델을 사용한다.
제안 방법
1, 1, 10, 100, 1000으로 설정하였다. Cross validation의 cv 파라미터는 5로 설정하여 데이터를 분할하였으며, 이에 따라 c값에 순차 접근하여 5회 반복 훈련 및 검증 후 test set을 이용하여 점수를 비교하도록 하였다. 교차 검증 시 validation fold의 전처리를 위해 min max scaler와 모델의 pipeline을 구축하여 탐색하였다.
Grid search cross validation을 이용하여 최적의 결정 경계를 구하기 위해 c와 gamma의 최적의 값에 대한 탐색을 수행하였다. 탐색하기 위한 파라미터 c와 gamma 의 범위는 0.
MLP의 구조는 학습 데이터 중 독립 변수를 입력 받기 위한 input layer와 학습을 진행하기 위한 n개의 node 를 가지는 hidden layer로 구성하였으며, 활성화 함수는 sigmoid, 최적화 함수는 rmsprop, 손실 함수는 binary crossentropy를 적용하였다. 인공 신경망의 경우 과대 적합을 야기하는 요인은 여러 요인이 존재한다.
인공 신경망의 경우 과대 적합을 야기하는 요인은 여러 요인이 존재한다. hidden layer를 구성하는 node의 수, 가중치 규제에 대한 L2 규제와 Dropout rate, 학습 방법을 결정하기 위한 batch size가 있으며, 해당 파라미터의 최적 값을 찾기 위해 표 4와 같이 grid를 설정하여 grid search cross validation을 수행하였다.
각 hidden layer 별로 1, 200개 조합의 탐색을 진행하였으며, k-fold 교차 검증의 cv 파라미터를 5로 설정하여 수행하였다. 교차 검증 결과 hidden layer는 2, node는 20, L2 규제는 0.
분류를 위한 알고리즘으로 logistic regression, decision tree, SVM, MLP 알고리즘을 사용하였으며, 미세먼지농도 을 기준으로 2개의 클래스로 구분하여 이진 분류 모델로 구성하였다. 각 모델의 최적화를 위해 grid search cross validation을 통해 파라미터 탐색을 수행하여 모델들을 설계하였다. 평가 결과, 이하의 농도 분류에 있어 약 98%의 성능을 보였으나 초과의 농도 분류에 있어 약 80%의 성능을 보였다.
교차 검증 결과 hidden layer는 2, node는 20, L2 규제는 0.001, dropout rate는 0.3, batch size는 80 으로 선정하여 설계하였다.
Cross validation의 cv 파라미터는 5로 설정하여 데이터를 분할하였으며, 이에 따라 c값에 순차 접근하여 5회 반복 훈련 및 검증 후 test set을 이용하여 점수를 비교하도록 하였다. 교차 검증 시 validation fold의 전처리를 위해 min max scaler와 모델의 pipeline을 구축하여 탐색하였다. 교차 검증 결과 mean test score가 c값이 10.
따라서 grid search cross validation을 이용하여 최적의 c 값에 대한 탐색을 수행하였다. 탐색할 c 값의 범위는 0.
따라서 grid search cross validation을 이용하여 최적의 max_depth 값에 대한 탐색을 수행하였다. 탐색할 max_depth 값의 범위는 1부터 24까지 설정하였으며, k-fold 교차검증의 cv 파라미터를 5로 설정하여 탐색을 진행하였다.
탐색할 max_depth 값의 범위는 1부터 24까지 설정하였으며, k-fold 교차검증의 cv 파라미터를 5로 설정하여 탐색을 진행하였다. 또한 교차 검증 시 validation fold의 전처리를 위해 min max scaler와 모델의 pipeline을 구축하여 탐색하였다. 교차 검증 결과 mean test score가 max_depth값이 4일 때 0.
탐색할 max_depth 값의 범위는 1부터 24까지 설정하였으며, k-fold 교차검증의 cv 파라미터를 5로 설정하여 탐색을 진행하였다. 또한 교차 검증 시 validation fold의 전처리를 위해 min max scaler와 모델의 pipeline을 구축하여 탐색하였다. 교차 검증 결과 mean test score가 max_depth값이 4일 때 0.
미세먼지 농도 을 기준으로 2개의 클래스로 구분하여 이진 분류 모델로 구성한다. 모델들의 최적의 파라미터를 적용하기 위해 grid search cross validation 을 통해 파라미터 탐색을 수행하여 모델들을 설계한다. 모델의 평가는 각 모델들의 오차 행렬 기반 정밀도, 재현율, f1-score를 이용하여 진행한다.
Cho의 연구에서는 미세먼지농도의 예측 정확도를 향상시키기 위해 특정 농도를 기준으로 분리하여 예측하는 모델을 제안하였다. 미세먼지 농도를 저농도와 고농도를 구분하여 deep neural network 기반의 예측 모델을 통해 성능을 비교하였다. 예측 결과 저농도와 고농도에 대한 예측 성능이 향상되었으며, 특히 고농도 예측 성능의 경우 20.
모델의 학습 시 사용되는 training set의 경우 학습이 잘 이루어 졌는지 검증이 필요함에 따라 training set은 train set과 검증을 위한 validation set으로 나누어 구성된다. 본 논문에서는 전처리 과정이 끝난 데이터를 75%의 training set과 25%의 test set으로 구성하였으며, training set 중 80%의 데이터를 train set, 나머지 20%의 데이터를 validation set으로 구성하였다. 그림 1은 모델에 사용된 최종 데이터의 구조를 나타내며, 표 3은 데이터 셋의 구성을 나타낸다.
기상 데이터는 온도, 습도, 풍속, 풍향으로 구성되며, 대기오염 물질 데이터는 , , , , 로 구성하였다. 수집 데이터 중 측정 환경에 따른 결측치가 존재하며 이에 따른 오학습을 방지하기 위해 동일 시간의 모든 데이터를 제거하여 구성하였다.
앞 장에서 구성한 데이터 셋과 설계한 4가지의 이진 분류 모델들을 이용하여 분류 성능 평가를 진행하였다. 성능 평가는 오차 행렬을 기반으로 정밀도, 재현율, f1-score를 사용하였다.
풍향을 제외한 나머지 독립변수의 경우, 서로 다른 특성을 갖고 있는 수치형 데이터이며, 데이터에 따라 표현되는 수치의 범위를 통일시켜주기 위해 min max scaling을 통해 0과 1사이의 값으로 변환하였다. 종속 변수에 해당하는 데이터는 에 해당하며 표 2와 같이 환경부에서 예보로 사용하고 있는 AQI를 기준으로 이하에 해당하는 ‘좋음’, ‘보통’에 해당하는 농도를 하나의 클래스로 구분하였으며, 에 초과하는 ‘나쁨’, ‘매우 나쁨’에 해당하는 농도를 또 다른 하나의 클래스로 구분하였다.
데이터들의 전처리가 필요하다. 지도 학습 기반의 알고리즘을 사용하기 때문에 독립 변수에 해당하는 데이터와 종속 변수에 해당하는 데이터를 따로 구분하여 진행하였다. 독립 변수 데이터의 경우 AQI 기반 미세먼지 농도의 범위를 예측하기 위해 사용되는 데이터로서 온도, 습도, 풍속, 풍향, , , , 으로 구성하였다.
수행하였다. 탐색하기 위한 파라미터 c와 gamma 의 범위는 0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000으로 설정하였으며, k-fold 교차검증의 cv 파라미터를 5로 설정하여 탐색을 진행하였다. 또한 교차 검증 시 validation fold의 전처리를 위해 min max scaler와 모델의 pipeline 을 구축하여 탐색하였다.
대상 데이터
기상 데이터는 온도, 습도, 풍속, 풍향으로 구성되며, 대기오염 물질 데이터는 , , , , 로 구성하였다. 수집 데이터 중 측정 환경에 따른 결측치가 존재하며 이에 따른 오학습을 방지하기 위해 동일 시간의 모든 데이터를 제거하여 구성하였다.
지도 학습 기반의 알고리즘을 사용하기 때문에 독립 변수에 해당하는 데이터와 종속 변수에 해당하는 데이터를 따로 구분하여 진행하였다. 독립 변수 데이터의 경우 AQI 기반 미세먼지 농도의 범위를 예측하기 위해 사용되는 데이터로서 온도, 습도, 풍속, 풍향, , , , 으로 구성하였다. 풍향의 경우, 16방위로 표현되는 범주 형 데이터에 해당하기 때문에 one-hot encoding을 사용하여 16개의 벡터 형으로 변환하였다.
본 논문에서는 미세먼지 농도의 불균형 특성으로 인하여 예측 성능 향상의 문제를 해결하기 위한 미세먼지 농도의 이진 분류 모델을 제안하였다. 이를 위해 천안 지역에서 10년간 수집한 기상 데이터와 대기오염물질 데이터를 이용하여 학습 데이터로 구성하였다. 분류를 위한 알고리즘으로 logistic regression, decision tree, SVM, MLP 알고리즘을 사용하였으며, 미세먼지농도 을 기준으로 2개의 클래스로 구분하여 이진 분류 모델로 구성하였다.
해당 데이터는 천안지역의 측정소에서 2009년부터 2018년까지 10년간 1시간 간격으로 측정된 데이터를 사용하였다. 기상 데이터는 온도, 습도, 풍속, 풍향으로 구성되며, 대기오염 물질 데이터는 , , , , 로 구성하였다.
데이터처리
그림 2의 오차 행렬을 통해 분석하였을 경우 분류에 사용된 입력 데이터 중 이하에 해당하는 데이터 비중이 높은 것을 확인 할 수 있었으며, 특정 클래스의 비중이 높은 불균형 모델의 정확한 평가를 위해 macro 평균의 f1-score를 사용하였다. f1-score를 기준으로 logistic regression은 89.
모델들의 최적의 파라미터를 적용하기 위해 grid search cross validation 을 통해 파라미터 탐색을 수행하여 모델들을 설계한다. 모델의 평가는 각 모델들의 오차 행렬 기반 정밀도, 재현율, f1-score를 이용하여 진행한다.
탐색할 max_depth 값의 범위는 1부터 24까지 설정하였으며, k-fold 교차검증의 cv 파라미터를 5로 설정하여 탐색을 진행하였다. 또한 교차 검증 시 validation fold의 전처리를 위해 min max scaler와 모델의 pipeline을 구축하여 탐색하였다.
이론/모형
이진 분류 모델을 제안한다. 머신러닝 알고리즘 중 logistic regression, decision tree, SVM(support vector machine), MLP(multi-layer perceptron) 모델을 사용한다. 미세먼지 농도 을 기준으로 2개의 클래스로 구분하여 이진 분류 모델로 구성한다.
이를 위해 천안 지역에서 10년간 수집한 기상 데이터와 대기오염물질 데이터를 이용하여 학습 데이터로 구성하였다. 분류를 위한 알고리즘으로 logistic regression, decision tree, SVM, MLP 알고리즘을 사용하였으며, 미세먼지농도 을 기준으로 2개의 클래스로 구분하여 이진 분류 모델로 구성하였다. 각 모델의 최적화를 위해 grid search cross validation을 통해 파라미터 탐색을 수행하여 모델들을 설계하였다.
진행하였다. 성능 평가는 오차 행렬을 기반으로 정밀도, 재현율, f1-score를 사용하였다. 그림 2는 훈련된 모델들의 분류 결과를 기반으로 작성한 오차 행렬이다.
성능/효과
평균의 f1-score를 사용하였다. f1-score를 기준으로 logistic regression은 89.64%, decision tree와 SVM은 89.91%, MLP는 89.98%로 MLP가 4가지 모델 중 가장 높은 정확도를 보였다.
평가 결과, 이하의 농도 분류에 있어 약 98%의 성능을 보였으나 초과의 농도 분류에 있어 약 80%의 성능을 보였다. f1-score를 통한 분류 모델들의 성능을 비교하였을경우, MLP 모델이 89.98%로 가장 높은 성능을 보였다.
Kaya의 연구에서는 미세먼지농도 별 발생 비율의 편차로 인한 회귀 모델의 예측 문제를 해결하기 위해 불균형 문제의 해결 방안을 제안하였다. 불균형 데이터를 제안한 upper sampling, down sampling을 통해 클래스의 샘플 수를 동일하게 만드는 방법으로 전체 데이터 세트에서 80%대의 정확도를 확인하였다[9].
미세먼지 농도를 저농도와 고농도를 구분하여 deep neural network 기반의 예측 모델을 통해 성능을 비교하였다. 예측 결과 저농도와 고농도에 대한 예측 성능이 향상되었으며, 특히 고농도 예측 성능의 경우 20.62%의 성능향상을 확인하였다[8]. K.
8551로 4가지 모델 중 가장 낮은 정밀도를 보였다. 전체적으로 초과 범위의 농도를 분류함에 있어 낮은 성능을 보였다.
각 모델의 최적화를 위해 grid search cross validation을 통해 파라미터 탐색을 수행하여 모델들을 설계하였다. 평가 결과, 이하의 농도 분류에 있어 약 98%의 성능을 보였으나 초과의 농도 분류에 있어 약 80%의 성능을 보였다. f1-score를 통한 분류 모델들의 성능을 비교하였을경우, MLP 모델이 89.
참고문헌 (16)
M. S. Seo, "The Impact of Particulate Matter on Economic Activity," The Korean Women Economists Association, vol. 12, no. 1, pp. 75-100, Jun. 2015.
A. Valavanidis, K. Fiotakis, and T. Vlachogianni, "Airborne Particulate Matter and Human Health: Toxicological Assessment and Importance of Size and Composition of Particles for Oxidative Damage and Carcinogenic Mechanisms," Journal of Environmental Science and Health, Part C, vol. 26, no. 4, pp. 339-362, Nov. 2008.
K. H. Kim, E. Kabir, and S. Kabir, "A Review on the Human Health Impact of Airborne Particulate Matter," Environment International, vol. 74, pp. 136-143, Jan. 2015.
World Health Organization(WHO), "Health effects of particulate matter. Policy implications for countries in eastern Europe, Caucasus and central Asia," Regional Office for Europe, 2013.
Board of Adit and Inspection(BAI), "Weather Forecast and Earthquake Notification System Operation," International THE Board of Audit and Inspection of KOREA, 2017.
J. W. Cha and J. Y. Kim, "Development of Data Mining Algorithm for Implementation of Fine Dust Numerical Prediction Model," Journal of the Korea Institute of Information and Communication Engineering, vol. 22, no. 4, pp. 595-601, Apr. 2018.
A. Chaloulakou, G. Grivas, and N. Spyrellis, "Neural Network and Multiple Regression Models for PM10 Prediction in Athens: A Comparative Assessment," Journal of the Air & Waste Management Association, vol. 53, no. 10, pp. 1183-1190, Oct. 2003.
K. W. Cho, Y. J. Jung, J. S. Lee, and C. H. Oh, "Separation Prediction Model by Concentration based on Deep Neural Network for Improving PM10 Forecast Accuracy," Journal of the Korea Institute of Information and Communication Engineering, vol. 24, no. 1, pp. 8-14, 2020.
K. Kaya and S. G. Oguducu, "A Binary Classification Model for PM10 Levels," in 2018 3rd International Conference on Computer Science and Engineering (UBMK), Sarajevo, pp. 361-366, 2018.
J. M. Han, J. G. Kim, and K. H. Cho, "Verify a Causal Relationship between Fine Dust and Air Condition-Weather Data in Selected Area by Contamination Factors," The journal of Bigdata, vol. 2, no. 1, pp. 17-26, Feb. 2017.
X. Zhao, R. Zhang, J. L. Wu, and P. C. Chang, "A Deep Recurrent Neural Network for Air Quality Classification," Journal of Information Hiding and Multimedia Signal Processing, vol. 9, no. 2, pp. 346-354, Mar. 2018.
B. T. Ong, S. Komei, and Z. Koji, "Dynamic Pre-training of Deep Recurrent Neural Networks for Predicting Environmental Monitoring Data," in 2014 IEEE International Conference on Big Data (Big Data), Washington DC, pp. 760-765, 2014.
X. Li, L. Peng, X. Yao, S. Cui, Y.Hu, C. You, and T. chi, "Long Short-term Memory Neural Network for Air Pollutant Concentration Predictions: Method Development and Evaluation," Environmental Pollution, vol. 231, no. 1, pp. 997-1004, Dec. 2017.
S. H. Jeon and Y. S. Son, "Prediction of Fine Dust PM10 using a Deep Neural Network Model," The Korean journal of applied statistics, vol. 31, no. 2, pp. 265-285, Apr. 2018.
J. R. Quinlan, "Learning Efficient Classification Procedures and Their Application to Chess End Games," in Machine Learning, Berlin, Springer, pp. 463-482, 1983.
P. H. Huynh, V. H. Nguyen, and T. N. Do, "Enhancing Gene Expression Classification of Support Vector Machines with Generative Adversarial Networks," Journal of information and communication convergence engineering, vol. 17, no. 1, pp. 14-20, Mar. 2019.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.