자동차는 우리의 일상에 필수재가 된 지 오래지만 자동차 교통사고로 인한 사회적 비용이 국가 예산의 9%를 넘을 정도로 심각하여 이에 대한 국가적인 예방 및 대응 체계 구축이 매우 필요한 실정이다. 이에 본 연구에서는 빅데이터 분석 기법을 활용하여 차대차 교통사고의 상해 심각도를 정확히 예측할 수 있는 모형을 제시하고자 하였다. 이를 위해 과거 3년간의 전국교통사고 발생 데이터를 토대로, K-최근접 이웃, 로지스틱 회귀분석, 나이브베이즈, 의사결정나무, 앙상블 알고리즘을 적용하여 각 모델의 상해 심각도 분류의 성능을 비교 분석하였다. 특히 이 과정에서 각 상해 심각도 수준 간의 데이터 수에 차이가 있음에 주목하여 표본수가 많은 그룹에 대해서는 과소표본추출을 시행하는 등의 방법을 통해 분류 예측의 정확도를 높일 수 있었고, 분산 분석을 통해 모델의 유의성을 검증하였다.
자동차는 우리의 일상에 필수재가 된 지 오래지만 자동차 교통사고로 인한 사회적 비용이 국가 예산의 9%를 넘을 정도로 심각하여 이에 대한 국가적인 예방 및 대응 체계 구축이 매우 필요한 실정이다. 이에 본 연구에서는 빅데이터 분석 기법을 활용하여 차대차 교통사고의 상해 심각도를 정확히 예측할 수 있는 모형을 제시하고자 하였다. 이를 위해 과거 3년간의 전국교통사고 발생 데이터를 토대로, K-최근접 이웃, 로지스틱 회귀분석, 나이브베이즈, 의사결정나무, 앙상블 알고리즘을 적용하여 각 모델의 상해 심각도 분류의 성능을 비교 분석하였다. 특히 이 과정에서 각 상해 심각도 수준 간의 데이터 수에 차이가 있음에 주목하여 표본수가 많은 그룹에 대해서는 과소표본추출을 시행하는 등의 방법을 통해 분류 예측의 정확도를 높일 수 있었고, 분산 분석을 통해 모델의 유의성을 검증하였다.
Automobiles have long been an essential part of daily life, but the social costs of car traffic accidents exceed 9% of the national budget of Korea. Hence, it is necessary to establish prevention and response system for car traffic accidents. In order to present a model that can classify and predict...
Automobiles have long been an essential part of daily life, but the social costs of car traffic accidents exceed 9% of the national budget of Korea. Hence, it is necessary to establish prevention and response system for car traffic accidents. In order to present a model that can classify and predict the degree of injury in car traffic accidents, we used big data analysis techniques of K-nearest neighbor, logistic regression analysis, naive bayes classifier, decision tree, and ensemble algorithm. The performances of the models were analyzed by using the data on the nationwide traffic accidents over the past three years. In particular, considering the difference in the number of data among the respective injury severity levels, we used down-sampling methods for the group with a large number of samples to enhance the accuracy of the classification of the models and then verified the statistical significance of the models using ANOVA.
Automobiles have long been an essential part of daily life, but the social costs of car traffic accidents exceed 9% of the national budget of Korea. Hence, it is necessary to establish prevention and response system for car traffic accidents. In order to present a model that can classify and predict the degree of injury in car traffic accidents, we used big data analysis techniques of K-nearest neighbor, logistic regression analysis, naive bayes classifier, decision tree, and ensemble algorithm. The performances of the models were analyzed by using the data on the nationwide traffic accidents over the past three years. In particular, considering the difference in the number of data among the respective injury severity levels, we used down-sampling methods for the group with a large number of samples to enhance the accuracy of the classification of the models and then verified the statistical significance of the models using ANOVA.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이에 본 연구에서는 국내 교통사고에 초점을 맞추고 국내 전역에서 발생한 교통사고 데이터를 대상으로 하여 우리의 교통현실을 충분히 반영하고, 상해 심각도 수준과 사실상 대동소이한 변수들을 제외하여 예측 모델로서의 가치를 확보하고자 하였다. 그리고 다양한 데이터마이닝 기법을 적용하여 각각의 성능을 비교 분석함으로써 실제 교통사고 환경에서의 활용 가능성을 높인 상해 심각도 예측 모델을 개발하고자 하였다.
본 연구는 국가 기관으로부터 제공받은 2015년부터 2017년 동안 발생한 약 67만 건의 전국 교통사고 데이터를 이용해 국내 교통사고 현실을 반영한 상해 심각도 예측 모델 개발을 시도했다는 점에서 의미를 가진다. 그럼에도 몇 가지 한계점이 있는데, 첫째, 상해 심각도 간의 구분이 모호해 다섯 가지 상해 심각도 분류 문제를 세 가지로 바꾸어 진행하였기 때문에 보다 세심한 분류 예측을 못했다는 점이다.
민감도는 실제 값이 참(True)인 경우에 대해서 참이라고 예측한 경우의 비율을 나타내며 특이도는 실제 값이 거짓(False)인 경우에 대해 거짓으로 예측한 경우의 비율을 의미한다. 본 연구에서는 범주의 중요도가 다르다는 점에 집중하여 모델성능의 비교분석 시 민감도를 기준으로 평가하였다. 민감도는 식 (13), 특이도는 식 (14)을 통해 계산된다.
본 연구에서는 최근 공공데이터 개방 정책의 일환으로 확보된 도로교통공단과 교통안전정보관리시스템의 방대한 자료를 활용하여 국내 교통사고, 그 중 차량과 차량 간의 사고 데이터를 이용해 상해 심각도를 예측할 수 있는 방법을 제시하였다. 각 상해 심각도 수준 간의 데이터 수에 차이가 있음에 주목하여 표본수가 많은 그룹에 대해서는 과소표본추출(Under-sampling)을 시행한 가운데, 교통사고 현장에서의 활용도를 제고하기 위해 5가지 상해심각도 수준으로 분류된 데이터를 3가지 분류 체계로 변경하여 문제를 재정의한 결과, 예측 정확도의 뚜렷한 향상을 확인할 수 있었다.
이러한 배경에서 본 연구에서는 교통사고에 영향을 미칠 수 있는 각종 요인들을 파악하고, 이들을 통해 교통사고의 심각도를 예측할 수 있는 모형을 연구하고자 하였다. 이를 위해 도로교통공단(Korea Road Traffic Authority)과 교통안전정보관리시스템(Traffic Safety Information Management Complex System; TMACS)에서 제공받은 2015년부터 2017년 사이에 발생한 전국의 교통사고 데이터를 활용하여, 데이터마이닝(Data mining)기법 중 분류(Classification) 문제에 주로 사용되는 K-최근접 이웃(K-Nearest Neighbor; KNN), 로지스틱 회귀(Logistic regression; LR), 나이브베이즈(Naive Bayes; NB), 의사결정나무(Decision Tree; DT), 앙상블(Ensemble) 알고리즘을 이용하여 상해 심각도 예측 모델을 학습하고 각 알고리즘별 성능을 비교 분석하였다.
이상에서 살펴본 바와 같이 기존의 연구들은 국내 자동차 사고 전반을 반영할 수 있는 데이터의 부재 또는 모형의 한계로 인해 현 시점에서 국내 자동차 교통사고 심각도 예측에 활용하기에는 한계가 있다. 이에 본 연구에서는 국내 교통사고에 초점을 맞추고 국내 전역에서 발생한 교통사고 데이터를 대상으로 하여 우리의 교통현실을 충분히 반영하고, 상해 심각도 수준과 사실상 대동소이한 변수들을 제외하여 예측 모델로서의 가치를 확보하고자 하였다. 그리고 다양한 데이터마이닝 기법을 적용하여 각각의 성능을 비교 분석함으로써 실제 교통사고 환경에서의 활용 가능성을 높인 상해 심각도 예측 모델을 개발하고자 하였다.
실제 교통사고로 인한 응급상황 발생 시 상해 심각도를 세분화하여 낮은 정확도로 예측하는 것보다 소수의 범주를 높은 정확도로 예측하고 그에 따른 신속한 조치를 취하는 것이 바람직하다. 이에, 기존의 5가지 상해심각도 수준을 3가지로 분류하기 위해 기존의 데이터 집합을 재구성하고 보다 현실에 적용 가능한 상해 심각도 예측 모델을 구축하고자 하였다.
이를 위해 도로교통공단(Korea Road Traffic Authority)과 교통안전정보관리시스템(Traffic Safety Information Management Complex System; TMACS)에서 제공받은 2015년부터 2017년 사이에 발생한 전국의 교통사고 데이터를 활용하여, 데이터마이닝(Data mining)기법 중 분류(Classification) 문제에 주로 사용되는 K-최근접 이웃(K-Nearest Neighbor; KNN), 로지스틱 회귀(Logistic regression; LR), 나이브베이즈(Naive Bayes; NB), 의사결정나무(Decision Tree; DT), 앙상블(Ensemble) 알고리즘을 이용하여 상해 심각도 예측 모델을 학습하고 각 알고리즘별 성능을 비교 분석하였다. 특히 각 상해 심각도 수준 간의 데이터 수에 차이가 있음에 주목하여 표본수가 많은 그룹에 대해서는 과소표본추출을 시행하는 등의 방법을 통해 분류 예측의 정확도를 높이고자 하였다. 또한 제시된 방법을 통해 각종 요인 변수를 토대로 사고 후에 예상되는 피해 정도를 추정하고, 나아가 응급조치 수행 시 사고피해자의 2차 상해를 최소화하기 위한 도구로 활용될 수 있도록 하였다.
가설 설정
랜덤포레스트의 기본 개념은 [Fig. 2]와 같이 전체 데이터 집합으로부터 N개의 부분집합 Θ1,...,ΘN을 생성하며 독립이면서 동일한 분포(Independent and Identically Distributed; i.i.d.)를 따른다고 가정한다.
제안 방법
기본 원리로는 조건부 확률에 베이즈 정리(Bayes’s Theorem)를 적용하고, 입력 데이터 집합의 모든 특징들에 대해 독립성을 가정하여 입력 벡터의 확률을 계산한 후 분류하는 과정을 거친다.
분산분석의 경우 세 개 이상의 집단 평균을 비교하기 위해 사용되는 통계적 기법으로 회귀분석에서 회귀계수의 유의성을 검정하거나 모델 간 성능 차이가 존재하는지 확인하기 위해 사용된다. 따라서 분산분석을 진행하기 위해 집단의 평균이 동일하다는 가설을 세우고 유의수준과 유의확률(probability value; p-value)을 비교하여 집단 간 평균의 차이 여부를 판단한다. 본 연구에서는 가설검정 시 유의수준을 0.
Lee and Heo(2011)는 미국 NASS의 GES 데이터 집합 중 2008년 교통사고 데이터를 이용하여 총 5개의 상해 심각도 수준을 예측하는 하이브리드 모델을 구축하였다. 모델은 4단계로 이루어져 있고 각 단계별로 하나의 상해 심각도를 순차적으로 예측하였으며, 인공 신경망, 의사결정나무, 로지스틱 회귀분석, 사례기반 추론 기법 중 가장 좋은 성능을 내는 모델을 선택함으로써 모델의 적중률을 높였다.
Sohn and Shin(1998)은 1996년 서울에서 발생한 교통사고 데이터를 활용하여 교통사고 심각도 분류모형을 추정하였다. 모형 추정에 사용되는 중요변수를 찾기 위해 X2 검정과 의사결정 나무를 이용하여 주요 변수를 추출했다. 종속변수인 사고 심각도 항목의 경우 5개 범주(사망, 중상, 경상 부상신고, 물적피해)로 이루어져 있으나 연구에서는 3개의 범주(치명적 상해, 경미한 상해, 물적피해)로 줄인 후 인공신경망, 의사결정나무, 로지스틱 회귀분석 모델을 사용해 교통사고 심각도 분류 예측모형 구축 및 분류 정확도를 비교하였다.
앙상블 방식은 단일 분류기를 이용하는 것보다 성능이 더 좋다고 알려져 있으며 크게 배깅(Bagging : Bootstrap aggregating)과 부스팅(Boosting)으로 나눌 수 있다(Dietterich, 1997). 배깅은 학습 집합을 복원 추출하여 여러 개의 부분집합을 만들고 이를 이용해 서로 다른 분류기를 만들어 입력 데이터에 대한 결과를 산출한다. 모델의 성능은 산출된 결과의 평균 값을 이용해 계산한다.
변수 선정 과정에서 동일한 의미를 가지는 중복 변수는 하나로 축소하고 의미가 불분명한 사고번호(ACC_NO), 위도(latitude)와 경도(longtitude) 등과 같이 모델 분석과 무관하다고 판단되는 변수는 제거하였다. 가해자연령(Attacker age)과 피해자연령(Victim age) 변수는 10대 단위로 구간을 나누어 처리하고, 기존의 발생일(Date) 변수는 ‘연/월/일’과 같이 단일 변수로 구성되어 있어 이를 ‘연도(Year)’, ‘월(Month)’, ‘일(Day)’로 분리했다.
본 연구는 심각도가 높은 ‘사망’과 ‘중상’을 예측하는 것이 중요하다고 판단하여 상해 심각도별 비율을 맞춰주기 위해 ‘사망’은 993개 모두를 사용하고 ‘상해없음’, ‘부상신고’, ‘경상’, ‘중상’에 해당하는 관측치를 각각 993개로 과소표본추출(Undersampling)하여 클래스에 속한 자료의 비율을 동일하게 맞춰주었다.
각 모델의 경우 서로 다른 매개변수를 가지고 있으며 모델의 성능은 매개변수를 어떻게 조정하느냐에 따라 달라진다. 본 연구에서는 각 모델이 상해 심각도를 예측하는데 최적의 성능을 낼 수 있도록 최적 매개변수 탐색(Hyperparameter tuning) 과정을 거쳐 선정된 매개변수를 적용하고, 이를 통해 모델별 성과를 평가할 수 있었다.
상해 심각도를 예측하기 위해 2장에서 소개한 6가지 데이터 마이닝 기법을 활용하여 모델의 성능을 비교하였다. 본 연구에서는 모델의 성능 평가를 위해 혼동 행렬(Confusion matrix)을 이용한 민감도(Sensitivity)와 특이도(Specificity)를 계산하였다. 혼동 행렬 구조는 [Table 3]에 제시되어 있다.
랜덤포레스트는 하나의 나무가 아닌 여러 개의 나무로 확장시키기 때문에 과적합(Overfitting)을 방지할 수 있으며 설명 변수 개수가 많은 고차원 자료에 적용하더라도 예측력이 높다는 장점이 있다. 본 연구에서는 배깅 계열의 랜덤포레스트와 부스팅 계열의 그래디언트 부스팅(Gradient boosting; GB)을 상해 심각도 예측에 활용하였다.
상해 심각도를 예측하기 위해 2장에서 소개한 6가지 데이터 마이닝 기법을 활용하여 모델의 성능을 비교하였다. 본 연구에서는 모델의 성능 평가를 위해 혼동 행렬(Confusion matrix)을 이용한 민감도(Sensitivity)와 특이도(Specificity)를 계산하였다.
Lee and Lee(2009)는 미국 NASS(National Automotive Sampling System)의 GES(General Estimates System) 데이터 집합 중 2008년 교통사고 데이터를 이용하였으며 6단계로 구분되는 상해 심각도 수준을 하나씩 예측하고 단계별로 분류하는 의사결정나무 기반의 앙상블 모델을 개발하였다. 심각도 수준을 예측하기 위해 단계별로 다른 의사결정나무를 생성하고 적중률 향상을 위해 ROC(Receiver Operating Characteristic) 곡선을 이용하여 최적 임계값(Threshold)을 단계별로 적용시켰다.
예측 모델을 학습시키기 위해 난수를 발생시켜 7대 3의 비율로 학습용 데이터와 평가용 데이터로 나누고 각각을 이용해서 모델을 학습하고 각 상해 심각도 수준을 예측하였다. 객관적이고 평균적인 성능 비교 및 평가를 위해 시드(Seed) 값을 달리하여 10개의 서로 다른 데이터 집합을 모델 학습에 사용하였으며 학습 시 표본 추출로 야기될 수 있는 편의(Bias)를 최소화하고 모델의 신뢰성을 높이기 위해 5-겹 교차 검증(5-Fold Cross Validation) 방식을 적용하였다.
Uddin and Huynh(2020)은 미국 오하이오 주에서 발생한 2011년부터 2015년 교통사고 데이터를 이용하였으며, 날씨 상태에 따른 트럭 운전자의 상해심각도 예측 연구를 수행하였다. 위의 연구에서는 5단계(Fatal, Disabling, Evident, Possible, No) 상해수준을 3단계(Major, Minor, No)로 통합하고, 날씨 상태(Normal, Rainy, Snow) 별 트럭 운전자의 상해정도 예측을 위해 혼합 로지스틱 회귀모형을 이용하였다.
이러한 배경에서 본 연구에서는 교통사고에 영향을 미칠 수 있는 각종 요인들을 파악하고, 이들을 통해 교통사고의 심각도를 예측할 수 있는 모형을 연구하고자 하였다. 이를 위해 도로교통공단(Korea Road Traffic Authority)과 교통안전정보관리시스템(Traffic Safety Information Management Complex System; TMACS)에서 제공받은 2015년부터 2017년 사이에 발생한 전국의 교통사고 데이터를 활용하여, 데이터마이닝(Data mining)기법 중 분류(Classification) 문제에 주로 사용되는 K-최근접 이웃(K-Nearest Neighbor; KNN), 로지스틱 회귀(Logistic regression; LR), 나이브베이즈(Naive Bayes; NB), 의사결정나무(Decision Tree; DT), 앙상블(Ensemble) 알고리즘을 이용하여 상해 심각도 예측 모델을 학습하고 각 알고리즘별 성능을 비교 분석하였다. 특히 각 상해 심각도 수준 간의 데이터 수에 차이가 있음에 주목하여 표본수가 많은 그룹에 대해서는 과소표본추출을 시행하는 등의 방법을 통해 분류 예측의 정확도를 높이고자 하였다.
수정된 데이터의 상해 심각도별 관측치 개수와 비율은 [Table 5]를 통해 확인할 수 있다. 재정의 된 문제에 대한 모델 구축과정은 5가지 상해심각도 예측 모델을 구축하는 것과 동일하게 진행하였으며 모델의 안정적인 성능을 위해 시드를 바꿔가며 반복횟수를 100회로 늘려서 진행하였다. [Table 6]은 그 결과로서, 각 모델별 민감도와 특이도를 확인할 수 있다.
모형 추정에 사용되는 중요변수를 찾기 위해 X2 검정과 의사결정 나무를 이용하여 주요 변수를 추출했다. 종속변수인 사고 심각도 항목의 경우 5개 범주(사망, 중상, 경상 부상신고, 물적피해)로 이루어져 있으나 연구에서는 3개의 범주(치명적 상해, 경미한 상해, 물적피해)로 줄인 후 인공신경망, 의사결정나무, 로지스틱 회귀분석 모델을 사용해 교통사고 심각도 분류 예측모형 구축 및 분류 정확도를 비교하였다.
종속변수인 피해자신체상해정도(Victim injury)는 ‘상해없음(No injury)’, ‘부상신고(Report an injury)’, ‘경상(Minor injury)’, ‘중상(Serious injury)’, ‘사망(Death)’, ‘알수없음(No info)’으로 구분되어 있었으나 ‘알수없음’을 제외한 5가지 상해정도만 고려하였다.
즉, ‘상해없음’과 ‘부상신고’를 ‘경미한 상해(Minor injury)’로, ‘경상’과 ‘중상’은 ‘중간 상해(Intermediate injury)’, ‘사망’은 ‘심각한상해(Serious injury)’로 분류하여 세 가지 심각도 수준에 대한 분류 문제로 재정의 하고 이에 의거하여 데이터를 가공하였다.
학습에 영향을 미치는 주요 변수를 알아보기 위해 LR, DT, RF 모델을 이용하여 상위 10개의 주요 변수를 [Table 7]에 나타내었다. 피해차량이 승용차(victim_vehicle_3)인 경우 모델에 상관없이 가장 큰 영향을 주는 것으로 나타났고, 피해차량 또는 가해차량이 이륜(vehicle_6)일 경우에도 상해 심각도에 큰 영향을 주는 것으로 나타났다.
대상 데이터
도로교통공단의 경우 34개의 속성을 취급하고 있었으며 교통안전정보관리시스템은 19개의 속성을 다루고 있다. 모델 학습에 있어 다양한 변수를 고려하기 위해 동일한 교통사고를 기준으로 통합하는 과정을 거쳐 53개의 변수를 가진 원시 데이터 집합을 구성하였다.
본 연구에서는 도로교통공단과 교통안전정보관리시스템에서 제공받은 2015년부터 2017년 사이에 발생한 669,287건의 전국 교통사고 데이터를 이용하였다. 두 기관에서 받은 데이터는 동일한 사건의 교통사고를 다루고 있으나 기관별로 취급하는 속성이 다르다.
종속변수인 피해자신체상해정도(Victim injury)는 ‘상해없음(No injury)’, ‘부상신고(Report an injury)’, ‘경상(Minor injury)’, ‘중상(Serious injury)’, ‘사망(Death)’, ‘알수없음(No info)’으로 구분되어 있었으나 ‘알수없음’을 제외한 5가지 상해정도만 고려하였다. 최종적으로 22개 변수와 368,681개의 데이터 집합을 구성하였다. [Table 1]을 통해 본 연구에서 사용하는 데이터 집합의 변수를 확인할 수 있으며, [Table 2]에는 상해 심각도 별 관측치의 개수와 비율을 나타냈다.
데이터처리
[Table 6]에 제시된, 각 모델 별 성능의 차이를 확인하기 위해 분산분석(Analysis of variance; ANOVA)을 진행하였다. 분산분석의 경우 세 개 이상의 집단 평균을 비교하기 위해 사용되는 통계적 기법으로 회귀분석에서 회귀계수의 유의성을 검정하거나 모델 간 성능 차이가 존재하는지 확인하기 위해 사용된다.
데이터 불균형 문제를 해소하기 위해 과소·과대표본추출 방법과 앙상블 방법을 사용하였으며, 기하평균을 이용해 분류모델의 성능을 평가하였다.
배깅은 학습 집합을 복원 추출하여 여러 개의 부분집합을 만들고 이를 이용해 서로 다른 분류기를 만들어 입력 데이터에 대한 결과를 산출한다. 모델의 성능은 산출된 결과의 평균 값을 이용해 계산한다. 부스팅은 학습된 이전 분류기를 통해 각 변수들의 가중치를 변화시키며 결과를 출력하는데, 이전 분류기에서 정확히 예측한 데이터는 분류가 가능하다고 판단하여 가중치를 낮추지만 예측에 실패한 데이터는 가중치를 높여 다음 분류기에서는 맞출 수 있도록 학습을 진행한다.
이론/모형
5(Quinlan, 1993) 알고리즘 등이 있다. CHAID(Chi-squared Automatic Interaction Detection)은 카이제곱 검정(Chi-Squared Test)이나 F-검정(F test)을 이용하고 CART(Classification and Regression Tree)와 C4.5 알고리즘은 지니 지수(Gini Index) 또는 엔트로피 지수(Entropy Index)를 사용한다. 식 (8)은 여러 분리기준 알고리즘 중 엔트로피 지수에 사용되는 목적함수를 보여준다.
예측 모델을 학습시키기 위해 난수를 발생시켜 7대 3의 비율로 학습용 데이터와 평가용 데이터로 나누고 각각을 이용해서 모델을 학습하고 각 상해 심각도 수준을 예측하였다. 객관적이고 평균적인 성능 비교 및 평가를 위해 시드(Seed) 값을 달리하여 10개의 서로 다른 데이터 집합을 모델 학습에 사용하였으며 학습 시 표본 추출로 야기될 수 있는 편의(Bias)를 최소화하고 모델의 신뢰성을 높이기 위해 5-겹 교차 검증(5-Fold Cross Validation) 방식을 적용하였다.
(2015)은 TMACS로부터 제공받은 2011년부터 2013년에 발생한 24,285건의 강원도 교통사고 데이터를 이용하여 교통사고 상해 심각도 예측 모델을 구축하였다. 데이터 불균형 문제를 해소하기 위해 과대 샘플링(Upsampling)기법 기반의 One-vs-All(OVA)방식을 고려한 분류기법으로 CART(Classification And Regression Trees) 의사결정나무 알고리즘과 랜덤포레스트 알고리즘이 결합된 하이브리드 기법을 활용하였다.
데이터 불균형 문제를 해소하기 위해 과소·과대표본추출 방법과 앙상블 방법을 사용하였으며, 기하평균을 이용해 분류모델의 성능을 평가하였다. 분류모델로는 로지스틱 회귀분석, 의사결정 나무, 그래디언트 부스팅, 신경망, 나이브베이즈 방법이 사용되었다.
K-최근접 이웃 분류 모형은 1968년 Cover and Hart(1967)에 의해 제안된 알고리즘으로 새로운 한 개체에 대하여 훈련 데이터 집합 안에 있는 K개의 가장 가까운 개체와 유사도를 비교하고, 가장 높은 빈도의 그룹으로 개체를 분류하는 방법이다. 유사도는 일반적으로 거리 개념을 이용하며 본 연구에서는 거리 개념 중 대표적으로 사용되는 유클리드 거리(Euclidean distance)를 이용하였다. 유클리드 거리는 식 (1)에서 제시하였으며 X와 Y는 두 점을 나타내고 xi와 yi는 각 점에 속한 좌표를 나타낸다.
이 결과를 보면, p-value가 0에 가까워 유의수준 5%하에서 모델 별 경미한 상해 예측에 대한 성능 차이가 있다는 결론을 얻을 수 있다. 추가적으로, 각 모델별 상세한 비교를 위해 터키(Tukey) 방법을 이용하였다. [Table 9]는 그 결과로서, 성능 비교의 기준이 되는 model(i)와 비교 대상 model(j)의 평균의 차이(diff), 95% 신뢰구간에 대한 상한(upper)과 하한(lower), 유의확률(p-value)을 보여준다.
성능/효과
[Table 6]에 제시된 결과를 보면 전체적인 성능 측면에서 로지스틱 회귀분석의 민감도가 0.655로 가장 우수하고, 개별 상해 수준에 대해서는 의사결정나무 모델이 ‘심각한 상해’를 80%에 가까운 민감도로 예측하여 가장 나은 성능을 보였다.
본 연구에서는 최근 공공데이터 개방 정책의 일환으로 확보된 도로교통공단과 교통안전정보관리시스템의 방대한 자료를 활용하여 국내 교통사고, 그 중 차량과 차량 간의 사고 데이터를 이용해 상해 심각도를 예측할 수 있는 방법을 제시하였다. 각 상해 심각도 수준 간의 데이터 수에 차이가 있음에 주목하여 표본수가 많은 그룹에 대해서는 과소표본추출(Under-sampling)을 시행한 가운데, 교통사고 현장에서의 활용도를 제고하기 위해 5가지 상해심각도 수준으로 분류된 데이터를 3가지 분류 체계로 변경하여 문제를 재정의한 결과, 예측 정확도의 뚜렷한 향상을 확인할 수 있었다.
그리고 ‘중간 상해’ 예측에는 로지스틱 회귀분석이, ‘경미한 상해’에는 그래디언트 부스팅 방법이 가장 좋은 성능을 보여주었다.
나아가, 세 가지 상해 심각도에 대한 분산분석과 사후분석을 진행한 결과, GB 모델이 경미한 상해를 가장 잘 예측하였으며 중간상해는 LR 모델이, 심각한 상해는 DT 모델이 우수한 성능을 보여주었다. 본 연구에서는 중증상해 예측에 초점을 맞추어 진행하였고, 여러 연구결과와 상해 심각도의 중요도를 고려할 때 6가지 예측모델 중 DT 모델이 상해 심각도 예측에 가장 적합함을 알 수 있었다.
둘째, ‘심각한 상해’에 대해서는 79.9%라는 높은 민감도를 보였으나, ‘경미한 상해’, ‘중간 상해’ 클래스의 민감도는 60%대로 다소 낮은 성능을 보여 실제 교통사고 현장에 활용하는데 다소 아쉬움이 있다.
본 연구에서는 중증상해 예측에 초점을 맞추어 진행하였고, 여러 연구결과와 상해 심각도의 중요도를 고려할 때 6가지 예측모델 중 DT 모델이 상해 심각도 예측에 가장 적합함을 알 수 있었다. 또한, 모델에 영향을 주는 주요 변수를 파악한 결과 피해차량이 승용차인지 여부가 가장 큰 영향을 미쳤으며, 차량과 관련된 차량특성 변수뿐만 아니라 교통법규, 피해자 나이 등과 같은 관련된 운전자 특성, 지역 특성 변수들의 중요도를 확인할 수 있었다. 또한, 연구에 사용된 변수들의 특성상 변수들의 중요도 보다는 모델 별 알고리즘에 따라 심각도 예측 성능에 차이가 있음을 알 수 있었다.
또한, 모델에 영향을 주는 주요 변수를 파악한 결과 피해차량이 승용차인지 여부가 가장 큰 영향을 미쳤으며, 차량과 관련된 차량특성 변수뿐만 아니라 교통법규, 피해자 나이 등과 같은 관련된 운전자 특성, 지역 특성 변수들의 중요도를 확인할 수 있었다. 또한, 연구에 사용된 변수들의 특성상 변수들의 중요도 보다는 모델 별 알고리즘에 따라 심각도 예측 성능에 차이가 있음을 알 수 있었다.
나아가, 세 가지 상해 심각도에 대한 분산분석과 사후분석을 진행한 결과, GB 모델이 경미한 상해를 가장 잘 예측하였으며 중간상해는 LR 모델이, 심각한 상해는 DT 모델이 우수한 성능을 보여주었다. 본 연구에서는 중증상해 예측에 초점을 맞추어 진행하였고, 여러 연구결과와 상해 심각도의 중요도를 고려할 때 6가지 예측모델 중 DT 모델이 상해 심각도 예측에 가장 적합함을 알 수 있었다. 또한, 모델에 영향을 주는 주요 변수를 파악한 결과 피해차량이 승용차인지 여부가 가장 큰 영향을 미쳤으며, 차량과 관련된 차량특성 변수뿐만 아니라 교통법규, 피해자 나이 등과 같은 관련된 운전자 특성, 지역 특성 변수들의 중요도를 확인할 수 있었다.
경미한 상해에 대해 분산분석 결과를 [Table 8]에 정리하였다. 이 결과를 보면, p-value가 0에 가까워 유의수준 5%하에서 모델 별 경미한 상해 예측에 대한 성능 차이가 있다는 결론을 얻을 수 있다. 추가적으로, 각 모델별 상세한 비교를 위해 터키(Tukey) 방법을 이용하였다.
그리고 ‘중간 상해’ 예측에는 로지스틱 회귀분석이, ‘경미한 상해’에는 그래디언트 부스팅 방법이 가장 좋은 성능을 보여주었다. 이는 기존의 5가지 상해 수준을 이용하여 예측한 것보다 전체적으로 크게 향상된 것으로 앞서 소개한 상해수준 통합과정이 각 상해별 경계에 위치한 데이터를 효과적으로 분리하고 결과적으로 모델의 예측 성능을 향상시킬 수 있음을 확인하였다.
이 결과에서도 유의확률은 모두 0에 가까워 모델 간 성능차이와 우위 관계를 확인할 수 있다. 즉, GB 모델이 경미한 상해를 가장 잘 예측하고 RF 모델이 다음으로 좋은 성능을 보여주었다.
학습에 영향을 미치는 주요 변수를 알아보기 위해 LR, DT, RF 모델을 이용하여 상위 10개의 주요 변수를 [Table 7]에 나타내었다. 피해차량이 승용차(victim_vehicle_3)인 경우 모델에 상관없이 가장 큰 영향을 주는 것으로 나타났고, 피해차량 또는 가해차량이 이륜(vehicle_6)일 경우에도 상해 심각도에 큰 영향을 주는 것으로 나타났다. 모델에 무관하게 전반적으로 차량특성과 관련된 변수들이 교통사고 상해 심각도에 주요한 영향을 미치며, 이외에도 중앙선침범(violation_8), 피해자나이(victim_age_70)와 같은 도로 이용자 특성 변수와 지역특성에 해당하는 서울(city_9) 등이 상해심각도 예측모델을 학습하는데 중요한 역할을 함을 알 수 있다.
후속연구
향후 연구 과제로 차량의 전복여부, 차량 속도, 안전벨트 착용여부 등과 같은 상해 심각도를 구분 짓는 데에 있어 결정적인 역할을 할 수 있는 변수들이 추가적으로 수집된다면 전체 민감도를 향상시키는 모델 개발이 가능할 것으로 기대된다. 또한 각 지역의 교통 및 지리적인 특성과 관련된 추가적 자료를 이용할 경우 지역별 상해 심각도 예측 모델 개발이 가능할 것이다.
특히 각 상해 심각도 수준 간의 데이터 수에 차이가 있음에 주목하여 표본수가 많은 그룹에 대해서는 과소표본추출을 시행하는 등의 방법을 통해 분류 예측의 정확도를 높이고자 하였다. 또한 제시된 방법을 통해 각종 요인 변수를 토대로 사고 후에 예상되는 피해 정도를 추정하고, 나아가 응급조치 수행 시 사고피해자의 2차 상해를 최소화하기 위한 도구로 활용될 수 있도록 하였다.
이상에서 살펴본 바와 같이 기존의 연구들은 국내 자동차 사고 전반을 반영할 수 있는 데이터의 부재 또는 모형의 한계로 인해 현 시점에서 국내 자동차 교통사고 심각도 예측에 활용하기에는 한계가 있다. 이에 본 연구에서는 국내 교통사고에 초점을 맞추고 국내 전역에서 발생한 교통사고 데이터를 대상으로 하여 우리의 교통현실을 충분히 반영하고, 상해 심각도 수준과 사실상 대동소이한 변수들을 제외하여 예측 모델로서의 가치를 확보하고자 하였다.
향후 연구 과제로 차량의 전복여부, 차량 속도, 안전벨트 착용여부 등과 같은 상해 심각도를 구분 짓는 데에 있어 결정적인 역할을 할 수 있는 변수들이 추가적으로 수집된다면 전체 민감도를 향상시키는 모델 개발이 가능할 것으로 기대된다. 또한 각 지역의 교통 및 지리적인 특성과 관련된 추가적 자료를 이용할 경우 지역별 상해 심각도 예측 모델 개발이 가능할 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
K-최근접 이웃 분류 모형이란?
K-최근접 이웃 분류 모형은 1968년 Cover and Hart(1967)에 의해 제안된 알고리즘으로 새로운 한 개체에 대하여 훈련 데이터 집합 안에 있는 K개의 가장 가까운 개체와 유사도를 비교하고, 가장 높은 빈도의 그룹으로 개체를 분류하는 방법이다. 유사도는 일반적으로 거리 개념을 이용하며 본 연구에서는 거리 개념 중 대표적으로 사용되는 유클리드 거리(Euclidean distance)를 이용하였다.
사회적 비용은 어떻게 구분되는가?
7%에 이르는 규모이다. 사회적 비용은 크게 인적피해 비용, 물적피해 비용, 사회기관 비용으로 구분되며 그 중 인적피해 비용이 12조 553억 원으로 가장 많은 부분을 차지하였다. 또한 인적 피해 비용은 심각도에 따라 달리 책정되는데 사고로 인한 1인당 평균 인적 피해 비용은 사망 4억 4,517만원, 중상 6,292만원, 경상 424만원, 부상신고 204만원으로 보고되어 있다(Korea Road and Traffic Authority, 2018).
나이브베이즈의 종속변수의 범주가 학습에 사용되지 않은 경우 0의 확률을 가지게 되는 단점을 해결하기 위한 방법은 무엇인가?
나이브베이즈는 개념이 단순하고 계산이 효율적이며 좋은 성능을 보이는 장점이 있으나 좋은 성능을 위해 많은 수의 데이터를 필요로 하며 종속변수의 범주가 학습에 사용되지 않은 경우 0의 확률을 가지게 되는 단점이 있다. 이를 해결하기 위해 일반적으로 Laplace 평활화(smoothing)를 적용하여 0의 확률을 갖지 않도록 0보다 큰 값을 설정하여 계산한다.
Dietterich T. G.(1997), "Machine learning research: four current directions," AI Magazine, vol. 18, no. 4, pp.97-136.
Gentle J. E. and Hadle W.(2012), Handbook of Computational Statistics: Concepts and Methods, pp.985-1022.
Hahn D. W., Park K. S. and Shin Y. K.(2002), "A Research on Regional Differences in Traffic environments and Driver's Behaviors in Korea," The Korean Journal of Psychological Association, vol. 8, no. 1, pp.17-40.
Hastie T., Tibshirani R. and Friedman J.(2009), The Elements of Statistical Learning, Springer, pp.307-310.
Hong S. E., Lee G. Y. and Kim H. J.(2015), "A Study on Traffic Accident Injury severity Prediction Model Based on Public Data," Journal of Advanced Information Technology and Convergence, vol. 13, no. 5, pp.109-118.
Isaac J. and Harikumar S.(2016), "Logistic regression within DBMS," 2nd International Conference on Contemporary Computing and Informatics (IC3I), pp.661-666.
Jeong H. J., Jang Y. C., Bowman P. J. and Masoud N.(2018), "Classification or motor vehicle crash injury severity: A hybrid approach for imbalanced data," Accident Analysis and Prevention, vol. 120, pp.250-261.
Jeong H. R., Kim H. H., Park S. M., Han E., Kim K. H. and Yun I. S.(2017), "Prediction of Severities of Rental Car Traffic Accidents using Naive Bayes Big Data Classifier," The Journal of The Korea Institute of Intelligent Transport System, vol. 16, no. 4, pp.1-12.
Jung Y. H., Eo S. H., Moon H. S. and Cho H. J.(2010), "A Study for Improving the Performance of Data Mining Using Ensemble Techniques," Communications for Statistical Applications and Methods, vol. 17, no. 4, pp.561-574.
Kang P. and Cho S.(2006), "EUS SVMs: Ensemble of Under sampled SVMs for Data Imbalance Problems," Lecture Notes in Computer Science, vol. 4232, pp.837-846.
Kass G.(1980), "An exploratory technique for investigating large quantities of categorical data," Applied Statistics, vol. 29 no. 2, pp.119-127.
Korea Road and Traffic Authority(2014), Estimation of Traffic Accident Costs by region.
Korea Road and Traffic Authority(2018), Estimation and Evaluation of Traffic Accident Costs.
Korea Road and Traffic Authority(2019), Comparison of Traffic Accident of OECD Members States.
Lee J. S. and Heo G.(2011), "Injury Severity Prediction of Traffic Accident using Data Mining," Proceedings of the 2011 Fall Conference of Korean Intelligent Information Systems Society, pp.199-206.
Lee J. S. and Lee E. J.(2009), "Analysis of Traffic Accidents using Decision Tree Ensemble Model," Proceedings of the 2009 Fall Conference of Korean Intelligent Information Systems Society, pp.211-218.
Lee J. Y. and Lee Y. J.(2018), "Exploration of the Factors Determining the Lecture Education of Liberal Arts Courses Utilizing the Decision Tree Analysis," Korean Journal of General Education, vol. 12, no. 6, pp.67-93.
Quinlan J. R.(1993), C4.5 : Programs for machine learning, Morgan Kaufmann, San Mateo.
Sohn S. Y. and Shin H. W.(1998), "Data Mining for Road Traffic Accident Type Classification," Journal of the Korean Institute of Industrial Engineers, pp.542-549.
Uddin M. and Huynh N.(2020), "Injury severity analysis of truck-involved crashes under different weather conditions," Accident Analysis and Prevention, vol. 141.
Yoo J. E.(2015), "Random forests, an alternative data mining technique to decision tree," Journal of Educational Evaluation, vol. 28, no. 2, pp.427-448.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.