[국내논문]Random Forest를 활용한 고속도로 교통사고 심각도 비교분석에 관한 연구 Studying the Comparative Analysis of Highway Traffic Accident Severity Using the Random Forest Method.
연구목적: 고속도로 교통사고의 추세는 증감을 반복하며 도로 종류 중 고속도로에서의 치사율은 최고치를 나타내고 있다. 따라서 국내 실정을 반영한 개선대책 수립이 필요하다. 연구방법: Random Forest를 활용해 2019년부터 2021년까지 전국 고속도로 노선 중 사고 다발 10개 노선에서 발생한 교통사고 자료로 사고 심각도 분석 및 사고 심각도에 미치는 영향요인을 도출하였다. 연구결과: SHAP 패키지를 활용해 상위 10개의 변수 중요도를 분석한 결과, 고속도로 교통사고 중 사고 심각도에 높은 영향을 미치는 변수는 가해자 연령이 20세 이상 39세 미만, 시간대가 주간(06:00-18:00), 주말(토~일), 계절이 여름과 겨울, 법규위반이 안전운전불이행, 도로 형태가 터널, 기하구조상 차로 수가 많고 제한속도가 높은 경우로 총 10개의 독립변수에서 고속도로 교통사고 심각도와 양(+)의 상관관계를 가지는 것으로 분석되었다. 결론:고속도로에서의 사고 발생은 매우 다양한 요인의 복합적인 작용으로 인해 발생하므로 사고 예측에 많은 어려움이 있지만 본 연구로 도출된 결과를 활용해 고속도로 교통사고 심각도에 영향을 주는 요인을 심층적으로 분석해 효율적이고 합리적인 대응책 수립을 위한 노력이 필요하다.
연구목적: 고속도로 교통사고의 추세는 증감을 반복하며 도로 종류 중 고속도로에서의 치사율은 최고치를 나타내고 있다. 따라서 국내 실정을 반영한 개선대책 수립이 필요하다. 연구방법: Random Forest를 활용해 2019년부터 2021년까지 전국 고속도로 노선 중 사고 다발 10개 노선에서 발생한 교통사고 자료로 사고 심각도 분석 및 사고 심각도에 미치는 영향요인을 도출하였다. 연구결과: SHAP 패키지를 활용해 상위 10개의 변수 중요도를 분석한 결과, 고속도로 교통사고 중 사고 심각도에 높은 영향을 미치는 변수는 가해자 연령이 20세 이상 39세 미만, 시간대가 주간(06:00-18:00), 주말(토~일), 계절이 여름과 겨울, 법규위반이 안전운전불이행, 도로 형태가 터널, 기하구조상 차로 수가 많고 제한속도가 높은 경우로 총 10개의 독립변수에서 고속도로 교통사고 심각도와 양(+)의 상관관계를 가지는 것으로 분석되었다. 결론:고속도로에서의 사고 발생은 매우 다양한 요인의 복합적인 작용으로 인해 발생하므로 사고 예측에 많은 어려움이 있지만 본 연구로 도출된 결과를 활용해 고속도로 교통사고 심각도에 영향을 주는 요인을 심층적으로 분석해 효율적이고 합리적인 대응책 수립을 위한 노력이 필요하다.
Purpose: The trend of highway traffic accidents shows a repeating pattern of increase and decrease, with the fatality rate being highest on highways among all road types. Therefore, there is a need to establish improvement measures that reflect the situation within the country. Method: We conducted ...
Purpose: The trend of highway traffic accidents shows a repeating pattern of increase and decrease, with the fatality rate being highest on highways among all road types. Therefore, there is a need to establish improvement measures that reflect the situation within the country. Method: We conducted accident severity analysis using Random Forest on data from accidents occurring on 10 specific routes with high accident rates among national highways from 2019 to 2021. Factors influencing accident severity were identified. Result: The analysis, conducted using the SHAP package to determine the top 10 variable importance, revealed that among highway traffic accidents, the variables with a significant impact on accident severity are the age of the perpetrator being between 20 and less than 39 years, the time period being daytime (06:00-18:00), occurrence on weekends (Sat-Sun), seasons being summer and winter, violation of traffic regulations (failure to comply with safe driving), road type being a tunnel, geometric structure having a high number of lanes and a high speed limit. We identified a total of 10 independent variables that showed a positive correlation with highway traffic accident severity. Conclusion: As accidents on highways occur due to the complex interaction of various factors, predicting accidents poses significant challenges. However, utilizing the results obtained from this study, there is a need for in-depth analysis of the factors influencing the severity of highway traffic accidents. Efforts should be made to establish efficient and rational response measures based on the findings of this research.
Purpose: The trend of highway traffic accidents shows a repeating pattern of increase and decrease, with the fatality rate being highest on highways among all road types. Therefore, there is a need to establish improvement measures that reflect the situation within the country. Method: We conducted accident severity analysis using Random Forest on data from accidents occurring on 10 specific routes with high accident rates among national highways from 2019 to 2021. Factors influencing accident severity were identified. Result: The analysis, conducted using the SHAP package to determine the top 10 variable importance, revealed that among highway traffic accidents, the variables with a significant impact on accident severity are the age of the perpetrator being between 20 and less than 39 years, the time period being daytime (06:00-18:00), occurrence on weekends (Sat-Sun), seasons being summer and winter, violation of traffic regulations (failure to comply with safe driving), road type being a tunnel, geometric structure having a high number of lanes and a high speed limit. We identified a total of 10 independent variables that showed a positive correlation with highway traffic accident severity. Conclusion: As accidents on highways occur due to the complex interaction of various factors, predicting accidents poses significant challenges. However, utilizing the results obtained from this study, there is a need for in-depth analysis of the factors influencing the severity of highway traffic accidents. Efforts should be made to establish efficient and rational response measures based on the findings of this research.
따라서 본 연구는 고속도로 노선 중 사고 다발 10개의 노선을 선정해 사고 심각도를 분석하고 이에 영향을 미치는 요인을 도출하는 데에 목적이 있다. 이때, 고속도로 교통사고 자료와 고속도로의 주요 분석단위인 콘 존(Congestion Zone, Conzone)을 결합한 자료를 활용해 분석을 진행했으며 머신러닝의 PyCaret 라이브러리를 활용해 채택된 모델인 랜덤 포레스트 회귀분석(Random Forest Regressor)으로 고속도로 사고 심각도에 미치는 영향요인 분석과 변수 중요도를 도출하였다.
특히 교통 문제는 국가적 차원에서 그 심각성을 무겁게 인식하고 교통안전을 위한 체계적인 계획 수립 및 시행의 다각적인 노력이 필요하다. 이에 따라 본 연구에서는 Random Forest를 활용하여 2019년부터 2021년까지 발생한 10개 노선의 고속도로 교통사고 자료로 사고 심각도에 영향을 주는 요인을 도출하여 각 요인이 미치는 영향력을 분석하였다.
제안 방법
이는 국내 교통사고의 감소를 위한 개선의 여지가 분명히 남아있다고 판단되며 특히 고속도로에서의 사고 발생 시 가장 높은 치사율을 보이고 있는 만큼 고속도로 사고 감소를 위한 사고 심각도 영향요인에 대한 정확한 분석과 국내의 실정을 반영한 여러 고민이 필요하다. 또한, 최근 머신러닝 및 딥러닝과 같은 빅 데이터를 활용한 새로운 분석방법이 주목을 받기 시작한 만큼, 예측 성공률을 높이는 데에 중점을 두고 이종(異種)의 대량 자료를 활용하여 분석하는 데에 장점을 보이는 빅 데이터 분석 기법을 활용하여 사고 심각도를 분석하고자 한다.
따라서 본 연구는 고속도로 노선 중 사고 다발 10개의 노선을 선정해 사고 심각도를 분석하고 이에 영향을 미치는 요인을 도출하는 데에 목적이 있다. 이때, 고속도로 교통사고 자료와 고속도로의 주요 분석단위인 콘 존(Congestion Zone, Conzone)을 결합한 자료를 활용해 분석을 진행했으며 머신러닝의 PyCaret 라이브러리를 활용해 채택된 모델인 랜덤 포레스트 회귀분석(Random Forest Regressor)으로 고속도로 사고 심각도에 미치는 영향요인 분석과 변수 중요도를 도출하였다.
대상 데이터
고속도로 사고의 71.7%를 차지하고 있는 10개 노선(경부선, 영동선, 서해안선, 남해선, 수도권제1순환선, 중부선, 중부내륙선, 중앙선, 호남선, 서울양양선)을 대상으로 수집한 교통사고 자료 총 4,475건 중 70%를 학습 데이터로, 30%를 평가 데이터로 활용하였다. 이때, 변수 중 기하구조 자료 중 곡선반경 길이의 평균과 종단경사 데이터의 경우 서로 다른 변수의 범위를 일정하게 맞춰주기 위해 StandardScaler 기법을 활용한 데이터 스케일링 과정을 거쳤으며 개발한 모형의 성능을 평가를 위한 지표로 RMSE를 선정하였다.
따라서 사고 심각도에 영향을 주는 요인을 파악하기 위해 사고 심각도에 영향을 미치는 요인을 명확히 알 수 없는 데이터의 열은 제외하고 분석을 진행하였으며 총 4,475행×48열의 데이터를 구축해 연구에 활용하였다.
연구의 공간적 범위는 전국의 고속도로 노선 중 많은 사고 건수와 다양한 사고 정보를 수집하여 일관성 있고 신뢰성 확보가 가능한 상위 10개의 노선을 선정하여 연구를 수행했다. 선정된 노선은 경부선, 영동선, 서해안선, 남해선, 수도권제1순환선, 중부선, 중부내륙선, 중앙선, 호남선, 서울양양선의 총 10개 노선이다. 시간적 범위는 2019년에서 2021년의 3년간 발생한 교통사고 자료로 분석을 진행했으며, 교통사고 심각도 분석을 위한 사고 정보는 교통사고분석시스템(Traffic Accident Analysis System, TAAS)의 자료를 활용하였다.
선정된 노선은 경부선, 영동선, 서해안선, 남해선, 수도권제1순환선, 중부선, 중부내륙선, 중앙선, 호남선, 서울양양선의 총 10개 노선이다. 시간적 범위는 2019년에서 2021년의 3년간 발생한 교통사고 자료로 분석을 진행했으며, 교통사고 심각도 분석을 위한 사고 정보는 교통사고분석시스템(Traffic Accident Analysis System, TAAS)의 자료를 활용하였다.
연구의 공간적 범위는 전국의 고속도로 노선 중 많은 사고 건수와 다양한 사고 정보를 수집하여 일관성 있고 신뢰성 확보가 가능한 상위 10개의 노선을 선정하여 연구를 수행했다. 선정된 노선은 경부선, 영동선, 서해안선, 남해선, 수도권제1순환선, 중부선, 중부내륙선, 중앙선, 호남선, 서울양양선의 총 10개 노선이다.
데이터처리
고속도로 교통사고 심각도 모형분석에 앞서 수집한 자료를 통해 기술통계분석을 수행하였다. Table 2를 살펴보면 가해자 성별이 남성일 때 7,825건의 사고를 유발하여 전체 교통사고 중 86%를 차지하였고 연령대의 경우 60세 이상일 때 1,843건으로 가장 적었으나 사고 심각도가 평균적으로 7.
7%를 차지하고 있는 10개 노선(경부선, 영동선, 서해안선, 남해선, 수도권제1순환선, 중부선, 중부내륙선, 중앙선, 호남선, 서울양양선)을 대상으로 수집한 교통사고 자료 총 4,475건 중 70%를 학습 데이터로, 30%를 평가 데이터로 활용하였다. 이때, 변수 중 기하구조 자료 중 곡선반경 길이의 평균과 종단경사 데이터의 경우 서로 다른 변수의 범위를 일정하게 맞춰주기 위해 StandardScaler 기법을 활용한 데이터 스케일링 과정을 거쳤으며 개발한 모형의 성능을 평가를 위한 지표로 RMSE를 선정하였다.
이론/모형
파이캐럿(PyCaret)을 활용하여 머신러닝 모델을 자동으로 학습한 결과, 랜덤 포레스트 회귀모형(RandomForestRegressor)이 사고 심각도 분석에 가장 최적의 모델로 채택되었으며 n_estimators, max_depth, bootstrap, min_samples_leaf, min_samples_split, max_features를 통해 최적화 과정을 거쳤다. 모든 최적화 프로세스는 RandomSearchCV를 활용하였다. 최종적으로 하이퍼 파라미터는 ‘n_estimators’는 1000, ‘max_depth’는 None, ‘bootstrap’은 True, ‘min_samples_leaf’는 2, ‘min_samples_split’은 2, ‘max_features’는 auto일 때 RMSE의 성능이 7.
변수의 값을 표준화시키는 수식은 Equation 1과 같으며 z는 표본의 표준점수(Z-score)를, μ는 평균, σ는 평균으로부터의 표준편차이다. 본 연구에서는 표준화 기법 중 StandardScaler 기법을 활용해 표준화를 진행했으며 Fig. 3은 스케일링을 완료한 데이터의 샘플이다.
개발한 모형의 성능 평가를 위해 성능 평가지표 선정이 필요하다. 회귀모델에 사용되는 성능 평가지표에는 MAE, MSE, RMSE, R2, MAPE 등이 있으며 본 연구에서는 예측 모델에 주로 사용되는 회귀모형 성능 평가지표인 RMSE를 선정하였다.
성능/효과
(2019)는 교통사고로 인한 경제적 손실이 가중됨에 따라 교통사고 심각도를 예측하는 모델은 교통시스템에 중요한 작업이라고 주장하였다. AdaBoost, LR(Logistic Regression), NB(Naive Bayes), RF(Random Forests)의 머신러닝 알고리즘을 활용해 사고 심각도를 분석한 결과, Random Forest 모델의 정확도가 75.5%로 가장 높게 나타났고, LR(74.5%), AdaBoost(74.5%), NB(73.1%)의 정확도를 나타내는 것으로 분석되었다.
4는 파이캐럿을 활용해 모델의성능을 비교한 결과이다. RMSE 값을 기준으로 성능이 좋은 다섯개의 모델을 Top 5 변수로 출력하여 나타낸 결과, 최종 채택되어 고속도로 교통사고 심각도 분석에 사용된 모형은 RMSE 값이 6.8963인 랜덤 포레스트 회귀모형(RandomForestRegressor)이다.
78로 다음으로 높게 나타났다. 또한, 기하구조 요인 중 고속도로 2차로 노선에서 3,202건으로 가장 많은 사고가 발생했고 심각도 평균 역시도 2차로인 경우 8.60으로 분석되어 고속도로 2차로 노선에서의 발생한 사고가 심각도에 큰 영향을 미치는 것으로 분석되었다. 고속도로 제한속도는 100km/h에서 5,299건의 사고가 발생해 전체 사고 중 60%를 차지한 것으로 나타났으나 사고 심각도 평균은 80km/h일 때 8.
(2015)는 서울, 수도권, 부산광역시의 4지 신호 교차로를 대상으로 도로의 기하구조, 교통 특성 및 환경 특성 등 다양한 요인을 고려한 교통사고 예측모형을 구축하고 교차로에서 발생하는 사고와의 상관관계를 규명하고자 하였다. 분석 결과, 기존 음이항 모형보다 확률적 음이항 모형에서 설명력이 높게 나타났으며 종속변수를 총 교통사고 건수가 아닌 사고 심각도별로 사고 건수를 적용한다면 각 변수가 단순 사고 발생이 아닌 사고 심각도에 미치는 변수를 파악할 수 있다고 주장하였다.
(2021)은 기계학습을 기반으로 다양한 알고리즘을 활용하여 고령 운전자에 의해 발생하는 보행자 피해사고 심각도에 미치는 요인을 분석하고자 하였다. 분석 결과, 로지스틱 모형과 SVM 모형이 상대적으로 높은 예측력을 보였고 정확도 측면에서는 Random Forest가 뛰어난 것으로 분석되어 보행자의 부상 정도를 정확히 예측하기 위해서는 Random Forest 모형의 이용을 권장한다고 주장하였다.
(2022)는 인구 대비 교통사고 사망자 비율이 높은 대전시를 대상으로 보행자 교통사고 자료를 수집한 후, 기계 학습을 통한 최적의 알고리즘과 심각도에 영향을 미치는 요인을 도출하고자 하였다. 분석결과, Ada Boost와 Random Forest 기법이 최적의 성능을 나타내었으며, 대전시 보행자 교통사고 심각도에 영향을 미치는 요인으로는 보행자 연령대가 70대 또는 20대인 경우, 사고유형이 횡단사고인 경우, 교통사고 심각도에 영향을 주는 것으로 나타났으며 이에 따른 사고 저감 대책을 제안하였다.
Park(2011)은 신호 교차로에서 보행자 사고 심각성을 인지하고 순서형 프로빗 모형을 이용해 횡단보행자 사고 심각도에 영향을 미치는 요인을 도출하고자 하였다. 분석결과, 사고 심각도에 영향을 미치는 변수로 보행자 연령대, 토지이용, 시간대, 차종, 제한속도 등으로 유의수준이 0.05 이하로 95%의 신뢰수준에서 통계적 유의성이 존재하는 것으로 나타났다.
(2017)은 고속도로 교통사고의 사고 건당 심각도(EPDO)를 계산하여 선형회귀 분석을 통한 사고 심각도와 EPDO에 미치는 요인을 분석하였다. 분석결과, 사고유형 중 차대 차 사고인 경우 EPDO가 2.006, 사고에 직접적인 영향을 미치는 사고요인 중 역주행 운행인 경우 EPDO가 3.142, 주간 발생 사고보다 야간 발생 사고의 경우 EPDO가 0.221로 나타났으며 운전자 연령대가 20대 미만이거나 60대 이상일 경우에서 유의확률이 나타났다.
(2021)은 XGBoost를 활용하여 이륜자동차 교통사고 심각도에 영향을 미치는 요인을 도출하고 이륜자동차로 인해 발생하는 심각한 교통사고 예방을 위한 법규 개편방안을 제시하였다. 분석결과, 신호위반인 경우, 운전자 연령대가 60대 이상인 경우, 이륜자동차 단독사고인 경우, 중앙선 침범 사고인 경우가 이륜자동차 교통사고 심각도에 영향을 주는 변수로 나타났다. 이를 토대로 이륜자동차 법규위반 감소를 위한 노력과 이륜자동차 안전 교육의 필요성을 강조하였다.
최종 구축한 RandomForestRegressor 모형은 SHAP 패키지를 활용해 고속도로 교통사고 심각도에 영향을 주는 변수의 중요도를 해석한 결과, 가해자 연령대가 20세 이상 39세 미만인 경우, 시간대가 주간(06:00~18:00)인 경우, 주말(토~일)인 경우, 계절이 여름과 겨울인 경우, 기상상태가 흐림인 경우, 가해 운전자 차종이 승합차인 경우, 법규위반이 안전운전 불이행인 경우, 도로 형태가 터널인 경우, 기하구조 상 차로 수가 많고 제한속도가 높은 경우로 총 10개의 독립변수에서 고속도로 교통사고 심각도와 양(+)의 상관관계를 나타내었다.
최종적으로 Random Forest 활용한 고속도로 사고 다발 10개 노선(경부선, 영동선, 서해안선, 남해선, 수도권제1순환선, 중부선, 중부내륙선, 중앙선, 호남선, 서울양양선)의 교통사고 심각도 영향요인을 분석한 결과, RMSE 값이 8.093으로 측정되었다. Random Forest를 활용한 사고 심각도 모형을 SHAP 패키지를 활용해 영향을 미치는 요인을 수치화하여 분석했으며 Table 4와 같다.
파이캐럿(PyCaret)을 활용하여 머신러닝 모델을 자동으로 학습한 결과, 랜덤 포레스트 회귀모형(RandomForestRegressor)이 사고 심각도 분석에 가장 최적의 모델로 채택되었으며 n_estimators, max_depth, bootstrap, min_samples_leaf, min_samples_split, max_features를 통해 최적화 과정을 거쳤다. 모든 최적화 프로세스는 RandomSearchCV를 활용하였다.
후속연구
하지만 도로 종류 중 고속도로에서의 사고 치사율이 최고치를 달하는 만큼, 본 연구로 도출된 결과를 바탕으로 향후 연구에서는 전국 고속도로 노선의 사고 심각도 분석으로 범위를 넓혀 사고 심각도에 영향을 주는 요인을 분석하고 좀 더 효율적이고 합리적인 대응책 수립을 위한 노력이 필요하다. 특히, 관측변수를 더욱 다양화 및 세분화하여 분석에 활용한다면 좀 더 신뢰성 있는 사고 예측모형을 개발할 수 있을 것으로 판단된다.
고속도로에서의 교통사고 발생은 매우 다양한 요인들의 복합적인 작용으로 인해 발생하는 만큼 사고의 정확한 예측에는 많은 어려움이 있다. 하지만 도로 종류 중 고속도로에서의 사고 치사율이 최고치를 달하는 만큼, 본 연구로 도출된 결과를 바탕으로 향후 연구에서는 전국 고속도로 노선의 사고 심각도 분석으로 범위를 넓혀 사고 심각도에 영향을 주는 요인을 분석하고 좀 더 효율적이고 합리적인 대응책 수립을 위한 노력이 필요하다. 특히, 관측변수를 더욱 다양화 및 세분화하여 분석에 활용한다면 좀 더 신뢰성 있는 사고 예측모형을 개발할 수 있을 것으로 판단된다.
참고문헌 (10)
Almamlook, R.E., Kwayu, K.M., Alkasisbeh, M.R., Frefer, A.A. (2019). "Comparison of machine learning?algorithms for predicting traffic accident severity." IEEE Jordan International Joing Conference on Electrical?Engineering and Information Technology(JEEIT), Amman, Jordan, pp. 272-276.
Breiman, L. (2001). "Random forests." Machine Learning, Vol. 45, pp. 5-32.
Kang, H.-S., Noh, M.-G. (2022). "Classifying the severity of pedestrian accidents using ensemble machine learning?algorithms: A case study of Daejeon City." The Society of Digital Policy & Management, Vol. 20, No. 5, pp. 39-46.
Kim, S.-H., Lym, Y.-B., Kim, K.-J. (2021). "Classifying severity of senior driver accidents in capital regions based?on machine learning algorithms." The Society of Digital Policy & Management, Vol.19, No. 4, pp. 25-31.
Korea National Police Agency (2021). Traffic Accident Statistics. Seoul.
Kwon, C.-W., Chang, H.-H. (2021). "Comparative analysis of traffic accident severity of tow-wheeled vehicles?using XGBoost." Journal of Information Technology Services, Vol. 20, No. 4, pp.1-12.
Lee, G.-H., Rho, J.-H. (2015). "A development of traffic accident model by random parameter: Focus on capital area?and Busan 4-legs signalized intersections." The Journal of The Korea Institute of Intelligent Transport Systems, Vol.?14, No. 6, pp. 91-99.
Lee, J.-E., Kim, Y.-B., Kim, J.-N. (2020). "Hyperparameter optimization for image classification in convolutional?neural network." The Journal of Korea Institute of Convergence Signal Processing, Vol. 21, No. 3, pp. 148-153.
Park, J.-S. (2011). "Severity analysis of the vehicle-pedestrian crashes at signalized intersection." Regional Policy?Review, Vol. 22, No. 1, pp. 1-12.
Yoon, B.-J., Lee, S.-Y., Jung, S.-Y. (2017). "A study on the factors of highway traffic accidents affecting the?EPDO." The Korean Society of Disaster Information, Goyang, pp.251-252.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.