[논문]교통사고 데이터의 패턴 분석과 Hybrid Model을 이용한 피해자 상해 심각도 예측

주영지; 홍택은; 신주현

문제 정의

교통사고 데이터는 사고와 연관된 다양한 속성으로 이뤄져있으며, 교통사고로 인한 인명 피해를 줄이기 위해서는 피해자 상해 심각도와 관련된 다른 속성간의 패턴 분석 및 사고 발생 요인을 찾아 개선하여 교통사고 피해에 따른 후속조치가 필요하다[4]. 따라서 본 연구에서는 교통사고 데이터를 이용하여 데이터 마이닝 기법을 Hybrid Model로 구축하고 교통사고 피해자 상해 심각도 예측을 위한 방법을 제안한다. 교통사고 데이터에서 클래스 불균형의 문제를 해결하기 위해 기존 데이터와 Sampling 기법을 적용한 교통사고 데이터를 학습 데이터로 사용한다.
본 논문에서는 균형 데이터와 불균형 데이터를 이용하여 피해자 상해 심각도를 예측하는 Hybrid Model에 관해 제안하였다. 원본 데이터에서 전처리 과정을 수행한 후 분류 모델을 수행할 수 있도록 교통사고 데이터를 재정의하였다.

제안 방법

교통사고 데이터에서 클래스 불균형의 문제를 해결하기 위해 기존 데이터와 Sampling 기법을 적용한 교통사고 데이터를 학습 데이터로 사용한다. 각 학습데이터에 FP-Growth 알고리즘을 이용하여 교통사고 피해자 상해 심각도와 연관된 패턴을 추출하고 의사결정트리와 다항 로지스틱회귀 알고리즘이 결합된 Hybrid 기법을 활용하여 교통사고 피해자 상해 심각도를 예측한다.
최소 지지도가 50%를 넘어갈 경우, 다른 클래스의 유용한 패턴 규칙이 추출되지 않는다. 따라서 본 논문에서는 각 클래스의 최소 지지도를 50%로 적용하고 연관규칙을 추출한다. 표 5는 불균형 클래스 집합을 가지는 데이터에서 피해자 상해 심각도와 연관된 패턴을 추출한 결과이다.
따라서 본 논문에서는 기존의 원본 교통사고 데이터와 Sampling을 수행한 데이터를 학습 데이터로 모두 사용하여, 클래스의 불균형으로 인한 오⋅분류를 낮출 수 있도록 한다.
Sampling은 분류를 수행하기 위해 목표 변수를 기준으로 데이터를 조절하기 때문에 원본 데이터와 Sampling을 한 후의 데이터의 중요속성이 달라질 수 있고 모든 속성의 탐색이 어렵다. 따라서 본 논문에서는 표 5에서 나온 연관규칙패턴의 결과와 표 6과 7을 통한 의사결정트리를 이용한 중요속성에 따라 가중치를 부여하고, 다항 로지스틱회귀기법을 이용하여 불균형 데이터인 원본데이터와 균형데이터를 통해 피해자 상해 심각도를 예측한다.
이와 같이, 기존 연구에서 Sampling 한 데이터만을 사용하여 분류 모델을 수행 시, 모든 클래스에서 높은 예측 성능을 보이는 것은 아니다. 따라서 본 연구에서는 불균형 데이터와 균형 데이터를 모두 사용하고, 데이터 마이닝 기법을 융합한 Hybrid Model을 구축하였다.
W3 Type은 데이터에서 모델 A를 수행한 결과와 기본 데이터를 모델 B의 입력데이터로 사용한다. 본 연구에서는 Model A는 의사결정트리이며, Model B는 다항 로지스틱회귀 기법을 적용하였다. 의사결정트리는 입력 변수를 바탕으로 목표 변수의 값을 예측하는 모델을 생성하는 것으로, C4.
본 연구에서는 혼동 행렬방식을 이용하여 Single Model과 Hybrid Model을 적용한 정밀도를 통해 성능을 비교 평가하였다. 혼동 행렬은 총 4개의 요소로 구성되어 있으며, 표 8은 혼동행렬의 예를 나타낸다[12].
본 절에서는 교통사고 데이터를 추출하고 연관규칙 학습기법인 FP-Growth알고리즘과 의사결정트리, 로지스틱 회귀분석 알고리즘을 이용하여 교통사고 피해자 상해 심각도 예측을 위한 방법을 제안한다.
본 절에서는 전처리 과정이 수행된 데이터에서 FP-Growth 알고리즘을 이용하여 ‘피해자 상해 심각도’와 연관된 규칙 패턴에 관해서 기술한다.
원본 데이터를 이용하여 분류모델을 수행할 때 고려해야할 사고 패턴을 확인하기 위해 FP-Growth 알고리즘을 이용하여 피해자 상해 심각도와 연관된 패턴을 추출하였고, 불균형 데이터와 균형데이터에서 의사결정트리를 이용하여 중요 속성을 추출하여 비교하였다. 비교된 중요속성은 로지스틱회귀에서 분류를 수행할 때, 가중치의 역할로 사용하였다. 기존 연구에서는 분류 모델을 수행하기 위해 Sampling 데이터만 이용하였으나 이는 원본 데이터의 손실을 발생시켜 다수 클래스의 예측 정확도가 낮아지는 것을 알 수 있다.
연속치 데이터인 발생 시간은 ‘01～06시’, ‘07～12시’, ‘13～18시’, ‘19～24시’로 구분하였으며, 연령의 경우 10년 단위로 구분하였다.
원본 데이터에서 전처리 과정을 수행한 후 분류 모델을 수행할 수 있도록 교통사고 데이터를 재정의하였다. 원본 데이터에는 총 23개의 속성으로 이루어져있으나 데이터의 일반화를 위해 피해자 상해 심각도와 관련이 없는 속성은 제거되어 총 13개의 속성으로 재정의되었으며, 연속치 데이터와 순서적 범주형 데이터는 일정 구간으로 구분하였다. 원본 데이터에는 피해자 상해 심각도 클래스의 레코드 수가 동일하지 않기 때문에 데이터 불균형이 발생되며, Sampling과정을 수행하여 균형적인 데이터를 생성하였다.
본 논문에서는 균형 데이터와 불균형 데이터를 이용하여 피해자 상해 심각도를 예측하는 Hybrid Model에 관해 제안하였다. 원본 데이터에서 전처리 과정을 수행한 후 분류 모델을 수행할 수 있도록 교통사고 데이터를 재정의하였다. 원본 데이터에는 총 23개의 속성으로 이루어져있으나 데이터의 일반화를 위해 피해자 상해 심각도와 관련이 없는 속성은 제거되어 총 13개의 속성으로 재정의되었으며, 연속치 데이터와 순서적 범주형 데이터는 일정 구간으로 구분하였다.
Chong et al.은 미국 GES 데이터에서 1995년부터 2000년 사이에 발생된 정면충돌사고에 해당하는 데이터를 이용하여 의사결정트리, 인공신경망, Support Vector Machines를 이용한 Hybrid Model을 구축하여 운전자의 상해 심각도를 예측하는데 활용하였다[6].
따라서 본 논문에서는 기존의 원본 교통사고 데이터와 Sampling을 수행한 데이터를 학습 데이터로 모두 사용하여, 클래스의 불균형으로 인한 오⋅분류를 낮출 수 있도록 한다. 의사결정트리를 이용하여 교통사고 피해자 상해 심각도의 주요 속성을 선정하고, FP-Growth 알고리즘을 이용하여 연관된 패턴 추출 및 로지스틱 회귀분석을 결합한 Hybrid Model을 이용하여 교통사고 피해자 상해 심각도를 예측하는 방법을 제안한다.
이러한 문제점을 해결하기 위해 기존 데이터에서 Sampling 과정을 수행하여 ‘피해자 상해 심각도’의 모든 클래스 분포가 20%인 균형적인 데이터를 구축하고 불균형 데이터와 균형적인 데이터를 분류 모델을 수행하기 위한 학습 데이터로 사용한다.
이은정은 미국 GES 데이터를 이용하여 여러 개의 의사 결정트리를 결합하여 앙상블 모델을 구축하고 적중률의 불균형을 해소하였으며, 후속 연구로 인공신경망을 이용한 모델을 적용하고 Under-Sampling방식을 적용하여 데이터 수가 적은 상해 심각도의 적중률도 향상시켰다[9,10].

대상 데이터

FP-Growth 알고리즘 및 분류 알고리즘을 수행하기 위해 이산화 및 Labeling 과정을 통해 교통사고 데이터를 재정의 하였으며, 표 2는 재정의 한 교통사고 데이터이다.
따라서 본 연구에서는 교통사고 데이터를 이용하여 데이터 마이닝 기법을 Hybrid Model로 구축하고 교통사고 피해자 상해 심각도 예측을 위한 방법을 제안한다. 교통사고 데이터에서 클래스 불균형의 문제를 해결하기 위해 기존 데이터와 Sampling 기법을 적용한 교통사고 데이터를 학습 데이터로 사용한다. 각 학습데이터에 FP-Growth 알고리즘을 이용하여 교통사고 피해자 상해 심각도와 연관된 패턴을 추출하고 의사결정트리와 다항 로지스틱회귀 알고리즘이 결합된 Hybrid 기법을 활용하여 교통사고 피해자 상해 심각도를 예측한다.
민감도는 실제 값이 1인 것 중 예측 값이 1인 경우를 나타내며, 민감도가 1에 가까울수록 분류가 잘 이루어졌음을 알 수 있다. 본 논문에서 제안한 Hybrid Model을 이용하여 피해자 상해 심각도를 예측하는 방법이 Single Model을 사용하는 방법보다 정확한지 확인하기 위해 3.2절에서 재정의한 데이터를 이용하여 식 3을 이용하였다. 표 9는 균형데이터와 불균형 데이터에서 Single Model로써, 각각 10겹 교차방식을 이용하여 의사결정트리와 로지스틱회귀기법을 사용했을 경우 나타나는 민감도이다.
Hybrid Model은 입력 데이터를 처리하는 방법과 모델을 통해 나온 결과를 처리하는 방법 등에 따라 여러 유형이 있다. 본 연구에서 사용된 Hybrid Model은 Whole Data Approach접근법의 4가지 유형 중 W3 Type의 모델을 이용한다[13]. 그림 2는 W3 Type의 Hybrid Model을 나타낸다.
본 연구에서는 TAAS(Traffic Accident Analysis System)에서 2012년부터 2015년까지 서울특별시, 경기도 일대와 광역시에서 발생한 약 3000여개의 교통사고 데이터를 수집하여 활용한다. 표 1은 원본 교통사고 데이터의 속성을 나타낸다.

데이터처리

따라서 기존 데이터와 Sampling기법을 적용한 데이터를 학습데이터로 이용하고, 전처리 과정으로 이산화 및 Labeling 과정을 수행한 후 FP-Growth알고리즘을 수행하여 교통사고 상해 심각도와 연관된 패턴을 추출하고 의사결정트리와 다항 로지스틱 회귀를 10-fold Cross-validation을 수행하여 분류 및 예측을 수행한다.
원본 데이터에는 피해자 상해 심각도 클래스의 레코드 수가 동일하지 않기 때문에 데이터 불균형이 발생되며, Sampling과정을 수행하여 균형적인 데이터를 생성하였다. 원본 데이터를 이용하여 분류모델을 수행할 때 고려해야할 사고 패턴을 확인하기 위해 FP-Growth 알고리즘을 이용하여 피해자 상해 심각도와 연관된 패턴을 추출하였고, 불균형 데이터와 균형데이터에서 의사결정트리를 이용하여 중요 속성을 추출하여 비교하였다. 비교된 중요속성은 로지스틱회귀에서 분류를 수행할 때, 가중치의 역할로 사용하였다.

이론/모형

불균형 데이터와 균형 데이터에서 ‘피해자 상해 심각도’를 예측하기 위한 데이터 마이닝 기법을 적용한다.
다항 로지스틱 회귀기법은 예측변수의 값에 따라서 대상을 분류할 때 사용되는 기법으로 일반적인 로지스틱 회귀기법의 경우, 종속변수가 이항형 문제를 지칭할때 사용되므로 다항 로지스틱 회귀기법을 사용하여 ‘피해자 상해 심각도’를 예측한다. 의사 결정트리에서 중요 변수를 추출하기 위해 Entropy와 Information Gain 계산식을 이용한다. 식 1은 Entropy 계산식이며, 식 2는 Information Gain 계산식이다.
본 연구에서는 Model A는 의사결정트리이며, Model B는 다항 로지스틱회귀 기법을 적용하였다. 의사결정트리는 입력 변수를 바탕으로 목표 변수의 값을 예측하는 모델을 생성하는 것으로, C4.5 알고리즘을 이용하여 의사결정트리를 구축하고 중요 속성을 결정하는 모델로 사용하였다. 다항 로지스틱 회귀기법은 예측변수의 값에 따라서 대상을 분류할 때 사용되는 기법으로 일반적인 로지스틱 회귀기법의 경우, 종속변수가 이항형 문제를 지칭할때 사용되므로 다항 로지스틱 회귀기법을 사용하여 ‘피해자 상해 심각도’를 예측한다.
불균형 데이터와 균형 데이터에서 ‘피해자 상해 심각도’를 예측하기 위한 데이터 마이닝 기법을 적용한다. 피해자 상해 심각도의 예측성능을 높이기 위해 데이터마이닝 기법을 Single Model이 아닌, 다양한 모델을 결합한 Hybrid Model을 이용한다. Hybrid Model은 입력 데이터를 처리하는 방법과 모델을 통해 나온 결과를 처리하는 방법 등에 따라 여러 유형이 있다.

성능/효과

또한, 표 9의 결과에 따라 Sampling한 데이터가 모든 분류 결과에서 좋게 나오지 않는다는 것을 확인할 수 있다. 균형 데이터는 소수 클래스의 민감도는 향상되나 다수 클래스의 민감도는 감소되는 것을 볼 수 있다. 이와 같이, 기존 연구에서 Sampling 한 데이터만을 사용하여 분류 모델을 수행 시, 모든 클래스에서 높은 예측 성능을 보이는 것은 아니다.
기존 연구에서 다른 클래스에 비해 레코드의 수가 많은 상해 없음과 사망 클래스의 경우 균형데이터만 이용하여 Single Model 수행 시 불균형 데이터를 이용할 때보다 예측 성능이 저하되었으나, 본 연구에서 구현한 Hybrid Model은 분류 모델의 성능을 높여준다. 두 클래스의 예측 성능은 불균형 데이터, 균형 데이터를 이용하여 Single Model을 수행했을 때보다 높은 결과가 나왔으며, 레코드 수가 적은 경상과 중상의 경우 로지스틱회귀 기법만을 사용할 때보다 높게 나왔으나, 의사결정트리보다는 낮게 나온 결과를 확인할 수 있다.
논문의 모델 구축 방식에서 새로운 사고 데이터가 발생하였을 때, 모든 모델에서 상해 심각도를 판단하지 못하면 LOOP에 빠지는 단점을 지적하면서 인공신경망, 의사결정트리, 로지스틱 회귀분석 모델을 모두 적용하고 적중률이 너무 낮은 경우에 사례기반 추론 기법을 이용하여 ‘치명적 상해’의 경우 95.9%의 높은 적중률을 보였다[7].
기존 연구에서 다른 클래스에 비해 레코드의 수가 많은 상해 없음과 사망 클래스의 경우 균형데이터만 이용하여 Single Model 수행 시 불균형 데이터를 이용할 때보다 예측 성능이 저하되었으나, 본 연구에서 구현한 Hybrid Model은 분류 모델의 성능을 높여준다. 두 클래스의 예측 성능은 불균형 데이터, 균형 데이터를 이용하여 Single Model을 수행했을 때보다 높은 결과가 나왔으며, 레코드 수가 적은 경상과 중상의 경우 로지스틱회귀 기법만을 사용할 때보다 높게 나왔으나, 의사결정트리보다는 낮게 나온 결과를 확인할 수 있다. 부상신고의 경우 불균형 데이터에서 Single Model 수행 시 보다 높게 나왔으나 균형 데이터를 이용한 예측 결과에 비해 낮게 나오는 것을 확인할 수 있다.
기존 연구에서는 분류 모델을 수행하기 위해 Sampling 데이터만 이용하였으나 이는 원본 데이터의 손실을 발생시켜 다수 클래스의 예측 정확도가 낮아지는 것을 알 수 있다. 따라서 본 논문에서는 원본 데이터의 불균형 데이터와 Sampling된 균형데이터를 모두 이용하여 Hybrid Model을 수행하였으며, Single Model과 균형 데이터만을 이용한 예측 모델에 비해 소수 클래스의 예측 역시 비교적 좋은 결과를 얻을 수 있고, 다수 클래스의 예측 성능은 불균형 데이터, 균형 데이터만을 이용할때보다 좋은 예측 성능 결과를 확인할 수 있다. 향후 연구로는 본 연구를 통한 피해자 상해 심각도 패턴들을 이용하여 지형과 교통사고 피해에 관한 연관 패턴을 분석하고 이를 예방하기 위한 연구를 진행할 계획이다.
따라서 Single Model은 모든 클래스에서 예측 정확도가 높은 것은 아니기 때문에 Single Model만을 사용할 수 없다. 또한, 표 9의 결과에 따라 Sampling한 데이터가 모든 분류 결과에서 좋게 나오지 않는다는 것을 확인할 수 있다. 균형 데이터는 소수 클래스의 민감도는 향상되나 다수 클래스의 민감도는 감소되는 것을 볼 수 있다.
불균형 데이터에서 의사결정트리를 통해 나온 중요 속성 중상해 없음은 피해자 차량종류와 운전자 나이, 경상은 도로형태, 중상은 법규위반사항, 사망은 피해자 차량 종류, 부상신고는 노면상태와 사고 발생시간, 사고유형이 가장 중요한 속성으로 작용한다.
Single Model에 따라 피해자 상해 심각도별 예측 정확도는 모두 다르다. 의사결정트리는 레코드 개수가 적은 클래스의 민감도가 높은 것을 확인할 수 있으며, 로지스틱 회귀는 레코드 수가 많은 클래스의 분류 정확도가 높다. 레코드의 수가 적은 부상신고가 민감도가 높게 나온 이유는 활용한 기존 데이터에서 부상신고가 발생하였을 때 나타나는 중요속성이 많은 비중을 차지하여 민감도가 높게 나왔다.

후속연구

따라서 본 논문에서는 원본 데이터의 불균형 데이터와 Sampling된 균형데이터를 모두 이용하여 Hybrid Model을 수행하였으며, Single Model과 균형 데이터만을 이용한 예측 모델에 비해 소수 클래스의 예측 역시 비교적 좋은 결과를 얻을 수 있고, 다수 클래스의 예측 성능은 불균형 데이터, 균형 데이터만을 이용할때보다 좋은 예측 성능 결과를 확인할 수 있다. 향후 연구로는 본 연구를 통한 피해자 상해 심각도 패턴들을 이용하여 지형과 교통사고 피해에 관한 연관 패턴을 분석하고 이를 예방하기 위한 연구를 진행할 계획이다.

핵심어	질문	논문에서 추출한 답변
	자동차 등록 대수가 증가하는 이유는 뭔가요?	우리나라의 경제 성장과 도로 환경의 변화에 따라 국내 연간 차량 보급률이 높아지면서 2015년을 기준으로 자동차 등록 대수는 약 2099만 대이며, 전년 대비 4.3%의 증가율을 보인다[1].
	우리나라의 교통사고율 및 피해액 현황은 어떻게 됩니까?	자동차 이용의 증가에 따라 교통사고율 또한 증가하였으며, 교통사고는 물적 피해, 인명 피해, 사회 비용을 발생시킨다. 우리나라의 교통사고로 인한 사망자 수는 2013년을 기준으로 인구 10만 명당 사망자수 10.1명, 자동차 1만 대당 사망자 수 2.2명으로 OECD 국가 중 사망률이 상위권에 속하고, 교통사고로 인한 인명 피해액은 2013년에는 약 135억 원에서 2014년에는 156억 원으로 전년 대비 1.16% 증가하여 인명 피해가 심각한 수준이다[2]. 따라서 정부에서는 교통사고로 인한 피해를 줄이기 위해 교통사고 빅 데이터를 구축하고 데이터를 개방하여 교통사고 문제를 해결하기 위한 ‘교통사고 사상자 줄이기 종합대책(2013~2017)’ 정책을 추진 중이며, 이에 따라, 빅 데이터 연구를 활용하는 연구가 활발히 진행 중이다[3].
	우리나라 자동차 등록 대수는 몇 대인가요?	우리나라의 경제 성장과 도로 환경의 변화에 따라 국내 연간 차량 보급률이 높아지면서 2015년을 기준으로 자동차 등록 대수는 약 2099만 대이며, 전년 대비 4.3%의 증가율을 보인다[1].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

교통사고 데이터의 패턴 분석과 Hybrid Model을 이용한 피해자 상해 심각도 예측
Pattern Analysis of Traffic Accident data and Prediction of Victim Injury Severity Using Hybrid Model 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (13)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

교통사고 데이터의 패턴 분석과 Hybrid Model을 이용한 피해자 상해 심각도 예측 Pattern Analysis of Traffic Accident data and Prediction of Victim Injury Severity Using Hybrid Model 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (13)

이 논문을 인용한 문헌

저자의 다른 논문 :

홍택은 (5) 신주현 (23)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

교통사고 데이터의 패턴 분석과 Hybrid Model을 이용한 피해자 상해 심각도 예측
Pattern Analysis of Traffic Accident data and Prediction of Victim Injury Severity Using Hybrid Model 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper