교통사고 데이터의 패턴 분석과 Hybrid Model을 이용한 피해자 상해 심각도 예측 Pattern Analysis of Traffic Accident data and Prediction of Victim Injury Severity Using Hybrid Model원문보기
우리나라의 경제 성장과 도로 환경의 변화를 통해 국내 자동차 시장이 성장하였으나, 이로 인해 교통사고율 또한 증가하였고, 인명 피해가 심각한 수준이다. 이에 따라, 정부에서는 교통사고 데이터를 개방하고 문제를 해결하기 위한 정책을 수립 및 추진 중이다. 본 논문에서는 교통사고 데이터를 이용하여 클래스의 불균형을 해소하고, Hybrid Model 구축을 통한 교통사고 예측을 위해 원본 교통사고 데이터와 Sampling을 수행한 데이터를 학습 데이터로 사용한다. 두 학습데이터에 연관규칙 학습기법인 FP-Growth 알고리즘을 이용하여 교통사고 상해 심각도와 연관된 패턴을 학습한다. 두 학습 데이터의 연관 패턴을 분석을 통해 같은 연관된 패턴을 추출하고 의사결정트리와 다항 로지스틱 회귀분석기법에 연관된 속성에 가중치를 부여하여 융합형 Hybrid Model을 구축하고 교통사고 피해자 상해 심각도를 예측하는 방법에 대해 제안한다.
우리나라의 경제 성장과 도로 환경의 변화를 통해 국내 자동차 시장이 성장하였으나, 이로 인해 교통사고율 또한 증가하였고, 인명 피해가 심각한 수준이다. 이에 따라, 정부에서는 교통사고 데이터를 개방하고 문제를 해결하기 위한 정책을 수립 및 추진 중이다. 본 논문에서는 교통사고 데이터를 이용하여 클래스의 불균형을 해소하고, Hybrid Model 구축을 통한 교통사고 예측을 위해 원본 교통사고 데이터와 Sampling을 수행한 데이터를 학습 데이터로 사용한다. 두 학습데이터에 연관규칙 학습기법인 FP-Growth 알고리즘을 이용하여 교통사고 상해 심각도와 연관된 패턴을 학습한다. 두 학습 데이터의 연관 패턴을 분석을 통해 같은 연관된 패턴을 추출하고 의사결정트리와 다항 로지스틱 회귀분석기법에 연관된 속성에 가중치를 부여하여 융합형 Hybrid Model을 구축하고 교통사고 피해자 상해 심각도를 예측하는 방법에 대해 제안한다.
Although Korea's economic and domestic automobile market through the change of road environment are growth, the traffic accident rate has also increased, and the casualties is at a serious level. For this reason, the government is establishing and promoting policies to open traffic accident data and...
Although Korea's economic and domestic automobile market through the change of road environment are growth, the traffic accident rate has also increased, and the casualties is at a serious level. For this reason, the government is establishing and promoting policies to open traffic accident data and solve problems. In this paper, describe the method of predicting traffic accidents by eliminating the class imbalance using the traffic accident data and constructing the Hybrid Model. Using the original traffic accident data and the sampled data as learning data which use FP-Growth algorithm it learn patterns associated with traffic accident injury severity. Accordingly, In this paper purpose a method for predicting the severity of a victim of a traffic accident by analyzing the association patterns of two learning data, we can extract the same related patterns, when a decision tree and multinomial logistic regression analysis are performed, a hybrid model is constructed by assigning weights to related attributes.
Although Korea's economic and domestic automobile market through the change of road environment are growth, the traffic accident rate has also increased, and the casualties is at a serious level. For this reason, the government is establishing and promoting policies to open traffic accident data and solve problems. In this paper, describe the method of predicting traffic accidents by eliminating the class imbalance using the traffic accident data and constructing the Hybrid Model. Using the original traffic accident data and the sampled data as learning data which use FP-Growth algorithm it learn patterns associated with traffic accident injury severity. Accordingly, In this paper purpose a method for predicting the severity of a victim of a traffic accident by analyzing the association patterns of two learning data, we can extract the same related patterns, when a decision tree and multinomial logistic regression analysis are performed, a hybrid model is constructed by assigning weights to related attributes.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
교통사고 데이터는 사고와 연관된 다양한 속성으로 이뤄져있으며, 교통사고로 인한 인명 피해를 줄이기 위해서는 피해자 상해 심각도와 관련된 다른 속성간의 패턴 분석 및 사고 발생 요인을 찾아 개선하여 교통사고 피해에 따른 후속조치가 필요하다[4]. 따라서 본 연구에서는 교통사고 데이터를 이용하여 데이터 마이닝 기법을 Hybrid Model로 구축하고 교통사고 피해자 상해 심각도 예측을 위한 방법을 제안한다. 교통사고 데이터에서 클래스 불균형의 문제를 해결하기 위해 기존 데이터와 Sampling 기법을 적용한 교통사고 데이터를 학습 데이터로 사용한다.
본 논문에서는 균형 데이터와 불균형 데이터를 이용하여 피해자 상해 심각도를 예측하는 Hybrid Model에 관해 제안하였다. 원본 데이터에서 전처리 과정을 수행한 후 분류 모델을 수행할 수 있도록 교통사고 데이터를 재정의하였다.
제안 방법
교통사고 데이터에서 클래스 불균형의 문제를 해결하기 위해 기존 데이터와 Sampling 기법을 적용한 교통사고 데이터를 학습 데이터로 사용한다. 각 학습데이터에 FP-Growth 알고리즘을 이용하여 교통사고 피해자 상해 심각도와 연관된 패턴을 추출하고 의사결정트리와 다항 로지스틱회귀 알고리즘이 결합된 Hybrid 기법을 활용하여 교통사고 피해자 상해 심각도를 예측한다.
최소 지지도가 50%를 넘어갈 경우, 다른 클래스의 유용한 패턴 규칙이 추출되지 않는다. 따라서 본 논문에서는 각 클래스의 최소 지지도를 50%로 적용하고 연관규칙을 추출한다. 표 5는 불균형 클래스 집합을 가지는 데이터에서 피해자 상해 심각도와 연관된 패턴을 추출한 결과이다.
따라서 본 논문에서는 기존의 원본 교통사고 데이터와 Sampling을 수행한 데이터를 학습 데이터로 모두 사용하여, 클래스의 불균형으로 인한 오⋅분류를 낮출 수 있도록 한다.
Sampling은 분류를 수행하기 위해 목표 변수를 기준으로 데이터를 조절하기 때문에 원본 데이터와 Sampling을 한 후의 데이터의 중요속성이 달라질 수 있고 모든 속성의 탐색이 어렵다. 따라서 본 논문에서는 표 5에서 나온 연관규칙패턴의 결과와 표 6과 7을 통한 의사결정트리를 이용한 중요속성에 따라 가중치를 부여하고, 다항 로지스틱회귀기법을 이용하여 불균형 데이터인 원본데이터와 균형데이터를 통해 피해자 상해 심각도를 예측한다.
이와 같이, 기존 연구에서 Sampling 한 데이터만을 사용하여 분류 모델을 수행 시, 모든 클래스에서 높은 예측 성능을 보이는 것은 아니다. 따라서 본 연구에서는 불균형 데이터와 균형 데이터를 모두 사용하고, 데이터 마이닝 기법을 융합한 Hybrid Model을 구축하였다.
W3 Type은 데이터에서 모델 A를 수행한 결과와 기본 데이터를 모델 B의 입력데이터로 사용한다. 본 연구에서는 Model A는 의사결정트리이며, Model B는 다항 로지스틱회귀 기법을 적용하였다. 의사결정트리는 입력 변수를 바탕으로 목표 변수의 값을 예측하는 모델을 생성하는 것으로, C4.
본 연구에서는 혼동 행렬방식을 이용하여 Single Model과 Hybrid Model을 적용한 정밀도를 통해 성능을 비교 평가하였다. 혼동 행렬은 총 4개의 요소로 구성되어 있으며, 표 8은 혼동행렬의 예를 나타낸다[12].
본 절에서는 교통사고 데이터를 추출하고 연관규칙 학습기법인 FP-Growth알고리즘과 의사결정트리, 로지스틱 회귀분석 알고리즘을 이용하여 교통사고 피해자 상해 심각도 예측을 위한 방법을 제안한다.
본 절에서는 전처리 과정이 수행된 데이터에서 FP-Growth 알고리즘을 이용하여 ‘피해자 상해 심각도’와 연관된 규칙 패턴에 관해서 기술한다.
원본 데이터를 이용하여 분류모델을 수행할 때 고려해야할 사고 패턴을 확인하기 위해 FP-Growth 알고리즘을 이용하여 피해자 상해 심각도와 연관된 패턴을 추출하였고, 불균형 데이터와 균형데이터에서 의사결정트리를 이용하여 중요 속성을 추출하여 비교하였다. 비교된 중요속성은 로지스틱회귀에서 분류를 수행할 때, 가중치의 역할로 사용하였다. 기존 연구에서는 분류 모델을 수행하기 위해 Sampling 데이터만 이용하였으나 이는 원본 데이터의 손실을 발생시켜 다수 클래스의 예측 정확도가 낮아지는 것을 알 수 있다.
연속치 데이터인 발생 시간은 ‘01~06시’, ‘07~12시’, ‘13~18시’, ‘19~24시’로 구분하였으며, 연령의 경우 10년 단위로 구분하였다.
원본 데이터에서 전처리 과정을 수행한 후 분류 모델을 수행할 수 있도록 교통사고 데이터를 재정의하였다. 원본 데이터에는 총 23개의 속성으로 이루어져있으나 데이터의 일반화를 위해 피해자 상해 심각도와 관련이 없는 속성은 제거되어 총 13개의 속성으로 재정의되었으며, 연속치 데이터와 순서적 범주형 데이터는 일정 구간으로 구분하였다. 원본 데이터에는 피해자 상해 심각도 클래스의 레코드 수가 동일하지 않기 때문에 데이터 불균형이 발생되며, Sampling과정을 수행하여 균형적인 데이터를 생성하였다.
본 논문에서는 균형 데이터와 불균형 데이터를 이용하여 피해자 상해 심각도를 예측하는 Hybrid Model에 관해 제안하였다. 원본 데이터에서 전처리 과정을 수행한 후 분류 모델을 수행할 수 있도록 교통사고 데이터를 재정의하였다. 원본 데이터에는 총 23개의 속성으로 이루어져있으나 데이터의 일반화를 위해 피해자 상해 심각도와 관련이 없는 속성은 제거되어 총 13개의 속성으로 재정의되었으며, 연속치 데이터와 순서적 범주형 데이터는 일정 구간으로 구분하였다.
Chong et al.은 미국 GES 데이터에서 1995년부터 2000년 사이에 발생된 정면충돌사고에 해당하는 데이터를 이용하여 의사결정트리, 인공신경망, Support Vector Machines를 이용한 Hybrid Model을 구축하여 운전자의 상해 심각도를 예측하는데 활용하였다[6].
따라서 본 논문에서는 기존의 원본 교통사고 데이터와 Sampling을 수행한 데이터를 학습 데이터로 모두 사용하여, 클래스의 불균형으로 인한 오⋅분류를 낮출 수 있도록 한다. 의사결정트리를 이용하여 교통사고 피해자 상해 심각도의 주요 속성을 선정하고, FP-Growth 알고리즘을 이용하여 연관된 패턴 추출 및 로지스틱 회귀분석을 결합한 Hybrid Model을 이용하여 교통사고 피해자 상해 심각도를 예측하는 방법을 제안한다.
이러한 문제점을 해결하기 위해 기존 데이터에서 Sampling 과정을 수행하여 ‘피해자 상해 심각도’의 모든 클래스 분포가 20%인 균형적인 데이터를 구축하고 불균형 데이터와 균형적인 데이터를 분류 모델을 수행하기 위한 학습 데이터로 사용한다.
이은정은 미국 GES 데이터를 이용하여 여러 개의 의사 결정트리를 결합하여 앙상블 모델을 구축하고 적중률의 불균형을 해소하였으며, 후속 연구로 인공신경망을 이용한 모델을 적용하고 Under-Sampling방식을 적용하여 데이터 수가 적은 상해 심각도의 적중률도 향상시켰다[9,10].
대상 데이터
FP-Growth 알고리즘 및 분류 알고리즘을 수행하기 위해 이산화 및 Labeling 과정을 통해 교통사고 데이터를 재정의 하였으며, 표 2는 재정의 한 교통사고 데이터이다.
따라서 본 연구에서는 교통사고 데이터를 이용하여 데이터 마이닝 기법을 Hybrid Model로 구축하고 교통사고 피해자 상해 심각도 예측을 위한 방법을 제안한다. 교통사고 데이터에서 클래스 불균형의 문제를 해결하기 위해 기존 데이터와 Sampling 기법을 적용한 교통사고 데이터를 학습 데이터로 사용한다. 각 학습데이터에 FP-Growth 알고리즘을 이용하여 교통사고 피해자 상해 심각도와 연관된 패턴을 추출하고 의사결정트리와 다항 로지스틱회귀 알고리즘이 결합된 Hybrid 기법을 활용하여 교통사고 피해자 상해 심각도를 예측한다.
민감도는 실제 값이 1인 것 중 예측 값이 1인 경우를 나타내며, 민감도가 1에 가까울수록 분류가 잘 이루어졌음을 알 수 있다. 본 논문에서 제안한 Hybrid Model을 이용하여 피해자 상해 심각도를 예측하는 방법이 Single Model을 사용하는 방법보다 정확한지 확인하기 위해 3.2절에서 재정의한 데이터를 이용하여 식 3을 이용하였다. 표 9는 균형데이터와 불균형 데이터에서 Single Model로써, 각각 10겹 교차방식을 이용하여 의사결정트리와 로지스틱회귀기법을 사용했을 경우 나타나는 민감도이다.
Hybrid Model은 입력 데이터를 처리하는 방법과 모델을 통해 나온 결과를 처리하는 방법 등에 따라 여러 유형이 있다. 본 연구에서 사용된 Hybrid Model은 Whole Data Approach접근법의 4가지 유형 중 W3 Type의 모델을 이용한다[13]. 그림 2는 W3 Type의 Hybrid Model을 나타낸다.
본 연구에서는 TAAS(Traffic Accident Analysis System)에서 2012년부터 2015년까지 서울특별시, 경기도 일대와 광역시에서 발생한 약 3000여개의 교통사고 데이터를 수집하여 활용한다. 표 1은 원본 교통사고 데이터의 속성을 나타낸다.
데이터처리
따라서 기존 데이터와 Sampling기법을 적용한 데이터를 학습데이터로 이용하고, 전처리 과정으로 이산화 및 Labeling 과정을 수행한 후 FP-Growth알고리즘을 수행하여 교통사고 상해 심각도와 연관된 패턴을 추출하고 의사결정트리와 다항 로지스틱 회귀를 10-fold Cross-validation을 수행하여 분류 및 예측을 수행한다.
원본 데이터에는 피해자 상해 심각도 클래스의 레코드 수가 동일하지 않기 때문에 데이터 불균형이 발생되며, Sampling과정을 수행하여 균형적인 데이터를 생성하였다. 원본 데이터를 이용하여 분류모델을 수행할 때 고려해야할 사고 패턴을 확인하기 위해 FP-Growth 알고리즘을 이용하여 피해자 상해 심각도와 연관된 패턴을 추출하였고, 불균형 데이터와 균형데이터에서 의사결정트리를 이용하여 중요 속성을 추출하여 비교하였다. 비교된 중요속성은 로지스틱회귀에서 분류를 수행할 때, 가중치의 역할로 사용하였다.
이론/모형
불균형 데이터와 균형 데이터에서 ‘피해자 상해 심각도’를 예측하기 위한 데이터 마이닝 기법을 적용한다.
다항 로지스틱 회귀기법은 예측변수의 값에 따라서 대상을 분류할 때 사용되는 기법으로 일반적인 로지스틱 회귀기법의 경우, 종속변수가 이항형 문제를 지칭할때 사용되므로 다항 로지스틱 회귀기법을 사용하여 ‘피해자 상해 심각도’를 예측한다. 의사 결정트리에서 중요 변수를 추출하기 위해 Entropy와 Information Gain 계산식을 이용한다. 식 1은 Entropy 계산식이며, 식 2는 Information Gain 계산식이다.
본 연구에서는 Model A는 의사결정트리이며, Model B는 다항 로지스틱회귀 기법을 적용하였다. 의사결정트리는 입력 변수를 바탕으로 목표 변수의 값을 예측하는 모델을 생성하는 것으로, C4.5 알고리즘을 이용하여 의사결정트리를 구축하고 중요 속성을 결정하는 모델로 사용하였다. 다항 로지스틱 회귀기법은 예측변수의 값에 따라서 대상을 분류할 때 사용되는 기법으로 일반적인 로지스틱 회귀기법의 경우, 종속변수가 이항형 문제를 지칭할때 사용되므로 다항 로지스틱 회귀기법을 사용하여 ‘피해자 상해 심각도’를 예측한다.
불균형 데이터와 균형 데이터에서 ‘피해자 상해 심각도’를 예측하기 위한 데이터 마이닝 기법을 적용한다. 피해자 상해 심각도의 예측성능을 높이기 위해 데이터마이닝 기법을 Single Model이 아닌, 다양한 모델을 결합한 Hybrid Model을 이용한다. Hybrid Model은 입력 데이터를 처리하는 방법과 모델을 통해 나온 결과를 처리하는 방법 등에 따라 여러 유형이 있다.
성능/효과
또한, 표 9의 결과에 따라 Sampling한 데이터가 모든 분류 결과에서 좋게 나오지 않는다는 것을 확인할 수 있다. 균형 데이터는 소수 클래스의 민감도는 향상되나 다수 클래스의 민감도는 감소되는 것을 볼 수 있다. 이와 같이, 기존 연구에서 Sampling 한 데이터만을 사용하여 분류 모델을 수행 시, 모든 클래스에서 높은 예측 성능을 보이는 것은 아니다.
기존 연구에서 다른 클래스에 비해 레코드의 수가 많은 상해 없음과 사망 클래스의 경우 균형데이터만 이용하여 Single Model 수행 시 불균형 데이터를 이용할 때보다 예측 성능이 저하되었으나, 본 연구에서 구현한 Hybrid Model은 분류 모델의 성능을 높여준다. 두 클래스의 예측 성능은 불균형 데이터, 균형 데이터를 이용하여 Single Model을 수행했을 때보다 높은 결과가 나왔으며, 레코드 수가 적은 경상과 중상의 경우 로지스틱회귀 기법만을 사용할 때보다 높게 나왔으나, 의사결정트리보다는 낮게 나온 결과를 확인할 수 있다.
논문의 모델 구축 방식에서 새로운 사고 데이터가 발생하였을 때, 모든 모델에서 상해 심각도를 판단하지 못하면 LOOP에 빠지는 단점을 지적하면서 인공신경망, 의사결정트리, 로지스틱 회귀분석 모델을 모두 적용하고 적중률이 너무 낮은 경우에 사례기반 추론 기법을 이용하여 ‘치명적 상해’의 경우 95.9%의 높은 적중률을 보였다[7].
기존 연구에서 다른 클래스에 비해 레코드의 수가 많은 상해 없음과 사망 클래스의 경우 균형데이터만 이용하여 Single Model 수행 시 불균형 데이터를 이용할 때보다 예측 성능이 저하되었으나, 본 연구에서 구현한 Hybrid Model은 분류 모델의 성능을 높여준다. 두 클래스의 예측 성능은 불균형 데이터, 균형 데이터를 이용하여 Single Model을 수행했을 때보다 높은 결과가 나왔으며, 레코드 수가 적은 경상과 중상의 경우 로지스틱회귀 기법만을 사용할 때보다 높게 나왔으나, 의사결정트리보다는 낮게 나온 결과를 확인할 수 있다. 부상신고의 경우 불균형 데이터에서 Single Model 수행 시 보다 높게 나왔으나 균형 데이터를 이용한 예측 결과에 비해 낮게 나오는 것을 확인할 수 있다.
기존 연구에서는 분류 모델을 수행하기 위해 Sampling 데이터만 이용하였으나 이는 원본 데이터의 손실을 발생시켜 다수 클래스의 예측 정확도가 낮아지는 것을 알 수 있다. 따라서 본 논문에서는 원본 데이터의 불균형 데이터와 Sampling된 균형데이터를 모두 이용하여 Hybrid Model을 수행하였으며, Single Model과 균형 데이터만을 이용한 예측 모델에 비해 소수 클래스의 예측 역시 비교적 좋은 결과를 얻을 수 있고, 다수 클래스의 예측 성능은 불균형 데이터, 균형 데이터만을 이용할때보다 좋은 예측 성능 결과를 확인할 수 있다. 향후 연구로는 본 연구를 통한 피해자 상해 심각도 패턴들을 이용하여 지형과 교통사고 피해에 관한 연관 패턴을 분석하고 이를 예방하기 위한 연구를 진행할 계획이다.
따라서 Single Model은 모든 클래스에서 예측 정확도가 높은 것은 아니기 때문에 Single Model만을 사용할 수 없다. 또한, 표 9의 결과에 따라 Sampling한 데이터가 모든 분류 결과에서 좋게 나오지 않는다는 것을 확인할 수 있다. 균형 데이터는 소수 클래스의 민감도는 향상되나 다수 클래스의 민감도는 감소되는 것을 볼 수 있다.
불균형 데이터에서 의사결정트리를 통해 나온 중요 속성 중상해 없음은 피해자 차량종류와 운전자 나이, 경상은 도로형태, 중상은 법규위반사항, 사망은 피해자 차량 종류, 부상신고는 노면상태와 사고 발생시간, 사고유형이 가장 중요한 속성으로 작용한다.
Single Model에 따라 피해자 상해 심각도별 예측 정확도는 모두 다르다. 의사결정트리는 레코드 개수가 적은 클래스의 민감도가 높은 것을 확인할 수 있으며, 로지스틱 회귀는 레코드 수가 많은 클래스의 분류 정확도가 높다. 레코드의 수가 적은 부상신고가 민감도가 높게 나온 이유는 활용한 기존 데이터에서 부상신고가 발생하였을 때 나타나는 중요속성이 많은 비중을 차지하여 민감도가 높게 나왔다.
후속연구
따라서 본 논문에서는 원본 데이터의 불균형 데이터와 Sampling된 균형데이터를 모두 이용하여 Hybrid Model을 수행하였으며, Single Model과 균형 데이터만을 이용한 예측 모델에 비해 소수 클래스의 예측 역시 비교적 좋은 결과를 얻을 수 있고, 다수 클래스의 예측 성능은 불균형 데이터, 균형 데이터만을 이용할때보다 좋은 예측 성능 결과를 확인할 수 있다. 향후 연구로는 본 연구를 통한 피해자 상해 심각도 패턴들을 이용하여 지형과 교통사고 피해에 관한 연관 패턴을 분석하고 이를 예방하기 위한 연구를 진행할 계획이다.
질의응답
핵심어
질문
논문에서 추출한 답변
자동차 등록 대수가 증가하는 이유는 뭔가요?
우리나라의 경제 성장과 도로 환경의 변화에 따라 국내 연간 차량 보급률이 높아지면서 2015년을 기준으로 자동차 등록 대수는 약 2099만 대이며, 전년 대비 4.3%의 증가율을 보인다[1].
우리나라의 교통사고율 및 피해액 현황은 어떻게 됩니까?
자동차 이용의 증가에 따라 교통사고율 또한 증가하였으며, 교통사고는 물적 피해, 인명 피해, 사회 비용을 발생시킨다. 우리나라의 교통사고로 인한 사망자 수는 2013년을 기준으로 인구 10만 명당 사망자수 10.1명, 자동차 1만 대당 사망자 수 2.2명으로 OECD 국가 중 사망률이 상위권에 속하고, 교통사고로 인한 인명 피해액은 2013년에는 약 135억 원에서 2014년에는 156억 원으로 전년 대비 1.16% 증가하여 인명 피해가 심각한 수준이다[2]. 따라서 정부에서는 교통사고로 인한 피해를 줄이기 위해 교통사고 빅 데이터를 구축하고 데이터를 개방하여 교통사고 문제를 해결하기 위한 ‘교통사고 사상자 줄이기 종합대책(2013~2017)’ 정책을 추진 중이며, 이에 따라, 빅 데이터 연구를 활용하는 연구가 활발히 진행 중이다[3].
우리나라 자동차 등록 대수는 몇 대인가요?
우리나라의 경제 성장과 도로 환경의 변화에 따라 국내 연간 차량 보급률이 높아지면서 2015년을 기준으로 자동차 등록 대수는 약 2099만 대이며, 전년 대비 4.3%의 증가율을 보인다[1].
참고문헌 (13)
Ministry of Land, Infrastructure and Transport
TAAS Traffic Accident Analysis System
C.K. Lee, "A Study of Big Data Information Systems Building and Cases," Journal of the KISM Smart Media, Vol.4, No.3, pp. 56-61, 2015.
S.S. Han and B.H. Park, "Comparative Analysis of Traffic of Cheongju," Korea Planning Association, Vol. 46, No. 2, pp. 183-192, 2011.
S.Y. Sohn and S.H. Lee, "Data Fusion, Ensemble and Clustering for the Severity Classification of Read Traffic Accident in Korea," Safety Science, Vol. 41, No. 1, pp. 1-14, 2013. 5.
Chang, M., A. Abraham and M. Paprzycki, "Traffic Accident Analysis Using Machine Learning Paradigms," Informatica, Vol. 29, pp. 89-98, 2005.
J.S. Lee and K. Huh, "Injury Severity Prediction of Traffic Accident using Data Mining," General Autumn Conference of Korea Intelligent Information System Society, pp. 199-206, 2011.
S.E. Hong, G.Y. Lee and H.J Kim, "A Study on Traffic Accident Injury Severity Prediction Model Based on Public Data," Jornal of KIIT, Vol. 13, No. 5, pp. 109-118, 2015.
J.S. Lee and E.J. Lee, "Analysis of Traffic Accident using Decision Tree Ensemble Model," General Autumn Conference of Korea Intelligent Information System Society, Vol. 11, pp. 211-218, 2009.
E.J. Lee, "Analysis of Traffic Accidents using Data Mining Ensemble Models," Master's Thesis, Ajou University, 2010.
J.S. Lee, J.G. Kwon, "A Hybrid SVM Classifier for Imbalanced Data Sets," Journal of Intelligent Information Systems, No. 19, Vol. 2, pp. 125-140, 2013.
Jason Bell, "machine Learning: Hands-On for Developers and Technical Professionals," John Wiley & Sons, pp. 1-408, 2014
J.S. Lee and J.C. Lee, "Customer Chum Prediction by Hybrid Model," Advanced Data Mining and Applications, Vol. 4093, pp. 959-966, 2006.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.