교통사고는 인적요인, 차량요인, 환경요인이 복합적으로 작용하여 발생한다. 이 중 렌터카 교통사고는 운전자의 평소 익숙하지 않은 환경 등으로 인해 교통사고 발생 가능성과 심각도가 다른 교통사고와는 다를 것으로 예상된다. 이에 본 연구에서는 국내 대표 관광도시인 부산광역시, 강릉시, 제주시를 대상으로 최근 빅데이터 분석에 사용되는 기계학습 기법중 하나인 나이브 베이즈 분류기를 이용하여 렌터카 교통사고의 심각도를 예측하는 모형을 개발하였다. 또한, 기존 연구에 유의성이 검증된 변수와 수집 가능한 모든 변수를 이용하는 두 가지 모형에 대하여 모형의 예측 정확도를 비교하였다. 비교 결과 통계적 기법을 통해 유의성이 검증된 변수를 사용할 경우 모형이 더 높은 예측 정확도를 보이는 것으로 나타났다.
교통사고는 인적요인, 차량요인, 환경요인이 복합적으로 작용하여 발생한다. 이 중 렌터카 교통사고는 운전자의 평소 익숙하지 않은 환경 등으로 인해 교통사고 발생 가능성과 심각도가 다른 교통사고와는 다를 것으로 예상된다. 이에 본 연구에서는 국내 대표 관광도시인 부산광역시, 강릉시, 제주시를 대상으로 최근 빅데이터 분석에 사용되는 기계학습 기법중 하나인 나이브 베이즈 분류기를 이용하여 렌터카 교통사고의 심각도를 예측하는 모형을 개발하였다. 또한, 기존 연구에 유의성이 검증된 변수와 수집 가능한 모든 변수를 이용하는 두 가지 모형에 대하여 모형의 예측 정확도를 비교하였다. 비교 결과 통계적 기법을 통해 유의성이 검증된 변수를 사용할 경우 모형이 더 높은 예측 정확도를 보이는 것으로 나타났다.
Traffic accidents are caused by a combination of human factors, vehicle factors, and environmental factors. In the case of traffic accidents where rental cars are involved, the possibility and the severity of traffic accidents are expected to be different from those of other traffic accidents due to...
Traffic accidents are caused by a combination of human factors, vehicle factors, and environmental factors. In the case of traffic accidents where rental cars are involved, the possibility and the severity of traffic accidents are expected to be different from those of other traffic accidents due to the unfamiliar environment of the driver. In this study, we developed a model to forecast the severity of rental car accidents by using Naive Bayes classifier for Busan, Gangneung, and Jeju city. In addition, we compared the prediction accuracy performance of two models where one model uses the variables of which statistical significance were verified in a prior study and another model uses the entire available variables. As a result of the comparison, it is shown that the prediction accuracy is higher when using the variables with statistical significance.
Traffic accidents are caused by a combination of human factors, vehicle factors, and environmental factors. In the case of traffic accidents where rental cars are involved, the possibility and the severity of traffic accidents are expected to be different from those of other traffic accidents due to the unfamiliar environment of the driver. In this study, we developed a model to forecast the severity of rental car accidents by using Naive Bayes classifier for Busan, Gangneung, and Jeju city. In addition, we compared the prediction accuracy performance of two models where one model uses the variables of which statistical significance were verified in a prior study and another model uses the entire available variables. As a result of the comparison, it is shown that the prediction accuracy is higher when using the variables with statistical significance.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구에서는 국내 대표 관광도시인 부산, 강릉, 제주시를 대상으로 2011년부터 2013년 동안의 렌터카 교통사고 자료와 나이브 베이즈 분류기를 이용하여 교통사고 심각도를 예측 모형을 개발하였다.
본 연구에서는 렌터카 교통사고 데이터를 머신 러닝 기법중 하나인 나이브 베이즈 분류기를 통해 렌터카 교통사고 심각도 분류 모형을 개발하였고 교통사고 심각도 분류가 가능함을 확인하였다. 본 연구를 토대로 발전된 결과를 얻기 위해서 다음과 같은 연구가 필요하다.
이에 본 연구에서는 국내 대표 관광도시인 부산, 강릉, 제주시를 대상으로 2011년부터 2013년 동안의 렌터카 교통사고자료를 이용하여 렌터카 교통사고의 심각도를 예측하는 모형을 개발하였고, 이를 실제 사회에 활용할 방안을 제시하고자 한다. 또한, 기존 연구에 유의성이 검증된 변수와 수집 가능한 모든 변수를 이용하는 두 가지 모형에 대하여 모형의 예측 정확도를 비교하였다.
본 연구는 기존 포아송 회귀모형과 같은 통계적 분석 기법과 빅데이터 분석 기법의 성능을 비교하는 논문은 아니다. 즉, 기존에 다른 분야에서 활용되고 있는 빅데이터 분석 기법인 나이브 베이즈 분류 기법이 교통사고 예측에 적용될 수 있는 지에 대한 검증에 초점을 두고 있다는 점을 다시 한 번 밝히고자 한다.
가설 설정
나이브 베이즈 분류기는 사용되는 데이터의 모든 특성 값은 서로 독립임을 가정하며, 분류를 위해 베이즈의 정리(Bayes’s Theorem)를 기본적으로 사용한다.
제안 방법
본 연구에서는 사용한 데이터인 렌터카 교통사고 자료는 운전자 특성, 기하구조 특성, 사고 특성으로 이루어져 있으며, 이러한 데이터의 특성 상 이상치를 정의하기 어려워 이상치를 제거하는 전처리과정을 생략하였다. 그리고 모형 개발에 사용한 입력 변수의 차이에 따른 분류 성능의 비교를 위해 전체 변수를 사용한 경우와 기존 통계적 분석 방법을 통해 유의성이 나타난 변수를 사용한 경우의 총 2가지 모형을 개발하였다. 또한 검증 데이터를 이용하여 각 모형의 예측 정확도를 비교하였고 이를 통해 두 모형의 성능을 비교하였다.
공간적 범위는 앞서 말한 바와 같이 렌터카 운전자에 작용하는 차량, 도로 등의 익숙하지 않은 환경의 영향이 잘 나타나는 관광지를 대상으로 하였고, 그 중 국내 대표 관광도시인 부산광역시, 강릉시, 제주시를 공간적 범위로 선정하였다. 내용적 범위로는 렌터카 교통사고 자료를 이용한 렌터카 교통사고 심각도 예측으로 설정하였다.
우선, 연구의 범위와 내용을 설정한 후, 관련 이론과 연구에 대한 고찰을 하였다. 다음으로 렌터카 교통사고 데이터에 나이브 베이즈 분류 기법을 적용하여 교통사고 심각도 예측 모형을 개발하였고 입력 변수의 차이에 따른 분류 성능의 비교를 위해 전체 변수를 사용한 경우와 유의 변수를 사용한 경우의 총 두 가지 모형을 개발하였고, 검증 데이터를 이용하여 각 모형의 예측 성능을 비교하였다.
다음으로 관련 이론과 연구에 대한 고찰을 통해 기계학습 분류 기법 중 간단한 계산 과정을 요구함에도 불구하고 좋은 성능을 보이는 나이브 베이즈 분류 기법을 선정하였다. 다음으로 렌터카 교통사고 데이터에 나이브 베이즈 분류 기법을 적용하여 렌터카 교통사고 심각도 예측 모형을 개발하였다. 본 연구에서는 사용한 데이터인 렌터카 교통사고 자료는 운전자 특성, 기하구조 특성, 사고 특성으로 이루어져 있으며, 이러한 데이터의 특성 상 이상치를 정의하기 어려워 이상치를 제거하는 전처리과정을 생략하였다.
(2011)는 초보 운전자가 보행자-차량 교통사고 발생 시 교통사고 심각도에 미치는 영향을 이항 로지스틱 회귀분석을 적용하여 분석하였다. 독립변수에는 교통사고 심각도에 영향을 미칠 것으로 판단되는 성별, 연령, 법규위반 횟수 등을 설정하였고, 이를 운전자 운전 경력에 따라 분류하였다. 분석 결과, 운전경력에 관계없이 연령, 법규위반 횟수, 교통사고 위치가 교통사고 심각도 증가에 영향을 주는 것으로 나타났다.
그리고 모형 개발에 사용한 입력 변수의 차이에 따른 분류 성능의 비교를 위해 전체 변수를 사용한 경우와 기존 통계적 분석 방법을 통해 유의성이 나타난 변수를 사용한 경우의 총 2가지 모형을 개발하였다. 또한 검증 데이터를 이용하여 각 모형의 예측 정확도를 비교하였고 이를 통해 두 모형의 성능을 비교하였다.
이에 본 연구에서는 국내 대표 관광도시인 부산, 강릉, 제주시를 대상으로 2011년부터 2013년 동안의 렌터카 교통사고자료를 이용하여 렌터카 교통사고의 심각도를 예측하는 모형을 개발하였고, 이를 실제 사회에 활용할 방안을 제시하고자 한다. 또한, 기존 연구에 유의성이 검증된 변수와 수집 가능한 모든 변수를 이용하는 두 가지 모형에 대하여 모형의 예측 정확도를 비교하였다. 렌터카 교통사고 심각도 예측 모형 개발을 위해 최근 빅데이터 분석에 사용되는 머신러닝 기법을 사용하였고 분류 기법 중 하나인 나이브 베이즈 분류 기법을 사용하였다.
(2016)는 국내 관광도시인 부산, 강릉, 제주시의 2011년부터 2013년까지의 렌터카 교통사고의 심각도를 분석하였다. 또한, 렌터카 교통사고와 함께 승용차 교통사고를 함께 분석하여 교통사고에 영향을 주는 요인을 비교하였다. 분석에는 포아송회귀모형과 음이항회귀모형을 이용하였고 모형 분석결과 모형의 로그우도함수값, AIC, BIC 등을 기준으로 음이항회귀모형이 더 적합한 것으로 나타났다.
또한, 분석된 주요요인들을 통해 서해안 고속도로의 특정구간에서 주로 교통사고가 발생하며, 해당 구간에 구간 단속 카메라, 차내·외 경고정보제공 등의 교통정보 및 시설을 제공하는 방안을 제시하였다.
모형의 성능을 평가하기 위해 두 가지 모형에 대하여 앞서 말한 바와 같이 검증 데이터를 사용하여 5회씩 반복하여 산술평균하였고, 그 결과는 아래 [Table 4]와 같다. 전체 변수를 사용했을 경우 88.
본 연구를 통해 렌터카 교통사고 데이터를 이용하여 렌터카 교통사고의 심각도를 분류하였다. 이를 이용하여 렌터카 대여업체, 보험사 등과 같은 관련 업종에서 운전자 인적정보를 활용하여 사고발생 시의 심각도를 예측하여 보험료와 차량 대여료 조정에 참고할 수 있을 것으로 예상된다.
마지막으로 추가적인 머신러닝 기법을 이용한 연구가 필요하다. 본 연구에서는 머신러닝 기법 중 간단한 방법 중 하나인 나이브 베이즈 분류기를 이용하여 예측 정확도만을 분석하였다. 하지만, 추가적인 연구를 통해 렌터카 교통사고 심각도 분류 및 예측에 좀 더 나은 성능을 보이는 방법론과 데이터의 각 요소들이 교통사고심각도에 미치는 영향을 분석가능한 방법론을 이용하여 기존 통계적 분석방법의 결과와 비교하는 것도 의미있을 것으로 판단된다.
다음으로 렌터카 교통사고 데이터에 나이브 베이즈 분류 기법을 적용하여 렌터카 교통사고 심각도 예측 모형을 개발하였다. 본 연구에서는 사용한 데이터인 렌터카 교통사고 자료는 운전자 특성, 기하구조 특성, 사고 특성으로 이루어져 있으며, 이러한 데이터의 특성 상 이상치를 정의하기 어려워 이상치를 제거하는 전처리과정을 생략하였다. 그리고 모형 개발에 사용한 입력 변수의 차이에 따른 분류 성능의 비교를 위해 전체 변수를 사용한 경우와 기존 통계적 분석 방법을 통해 유의성이 나타난 변수를 사용한 경우의 총 2가지 모형을 개발하였다.
앞의 과정에 따라 나이브 베이즈 분류기를 이용하여 렌터카 교통사고 심각도 예측 모형을 개발하였다. 개발된 모형은 아래 [Fig 2]과 같이 각 데이터별 4가지 사고심각도 분류에 속할 확률을 산출하게 되며, 이 중에 가장 큰 확률 값을 가지는 분류를 예측 값으로 선정하게 된다.
우선, 연구의 범위와 내용을 설정한 후, 관련 이론과 연구에 대한 고찰을 하였다. 다음으로 렌터카 교통사고 데이터에 나이브 베이즈 분류 기법을 적용하여 교통사고 심각도 예측 모형을 개발하였고 입력 변수의 차이에 따른 분류 성능의 비교를 위해 전체 변수를 사용한 경우와 유의 변수를 사용한 경우의 총 두 가지 모형을 개발하였고, 검증 데이터를 이용하여 각 모형의 예측 성능을 비교하였다.
렌터카 교통사고는 아래 [Table 2]와 같이 총 14개의 항목으로 구성되어 있다. 이 중 교통사고의 피해 정도에 따라 사망, 중상, 경상, 부상으로 구분한 사고심각도를 종속변수로 사용하였다. 이를 제외한 나머지 13개의 변수를 크게 동일거주지 거주 유무, 성별, 연령 등과 같은 운전자 인적사항과 주야, 교통사고 유형, 법규위반 유형과 같은 사고 특성 그리고 도로선형, 구배, 기상 상태, 노면 상태 등과 같은 도로 기하구조적 특성으로 구분할 수 있으며 렌터카 교통사고의 심각도를 예측하기 위한 독립변수로 사용하였다.
0%를 평가 데이터로 지정하여 예측 정확도를 평가하였다. 이러한 과정을 각각 5회씩 반복하여 그 값을 산술평균한 값을 예측 정확도로 사용하였다.
기존에는 교통사고 원인 도출 및 주요 요소 구분과 같은 분석에 포아송 회귀모형과 같은 통계적 기법들이 주로 사용되어졌다. 이러한 통계적 분석을 통해 교통사고와 관련된 다양한 요인들 간의 관계를 규명하였다..
이 중 교통사고의 피해 정도에 따라 사망, 중상, 경상, 부상으로 구분한 사고심각도를 종속변수로 사용하였다. 이를 제외한 나머지 13개의 변수를 크게 동일거주지 거주 유무, 성별, 연령 등과 같은 운전자 인적사항과 주야, 교통사고 유형, 법규위반 유형과 같은 사고 특성 그리고 도로선형, 구배, 기상 상태, 노면 상태 등과 같은 도로 기하구조적 특성으로 구분할 수 있으며 렌터카 교통사고의 심각도를 예측하기 위한 독립변수로 사용하였다.
대상 데이터
본 연구의 시간적 범위는 수집 가능한 교통사고 자료의 시간적 한계에 따라 2011년부터 2013년으로 설정하였다. 공간적 범위는 앞서 말한 바와 같이 렌터카 운전자에 작용하는 차량, 도로 등의 익숙하지 않은 환경의 영향이 잘 나타나는 관광지를 대상으로 하였고, 그 중 국내 대표 관광도시인 부산광역시, 강릉시, 제주시를 공간적 범위로 선정하였다. 내용적 범위로는 렌터카 교통사고 자료를 이용한 렌터카 교통사고 심각도 예측으로 설정하였다.
모형의 성능을 평가하기 위하여 전체 1,858개의 데이터 중 80.0%를 임의로 학습 데이터로 사용하였고, 나머지 20.0%를 평가 데이터로 지정하여 예측 정확도를 평가하였다. 이러한 과정을 각각 5회씩 반복하여 그 값을 산술평균한 값을 예측 정확도로 사용하였다.
본 연구에서는 2011년부터 2013년까지 국내 대표 관광도시인 부산광역시, 강릉시, 제주시에서 수집된 렌터카가 초래한 인사 교통사고 자료를 이용하였다. 분석기간인 2011년부터 2013년 동안 발생한 렌터카 교통사고는 총 1,858건으로 [Table 1]과 같다.
첫 번째는 연구의 시간적 공간적 범위에 대한 확대가 필요하다. 본 연구에서는 데이터의 한계로 인해 2011년에서 2013년까지 3년 동안의 데이터를 사용하였다. 향후 연구에서는 교통사고의 시계열적 특성 및 차이점을 고려하기 위해 시간적 범위의 확대가 필요하며, 공간적 범위의 확대를 통해 렌터카에 대한 공간적인 대표성을 보완하는 것이 필요하다.
본 연구의 시간적 범위는 수집 가능한 교통사고 자료의 시간적 한계에 따라 2011년부터 2013년으로 설정하였다. 공간적 범위는 앞서 말한 바와 같이 렌터카 운전자에 작용하는 차량, 도로 등의 익숙하지 않은 환경의 영향이 잘 나타나는 관광지를 대상으로 하였고, 그 중 국내 대표 관광도시인 부산광역시, 강릉시, 제주시를 공간적 범위로 선정하였다.
(2013)는 나이브 베이즈 분류기와 의사결정나무를 이용하여 유방암 진단 데이터를 분석하였고 두 가지 방법론의 성능을 비교하였다. 분석을 위해 UCI(University of California, Irvine)에서 제공하는 유방암 진단 관련 데이터 699개를 사용하였다. 분석 결과 나이브 베이즈 분류기가 96.
(2000)는 나이브 베이즈 분류기를 이용하여 문서의 주제를 자동으로 구분하는 분류기를 개발하였다. 이를 위해 유즈넷 뉴스그룹의 문서들을 이용하였고 20개 분류에 대하여 각 분류당 1,000개씩 총 20,000 개의 문서를 이용하였다. 뉴스그룹 분류 성능의 평가를 위해 전체 데이터의 30%를 실험데이터로 사용하였고 예측 정확도는 77.
데이터처리
(2016)는 특허 문서 분류를 위해 연구 분야와 관련성이 떨어지는 자료를 제거하는 과정을 기계 학습을 통해 자동화 하고자 하였다. 이를 위해 나이브 베이즈, KNN, SVM 방법론을 이용하였고 방법론의 성능을 비교하였다. 연구에 사용한 700여 건의 자료를 수집하여 분류한 결과 나이브 베이즈, KNN, SVM 순으로 분류 성능이 높게 나타났다.
이론/모형
우선, 연구의 배경 및 목적, 범위 및 절차와 같은 연구의 계획을 설정하였다. 다음으로 관련 이론과 연구에 대한 고찰을 통해 기계학습 분류 기법 중 간단한 계산 과정을 요구함에도 불구하고 좋은 성능을 보이는 나이브 베이즈 분류 기법을 선정하였다. 다음으로 렌터카 교통사고 데이터에 나이브 베이즈 분류 기법을 적용하여 렌터카 교통사고 심각도 예측 모형을 개발하였다.
렌터카 교통사고 데이터에 나이브 베이즈 분류기를 적용하기 위하여, 앞서 말한 데이터 분석에 널리 사용되는 프로그래밍 언어인 R을 사용하였고 R에서 제공하는 기계학습 라이브러리인 KlaR을 사용하였다. 또한, 아래 [Table 3]과 같이 나이브 베이즈 분류기에 사용한 독립변수에 교통사고 내용을 제외한 13개의 모든 변수를 사용한 경우와 Ko et al.
또한, 기존 연구에 유의성이 검증된 변수와 수집 가능한 모든 변수를 이용하는 두 가지 모형에 대하여 모형의 예측 정확도를 비교하였다. 렌터카 교통사고 심각도 예측 모형 개발을 위해 최근 빅데이터 분석에 사용되는 머신러닝 기법을 사용하였고 분류 기법 중 하나인 나이브 베이즈 분류 기법을 사용하였다.
이러한 패키지는 함수, 데이터, 컴파일된 코드 등을 모아놓은 것을 뜻하며, 인터넷 등을 통해 무료로 이용가능하다. 본 연구에서 사용한 패키지인 klaR은 기계학습의 지도학습에 속하는 나이브 베이즈 분류기와 지지 벡터 머신 분석 기능이 포함 되어 있다(The R Foundation, 2017).
성능/효과
(2009)은 2004년부터 2006년까지 서해안 고속도로에서 발생한 구간별 교통사고자료를 이용하여 사고 심각도 예측모형을 개발하였다. 개발된 모형을 이용하여 사고심각도에 영향을 주는 주요요인을 분석하였고 과속, 차량결함, 사고 유형, 교통량, 곡선반경 등에 따라 사고심각도가 달라지는 것으로 나타났다. 또한, 분석된 주요요인들을 통해 서해안 고속도로의 특정구간에서 주로 교통사고가 발생하며, 해당 구간에 구간 단속 카메라, 차내·외 경고정보제공 등의 교통정보 및 시설을 제공하는 방안을 제시하였다.
나이브 베이즈 분류기를 이용하여 렌터카 교통사고 심각도를 예측한 결과 전체 변수를 사용했을 경우에도 88.1%의 어느 정도의 신뢰성을 보이지만, 통계적 기법을 통해 유의하다고 분석된 변수만을 사용할 경우 94.1%로 더 정밀하게 분류한 것으로 나타났다. 따라서 머신러닝 기법을 이용하여 분석할 경우에도 기존 통계적 분석 방법을 함께 이용할 경우 좀 더 나은 결과를 도출할 수 있을 것으로 예상된다.
이를 위해 유즈넷 뉴스그룹의 문서들을 이용하였고 20개 분류에 대하여 각 분류당 1,000개씩 총 20,000 개의 문서를 이용하였다. 뉴스그룹 분류 성능의 평가를 위해 전체 데이터의 30%를 실험데이터로 사용하였고 예측 정확도는 77.77%로 나타났으며, 학습에 사용되는 특성의 수가 20,000개 일 경우에 가장 높은 예측 정확도를 보였다.
사고심각도 모형 개발을 위해 순서형 프로빗 모형과 순서형 로짓모형의 2가지 모형을 개발하였으며 모형의 설명력과 적합성을 비교한 결과 사고심각도 모형에 순서형 프로빗 모형이 적합한 것으로 나타났다. 또한 교차로 사고심각도에 영향을 주는 변수로는 부도로 중 차량 비율, 주도로 차량속도 제약시설, 부도로 차로당 평균폭으로 나타났다.
5384로 차량 단독 사고일 때보다 심각도가 낮은 것으로 분석되었다. 또한, 정면충돌, 진행 중 추돌, 주정차 중 추돌이 기타사고에 비해 심각도가 높으며 특히 정면충돌의 계수가 0.4294로 가장 높아 사고 심각도에 큰 영향을 주는 것으로 분석되었다.
분석에는 포아송회귀모형과 음이항회귀모형을 이용하였고 모형 분석결과 모형의 로그우도함수값, AIC, BIC 등을 기준으로 음이항회귀모형이 더 적합한 것으로 나타났다. 렌터카 교통사고 심각도에 영향을 미치는 요인으로는 사고발생지역 거주 여부, 사고유형, 법규위반 등이 도출되었다. 사고발생 지역 거주 여부의 경우 운전자의 거주지역과 사고발생지역이 같은 경우의 계수가 –0.
다음으로 [Fig 3]과 같이 실제 데이터의 값과 예측 값을 비교하여 혼동행렬(confusion matrix)로 표현 된다. 모형을 통해 기존 통계적 기법이 어떤 변수가 사고 심각도에 영향을 주는지에 분석이 가능한 반면 기계학습이라는 방법의 특성 상 변수에 대한 분석이 아닌 해당 데이터가 총 4가지 분류 중 어디에 속할 것인지에 대한 예측 값을 얻을 수 있다.
(2004)는 신호교차로 교통사고심각도 예측을 위해 인공신경망을 사용한 모형을 개발하였다. 모형의 검증을 위해 다중회귀모형을 개발하여 비교하였으며 그 결과 인공신경망을 사용한 사고심각도 예측모형이 더 뛰어난 예측력을 보였다.
네 번째는 모형 구축 시 사용할 변수 선정에 대한 연구가 필요하다. 본 연구에서는 기존 통계적 분석방법의 결과를 통해 선정된 변수를 사용하여 분류 성능이 향상된 것을 확인하였고 변수 선정에 따라 성능의 변화가 일어날 수 있는 가능성을 보였다. 하지만 이러한 방법이 모든 경우에 해당하는지에 대한 검증이 부족하며, 이와 관련한 추가적인 연구가 필요하다.
두 번째는 나이브 베이즈 분류기의 정확도를 좀 더 높이는 방안에 대한 연구가 필요하다. 본 연구의 결과인 94.1%로 대부분의 경우에 대하여 정확한 판단을 하고 있다고 볼 수 있지만, 실제 상황에 적용할 경우 제대로 분류하지 못한 케이스에 속하여 잘못된 판단으로 인한 불이익을 겪을 수 있다. 따라서 실생활에 적용하기 위해서는 분류 성능의 향상이 필요하다.
분석을 위해 UCI(University of California, Irvine)에서 제공하는 유방암 진단 관련 데이터 699개를 사용하였다. 분석 결과 나이브 베이즈 분류기가 96.0%로 의사결정나무에 비해 약 1.4%정도 높은 성능을 보였다.
독립변수에는 교통사고 심각도에 영향을 미칠 것으로 판단되는 성별, 연령, 법규위반 횟수 등을 설정하였고, 이를 운전자 운전 경력에 따라 분류하였다. 분석 결과, 운전경력에 관계없이 연령, 법규위반 횟수, 교통사고 위치가 교통사고 심각도 증가에 영향을 주는 것으로 나타났다.
또한, 렌터카 교통사고와 함께 승용차 교통사고를 함께 분석하여 교통사고에 영향을 주는 요인을 비교하였다. 분석에는 포아송회귀모형과 음이항회귀모형을 이용하였고 모형 분석결과 모형의 로그우도함수값, AIC, BIC 등을 기준으로 음이항회귀모형이 더 적합한 것으로 나타났다. 렌터카 교통사고 심각도에 영향을 미치는 요인으로는 사고발생지역 거주 여부, 사고유형, 법규위반 등이 도출되었다.
사고발생 지역 거주 여부의 경우 운전자의 거주지역과 사고발생지역이 같은 경우의 계수가 –0.0859로 비거주지역과 비교하여 사고심각도가 낮고, 사고유형의 경우 차대차와 차대사람 일 때의 계수가 각각 –0.2882와 –0.5384로 차량 단독 사고일 때보다 심각도가 낮은 것으로 분석되었다.
(2008)는 도시부 4지 신호교차로에서 발생한 교통사고 이력자료와 교차로 현장 조사자료를 이용하여 사고예측 모형 및 사고심각도 모형을 개발하였다. 사고심각도 모형 개발을 위해 순서형 프로빗 모형과 순서형 로짓모형의 2가지 모형을 개발하였으며 모형의 설명력과 적합성을 비교한 결과 사고심각도 모형에 순서형 프로빗 모형이 적합한 것으로 나타났다. 또한 교차로 사고심각도에 영향을 주는 변수로는 부도로 중 차량 비율, 주도로 차량속도 제약시설, 부도로 차로당 평균폭으로 나타났다.
이를 위해 나이브 베이즈, KNN, SVM 방법론을 이용하였고 방법론의 성능을 비교하였다. 연구에 사용한 700여 건의 자료를 수집하여 분류한 결과 나이브 베이즈, KNN, SVM 순으로 분류 성능이 높게 나타났다.
이러한 나이브 베이즈 분류기는 기존 통계모형들이 중요시 하는 교통사고와 관련된 각 요인(elements) 또는 요인들 간의 관계 또는 중요도를 밝히는 데는 기여하는 바가 적으나, 그러한 관계들을 바탕으로 예측을 정확도를 높이는 데는 기존 통계모형들 보다 우수할 수 있을 것으로 판단된다.
모형의 성능을 평가하기 위해 두 가지 모형에 대하여 앞서 말한 바와 같이 검증 데이터를 사용하여 5회씩 반복하여 산술평균하였고, 그 결과는 아래 [Table 4]와 같다. 전체 변수를 사용했을 경우 88.1%의 예측 정확도를 보였고, 기존 연구를 통해 교통사고 심각도에 유의한 영향을 주는 변수를 사용 한 경우는 94.1%의 예측 정확도를 보였다. 예측 정확도의 표준편차는 유의 변수를 사용한 경우가 더 낮은 것으로 나타났다.
후속연구
두 번째는 나이브 베이즈 분류기의 정확도를 좀 더 높이는 방안에 대한 연구가 필요하다. 본 연구의 결과인 94.
1%로 더 정밀하게 분류한 것으로 나타났다. 따라서 머신러닝 기법을 이용하여 분석할 경우에도 기존 통계적 분석 방법을 함께 이용할 경우 좀 더 나은 결과를 도출할 수 있을 것으로 예상된다.
세 번째는 렌터카의 특성을 보다 잘 나타내기 위한 데이터 및 변수의 추가가 필요하다. 렌터카를 대여한 사람이 기존에 운전하던 차량과 대여한 차량의 차이에 대한 정보가 있다면 새로운 결과가 도출될 것으로 예상되며 이러한 렌터카의 특성을 보다 잘 반영할 수 있는 데이터를 추가한다면 사고의 유형과 연계하여 더 의미있는 결과를 도출할 수 있을 것으로 예상된다.
마지막으로 추가적인 머신러닝 기법을 이용한 연구가 필요하다. 본 연구에서는 머신러닝 기법 중 간단한 방법 중 하나인 나이브 베이즈 분류기를 이용하여 예측 정확도만을 분석하였다.
본 연구를 통해 렌터카 교통사고 데이터를 이용하여 렌터카 교통사고의 심각도를 분류하였다. 이를 이용하여 렌터카 대여업체, 보험사 등과 같은 관련 업종에서 운전자 인적정보를 활용하여 사고발생 시의 심각도를 예측하여 보험료와 차량 대여료 조정에 참고할 수 있을 것으로 예상된다.
본 연구에서는 기존 통계적 분석방법의 결과를 통해 선정된 변수를 사용하여 분류 성능이 향상된 것을 확인하였고 변수 선정에 따라 성능의 변화가 일어날 수 있는 가능성을 보였다. 하지만 이러한 방법이 모든 경우에 해당하는지에 대한 검증이 부족하며, 이와 관련한 추가적인 연구가 필요하다.
본 연구에서는 머신러닝 기법 중 간단한 방법 중 하나인 나이브 베이즈 분류기를 이용하여 예측 정확도만을 분석하였다. 하지만, 추가적인 연구를 통해 렌터카 교통사고 심각도 분류 및 예측에 좀 더 나은 성능을 보이는 방법론과 데이터의 각 요소들이 교통사고심각도에 미치는 영향을 분석가능한 방법론을 이용하여 기존 통계적 분석방법의 결과와 비교하는 것도 의미있을 것으로 판단된다.
본 연구에서는 데이터의 한계로 인해 2011년에서 2013년까지 3년 동안의 데이터를 사용하였다. 향후 연구에서는 교통사고의 시계열적 특성 및 차이점을 고려하기 위해 시간적 범위의 확대가 필요하며, 공간적 범위의 확대를 통해 렌터카에 대한 공간적인 대표성을 보완하는 것이 필요하다.
질의응답
핵심어
질문
논문에서 추출한 답변
기계학습에서 지도학습과 비지도학습의 가장 큰 차이점은 무엇인가?
이러한 기계학습은 크게 지도학습(supervised learning)과 비지도학습(unsupervised learning)으로 나뉜다. 이 두 가지의 가장 큰 차이점은 학습시키는 학습에 주어진 데이터에 분류 항목 표시나 목적 변수의 유무 차이이다. 따라서 무엇을 예측하고 분류할 지를 알려주는 지도학습을 통해 각 데이터들을 분류하는 것이 가능하며, 대표적인 방법으로 나이브 베이즈(Naive Bayes), K-최근접 이웃(K-Nearest Neighbors, KNN), 지지 벡터 머신(Support Vector Machines, SVM) 등이 있다.
교통사고는 어떤 요인들이 복합적으로 작용하여 발생하는가?
교통사고는 인적요인, 차량요인, 환경요인이 복합적으로 작용하여 발생한다. 이 중 렌터카 교통사고는 운전자의 평소 익숙하지 않은 환경 등으로 인해 교통사고 발생 가능성과 심각도가 다른 교통사고와는 다를 것으로 예상된다.
기계학습은 어떤 기술인가?
머신러닝(machine learning)으로 흔히 알려진 기계학습은 인공지능(artificial intelligence)의 한 분야이며, 패턴 인식과 컴퓨터학습 관련 연구로부터 진화하였다. 기계학습은 데이터를 기반으로 컴퓨터가 스스로 학습을 하고 예측을 하며, 성능을 향상시키는 시스템과 이를 위한 알고리즘을 구축하는 기술이다. 최근 구글(Google)에서 주최한 구글 딥마인드(deepmind) 바둑 대국에서 이세돌을 승리한 알파고(AlphaGo)를 학습시킨 딥러닝 (deep learning) 또한 기계학습의 한 종류이다.
참고문헌 (13)
Choi J. W., Kim S. H., Cho J. H. and Kim W. C.(2004), "A Study to predict the Traffic Accident Severity Level Applying Neural Network at the Signalized Intersections," Journal of Korean Society of Transportation, vol. 22, no. 3, pp.127-135.
Choi S., Park J. H. and Oh C.(2011), "Factors Affecting Injury Severity in Pedestrian-Vehicle Crash by Novice Driver," Journal of Korean Society of Transportation, vol. 29, no. 4, pp.43-51.
Kang J. H., Kim J. C., Lee J. H., Park S. S. and Jang D. S.(2016), "A Comparative Study on Patent Document Classification Algorithms," Proceedings of KIIS Spring Conference, vol 26, no. 1, pp.9-10.
Kim J. S. and Shin Y. K.(2000), "An Automatic Document Classification with Bayesian Learning," Journal of the Korean Data & Information Science Society, vol. 11, no. 1, pp.19-30.
Ko H. G., Yun I., Kim K. H., Song H. I. and Heo, T. Y.(2016), "A study on Analysis Severities of Rental Car Traffic Accidents : Case of Major Sightseeing Cities Including Busan, Gyeongju and Jeju Island," Journal of the Korean Data Analysis Society, vol. 18, no. 2, pp.755-769.
Korea Road Traffic Authority(2016), Comparison of Traffic Accident of OECD Member States.
Korea Transport Institution(2013), A Study on the Strategies for 'Vision Zero' Goal of Traffic Fatalities in Korea.
Korean Transportation Safety Authority(2013), The twenties cause the half of the entire deadly traffic accidents involving rent cars, analysis of status of deadly rent car traffic accidents during recent 5 years.
Won M. S., Lee G. R., Oh C. and Kang K. W.(2009), "A Study on the Application of Accident Severity Prediction Model," vol. 27, no. 4, pp.167-173.
Park J. T., Lee S. B., Kim J. W. and Lee D. M.(2008), "Development of a Traffic Accident Prediction Model for Urban Signalized Intersections," Journal of Korean Society of Transportation, vol. 26, no. 4, pp.99-110.
Park N. Y., Kim J. I. and Jung Y. G.(2013), "Breast Cancer Diagnosis using Naive Bayes Analysis Techniques," Journal of Service Research and Studies, vol. 3, no. 1, pp.87-93.
Peter H.(2013), "Machine Learning in Action," JPub(Paju, Korea), pp.11-13.
The R Foundation, https://www.r-project.org/, 2017.05.16.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.