본 연구는 시내버스 운전자의 실제 운행기록 정보를 토대로 사고발생 가능성을 내포한 운전자를 판단할 수 있는 모형개발을 목적으로 하였다. 본 연구를 위하여 사고발생 운전자 및 사고 미발생 운전자의 실제 운행기록 정보에서 교통사고와 관련한 유의변수를 도출하는 한편, 판별분석(Discriminant Analysis) 및 로지스틱회귀분석(Logistic Regression Analysis)을 적용하여 개발된 분류모형에 대한 모형간 정확도를 비교하였다. 또한, 개발된 모형을 다른 운전자들의 운행기록자료에 적용하여 모형의 정확도를 검증하였다. 사고발생 가능성을 내포한 운전자 분류모형을 개발한 결과 감속도($X_{deceleration}$) 및 우측방향 가속도($Y_{right}$)가 동시에 작용할 때 이 변수가 사고발생 운전자 분류의 최적 요인변수로 도출되었으며, 판별분석에 의한 예측모형은 최대 62.8%, 로지스틱회귀분석에 의한 예측모형은 최대 76.7%의 비율로 사고 발생 운전자 분류가 가능한 것으로 나타났다. 또한, 모형 예측력에 대한 검증결과 84.1%의 적중률을 보이는 것으로 나타났다.
본 연구는 시내버스 운전자의 실제 운행기록 정보를 토대로 사고발생 가능성을 내포한 운전자를 판단할 수 있는 모형개발을 목적으로 하였다. 본 연구를 위하여 사고발생 운전자 및 사고 미발생 운전자의 실제 운행기록 정보에서 교통사고와 관련한 유의변수를 도출하는 한편, 판별분석(Discriminant Analysis) 및 로지스틱회귀분석(Logistic Regression Analysis)을 적용하여 개발된 분류모형에 대한 모형간 정확도를 비교하였다. 또한, 개발된 모형을 다른 운전자들의 운행기록자료에 적용하여 모형의 정확도를 검증하였다. 사고발생 가능성을 내포한 운전자 분류모형을 개발한 결과 감속도($X_{deceleration}$) 및 우측방향 가속도($Y_{right}$)가 동시에 작용할 때 이 변수가 사고발생 운전자 분류의 최적 요인변수로 도출되었으며, 판별분석에 의한 예측모형은 최대 62.8%, 로지스틱회귀분석에 의한 예측모형은 최대 76.7%의 비율로 사고 발생 운전자 분류가 가능한 것으로 나타났다. 또한, 모형 예측력에 대한 검증결과 84.1%의 적중률을 보이는 것으로 나타났다.
This study aims to develop a model by which city bus drivers who are likely to cause an accident can be figured out based on the information about their actual driving records. For this purpose, from the information about the actual driving records of the drivers who have caused an accident and thos...
This study aims to develop a model by which city bus drivers who are likely to cause an accident can be figured out based on the information about their actual driving records. For this purpose, from the information about the actual driving records of the drivers who have caused an accident and those who have not caused any, significance variables related to traffic accidents are drawn, and the accuracy between models is compared for the classification models developed, applying a discriminant analysis and logistic regression analysis. In addition, the developed models are applied to the data on other drivers' driving records to verify the accuracy of the models. As a result of developing a model for the classification of drivers who are likely to cause an accident, when deceleration ($X_{deceleration}$) and acceleration to the right ($Y_{right}$) are simultaneously in action, this variable was drawn as the optimal factor variable of the classification of drivers who had caused an accident, and the prediction model by discriminant analysis classified drivers who had caused an accident at a rate up to 62.8%, and the prediction model by logistic regression analysis could classify those who had caused an accident at a rate up to 76.7%. In addition, as a result of the verification of model predictive power of the models showed an accuracy rate of 84.1%.
This study aims to develop a model by which city bus drivers who are likely to cause an accident can be figured out based on the information about their actual driving records. For this purpose, from the information about the actual driving records of the drivers who have caused an accident and those who have not caused any, significance variables related to traffic accidents are drawn, and the accuracy between models is compared for the classification models developed, applying a discriminant analysis and logistic regression analysis. In addition, the developed models are applied to the data on other drivers' driving records to verify the accuracy of the models. As a result of developing a model for the classification of drivers who are likely to cause an accident, when deceleration ($X_{deceleration}$) and acceleration to the right ($Y_{right}$) are simultaneously in action, this variable was drawn as the optimal factor variable of the classification of drivers who had caused an accident, and the prediction model by discriminant analysis classified drivers who had caused an accident at a rate up to 62.8%, and the prediction model by logistic regression analysis could classify those who had caused an accident at a rate up to 76.7%. In addition, as a result of the verification of model predictive power of the models showed an accuracy rate of 84.1%.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
496으로 10 이상으로 높기 때문에 다중공선성을 의심해 볼 수 있다. 다중공 선성 문제 해결을 위해서는 표본수를 확대하거나 해당변수를 제거하여야 하지만, 본 연구에서는 중요 설명변수가 제거될 가능성이 있기 때문에 유의 변수 선정과정에서 다중공선성 분석 결과를 적용하지는 않고 사고 운전자 분류모형 개발 단계에서 다중공선성 의심변수를 제거한 모형을 개발하였다.
조성된 실험조건이 아닌 실제 도로상에서 발생하는 차량들의 운행정보를 활용하기 때문에 실질적 행태를 잘 반영한다고 할 수 있다. 또한 본 연구에서는 사업용 운전자의 실제 운행자료를 바탕으로 사고운전자와 비사고 운전자를 구분할 수 있는 요인에 대해 연구하였다. 두 운전자 집단의 유의한 특성변수를 대상으로 모형내 변수의 영향력 및 통계적 유의성이 확보되지 않은 변수들을 순차적으로 제거하여 두 집단의 분류요인에 대해 가장 잘 설명할 수 있는 모형을 구축하였다.
본 연구는 속도, 브레이크 작동횟수 및 가속도 등 운행기록 자료로부터 수집된 운전자 특성변수가각 운전자의 사고발생 가능성을 얼마나 정확하게 예측하느냐에 중점을 두고 있다.
본 연구는 시내버스 운전자의 실제 운행기록 자료를 바탕으로 사고발생 운전자와 사고미발생 운전자를 분류할 수 있는 모형을 개발하는데 목적을 두었다. 본 연구를 위하여 2014년 1월∼6월 중 사고발생 운전자 106명, 사고 미발생 운전자 149명 등 총 255명의 운행기록 자료를 수집·분석 하였으며, 판별 분석(Discriminant Analysis) 및 로지스틱회귀분석 (Logistic Regression Analysis)을 적용하여 운전자 사고발생 예측모형을 개발, 모형간 정확도를 비교하였다.
본 연구는 운전자의 실제 운행정보를 토대로 사고발생 가능성을 판단할 수 있는 방법론을 제시한데 의의가 있다. 특히, 시내버스 사고의 높은 비중을 차지하고 있는 차내 안전사고의 감소를 위해 운전자 운전습관 교정의 전략적 근거를 제시하고, 급감속 및 급우회전 등의 운전행동 감소를 위한 운전자별 맞춤형 안전교육 시행의 이론적 틀을 마련하는 한편, 향후 신규 운전자 채용 시 운행기록 분석을 통한 운전자 선별의 근거로 활용할 수 있을 것으로 기대된다.
제안 방법
가속도 등 두 운전자 그룹간 운행특성에 차이를 나타내는 유의변수를 추출하고, 추출된 유의변수를 통하여 두 집단의 분류모형 개발 및 모형의 타당성을 검증하였다. 모형개발은 입력변수를 이용하여 목표변수를 예측하는 모형 즉, 새로운 관측치가 어떤 그룹에 속할 것인가를 결정하기 위한 여러가지 분류기법들 중 판별분석(Discriminant Analysis) 및 로지스틱회귀분석(Logistic Regression Analysis)을 활용하였다.
개발된 모형의 검증을 위하여 시내버스 운전자 운행기록자료 중 모형개발에 사용하지 않은 126명의 자료를 활용하였다. 검증자료에 모형을 적용하여 임의시간대에서 사고 발생운전자 및 사고 미발생 운전자 집단의 분류 정확도를 분석하고, 임의 시간대 적용을 통하여 개발된 모형의 타당성 및 통계적 유의성을 검증하였다.
두 번째, 위험운전행태를 분류하고 설명할 수 있는 기준을 마련하기 위하여 실제 운행자료가 아닌 실험용 차량을 이용한 실험환경을 조성하였다. 조성된 실험환경하에서의 주행시뮬레이터 분석을 통하여 수집된 자료를 활용하여 위험운전에 관한 연구를 진행하였다.
또한 본 연구에서는 사업용 운전자의 실제 운행자료를 바탕으로 사고운전자와 비사고 운전자를 구분할 수 있는 요인에 대해 연구하였다. 두 운전자 집단의 유의한 특성변수를 대상으로 모형내 변수의 영향력 및 통계적 유의성이 확보되지 않은 변수들을 순차적으로 제거하여 두 집단의 분류요인에 대해 가장 잘 설명할 수 있는 모형을 구축하였다.
첫째, 운행기록계에서 수집된 자료 중 교통사고 영향요인과 관련된 분석용 변수를 도출하고, 사고자와 비사고자 집단간 유의한 설명변수를 추출하였다. 둘째, 추출된 설명변수를 모형개발용 자료에 적용하여 투입된 변수의 영향력이 적은 변수 및 통계적으로 유의하지 않은 변수를 하나씩 제거하면서 모형을 개발하고, 모형간 분류정확도 비교분석을 통하여 분류 정확도가 가장 높은 모형을 최적 모형으로 선택하였다. 또한, 개발된 모형은 1일 전체 운행시간 중 임의 1시간에 대한 자료를 바탕으로 개발되었기 때문에 임의 추출된 다른 시간대에 모형을 적용하여 모형의 분류 정확도 및 예측 분류된 집단에 대한 통계적 검증을 실시하였다.
모형개발은 입력변수를 이용하여 목표변수를 예측하는 모형 즉, 새로운 관측치가 어떤 그룹에 속할 것인가를 결정하기 위한 여러가지 분류기법들 중 판별분석(Discriminant Analysis) 및 로지스틱회귀분석(Logistic Regression Analysis)을 활용하였다. 마지막으로 개발된 모형을 다른 운전자들의 운행기록자료에 적용하여 모형의 정확도를 검증하였다.
먼저, case 1을 대상으로 운행기록계 정보에서 설명변수로 추출된 차량속도(v), 브레이크 작동횟수, 가속도 등 5개 변수와 추가로 생성된 가속도 관련 10개 변수를 대상으로 두 집단간 차이 유무를 검정하였다.
모형개발은 1일 전체 운행시간 중 임의 1시간에 대한 자료를 바탕으로 하였기 때문에 전체 운행시간대에 대한 검증, 즉 임의 추출된 다른 시간대에 적용하여 모형의 적중률 및 예측 분류된 집단에 대한 통계적 검증을 수행하였다. 모형에 대한 타당성 검증은 개발된 모형 중 사고발생 운전자의 분류 정확도가 가장 높은 모형을 대상으로 하였으며, [Table 12]의 결과에서 나타난 XdYr 단독 변수에 의한 분류모형을 대상으로 하였다.
본 연구를 위하여 2014년 1월∼6월 중 사고발생 운전자 106명, 사고 미발생 운전자 149명 등 총 255명의 운행기록 자료를 수집·분석 하였으며, 판별 분석(Discriminant Analysis) 및 로지스틱회귀분석 (Logistic Regression Analysis)을 적용하여 운전자 사고발생 예측모형을 개발, 모형간 정확도를 비교하였다.
유의변수 선정을 위하여 사고발생 운전자 및 사고 미발생 운전자의 1일 운행자료 중 각각 1시간 자료를 대상으로 t-검정을 수행하였다. 사고발생 운전자의 경우 사고발생시점을 기준으로 사고전 1시간 자료를 추출하고, 사고 미발생 운전자의 경우 05시~24시 중 무작위로 1시간을 추출하여 집단간 변수의 유의성을 검정하고 동 과정을 20회 반복실시하여 시간대별로 유의변수 선정의 타당성을 검증하였다. 유의변수 선정을 위한 방법론을 도식화하면[Fig.
운행기록계에서 수집된 항목 중 차량속도(v), 엔진 회전수(rpm) 등 5개 항목을 분석에 사용하였으며, 가속도의 경우 가감속 및 좌우 방향성을 고려하여 변수를 추가로 생성하였다.
2%로 나타났다. 위 결과를 토대로 모형내 변수의 영향력이 가장 적은 변수를 차례로 제거해가면서 추가 모형을 개발하는 한편, 동일한 방법으로 다중공선성 의심변수를 변경하여 판별모형을 개발하였다.
사고발생 유의변수 추출을 위해 임의 시간대별로 사고발생 운전자 집단 및 사고 미발생 운전자 집단의 운전행동 특성을 비교분석한 결과, 횡방향 가속도 등 6개 가속도 요인이 신뢰수준 95% 이상에서 그룹간 차이가 유의한 것으로 분석되었으며, 동 과정의 반복수행을 통하여 유의변수 선정의 타당성을 검증하였다. 이 결과를 토대로 횡방향 가속도 등 6개 가속도 변수를 사고발생 예측모형 개발을 위한 유의변수로 설정하였으며, 모형내 유의변수의 통계적 유의성 확보 및 모형에 대한 영향력이 낮은 변수의 순차적 제거를 통하여 사고운전자 분류 모형을 개발하고 개발된 각 모형의 분류정확도를 비교하였다.
이에 본 연구에서는 시내버스 운전자의 실제 운행기록자료를 이용하여 사고발생 가능성을 내포한 운전자를 사전에 분류할 수 있는 최적 변수를 도출하고, 도출된 유의변수를 활용하여 사고발생 가능성이 높은 운전자를 추출할 수 있는 모형을 구축하였다. 이에 따라 그 결과는 운전교정 교육이나 운전자 신규 채용 시 잠재적인 위험요인을 내포한 운전자를 사전에 파악하는데 활용할 수 있으며, 결과적으로 운전자의 안전운전 환경을 도모하는데 일조할 수 있을 것으로 기대된다.
두 번째, 위험운전행태를 분류하고 설명할 수 있는 기준을 마련하기 위하여 실제 운행자료가 아닌 실험용 차량을 이용한 실험환경을 조성하였다. 조성된 실험환경하에서의 주행시뮬레이터 분석을 통하여 수집된 자료를 활용하여 위험운전에 관한 연구를 진행하였다. 이처럼 기존의 교통사고와 관련된 운전자의 인적요인 도출에 관한 연구들은 설문조사와 실험을 통한 연구가 대부분을 차지하였으며, 교통사고 발생자료 또는 경험적 자료를 활용하여 사고발생과 운전자 인적요인과의 관계를 분석하여 왔다.
첫 번째, 기존 많은 연구들은 운전자의 위험요인을 도출하고 평가체계를 갖추기 위하여 운전자의 성격 및 태도와 관련된 사항에 대하여 주로 설문조사의 방법을 취하였으며, 이를 바탕으로 교통사고 발생을 야기하는 운전자 요인들의 영향을 추정하는 모형을 구축하고 검증을 실시하였다.
첫째, 운행기록계에서 수집된 자료 중 교통사고 영향요인과 관련된 분석용 변수를 도출하고, 사고자와 비사고자 집단간 유의한 설명변수를 추출하였다. 둘째, 추출된 설명변수를 모형개발용 자료에 적용하여 투입된 변수의 영향력이 적은 변수 및 통계적으로 유의하지 않은 변수를 하나씩 제거하면서 모형을 개발하고, 모형간 분류정확도 비교분석을 통하여 분류 정확도가 가장 높은 모형을 최적 모형으로 선택하였다.
1%로 나타났다. 최적 분류모형 개발을 위하여 통계적으로 유의하지 않은 변수를 제거하고 영향력이 가장 적은 변수부터 모형에서 제거해 가면서 개발된 모형의 분류정확도 변화량을 분석하는 한편, 동일한 방법으로 다중공선성 의심변수를 변경하여 분류모형을 개발하였다.
수집된 자료중 1~2월의 자료는 모형개발을 위하여 활용하고 나머지 3~6월의 자료는 개발된 모형의 검증을 위하여 사용하였다. 특히, 무사고자는 월별, 지역별 사고자 구성비율을 고려하여 사고자의 2배수 수준으로 자료를 수집하였다.
대상 데이터
개발된 모형의 검증을 위하여 시내버스 운전자 운행기록자료 중 모형개발에 사용하지 않은 126명의 자료를 활용하였다. 검증자료에 모형을 적용하여 임의시간대에서 사고 발생운전자 및 사고 미발생 운전자 집단의 분류 정확도를 분석하고, 임의 시간대 적용을 통하여 개발된 모형의 타당성 및 통계적 유의성을 검증하였다.
모형개발은 1일 전체 운행시간 중 임의 1시간에 대한 자료를 바탕으로 하였기 때문에 전체 운행시간대에 대한 검증, 즉 임의 추출된 다른 시간대에 적용하여 모형의 적중률 및 예측 분류된 집단에 대한 통계적 검증을 수행하였다. 모형에 대한 타당성 검증은 개발된 모형 중 사고발생 운전자의 분류 정확도가 가장 높은 모형을 대상으로 하였으며, [Table 12]의 결과에서 나타난 XdYr 단독 변수에 의한 분류모형을 대상으로 하였다. 무작위로 임의 시간대(t2)를 추출하고 추출된 시간대에 모형을 적용하여 적중률을 산출한 결과 사고 미발생 운전자의 경우 90.
본 연구에서는 2014년도 1월부터 6월까지 기간 중 서울, 경기, 대전지역 시내버스 운전자를 대상으로 사고를 발생했던 운전자의 사고당일 운행기록 자료와 사고를 발생하지 않은 운전자의 실제 운행 기록자료를 수집·분석 하였다.
본 연구에서는 2014년도 1월부터 6월까지 기간 중 서울, 경기, 대전지역 시내버스 운전자를 연구대상으로 설정하였으며, 동 기간 중 사고를 발생한 운전자와 사고를 발생하지 않은 운전자의 운행기록자료를 수집하여 분석에 활용하였다. 수집된 자료중 1~2월의 자료는 모형개발을 위하여 활용하고 나머지 3~6월의 자료는 개발된 모형의 검증을 위하여 사용하였다.
데이터처리
t-검정 결과 유의한 변수로 선정된 변수들간의 연관성을 파악하기 위하여 다중공선성을 확인하였다. 기본적으로 다중공선성 진단은 공차한계가 0.
둘째, 추출된 설명변수를 모형개발용 자료에 적용하여 투입된 변수의 영향력이 적은 변수 및 통계적으로 유의하지 않은 변수를 하나씩 제거하면서 모형을 개발하고, 모형간 분류정확도 비교분석을 통하여 분류 정확도가 가장 높은 모형을 최적 모형으로 선택하였다. 또한, 개발된 모형은 1일 전체 운행시간 중 임의 1시간에 대한 자료를 바탕으로 개발되었기 때문에 임의 추출된 다른 시간대에 모형을 적용하여 모형의 분류 정확도 및 예측 분류된 집단에 대한 통계적 검증을 실시하였다.
가속도 등 두 운전자 그룹간 운행특성에 차이를 나타내는 유의변수를 추출하고, 추출된 유의변수를 통하여 두 집단의 분류모형 개발 및 모형의 타당성을 검증하였다. 모형개발은 입력변수를 이용하여 목표변수를 예측하는 모형 즉, 새로운 관측치가 어떤 그룹에 속할 것인가를 결정하기 위한 여러가지 분류기법들 중 판별분석(Discriminant Analysis) 및 로지스틱회귀분석(Logistic Regression Analysis)을 활용하였다. 마지막으로 개발된 모형을 다른 운전자들의 운행기록자료에 적용하여 모형의 정확도를 검증하였다.
유의변수 선정을 위하여 사고발생 운전자 및 사고 미발생 운전자의 1일 운행자료 중 각각 1시간 자료를 대상으로 t-검정을 수행하였다. 사고발생 운전자의 경우 사고발생시점을 기준으로 사고전 1시간 자료를 추출하고, 사고 미발생 운전자의 경우 05시~24시 중 무작위로 1시간을 추출하여 집단간 변수의 유의성을 검정하고 동 과정을 20회 반복실시하여 시간대별로 유의변수 선정의 타당성을 검증하였다.
본 연구는 속도, 브레이크 작동횟수 및 가속도 등 운행기록 자료로부터 수집된 운전자 특성변수가각 운전자의 사고발생 가능성을 얼마나 정확하게 예측하느냐에 중점을 두고 있다. 이를 위하여 본 연구에서는, 종속변수를 예측하기 위한 통계적 기법 중 대표적인 로지스틱회귀분석(Logistic Regression Analysis)과 판별분석(Discriminant Analysis)을 사용하였으며, 각 분석기법은 자료의 특성에 따라 다른 효율성과 정확성을 나타내기 때문에 두 분류기법의 비교를 통하여 최적의 분류모형을 제시하였다.
성능/효과
6개 가속도 변수 중 다중공선성 의심변수 Vy를 제외하고 나머지 5개 변수를 모두 진입시켜 사고발생 운전자 및 사고 미발생 운전자 그룹에 대한 로지스틱회귀분석을 실시한 결과, 모형의 적합도 검증에서는 -2LL(-2Log Likehood) 값의 변화를 통한 2통계량이 신뢰수준 95%(α= 0.05)에서 유의한 것으로 나타났으며, 종속변수의 실제값과 예측된 값의 적합성 여부를 측정하는 Hosmer&Lemeshow Test의 p값이 0.435(p >0.05)로 귀무가설을 채택하여 모형은 적합한 것으로 나타났다.
case 1의 경우와 같이 case 2~case 20 까지의 유의변수 검정 과정을 반복 수행한 결과, Vy, XY, Y 3개 항목은 신뢰수준 95%(α= 0.05)에서, Xd, XdYr 및 XdYl 3개 항목은 신뢰수준 99%(α= 0.01)에서 그룹간 차이가 유의한 것으로 나타났으며, 속도(v) 및 브레이크 작동회수, 진행방향 가속도(Vx) 등 9개 항목은 그룹간 차이가 유의하지 않은 것으로 분석되었다.
개발된 모형에 대한 타당성 검증을 위하여 임의 추출된 다른 시간대에 모형을 적용한 결과 76.7%의 적중률을 나타내었으며, 예측 분류된 집단에 대한 동질성 검정 결과에서는 신뢰수준 95%에서 집단간 차이는 통계적으로 유의하지 않은 것으로 나타나 개발모형의 타당성을 확보하였다. 또한, 개발된 모형의 추가 검증을 위하여 모형개발에 사용하지 않은 3월∼6월 126명의 자료를 통하여 모형의 적합도를 분석한 결과, 사고발생 운전자 분류율은 기존 76.
검증자료에 개발된 모형을 적용한 결과, 적중률 (Ⅲ)의 경우 사고 미발생 운전자의 분류 정확도는 기존 91.9%에서 검증결과 82.5%로, 적중률(Ⅳ)의 경우 85.7%로 각각 낮아진 반면 사고발생 운전자의 분류 정확도는 검증결과 84.1%로 기존 76.7%보다 높은 것으로 나타나 개발된 모형은 타당성을 가진다고 할 수 있다.
다중공선성 의심변수 Vy를 제거한 후 나머지 5개 유의변수를 판별분석에 적용한 경우에는 사고 미발생 운전자를 96.5% 정분류 하고, 사고발생 운전자에 대해서는 62.8% 수준의 분류율을 나타내었으며, 모형내 영향력이 가장 낮은 변수를 하나씩 제거하여 모형의 분류정확도를 분석한 결과, 영향력이 가장 높은 유의변수는 XdYr 이었으나 사고발생 운전자의 분류율은 단일 변수에 의해서는 48.8%로 가장 낮았고, 다른 유의변수와 함께 모형개발에 투입시 분류율이 가장 높게 나오는 것으로 분석되었다.
8%로 가장 높게 나타났다. 다중공선성 의심변수 XdYl 및 통계적으로 유의하지 않은 설명변수를 제거한 경우에는 XdYr 단독변수를 모형개발에 적용한 경우, 사고 미발생 운전자 및 사고발생 운전자에 대한 분류정확도는 각각 91.9%, 76.7%로 변수의 통계적 유의성을 고려할 경우 가장 높은 결과가 도출되었다.
8%로 가장 높게 나오는 것으로 분석되었다. 다중공선성 의심변수 XdYl를 제거한 후 나머지 유의변수를 판별분석에 적용한 경우에는 사고 미발생 운전자의 분류율은 96.5%, 사고발생 운전자에 대해서는 55.8%의 분류율을 나타내었다.
다중공선성 의심변수 XdYr 및 통계적으로 유의하지 않은 설명변수를 제거한 경우에는, Vy, Y, XdYl 3개 유의변수가 적용된 모형에서 전체 분류 정확도가 87.6%로 가장 높게 나타났으며, 사고발생 운전자 분류 정확도 또한 69.8%로 가장 높게 나타났다. 다중공선성 의심변수 XdYl 및 통계적으로 유의하지 않은 설명변수를 제거한 경우에는 XdYr 단독변수를 모형개발에 적용한 경우, 사고 미발생 운전자 및 사고발생 운전자에 대한 분류정확도는 각각 91.
다중공선성 의심변수 XdYr를 제거한 후 나머지 유의변수를 판별분석에 적용한 경우에는 사고 미발생 운전자의 분류율은 98.8%, 사고발생 운전자에 대해서는 53.5%의 분류율을 나타내었다. 한편, 모형내 영향력이 가장 낮은 변수를 하나씩 제거하여 모형의 분류정확도를 분석한 결과, 가장 영향력이 높은 유의변수는 XdYl로 사고발생 운전자의 분류율은 XdYl 단일 변수를 모형개발에 투입했을 때 62.
또한, 개발된 모형의 추가 검증을 위하여 모형개발에 사용하지 않은 3월∼6월 126명의 자료를 통하여 모형의 적합도를 분석한 결과, 사고발생 운전자 분류율은 기존 76.7% 보다 높은 84.1%의 적중률을 보이는 것으로 나타났으며, 예측 분류된 집단에 대한 시간대별 동질성 검정 결과 신뢰수준 95%에서 두 집단의 차이는 통계적으로 유의하지 않은 것으로 나타났다.
또한, 모형내 영향력이 가장 낮은 변수를 하나씩 제거하여 모형의 분류정확도를 분석한 결과, 가장 영향력이 높은 유의변수는 XdYr로 나타났으나 XdYr 단일 변수를 모형개발에 투입했을 때 사고발생 운전자의 분류율은 48.8%로 가장 낮게 나오는 것으로 분석되었다.
5%로 가장 많은 비중을 차지하고 있다. 또한, 법규위반 유형에 따른 사고에서는 안전운행불이행에 따른 사고가 67.4%로 전체 사고의 2/3이상을 차지하는 것으로 나타나, 시내버스 사고감소를 위해서는 사고 위험성을 내포한 운전자 관리를 위한 다양한 대책이 필요한 것으로 판단된다.
7%의 적중률을 보였다. 또한, 예측 분류된 집단의 시간대별 동질성에 대한 통계적 검증에서는 t-검정 결과 신뢰수준 95%(a=0.05)에서 시간대별로 차이는 유의하지 않은 것으로 분석되었다.
먼저 Vy, Y, XY, Xd, XdYr 및 XdYl 등 6개 가속도 변수 중 다중공선성 의심변수 Vy를 제외한 나머지 5개 변수를 사용하여 판별분석을 실시한 결과, 고유값(Eigenvalue) 0.322, 정준상관계수 0.493, Wilk's Lambda값 λ = 0.757(p < 0.001)으로 나타났으며 Box's M 검정에 의한 공분산행렬의 동질성에 대한 검정에서는 통계적 유의값이 0.000으로 나타나, 모집단 공분산행렬이 동일하다는 영가설을 만족하지는 못하였다.
모형개발 결과 총 30개의 모형이 개발되었으며, 이중 판별분석(Discriminant Analysis)에 의한 예측모형은 최대 62.8%의 비율로 사고발생 운전자 분류가 가능하였으며, 로지스틱회귀분석(Logistic Regression Analysis)에 의한 예측모형은 최대 76.7%의 비율로 사고발생 운전자 분류가 가능한 것으로 나타났다. 분석결과, 전반적으로 판별분석(Discriminant Analysis) 보다는 로지스틱회귀분석(Logistic Regression Analysis)을 적용 하였을 때 사고발생 운전자의 분류율이 더 높게 나타났으며, 시내버스의 경우 6개 가속도 요인 중 진행방향에 대한 감속도(Xd) 및 우측 방향 가속도(Yr)가 동시에 작용할 때 이 변수가 사고발생 운전자를 가장 잘 분류해 줄 수 있는 것으로 나타났다.
모형에 대한 타당성 검증은 개발된 모형 중 사고발생 운전자의 분류 정확도가 가장 높은 모형을 대상으로 하였으며, [Table 12]의 결과에서 나타난 XdYr 단독 변수에 의한 분류모형을 대상으로 하였다. 무작위로 임의 시간대(t2)를 추출하고 추출된 시간대에 모형을 적용하여 적중률을 산출한 결과 사고 미발생 운전자의 경우 90.7%, 사고 발생 운전자의 경우 76.7%의 적중률을 보였다. 또한, 예측 분류된 집단의 시간대별 동질성에 대한 통계적 검증에서는 t-검정 결과 신뢰수준 95%(a=0.
변수의 영향력과 통계적 유의성을 모두 고려한 결과, Y, XY, XdYr 및 XdYl 4개 변수를 모형개발에 투입한 경우 사고 미발생 운전자 94.2%, 사고발생 운전자 74.4%의 분류율을 나타내었으며, 사고발생 운전자의 분류율에 대한 정확도가 가장 높은 경우는 XdYr 단독변수를 모형개발에 투입하는 경우에 76.7%의 분류율을 나타내었다.
7%의 비율로 사고발생 운전자 분류가 가능한 것으로 나타났다. 분석결과, 전반적으로 판별분석(Discriminant Analysis) 보다는 로지스틱회귀분석(Logistic Regression Analysis)을 적용 하였을 때 사고발생 운전자의 분류율이 더 높게 나타났으며, 시내버스의 경우 6개 가속도 요인 중 진행방향에 대한 감속도(Xd) 및 우측 방향 가속도(Yr)가 동시에 작용할 때 이 변수가 사고발생 운전자를 가장 잘 분류해 줄 수 있는 것으로 나타났다.
회귀계수를 보면, 사고 발생 운전자와 사고 미발생 운전자의 분류변인으로서 가장 영향력이 있는 변수는 XdYr(감속+우측방향 작용 가속도)로서 값이 커질수록 사고발생 운전자로 분류될 가능성이 더 커지며, 반면 큰 영향력을 가지는 Y(좌우 횡방향 가속도 크기)의 경우 값이 커질수록 사고발생 운전자로 분류될 가능성이 낮아짐을 알 수 있다. 분석결과에 따른 분류 정확도를 분석한 결과 사고 미발생 운전자 집단을 사고 미발생 운전자 집단으로 정확하게 분류하는 비율은 94.2%, 사고발생 운전자 집단을 사고발생 운전자 집단으로 분류하는 비율은 79.1%로 나타났으며, 전반적인 분류 정확도는 89.1%로 나타났다. 최적 분류모형 개발을 위하여 통계적으로 유의하지 않은 변수를 제거하고 영향력이 가장 적은 변수부터 모형에서 제거해 가면서 개발된 모형의 분류정확도 변화량을 분석하는 한편, 동일한 방법으로 다중공선성 의심변수를 변경하여 분류모형을 개발하였다.
분석방법에 따른 사고발생 운전자 분류정확도를 비교해 보면, 변수의 통계적 유의성 및 모형내 영향력을 고려시 판별분석에 의하여 최대 62.8%, 로지스틱회귀분석에 의하여 최대 76.7%의 분류 정확도를 나타내었다. 모형의 적합도와 관련한 Pseudo R2 값은 Hosmer&Lemeshow 검정결과 p<0.
사고발생 운전자 및 사고 미발생 운전자 그룹간 설명변수의 유의성 검정결과 Vy, XY, Y 3개 항목이 신뢰수준 95%(α= 0.05)에서 그룹간 차이가 유의한 것으로 나타났으며, Xd, XdYr 및 XdYl 항목이 신뢰수준 99%(α= 0.01)에서 그룹간 차이가 유의한 것으로 나타났다.
사고발생 유의변수 추출을 위해 임의 시간대별로 사고발생 운전자 집단 및 사고 미발생 운전자 집단의 운전행동 특성을 비교분석한 결과, 횡방향 가속도 등 6개 가속도 요인이 신뢰수준 95% 이상에서 그룹간 차이가 유의한 것으로 분석되었으며, 동 과정의 반복수행을 통하여 유의변수 선정의 타당성을 검증하였다. 이 결과를 토대로 횡방향 가속도 등 6개 가속도 변수를 사고발생 예측모형 개발을 위한 유의변수로 설정하였으며, 모형내 유의변수의 통계적 유의성 확보 및 모형에 대한 영향력이 낮은 변수의 순차적 제거를 통하여 사고운전자 분류 모형을 개발하고 개발된 각 모형의 분류정확도를 비교하였다.
셋째, 모형개발 단계와 동일한 방법으로, 개발된 최적 모형을 검증용 자료에 적용하여 모형의 정확도를 검증하고, 또한 임의 다른 시간대에 모형을 적용하여 시간대별 모형 적용의 타당성을 검증하였다.
정준판별함수의 계수를 보면, 사고 발생 운전자와 사고 미발생 운전자의 분류 변인으로서 가장 영향력이 큰 변수는 XdYr(감속+우측방향 작용 가속도), 영향력이 가장 낮은 변수는 Xd(감속도) 임을 알 수 있다. 판별함수를 통하여 두 집단에 대한 분류 정확도를 분석한 결과, 사고 미발생 운전자 집단을 사고 미발생 운전자 집단으로 정확하게 분류하는 비율은 96.
정준판별함수의 계수를 보면, 사고 발생 운전자와 사고 미발생 운전자의 분류 변인으로서 가장 영향력이 큰 변수는 XdYr(감속+우측방향 작용 가속도), 영향력이 가장 낮은 변수는 Xd(감속도) 임을 알 수 있다. 판별함수를 통하여 두 집단에 대한 분류 정확도를 분석한 결과, 사고 미발생 운전자 집단을 사고 미발생 운전자 집단으로 정확하게 분류하는 비율은 96.5%, 사고발생 운전자 집단을 사고발생 운전자 집단으로 분류하는 비율은 62.8%였으며, 사고발생 운전자 집단을 사고 미발생 운전자 집단으로 잘못 예측하는 오류비율은 37.2%로 나타났다. 위 결과를 토대로 모형내 변수의 영향력이 가장 적은 변수를 차례로 제거해가면서 추가 모형을 개발하는 한편, 동일한 방법으로 다중공선성 의심변수를 변경하여 판별모형을 개발하였다.
5%의 분류율을 나타내었다. 한편, 모형내 영향력이 가장 낮은 변수를 하나씩 제거하여 모형의 분류정확도를 분석한 결과, 가장 영향력이 높은 유의변수는 XdYl로 사고발생 운전자의 분류율은 XdYl 단일 변수를 모형개발에 투입했을 때 62.8%로 가장 높게 나오는 것으로 분석되었다. 다중공선성 의심변수 XdYl를 제거한 후 나머지 유의변수를 판별분석에 적용한 경우에는 사고 미발생 운전자의 분류율은 96.
한편, 예측 분류된 집단의 시간대별 동질성에 대한 통계적 검증에서는 t-검정 결과 신뢰수준 95%(a=0.05) 에서 시간대별로 차이는 유의하지 않은 것으로 나타났으며, 개발된 모형을 적용하였을 때 시간대별로 동일한 결과를 도출해 준다고 할 수 있다.
회귀계수를 보면, 사고 발생 운전자와 사고 미발생 운전자의 분류변인으로서 가장 영향력이 있는 변수는 XdYr(감속+우측방향 작용 가속도)로서 값이 커질수록 사고발생 운전자로 분류될 가능성이 더 커지며, 반면 큰 영향력을 가지는 Y(좌우 횡방향 가속도 크기)의 경우 값이 커질수록 사고발생 운전자로 분류될 가능성이 낮아짐을 알 수 있다. 분석결과에 따른 분류 정확도를 분석한 결과 사고 미발생 운전자 집단을 사고 미발생 운전자 집단으로 정확하게 분류하는 비율은 94.
후속연구
이에 개별 운전자의 운전행동에 대한 세부적인 규명을 통해 운전행동을 유형화하고, 노선별 운행 특성 및 구간별 기하구조 등 구체적인 도로여건을 수집하기 위해 교통사고 발쟁지점의 좌표를 이용하여 전자지도와 연계한 실증적인 연구와 자료구축을 통해 세부 모형을 추가로 개발할 필요가 있다. 또한, 본 연구에서는 운행기록 정보를 통하여 사고발생에 관계된 요인 규명에 관점을 두었으나, 과속, 급가속, 급출발 및 급감속 등 개별 위험운전행동과 교통사고와의 관계를 규명하는 연구 또한 본 연구의 연장선상에서 추가로 진행되어야 할 필요가 있다고 판단된다.
본 연구는 개인별 운행기록자료 수집의 한계로 개인별 운전행동을 정의하지 못하고 집단특성에 대해서만 비교되었으며, 운전자의 운전행동에 영향을 미칠 수 있는 도로 운행구간, 운행노선의 특성 등 외부요인에 대한 특성을 반영하지 못한 한계가 있다.
연구결과는, 사고자와 비사고자를 구분할 수 있는 기준 제시를 통해 교통사고 발생 가능성이 있는 운전자를 사전에 파악하여 운전교정 교육 등 사고 발생 위험군 운전자관리에 활용될 수 있을 것으로 판단되며, 나아가 타 업종 운전자를 대상으로 한 사고 위험군 운전자를 판별할 수 있는 연구의 기초로 활용될 수 있을 것이다.
연구결과를 종합하면, 운전자의 운행기록 자료에서 수집되는 항목 중 진행방향에 대한 감속도(Xd) 및 우측방향 가속도(Yr)의 합성가속도 변수가 사고 발생 운전자를 가장 잘 분류해 주는 것으로 나타났으며, 이는 향후 시내버스 운전자의 사고유발 가능성을 사전에 판단해 볼 수 있는 좋은 도구로 활용될 수 있을 것이다.
이에 개별 운전자의 운전행동에 대한 세부적인 규명을 통해 운전행동을 유형화하고, 노선별 운행 특성 및 구간별 기하구조 등 구체적인 도로여건을 수집하기 위해 교통사고 발쟁지점의 좌표를 이용하여 전자지도와 연계한 실증적인 연구와 자료구축을 통해 세부 모형을 추가로 개발할 필요가 있다. 또한, 본 연구에서는 운행기록 정보를 통하여 사고발생에 관계된 요인 규명에 관점을 두었으나, 과속, 급가속, 급출발 및 급감속 등 개별 위험운전행동과 교통사고와의 관계를 규명하는 연구 또한 본 연구의 연장선상에서 추가로 진행되어야 할 필요가 있다고 판단된다.
이에 본 연구에서는 시내버스 운전자의 실제 운행기록자료를 이용하여 사고발생 가능성을 내포한 운전자를 사전에 분류할 수 있는 최적 변수를 도출하고, 도출된 유의변수를 활용하여 사고발생 가능성이 높은 운전자를 추출할 수 있는 모형을 구축하였다. 이에 따라 그 결과는 운전교정 교육이나 운전자 신규 채용 시 잠재적인 위험요인을 내포한 운전자를 사전에 파악하는데 활용할 수 있으며, 결과적으로 운전자의 안전운전 환경을 도모하는데 일조할 수 있을 것으로 기대된다.
본 연구는 운전자의 실제 운행정보를 토대로 사고발생 가능성을 판단할 수 있는 방법론을 제시한데 의의가 있다. 특히, 시내버스 사고의 높은 비중을 차지하고 있는 차내 안전사고의 감소를 위해 운전자 운전습관 교정의 전략적 근거를 제시하고, 급감속 및 급우회전 등의 운전행동 감소를 위한 운전자별 맞춤형 안전교육 시행의 이론적 틀을 마련하는 한편, 향후 신규 운전자 채용 시 운행기록 분석을 통한 운전자 선별의 근거로 활용할 수 있을 것으로 기대된다.
질의응답
핵심어
질문
논문에서 추출한 답변
분류모형에 대한 모형간 정확도는 무엇을 적용하여 개발되었는가?
본 연구는 시내버스 운전자의 실제 운행기록 정보를 토대로 사고발생 가능성을 내포한 운전자를 판단할 수 있는 모형개발을 목적으로 하였다. 본 연구를 위하여 사고발생 운전자 및 사고 미발생 운전자의 실제 운행기록 정보에서 교통사고와 관련한 유의변수를 도출하는 한편, 판별분석(Discriminant Analysis) 및 로지스틱회귀분석(Logistic Regression Analysis)을 적용하여 개발된 분류모형에 대한 모형간 정확도를 비교하였다. 또한, 개발된 모형을 다른 운전자들의 운행기록자료에 적용하여 모형의 정확도를 검증하였다.
법규위반 유형에 따른 사고에서 가장 많은 비중을 차지하는 것은 무엇인가?
5%로 가장 많은 비중을 차지하고 있다. 또한, 법규위반 유형에 따른 사고에서는 안전운행불이행에 따른 사고가 67.4%로 전체 사고의 2/3이상을 차지하는 것으로 나타나, 시내버스 사고감소를 위해서는 사고 위험성을 내포한 운전자 관리를 위한 다양한 대책이 필요한 것으로 판단된다.
참고문헌 (10)
Bagadadi O. and Varhelyi A.(2011), "Jerky driving -An indicator of accident proneness," Accident Analysis and Prevention, vol. 43, pp. 1359-1363.
Cho J. H.(2008), "Development of a Real-time Safe Driving Management System," University of Kookmin, Ph. D. Dissertation.
Cho J. H. and Lee W. S.(2007), "Development of a Safe Driving Management System," Transactions of Korea Society of Automotive Engineers, vol. 15, no. 1, pp.71-77.
Hwang S. Ch.(2000), "A Study on the Causes of Traffic Casualties and Preventive Countermeasures," Dongguk University, Master's degree thesis.
Lee H. S. and An B. J.(2006), "A Factor Analysis of Traffic Accidents Through Traffic Safety Diagnosis Results," Journal of the Korean Society of Safety, vol. 21, no. 2, pp.128-137.
Oh J. S.(2011), "Discrimination for Reckless Drivers through Personality and Attitude Measurement : Developing a Psychological Test and Its Criteria for Driver Discrimination," Chungbuk National University, Ph. D. Dissertation.
Oh J. T. and Lee S. Y.(2009), "A Study of the Weight value to Risky Driving Type," International Journal of Highway Engineering, vol. 11, no. 1, pp.105-115.
Park J. H. and Lee S. Ch.(1997), "Analysis of Traffic Accident Proneness by Drivers' Variables," Korean Journal of Culture and Social Issues, vol. 3, no. 1, pp.143-157.
af Wahlberg. AE(2004), "The stability of driver acceleration behavior, and a replication of its relation to bus accidents," Accident Analysis and Prevention, vol. 36, pp. 83-92.
Zegeer C., Huang H., Hummer J., Stutts J. and Rodgman E.(1993), "Characteristics and Solutions Related to Bus Transit Accidents," Federal Transit Administrationas.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.