교통사고의 원인을 규명하고 미래의 사고를 방지하기 위한 노력의 일환으로 데이터 마이닝 기법을 이용한 교통 데이터 분석의 연구가 이루어지고 있다. 하지만 기존의 교통 데이터를 이용한 마이닝 연구들은 학습된 결과를 사람이 이해하기 어려워 분석에 많은 노력이 필요하다는 문제가 있었다. 본 논문에서는 많은 속성들로 표현된 교통사고 데이터로부터 유용한 패턴을 발견하기 위해 규칙 학습 기반의 데이터 마이닝 기법인 연관규칙 학습기법과 서브그룹 발견기법을 적용하였다. 연관규칙 학습기법은 비지도 학습 기법의 하나로 데이터 내에서 동시에 많이 등장하는 아이템(item)들을 찾아 규칙의 형태로 가공해 주며, 서브그룹 발견기법은 사용자가 지정한 대상 속성이 결론부에 나타나는 규칙을 학습하는 지도학습 기반 기법으로 일반성과 흥미도가 높은 규칙을 학습한다. 규칙 학습 시 사용자의 의도를 반영하기 위해서는 하나 이상의 관심 속성들을 조합한 합성 속성을 만들어 규칙을 학습할 수 있다. 규칙이 도출되고 나면 후처리 과정을 통해 중복된 규칙을 제거하고 유사한 규칙을 일반화하여 규칙들을 더 단순하고 이해하기 쉬운 형태로 가공한다. 교통사고 데이터를 대상으로 두 기법을 적용한 결과 대상 속성을 지정하지 않고 연관규칙 학습기법을 적용하는 경우 사용자가 쉽게 알기 어려운 속성 사이의 숨겨진 관계를 발견할 수 있었으며, 대상 속성을 지정하여 연관규칙 학습기법과 서브그룹 발견기법을 적용하는 경우 파라미터 조정에 많은 노력을 기울여야 하는 연관규칙 학습기법에 비해 서브그룹 발견기법이 흥미로운 규칙들을 더 쉽게 찾을 수 있음을 확인하였다.
교통사고의 원인을 규명하고 미래의 사고를 방지하기 위한 노력의 일환으로 데이터 마이닝 기법을 이용한 교통 데이터 분석의 연구가 이루어지고 있다. 하지만 기존의 교통 데이터를 이용한 마이닝 연구들은 학습된 결과를 사람이 이해하기 어려워 분석에 많은 노력이 필요하다는 문제가 있었다. 본 논문에서는 많은 속성들로 표현된 교통사고 데이터로부터 유용한 패턴을 발견하기 위해 규칙 학습 기반의 데이터 마이닝 기법인 연관규칙 학습기법과 서브그룹 발견기법을 적용하였다. 연관규칙 학습기법은 비지도 학습 기법의 하나로 데이터 내에서 동시에 많이 등장하는 아이템(item)들을 찾아 규칙의 형태로 가공해 주며, 서브그룹 발견기법은 사용자가 지정한 대상 속성이 결론부에 나타나는 규칙을 학습하는 지도학습 기반 기법으로 일반성과 흥미도가 높은 규칙을 학습한다. 규칙 학습 시 사용자의 의도를 반영하기 위해서는 하나 이상의 관심 속성들을 조합한 합성 속성을 만들어 규칙을 학습할 수 있다. 규칙이 도출되고 나면 후처리 과정을 통해 중복된 규칙을 제거하고 유사한 규칙을 일반화하여 규칙들을 더 단순하고 이해하기 쉬운 형태로 가공한다. 교통사고 데이터를 대상으로 두 기법을 적용한 결과 대상 속성을 지정하지 않고 연관규칙 학습기법을 적용하는 경우 사용자가 쉽게 알기 어려운 속성 사이의 숨겨진 관계를 발견할 수 있었으며, 대상 속성을 지정하여 연관규칙 학습기법과 서브그룹 발견기법을 적용하는 경우 파라미터 조정에 많은 노력을 기울여야 하는 연관규칙 학습기법에 비해 서브그룹 발견기법이 흥미로운 규칙들을 더 쉽게 찾을 수 있음을 확인하였다.
Traffic accident is one of the major cause of death worldwide for the last several decades. According to the statistics of world health organization, approximately 1.24 million deaths occurred on the world's roads in 2010. In order to reduce future traffic accident, multipronged approaches have been...
Traffic accident is one of the major cause of death worldwide for the last several decades. According to the statistics of world health organization, approximately 1.24 million deaths occurred on the world's roads in 2010. In order to reduce future traffic accident, multipronged approaches have been adopted including traffic regulations, injury-reducing technologies, driving training program and so on. Records on traffic accidents are generated and maintained for this purpose. To make these records meaningful and effective, it is necessary to analyze relationship between traffic accident and related factors including vehicle design, road design, weather, driver behavior etc. Insight derived from these analysis can be used for accident prevention approaches. Traffic accident data mining is an activity to find useful knowledges about such relationship that is not well-known and user may interested in it. Many studies about mining accident data have been reported over the past two decades. Most of studies mainly focused on predict risk of accident using accident related factors. Supervised learning methods like decision tree, logistic regression, k-nearest neighbor, neural network are used for these prediction. However, derived prediction model from these algorithms are too complex to understand for human itself because the main purpose of these algorithms are prediction, not explanation of the data. Some of studies use unsupervised clustering algorithm to dividing the data into several groups, but derived group itself is still not easy to understand for human, so it is necessary to do some additional analytic works. Rule based learning methods are adequate when we want to derive comprehensive form of knowledge about the target domain. It derives a set of if-then rules that represent relationship between the target feature with other features. Rules are fairly easy for human to understand its meaning therefore it can help provide insight and comprehensible results for human. Association rule learning methods and subgroup discovery methods are representing rule based learning methods for descriptive task. These two algorithms have been used in a wide range of area from transaction analysis, accident data analysis, detection of statistically significant patient risk groups, discovering key person in social communities and so on. We use both the association rule learning method and the subgroup discovery method to discover useful patterns from a traffic accident dataset consisting of many features including profile of driver, location of accident, types of accident, information of vehicle, violation of regulation and so on. The association rule learning method, which is one of the unsupervised learning methods, searches for frequent item sets from the data and translates them into rules. In contrast, the subgroup discovery method is a kind of supervised learning method that discovers rules of user specified concepts satisfying certain degree of generality and unusualness. Depending on what aspect of the data we are focusing our attention to, we may combine different multiple relevant features of interest to make a synthetic target feature, and give it to the rule learning algorithms. After a set of rules is derived, some postprocessing steps are taken to make the ruleset more compact and easier to understand by removing some uninteresting or redundant rules. We conducted a set of experiments of mining our traffic accident data in both unsupervised mode and supervised mode for comparison of these rule based learning algorithms. Experiments with the traffic accident data reveals that the association rule learning, in its pure unsupervised mode, can discover some hidden relationship among the features. Under supervised learning setting with combinatorial target feature, however, the subgroup discovery method finds good rules much more easily than the association rule learning method that requires a lot of efforts to tune the parameters
Traffic accident is one of the major cause of death worldwide for the last several decades. According to the statistics of world health organization, approximately 1.24 million deaths occurred on the world's roads in 2010. In order to reduce future traffic accident, multipronged approaches have been adopted including traffic regulations, injury-reducing technologies, driving training program and so on. Records on traffic accidents are generated and maintained for this purpose. To make these records meaningful and effective, it is necessary to analyze relationship between traffic accident and related factors including vehicle design, road design, weather, driver behavior etc. Insight derived from these analysis can be used for accident prevention approaches. Traffic accident data mining is an activity to find useful knowledges about such relationship that is not well-known and user may interested in it. Many studies about mining accident data have been reported over the past two decades. Most of studies mainly focused on predict risk of accident using accident related factors. Supervised learning methods like decision tree, logistic regression, k-nearest neighbor, neural network are used for these prediction. However, derived prediction model from these algorithms are too complex to understand for human itself because the main purpose of these algorithms are prediction, not explanation of the data. Some of studies use unsupervised clustering algorithm to dividing the data into several groups, but derived group itself is still not easy to understand for human, so it is necessary to do some additional analytic works. Rule based learning methods are adequate when we want to derive comprehensive form of knowledge about the target domain. It derives a set of if-then rules that represent relationship between the target feature with other features. Rules are fairly easy for human to understand its meaning therefore it can help provide insight and comprehensible results for human. Association rule learning methods and subgroup discovery methods are representing rule based learning methods for descriptive task. These two algorithms have been used in a wide range of area from transaction analysis, accident data analysis, detection of statistically significant patient risk groups, discovering key person in social communities and so on. We use both the association rule learning method and the subgroup discovery method to discover useful patterns from a traffic accident dataset consisting of many features including profile of driver, location of accident, types of accident, information of vehicle, violation of regulation and so on. The association rule learning method, which is one of the unsupervised learning methods, searches for frequent item sets from the data and translates them into rules. In contrast, the subgroup discovery method is a kind of supervised learning method that discovers rules of user specified concepts satisfying certain degree of generality and unusualness. Depending on what aspect of the data we are focusing our attention to, we may combine different multiple relevant features of interest to make a synthetic target feature, and give it to the rule learning algorithms. After a set of rules is derived, some postprocessing steps are taken to make the ruleset more compact and easier to understand by removing some uninteresting or redundant rules. We conducted a set of experiments of mining our traffic accident data in both unsupervised mode and supervised mode for comparison of these rule based learning algorithms. Experiments with the traffic accident data reveals that the association rule learning, in its pure unsupervised mode, can discover some hidden relationship among the features. Under supervised learning setting with combinatorial target feature, however, the subgroup discovery method finds good rules much more easily than the association rule learning method that requires a lot of efforts to tune the parameters
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
연관규칙 학습기법이나 서브그룹 발견기법은 이러한 연구들과는 달리 예측 성능을 극대화하는데 목적을 두지 않고 속성 사이의 관계를 잘 나타내는 규칙을 학습하는데 목적을 두고 있다. 연관규칙 학습기법은 지정된 대상 속성을 필요로 하지 않기 때문에 데이터에 대한 지식이 부족한 상태에서의 초기 연구에 활용하기 쉬우며, 사고 데이터의 경우 철도 사고 데이터를 가지고 사고에서 동시에 자주 등장하는 사고 요인들을 발견하는데 적용된 바 있다(Mirabadi and Sharifian, 2010).
가설 설정
규칙 학습 시 사용자의 의도를 반영하기 위한 대상 속성은 데이터에 존재하는 속성 중 하나를 선정할 수도 있고, 관련 있는 여러 속성을 조합함으로써 만들 수도 있다. 만일 우리가 m개의 값과 n개의 값을 가지는 두 속성 Fi와 Fj를 조합한다고 가정해보자. 이 경우 두 속성을 조합한 속성은 m⋅n개의 대상 값을 가질 수 있다.
제안 방법
‘Vehicle type’ 또한 교통법의 구분에 따라 총 10가지 유형으로 분류하였으며, ‘Age’는 10년 단위로 구분하였다.
이를 통해 그룹별 분포는 비교적 고르며, 무면허 운전 사고도 상당한 비중을 차지함을 알 수 있다. 각 운전경력 그룹의 사고 특성을 알아보기 위해 6개의 운전 경력별 그룹을 대상 속성으로 하여 연관규칙 학습기법과 서브그룹 발견기법을 적용하였다.
데이터 마이닝의 수행을 위한 전처리 과정으로써 사고 분석과 큰 관련이 없는 ‘Police office’, ‘Date’, ‘Geographic coordinate’, ‘Vehicle ID’와 같은 필드를 제거하였고, 사고 발생에 영향을 주는 것으로 알려진 ‘Temperature’나 ‘Precipitation’과 같은 기상 데이터를 사고 지점의 좌표를 기준으로 가장 가까운 관측소의 데이터를 이용하여 결합하였다.
1%의 비율 이상이 되도록 2,500, 500,250, 50의 네 가지 조합을 시도하였고, 6개의 운전자 경력 그룹을 대상 속성으로 하여 각 100개씩 600개의 규칙을 도출하였다. 도출된 규칙들 중 일반성이 떨어지거나 흥미도가 낮은 규칙을 제외하기 위해 지지값이 100 이하이거나 lift가 1.5 이하인 규칙들을 제거하고 규칙의 후처리 과정을 적용하였다.
두 번째 실험에서는 대상 속성이 지정된 경우 두 규칙 학습알고리즘이 어떤 차이를 보이는지 확인한기 위해 ‘Driving Career’를 대상 속성으로 서브그룹 발견기법과 연관규칙 학습기법을 적용하였다.
반면 서브그룹 발견 기법의 경우는 대상 속성이 정해진 상태에서만 해당 속성에 대해서 WRA를 최대화할 수 있는 규칙을 탐색한다. 따라서 본 논문에서는 대상 속성을 지정하지 않고 규칙을 학습하는 경우와 사용자가 관심 있는 대상 속성이 있는 경우로나누어 두 알고리즘을 적용 및 비교하였다.
운전 경력을 대상 속성으로 한 실험에서 경력별로 사고를 많이 일으키는 성별이 달라진다는 사실을 확인할 수 있었다. 따라서 성별과 운전경력에 대한 심층적인 분석을 위해서 두 속성을 결합하여 대상 속성을 만든 후 두 가지 규칙 학습기법을 적용하여 비교하였다.
마지막 실험에서는 대상 속성의 결합이 학습 결과에 어떤 변화를 일으키는지 확인하기 위해‘Driving Career’와 ‘Sex’를 결합하여 서브그룹 발견기법과 연관규칙 학습기법을 적용하여 발견한 규칙을 분석하였다.
본 논문에서는 규칙의 평가를 Cond의 길이가 짧은 규칙부터 순차적으로 수행하였다. 불필요한 규칙의 평가를 줄이기 위해서 Q에서 나온 규칙 r에 대해서 WRA*(r)을 계산하여 r에서 Cond에 더 많은 리터럴이 추가된 규칙들이 평가될 필요가 있는지를 판단한다.
본 논문에서는 규칙의 평가를 Cond의 길이가 짧은 규칙부터 순차적으로 수행하였다. 불필요한 규칙의 평가를 줄이기 위해서 Q에서 나온 규칙 r에 대해서 WRA*(r)을 계산하여 r에서 Cond에 더 많은 리터럴이 추가된 규칙들이 평가될 필요가 있는지를 판단한다. WRA*(r)는 WRA(r)에서상대적 정확도 값이 최대가 되는 경우, 즉 p(Class|Cond)가 1이 되는 경우를 가정한 경우의 값이다.
사고 데이터에 자주 등장하는 패턴을 발견하기 위해 연관규칙 학습기법을 적용하여 규칙을 학습하였다. item의 최소 지지값 α는 학습할 규칙의 일반성을 보장하기 위해 전체 데이터의 약 5%에 해당하는 2,500으로 지정하였다.
사고데이터 마이닝을 위한 서브그룹 발견기법과 연관규칙 학습기법의 비교를 위해 몇 가지 실험을 수행하였다. 첫 번째 실험에서는 사고에서 자주 등장하는 패턴이 무엇인지를 관찰하기 위해 대상 속성을 지정하지 않고 연관규칙 학습기법을 적용하여 규칙을 도출하였다.
속성의 전처리와 더불어 데이터의 일부 필드에 대해 그룹화나 이산화 과정 또한 수행하였다. ‘Day type’은 평일과 휴일로 단순화해서 구분하였고 ‘Time’은 주관적인 기준에 따라 [Table 2]에 나타난 5개의 구간으로 구분하였다.
서브그룹 발견기법의 경우 각 대상 속성별로 100개씩 총 600개의 규칙을 WRA가 높은 순으로도출하였다. 연관규칙 학습기법과 마찬가지로 도출된 규칙 중 지지값이 100 이하이거나 lift가 1.5 이하인 규칙들을 제거하고 후처리 과정을 적용하였다. 실험 결과 조건을 만족하는 184개의 규칙 중 후처리 과정을 통해 최종 21개의 규칙을 얻을 수 있었다.
연관규칙 학습기법의 경우 아이템의 최소 지지값 α에 대하여 전체 데이터 수 대비 0.05, 0.01,0.005, 0.001의 비율 이상이 되도록 2,500, 500,250, 50의 네 가지 조합을 시도하였고, 6개의 운전자 경력 그룹과 2개의 운전자 성별의 조합을 대상 속성으로 하여 각 100개씩 총 1,200개의 규칙을 도출하였다.
연관규칙 학습기법의 경우 아이템의 최소 지지값 α에 대하여 전체 데이터 수 대비 5%, 1%,0.5%, 0.1%의 비율 이상이 되도록 2,500, 500,250, 50의 네 가지 조합을 시도하였고, 6개의 운전자 경력 그룹을 대상 속성으로 하여 각 100개씩 600개의 규칙을 도출하였다.
위 분석 결과를 토대로 운전 경력이 사고 발생에 어떤 영향을 주는지 확인하기 위해 ‘Driving career’를 대상 속성으로 하여 규칙을 학습함으로써 추가적인 분석을 수행하기로 결정하였다.
이를 위해 리터럴의 교집합이 없는 두 아이템 Cond와 Class를 조합하여 ‘if Cond then Class’ 형태의 규칙을 생성한 후 이들 중 확신도가 높은 상위 k개의 규칙을 도출한다.
사고데이터 마이닝을 위한 서브그룹 발견기법과 연관규칙 학습기법의 비교를 위해 몇 가지 실험을 수행하였다. 첫 번째 실험에서는 사고에서 자주 등장하는 패턴이 무엇인지를 관찰하기 위해 대상 속성을 지정하지 않고 연관규칙 학습기법을 적용하여 규칙을 도출하였다. 두 번째 실험에서는 대상 속성이 지정된 경우 두 규칙 학습알고리즘이 어떤 차이를 보이는지 확인한기 위해 ‘Driving Career’를 대상 속성으로 서브그룹 발견기법과 연관규칙 학습기법을 적용하였다.
연관규칙 학습기법은 대상 속성이 지정되지 않은 경우에도 속성 사이의 관계를 발견할 수 있어 데이터를 이용한 초기 분석에 유용함을 확인하였다. 한편 사용자의 관심사를 마이닝에 반영하고자 하는 경우 관련 있는 몇 가지 속성을 조합하여 새로운 대상속성을 만든 후 대상 속성을 target class로 하는 규칙을 학습하였다. 대상 속성이 정해진 경우 연관규칙 학습기법은 최소지지값에 따라 도출되는 규칙에 큰 차이를 보였으며, 대상 속성의 조합의 증가하면서 대상 속성별 데이터 분포의 차이가 점점 커지기 때문에 최적의 지지값을 찾는데 어려움을 겪었다.
대상 데이터
본 연구에서 사용하는 교통사고 데이터에는 국내 한 대도시에서 2011년 1월부터 2014년 8월까지 발생한 50,709건의 교통사고가 기록되어 있다. [Table 1]에서는 교통사고 데이터의 데이터 필드들을 보여주고 있다.
이론/모형
본 논문에서는 여러 속성으로 이루어진 사고데이터를 이용하여 규칙 기반 마이닝 기법인 연관규칙 학습기법과 서브그룹 발견기법을 적용하였다. 연관규칙 학습기법은 대상 속성이 지정되지 않은 경우에도 속성 사이의 관계를 발견할 수 있어 데이터를 이용한 초기 분석에 유용함을 확인하였다.
본 논문에서는 연관규칙 학습 알고리즘인 Apriori 알고리즘 (Agrawal and Stikant, 1994)과 서브그룹 발견 알고리즘인 MIDOS 알고리즘(Wrobel, 1997)을 이용하여 규칙을 학습하였다. 본 장에서는 각 기법이 규칙을 학습하는 방법과 규칙을 평가하는 기준에 대해서 소개하고, 규칙학습 시 사용자의 관심도를 반영하기 위해 대상 속성을 선정하는 방법과 학습된 규칙 집합을 단순화하여 이해하기 쉽도록 후처리 하는 과정에 대해서 설명한다.
, 2004; Flach, 2012). 이를 위해 3장에 소개될 가중 상대 정확도(Weighted Relative Accuracy, WRA)라는 평가 함수를 이용한다(Clark and Niblett, 1989). WRA는 지지값의 설정 없이 확신도와 일반성을 동시에 만족하는 규칙을 찾는데 도움을 준다.
성능/효과
item의 최소 지지값 α는 학습할 규칙의 일반성을 보장하기 위해 전체 데이터의 약 5%에 해당하는 2,500으로 지정하였다. item의 조합으로 생성 가능한 규칙들 중 흥미로운 규칙만을 얻기 위해 확신도가 높은 500개의 규칙을 선별한 후 Lift 값이 1.3 이하인 규칙을 제거한 결과 총 98개의 규칙을 얻을 수 있었다. 하지만 모든 규칙이 ‘Age’와 ‘Driving career’에 대한 연관관계를 포함한 규칙이었다.
5 이하인 규칙들을 제거하고 후처리 과정을 적용하였다. 실험 결과 조건을 만족하는 184개의 규칙 중 후처리 과정을 통해 최종 21개의 규칙을 얻을 수 있었다. 두 기법이 도출한 서브그룹의 비교를 위해 공통으로 찾아낸 서브그룹들 중 의미 있는 일부 서브그룹을 [Table 4]에, 각 기법에서 고유하게 찾아낸 서브그룹을 각각 [Table 5, 6]에 나타내었다.
5 이하인 규칙들을 제거하고 후처리 과정을 적용하였다. 실험 결과 조건을 만족하는 238개의 규칙을 도출할 수 있었으며 후처리 과정을 통해 최종 40개의 서브그룹을 얻을 수 있었다.
본 논문에서는 여러 속성으로 이루어진 사고데이터를 이용하여 규칙 기반 마이닝 기법인 연관규칙 학습기법과 서브그룹 발견기법을 적용하였다. 연관규칙 학습기법은 대상 속성이 지정되지 않은 경우에도 속성 사이의 관계를 발견할 수 있어 데이터를 이용한 초기 분석에 유용함을 확인하였다. 한편 사용자의 관심사를 마이닝에 반영하고자 하는 경우 관련 있는 몇 가지 속성을 조합하여 새로운 대상속성을 만든 후 대상 속성을 target class로 하는 규칙을 학습하였다.
운전 경력을 대상 속성으로 한 실험에서 경력별로 사고를 많이 일으키는 성별이 달라진다는 사실을 확인할 수 있었다. 따라서 성별과 운전경력에 대한 심층적인 분석을 위해서 두 속성을 결합하여 대상 속성을 만든 후 두 가지 규칙 학습기법을 적용하여 비교하였다.
운전경력이 14 ∼ 23년 사이의 운전자 사고는 여성 운전자가 많았으며, 운전경력이 24년 경우 긴 운전경력을 필요로 하는 특수차량의 사고나 아침 시간대의 사고나 중형차 운전자의 차:사람 사고가 많아지는 것을 확인할 수 있다.
α를 250으로 한 경우 확신도가 높은 600개의 규칙 중 조건을 만족하는 218개의 후보 규칙을 얻을 수 있었다. 후보 규칙에 후처리 과정을 적용한 결과 redundant 한 규칙 제거로 25개의 규칙을, 규칙 병합을 통해 최종 23개의 서브그룹을 얻을 수 있었다. 이를 통해 후처리 과정이 서로 비슷한 규칙들을 줄이는데 효과적임을 알 수 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
기존의 교통 데이터를 이용한 마이닝 연구의 문제점은 무엇인가?
교통사고의 원인을 규명하고 미래의 사고를 방지하기 위한 노력의 일환으로 데이터 마이닝 기법을 이용한 교통 데이터 분석의 연구가 이루어지고 있다. 하지만 기존의 교통 데이터를 이용한 마이닝 연구들은 학습된 결과를 사람이 이해하기 어려워 분석에 많은 노력이 필요하다는 문제가 있었다. 본 논문에서는 많은 속성들로 표현된 교통사고 데이터로부터 유용한 패턴을 발견하기 위해 규칙 학습 기반의 데이터 마이닝 기법인 연관규칙 학습기법과 서브그룹 발견기법을 적용하였다.
데이터 마이닝에서 패턴은 어떤 형태로 표현되며 어떤 정보를 제공하고 있는가?
, 2011). 패턴은 규칙, 의사결정 트리, 특정 데이터의 집합과 같이 여러 가지 형태로 표현될 수 있으며 데이터의 특성이나 속성들 사이의 관계에 대한 정보를 제공한다. 어떤 패턴이 유용하다는 것은 패턴에 담긴 정보가 새롭고 향후에 유용하게 활용 가능하다는 것을 뜻한다.
데이터 마이닝 기법을 이용한 교통 데이터 분석의 연구가 이루어지고 있는 이유는?
교통사고의 원인을 규명하고 미래의 사고를 방지하기 위한 노력의 일환으로 데이터 마이닝 기법을 이용한 교통 데이터 분석의 연구가 이루어지고 있다. 하지만 기존의 교통 데이터를 이용한 마이닝 연구들은 학습된 결과를 사람이 이해하기 어려워 분석에 많은 노력이 필요하다는 문제가 있었다.
참고문헌 (16)
Agrawal, R. and R. Srikant, "Fast algorithms for mining association rules," Proceedings of the 20th Very Large Data Bases Conference, (1994), 487-499.
Atzmuller, M., "Mining Social Media: Key Players, Sentiments, and Communities," Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, Vol.2, No.5 (2012), 411-419.
Bayam, E., J. Liebowitz., and W. Agresti, "Older Drivers and Accidents: A Meta Analysis and Data Mining Application on Traffic Accident Data," Expert Systems with Applications, Vol.29, No.3(2005), 598-629.
Beshah, T. and S. Hill, "Mining Road Traffic Accident Data to Improve Safety: Role of Road Related Factors on Accident Severity in Ethiopia," Proceedings of the 2010 AAAI Spring Symposium Series, (2010), 14-19.
Brijs, T., D. Karlis., and G. Wets, "Studying the Effect of Weather Conditions on Daily Crash Counts using a Discrete Time-series Model," Accident Analysis & Prevention, Vol.40, No.3(2008), 1180-1190.
Chang, L. and W. Chen, "Data Mining of Tree-based Models to Analyze Freeway Accident Frequency," Journal of Safety Reserch, Vol.36, No.4(2005), 365-375.
Depaire, B., G. Wets, and K. Vanhoof, "Traffic Accident Segmentation by Means of Latent Class Clustering," Accident Analysis & Prevention, Vol.40, No.4(2008), 1257-1266.
Flach, P, Machine Learning: The Art and Science of Algorithms that Make Sense of Data, Cambridge University Press, New York, 2012.
Gamberger, D. and N. Lavrac, "Expert-guided Subgroup Discovery: Methodology and Application," Journal of Artificial Intelligence Research, Vol.17, No.1(2002), 501-527.
Lavrac, N., B. Kavsek., P. Flach., and L. Todorovski, "Subgroup Discovery with CN2-SD," Journal of Machine Learning Research, Vol.5(2004), 153-188.
Mirabadi, A. and S. Wets, "Application of Association Rules in Iranian Railways (RAI) Accident Data Analysis," Safety Science, Vol.48, No.10(2010), 1427-1435.
Natu, M. and G. K. Palshikar, "Interesting subset discovery and its application on service processes," Proceedings of the 2010 IEEE International Conference on Data Mining Workshops, (2010), 1061-1068.
Witten, I. H., et al., Data Mining: Practical Machine Learning Tools and Techniques (Third Edition). Morgan Kaufmann, Boston, 2011
Wrobel, S., "An algorithm for multi-relational discovery of subgroups," Proceedings of the First European Symposium on Principles of Data Mining and Knowledge Discovery, (1997), 78-87.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.