데이터마이닝은 방대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 기법으로서 의사결정나무, 연관 규칙, 군집분석, 신경망 분석 등의 기법이 있으며, 이중 의사결정나무 알고리즘은 의사결정 규칙을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측을 수행하는 방법으로서 고객세분화, 고객 분류, 문제 예측 등의 여러 분야에서 유용하게 활용되고 있다. 일반적으로 의사결정나무의 모형 생성 시, 모형 생성의 기준 및 입력 변수의 수에 따라 복잡한 모형이 생성되기도 하며 특히 입력 변수의 수가 많을 경우 종종 모형 생성 및 해석에 있어 어려움을 격기도 한다. 이에 본 논문에서는 의사결정나무 생성 시, 입력 변수에 대한 매개 관계를 파악하여 나무 생성에 불필요한 입력 변수를 제거하는 방법을 제시하고 그 효율성을 파악하기 위하여 실제 자료에 적용하고자 한다.
데이터마이닝은 방대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 기법으로서 의사결정나무, 연관 규칙, 군집분석, 신경망 분석 등의 기법이 있으며, 이중 의사결정나무 알고리즘은 의사결정 규칙을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측을 수행하는 방법으로서 고객세분화, 고객 분류, 문제 예측 등의 여러 분야에서 유용하게 활용되고 있다. 일반적으로 의사결정나무의 모형 생성 시, 모형 생성의 기준 및 입력 변수의 수에 따라 복잡한 모형이 생성되기도 하며 특히 입력 변수의 수가 많을 경우 종종 모형 생성 및 해석에 있어 어려움을 격기도 한다. 이에 본 논문에서는 의사결정나무 생성 시, 입력 변수에 대한 매개 관계를 파악하여 나무 생성에 불필요한 입력 변수를 제거하는 방법을 제시하고 그 효율성을 파악하기 위하여 실제 자료에 적용하고자 한다.
Data mining searches for interesting relationships among items in a given database. The methods of data mining are decision tree, association rules, clustering, neural network and so on. The decision tree approach is most useful in classification problems and to divide the search space into rectangu...
Data mining searches for interesting relationships among items in a given database. The methods of data mining are decision tree, association rules, clustering, neural network and so on. The decision tree approach is most useful in classification problems and to divide the search space into rectangular regions. Decision tree algorithms are used extensively for data mining in many domains such as retail target marketing, customer classification, etc. When create decision tree model, complicated model by standard of model creation and number of input variable is produced. Specially, there is difficulty in model creation and analysis in case of there are a lot of numbers of input variable. In this study, we study on decision tree using intervening variable. We apply to actuality data to suggest method that remove unnecessary input variable for created model and search the efficiency.
Data mining searches for interesting relationships among items in a given database. The methods of data mining are decision tree, association rules, clustering, neural network and so on. The decision tree approach is most useful in classification problems and to divide the search space into rectangular regions. Decision tree algorithms are used extensively for data mining in many domains such as retail target marketing, customer classification, etc. When create decision tree model, complicated model by standard of model creation and number of input variable is produced. Specially, there is difficulty in model creation and analysis in case of there are a lot of numbers of input variable. In this study, we study on decision tree using intervening variable. We apply to actuality data to suggest method that remove unnecessary input variable for created model and search the efficiency.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 기존의 의사결정나무 원 모형과 다중매개연관성규칙을 이용한 의사결정나무 모형의 두가지 모형을 생성 한 뒤, 두 모형을 비교하고자 한다.
이에 본 논문에서는 의사결정나무 생성 시, 목표 변수와 입력 변수에 대한 관계를 명확하게 파악할 수있는 다중매개연관성규칙을 적용하여 불필요한 입력 변수를 제거할 수 있는 방법을 제안하였고, 실제 자료에 적용해 보았다. 분석 결과, 본 논문에서 제시하는 모형의 모형 예측정확도 및 모형평가 예측정확도가 원 모형의 모형 예측정확도 및 모형평가 예측 정확도와 큰 차이를 보이고 있지 않으면서 목표 변수와 입력 변수 사이에 무의미한 입력 변수를 제거함으로서 의사결정나무 모형의 생성 및 해석의 시간과 노력을 단축할 수 있으므로 본 논문에서 제시하는 방법이 효율적이라고 할 수 있다.
이때 생성된 모형에 대한 목표 변수와 입력 변수와의 관계가 다른 외부 변수에 의하여 실제적으로 무의미한 관계라고 한다면 모형 생성 시 그 입력 변수를 제거하고 모형을 생성하는 것이 효과적이다. 이에 본 논문에서는 의사결정나무 생성 시, 목표 변수와 입력 변수에 대한 매개 관계를 명확하게 파악할 수 있는 다중매개연관성규칙 (multi intervening association rule)을 적용하여 불필요한 입력 변수를 제거할 수 있는 방법을 연구하고자 한다.
제안 방법
다음으로 교통사고율을 목표 변수로 지정하고 인구수, 세대수, 인구증가율, 노령인구율, 자동차 등록률, 취업률의 6개 문항을 입력 변수를 지정하였을 경우, 다중매개연관성규칙의 성립 여부를 파악한 후, 의사결정나무 모형을 생성한다. 입력 변수에 대한 다중매개연관성규칙의 결과는 표 3.
첫 번째로 교통사고율을 목표 변수로 지정하고 인구수, 세대수, 인구증가율, 노령인구율, 자동차 등록률, 취업률의 6개 문항을 입력 변수를 지정하여 기존의 의사결정나무 모형을 생성한다. 모형 생성에서는 비교적 모형이 간단하게 생성되는 CART 모형을 선택하였으며, 훈련 자료와 모형 평가 자료로 분할 하여 모형을 생성하였다. 생성된 모형은 그림 3.
[단계 5] 모형 생성 : 지정된 모형에 의하여 모형을 생성한다. 생성된 모형에 대한 예측정확도 및 모형평가 예측정확도를 살펴본 뒤 모형에 대한 해석을 실시한다.
그러나 생성된 모형이 원 모형에 비하여 간결해 졌지만 모형의 정확도가 현저하게 차이가 난다면 이는 좋은 모형이라고 할 수 없다. 이에 본 논문에서는 표 3.4에서와 같이 그림 3.1의 원 모형과 그림 3.2의 다중매개연관성규칙을 이용한 모형의 정확도를 비교하였다.
kr) 자료를 이용하였다. 자료는 2009년 조사된 시, 군, 구의 인구수, 가구수, 인구증가율, 취업률 등의 총 7개 문항을 추출하였고, 원 모형과 본 논문에서 제시하는 모형의 효율성을 파악하기 위함이므로 간단하게 모든 자료를 평균을 바탕으로 이분형으로 변환한 뒤 분석을 실시하였으며, 표 3.1과 같다.
첫 번째로 교통사고율을 목표 변수로 지정하고 인구수, 세대수, 인구증가율, 노령인구율, 자동차 등록률, 취업률의 6개 문항을 입력 변수를 지정하여 기존의 의사결정나무 모형을 생성한다. 모형 생성에서는 비교적 모형이 간단하게 생성되는 CART 모형을 선택하였으며, 훈련 자료와 모형 평가 자료로 분할 하여 모형을 생성하였다.
표 3.2의 다중매개연관성규칙의 결과를 살펴보면, 목표 변수인 교통사고율과 입력 변수인 인구수 사이에 매개 변수를 자동차 등록률로 지정하였을 경우, 매개 변수의 조건 4가지를 모두 만족하고 있으므로 입력 변수 중 인구수가 자동차 등록률 (매개 변수)에 의하여 의미가 없는 변수로 판단되었으므로 6문항의 입력 변수 중 인구수를 제외한 5문항을 입력 변수로 지정하여 위의 원 모형과 동일한 조건으로 의사결정나무 모형을 생성하였다. 생성된 모형은 그림 3.
대상 데이터
본 장에서는 다중매개연관성규칙을 이용한 의사결정나무 모형의 효용성을 파악하기 위하여 통계청의 통계정보시스템인 KOSIS (www.kosis.kr) 자료를 이용하였다. 자료는 2009년 조사된 시, 군, 구의 인구수, 가구수, 인구증가율, 취업률 등의 총 7개 문항을 추출하였고, 원 모형과 본 논문에서 제시하는 모형의 효율성을 파악하기 위함이므로 간단하게 모든 자료를 평균을 바탕으로 이분형으로 변환한 뒤 분석을 실시하였으며, 표 3.
성능/효과
이에 본 논문에서는 의사결정나무 생성 시, 목표 변수와 입력 변수에 대한 관계를 명확하게 파악할 수있는 다중매개연관성규칙을 적용하여 불필요한 입력 변수를 제거할 수 있는 방법을 제안하였고, 실제 자료에 적용해 보았다. 분석 결과, 본 논문에서 제시하는 모형의 모형 예측정확도 및 모형평가 예측정확도가 원 모형의 모형 예측정확도 및 모형평가 예측 정확도와 큰 차이를 보이고 있지 않으면서 목표 변수와 입력 변수 사이에 무의미한 입력 변수를 제거함으로서 의사결정나무 모형의 생성 및 해석의 시간과 노력을 단축할 수 있으므로 본 논문에서 제시하는 방법이 효율적이라고 할 수 있다.
4를 살펴보면, 다중매개연관성규칙을 이용한 모형의 모형 예측정확도 및 모형평가 예측정확도가원 모형의 모형 예측정확도 및 모형평가 예측정확도와 큰 차이를 보이고 있지 않은 것을 알 수 있다. 이에 본 논문에서 제시하는 다중매개연관성규칙을 이용한 의사결정나무모형 생성의 방법이 모형의 정확도는 거의 동일하면서 불필요한 가지를 생성하지 않으므로 효율적이라고 할 수 있다.
후속연구
향후 과제로 본 논문에서 제안하는 방법을 국가 통계, 기업체 및 연구 자료 등의 조금 더 실제적인 자료에 적용하여 생성된 모형을 분석 할 필요성이 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
데이터마이닝의 기법으로는 어떤 것이 있는가?
데이터마이닝은 방대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 기법으로서 의사결정나무, 연관 규칙, 군집분석, 신경망 분석 등의 기법이 있으며, 이중 의사결정나무 알고리즘은 의사결정 규칙을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측을 수행하는 방법으로서 고객세분화, 고객 분류, 문제 예측 등의 여러 분야에서 유용하게 활용되고 있다. 일반적으로 의사결정나무의 모형 생성 시, 모형 생성의 기준 및 입력 변수의 수에 따라 복잡한 모형이 생성되기도 하며 특히 입력 변수의 수가 많을 경우 종종 모형 생성 및 해석에 있어 어려움을 격기도 한다.
데이터마이닝에서 의사결정나무의 장점으로는 무엇이 있는가?
데이터마이닝 기법으로는 군집분석, 연관성규칙, 의사결정나무, 신경망모형 등의 분석 기법이 있으며, 현재 모형 구축 시간 단축 및 생성된 모형 정확성 등의 데이터마이닝 효율성을 높이기 위하여 각각의 알고리즘을 혼합하여 사용하는 하이브리드 (hybrid) 데이터마이닝의 연구가 활발하게 진행되고 있다 (Lee 등, 2010; Choi와 Kang, 2011). 본 논문에서 적용하고자 하는 의사결정나무는 의사결정 규칙을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석방법으로 다른 분석 방법에 비해 연구자가 분석과정을 쉽게 이해하고 설명할 수 있다는 장점이 있다. 그 동안의 연구를 살펴보면 의사결정나무분석을 수행하기 위한 다양한 분리기준, 정지규칙, 가지치기 방법들이 제안되었으며, 이들을 어떻게 결합하느냐에 따라서 서로 다른 의사결정나무가 형성된다.
데이터마이닝은 무엇인가?
데이터마이닝은 방대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 기법으로서 의사결정나무, 연관 규칙, 군집분석, 신경망 분석 등의 기법이 있으며, 이중 의사결정나무 알고리즘은 의사결정 규칙을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측을 수행하는 방법으로서 고객세분화, 고객 분류, 문제 예측 등의 여러 분야에서 유용하게 활용되고 있다. 일반적으로 의사결정나무의 모형 생성 시, 모형 생성의 기준 및 입력 변수의 수에 따라 복잡한 모형이 생성되기도 하며 특히 입력 변수의 수가 많을 경우 종종 모형 생성 및 해석에 있어 어려움을 격기도 한다.
참고문헌 (11)
Agrawal, R., Imielinski, R. and Swami, A. (1993). Mining association rules between sets of items in large databases. Proceedings of the ACM SIGMOD Conference on Management of Data, 207-216.
Breiman, L., Friedman, J. H., Olshen, R. A. and Stone, C. J. (1984). Classification and regression trees, Chapman & Hall/CRC, New York.
Cho, K. H. and Park, H. C. (2011). Study on the multi intervening relation in association rule. Journal of the Korean Data Analysis Society, 13, 297-306.
Choi, S. B. and Kang, C. W. (2011). Analysis of department homepage using web mining technique. Journal of the Korean Data Analysis Society, 13, 317-330.
Hartigan, J. A. (1975). Clustering Algorithms, John Wiley & Sons, New York.
Kim, M. H. and Park, H. C. (2008). Development of component association rules and macro algorithm. Journal of the Korean Data & Information Science Society, 19, 197-207.
Lee, Y. S., Kim, K. K. and Kang, C. W. (2010). Development of customer lifetime value model based on TRFM for customer segmentation. Journal of the Korean Data Analysis Society, 12, 3271-3282.
Lee, K. W. and Park, H. C. (2008). A study for statistical criterion in negative association rules using boolean analyzer. Journal of the Korean Data & Information Science Society, 19, 569-576.
Park, H. C. and Cho, K. H. (2006a). Discovery of association rules using latent variables. Journal of the Korean Data & Information Science Society, 17, 149-160.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.