[논문]매개 변수를 이용한 의사결정나무 생성에 관한 연구

조광현; 박희창

매개 변수를 이용한 의사결정나무 생성에 관한 연구
A study on decision tree creation using intervening variable 원문보기

Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, v.22 no.4, 2011년, pp.671 - 678

조광현 (창원대학교 유아교육학과, 통계학) , 박희창 (창원대학교 통계학과)

초록
AI-Helper

데이터마이닝은 방대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 기법으로서 의사결정나무, 연관 규칙, 군집분석, 신경망 분석 등의 기법이 있으며, 이중 의사결정나무 알고리즘은 의사결정 규칙을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측을 수행하는 방법으로서 고객세분화, 고객 분류, 문제 예측 등의 여러 분야에서 유용하게 활용되고 있다. 일반적으로 의사결정나무의 모형 생성 시, 모형 생성의 기준 및 입력 변수의 수에 따라 복잡한 모형이 생성되기도 하며 특히 입력 변수의 수가 많을 경우 종종 모형 생성 및 해석에 있어 어려움을 격기도 한다. 이에 본 논문에서는 의사결정나무 생성 시, 입력 변수에 대한 매개 관계를 파악하여 나무 생성에 불필요한 입력 변수를 제거하는 방법을 제시하고 그 효율성을 파악하기 위하여 실제 자료에 적용하고자 한다.

Abstract ▼ AI-Helper

Data mining searches for interesting relationships among items in a given database. The methods of data mining are decision tree, association rules, clustering, neural network and so on. The decision tree approach is most useful in classification problems and to divide the search space into rectangular regions. Decision tree algorithms are used extensively for data mining in many domains such as retail target marketing, customer classification, etc. When create decision tree model, complicated model by standard of model creation and number of input variable is produced. Specially, there is difficulty in model creation and analysis in case of there are a lot of numbers of input variable. In this study, we study on decision tree using intervening variable. We apply to actuality data to suggest method that remove unnecessary input variable for created model and search the efficiency.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 기존의 의사결정나무 원 모형과 다중매개연관성규칙을 이용한 의사결정나무 모형의 두가지 모형을 생성 한 뒤, 두 모형을 비교하고자 한다.
이에 본 논문에서는 의사결정나무 생성 시, 목표 변수와 입력 변수에 대한 관계를 명확하게 파악할 수있는 다중매개연관성규칙을 적용하여 불필요한 입력 변수를 제거할 수 있는 방법을 제안하였고, 실제 자료에 적용해 보았다. 분석 결과, 본 논문에서 제시하는 모형의 모형 예측정확도 및 모형평가 예측정확도가 원 모형의 모형 예측정확도 및 모형평가 예측 정확도와 큰 차이를 보이고 있지 않으면서 목표 변수와 입력 변수 사이에 무의미한 입력 변수를 제거함으로서 의사결정나무 모형의 생성 및 해석의 시간과 노력을 단축할 수 있으므로 본 논문에서 제시하는 방법이 효율적이라고 할 수 있다.
이때 생성된 모형에 대한 목표 변수와 입력 변수와의 관계가 다른 외부 변수에 의하여 실제적으로 무의미한 관계라고 한다면 모형 생성 시 그 입력 변수를 제거하고 모형을 생성하는 것이 효과적이다. 이에 본 논문에서는 의사결정나무 생성 시, 목표 변수와 입력 변수에 대한 매개 관계를 명확하게 파악할 수 있는 다중매개연관성규칙 (multi intervening association rule)을 적용하여 불필요한 입력 변수를 제거할 수 있는 방법을 연구하고자 한다.

제안 방법

다음으로 교통사고율을 목표 변수로 지정하고 인구수, 세대수, 인구증가율, 노령인구율, 자동차 등록률, 취업률의 6개 문항을 입력 변수를 지정하였을 경우, 다중매개연관성규칙의 성립 여부를 파악한 후, 의사결정나무 모형을 생성한다. 입력 변수에 대한 다중매개연관성규칙의 결과는 표 3.
첫 번째로 교통사고율을 목표 변수로 지정하고 인구수, 세대수, 인구증가율, 노령인구율, 자동차 등록률, 취업률의 6개 문항을 입력 변수를 지정하여 기존의 의사결정나무 모형을 생성한다. 모형 생성에서는 비교적 모형이 간단하게 생성되는 CART 모형을 선택하였으며, 훈련 자료와 모형 평가 자료로 분할 하여 모형을 생성하였다. 생성된 모형은 그림 3.
[단계 5] 모형 생성 : 지정된 모형에 의하여 모형을 생성한다. 생성된 모형에 대한 예측정확도 및 모형평가 예측정확도를 살펴본 뒤 모형에 대한 해석을 실시한다.
그러나 생성된 모형이 원 모형에 비하여 간결해 졌지만 모형의 정확도가 현저하게 차이가 난다면 이는 좋은 모형이라고 할 수 없다. 이에 본 논문에서는 표 3.4에서와 같이 그림 3.1의 원 모형과 그림 3.2의 다중매개연관성규칙을 이용한 모형의 정확도를 비교하였다.
kr) 자료를 이용하였다. 자료는 2009년 조사된 시, 군, 구의 인구수, 가구수, 인구증가율, 취업률 등의 총 7개 문항을 추출하였고, 원 모형과 본 논문에서 제시하는 모형의 효율성을 파악하기 위함이므로 간단하게 모든 자료를 평균을 바탕으로 이분형으로 변환한 뒤 분석을 실시하였으며, 표 3.1과 같다.
첫 번째로 교통사고율을 목표 변수로 지정하고 인구수, 세대수, 인구증가율, 노령인구율, 자동차 등록률, 취업률의 6개 문항을 입력 변수를 지정하여 기존의 의사결정나무 모형을 생성한다. 모형 생성에서는 비교적 모형이 간단하게 생성되는 CART 모형을 선택하였으며, 훈련 자료와 모형 평가 자료로 분할 하여 모형을 생성하였다.
표 3.2의 다중매개연관성규칙의 결과를 살펴보면, 목표 변수인 교통사고율과 입력 변수인 인구수 사이에 매개 변수를 자동차 등록률로 지정하였을 경우, 매개 변수의 조건 4가지를 모두 만족하고 있으므로 입력 변수 중 인구수가 자동차 등록률 (매개 변수)에 의하여 의미가 없는 변수로 판단되었으므로 6문항의 입력 변수 중 인구수를 제외한 5문항을 입력 변수로 지정하여 위의 원 모형과 동일한 조건으로 의사결정나무 모형을 생성하였다. 생성된 모형은 그림 3.

대상 데이터

본 장에서는 다중매개연관성규칙을 이용한 의사결정나무 모형의 효용성을 파악하기 위하여 통계청의 통계정보시스템인 KOSIS (www.kosis.kr) 자료를 이용하였다. 자료는 2009년 조사된 시, 군, 구의 인구수, 가구수, 인구증가율, 취업률 등의 총 7개 문항을 추출하였고, 원 모형과 본 논문에서 제시하는 모형의 효율성을 파악하기 위함이므로 간단하게 모든 자료를 평균을 바탕으로 이분형으로 변환한 뒤 분석을 실시하였으며, 표 3.

성능/효과

이에 본 논문에서는 의사결정나무 생성 시, 목표 변수와 입력 변수에 대한 관계를 명확하게 파악할 수있는 다중매개연관성규칙을 적용하여 불필요한 입력 변수를 제거할 수 있는 방법을 제안하였고, 실제 자료에 적용해 보았다. 분석 결과, 본 논문에서 제시하는 모형의 모형 예측정확도 및 모형평가 예측정확도가 원 모형의 모형 예측정확도 및 모형평가 예측 정확도와 큰 차이를 보이고 있지 않으면서 목표 변수와 입력 변수 사이에 무의미한 입력 변수를 제거함으로서 의사결정나무 모형의 생성 및 해석의 시간과 노력을 단축할 수 있으므로 본 논문에서 제시하는 방법이 효율적이라고 할 수 있다.
4를 살펴보면, 다중매개연관성규칙을 이용한 모형의 모형 예측정확도 및 모형평가 예측정확도가원 모형의 모형 예측정확도 및 모형평가 예측정확도와 큰 차이를 보이고 있지 않은 것을 알 수 있다. 이에 본 논문에서 제시하는 다중매개연관성규칙을 이용한 의사결정나무모형 생성의 방법이 모형의 정확도는 거의 동일하면서 불필요한 가지를 생성하지 않으므로 효율적이라고 할 수 있다.

후속연구

향후 과제로 본 논문에서 제안하는 방법을 국가 통계, 기업체 및 연구 자료 등의 조금 더 실제적인 자료에 적용하여 생성된 모형을 분석 할 필요성이 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	데이터마이닝의 기법으로는 어떤 것이 있는가?	데이터마이닝은 방대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 기법으로서 의사결정나무, 연관 규칙, 군집분석, 신경망 분석 등의 기법이 있으며, 이중 의사결정나무 알고리즘은 의사결정 규칙을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측을 수행하는 방법으로서 고객세분화, 고객 분류, 문제 예측 등의 여러 분야에서 유용하게 활용되고 있다. 일반적으로 의사결정나무의 모형 생성 시, 모형 생성의 기준 및 입력 변수의 수에 따라 복잡한 모형이 생성되기도 하며 특히 입력 변수의 수가 많을 경우 종종 모형 생성 및 해석에 있어 어려움을 격기도 한다.
	데이터마이닝에서 의사결정나무의 장점으로는 무엇이 있는가?	데이터마이닝 기법으로는 군집분석, 연관성규칙, 의사결정나무, 신경망모형 등의 분석 기법이 있으며, 현재 모형 구축 시간 단축 및 생성된 모형 정확성 등의 데이터마이닝 효율성을 높이기 위하여 각각의 알고리즘을 혼합하여 사용하는 하이브리드 (hybrid) 데이터마이닝의 연구가 활발하게 진행되고 있다 (Lee 등, 2010; Choi와 Kang, 2011). 본 논문에서 적용하고자 하는 의사결정나무는 의사결정 규칙을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석방법으로 다른 분석 방법에 비해 연구자가 분석과정을 쉽게 이해하고 설명할 수 있다는 장점이 있다. 그 동안의 연구를 살펴보면 의사결정나무분석을 수행하기 위한 다양한 분리기준, 정지규칙, 가지치기 방법들이 제안되었으며, 이들을 어떻게 결합하느냐에 따라서 서로 다른 의사결정나무가 형성된다.
	데이터마이닝은 무엇인가?	데이터마이닝은 방대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 기법으로서 의사결정나무, 연관 규칙, 군집분석, 신경망 분석 등의 기법이 있으며, 이중 의사결정나무 알고리즘은 의사결정 규칙을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측을 수행하는 방법으로서 고객세분화, 고객 분류, 문제 예측 등의 여러 분야에서 유용하게 활용되고 있다. 일반적으로 의사결정나무의 모형 생성 시, 모형 생성의 기준 및 입력 변수의 수에 따라 복잡한 모형이 생성되기도 하며 특히 입력 변수의 수가 많을 경우 종종 모형 생성 및 해석에 있어 어려움을 격기도 한다.

참고문헌 (11)

Agrawal, R., Imielinski, R. and Swami, A. (1993). Mining association rules between sets of items in large databases. Proceedings of the ACM SIGMOD Conference on Management of Data, 207-216.
Breiman, L., Friedman, J. H., Olshen, R. A. and Stone, C. J. (1984). Classification and regression trees, Chapman & Hall/CRC, New York.
Cho, K. H. and Park, H. C. (2011). Study on the multi intervening relation in association rule. Journal of the Korean Data Analysis Society, 13, 297-306.
Choi, S. B. and Kang, C. W. (2011). Analysis of department homepage using web mining technique. Journal of the Korean Data Analysis Society, 13, 317-330.
Hartigan, J. A. (1975). Clustering Algorithms, John Wiley & Sons, New York.
Kim, M. H. and Park, H. C. (2008). Development of component association rules and macro algorithm. Journal of the Korean Data & Information Science Society, 19, 197-207.
Lee, Y. S., Kim, K. K. and Kang, C. W. (2010). Development of customer lifetime value model based on TRFM for customer segmentation. Journal of the Korean Data Analysis Society, 12, 3271-3282.
Lee, K. W. and Park, H. C. (2008). A study for statistical criterion in negative association rules using boolean analyzer. Journal of the Korean Data & Information Science Society, 19, 569-576.

원문보기 상세보기
Park, H. C. and Cho, K. H. (2006a). Discovery of association rules using latent variables. Journal of the Korean Data & Information Science Society, 17, 149-160.

원문보기 상세보기
Park, H. C. and Cho, K. H. (2006b). A study for antecedent association rules. Journal of the Korean Data & Information Science Society, 17, 1077-1083.

원문보기 상세보기
Quinlan, J. R. (1993). C4.5 programs for machine learning, Morgan Kaufmann Publishers, San Francisco.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

매개 변수를 이용한 의사결정나무 생성에 관한 연구
A study on decision tree creation using intervening variable 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

참고문헌 (11)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

매개 변수를 이용한 의사결정나무 생성에 관한 연구 A study on decision tree creation using intervening variable 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

참고문헌 (11)

이 논문을 인용한 문헌

저자의 다른 논문 :

조광현 (23) 박희창 (95)

관련 콘텐츠

원문 보기

원문 URL 링크

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

매개 변수를 이용한 의사결정나무 생성에 관한 연구
A study on decision tree creation using intervening variable 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper