[논문]데이터마이닝을 위한 동적 결정나무

최병수; 차운옥

doi:10.5351/ckss.2009.16.6.959

데이터마이닝을 위한 동적 결정나무
Dynamic Decision Tree for Data Mining 원문보기

한국통계학회 논문집 = Communications of the Korean Statistical Society, v.16 no.6, 2009년, pp.959 - 969

최병수 (한성대학교 멀티미디어공학과) , 차운옥 (한성대학교 멀티미디어공학과)

초록
AI-Helper

결정나무는 데이터마이닝에서 데이터를 분류하는 기법으로 가장 많이 사용되고 있으며, 데이터 탐색 소프트웨어 DAVIS에서는 동적 기능을 사용하여 데이터 시각화를 하는 것이 가능하다. 본 논문에서는 동적 데이터 분석의 기본 원리와 이를 결정나무에 적용하는 방법을 소개하고, 생성되는 동적 결정나무의 효율성과 유용성을 실제 데이터를 사용하여 분석한다.

Decision tree is a typical tool for data classification. This tool is implemented in DAVIS (Huh and Song, 2002). All the visualization tools and statistical clustering tools implemented in DAVIS can communicate with the decision tree. This paper presents methods to apply data visualization technique...

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 결정나무를 기존의 시각화 도구에 연결시키는 방법에 대해 알아보고 기존의 데이터 탐색 소프트웨어인 DAVIS에서 이를 구현한 것을 소개하였다. 비교적 간단한 방법으로 결정나무와 시각화 방법을 연동시킬 수 있으며, 실제 데이터에 대해 결정나무와 시각화방법을 연동시켰을 때 기존의 방법으로는 얻을 수 없었던 다양한 정보를 얻을 수 있음을 보였다.
데이터 탐색 소프트웨어 DAVIS(DAta VISualization system; Huh와 Song, 2002)에서는 동적 기능을 사용하여 데이터 시각화를 하는 것이 가능하다. 본 논문에서는 데이터 분류(classification)기법으로 가장 많이 사용되는 결정나무(decision tree)에 데이터 시각화 기능을 연동시켜 동적 결정나무를 생성하는 과정을 설명하고, 생성된 동적 결정나무의 효율성과 유용성을 실제 데이터를 사용하여 분석하였다. 본 연구의 의의는 동적 결정나무를 생성함으로써 기존의 결정나무로만으로는 분석할 수 없었던 다양한 정보를 얻을 수 있음을 직접적으로 보인 것이다.
본 논문에서는 데이터 분류(classification)기법으로 가장 많이 사용되는 결정나무(decision tree)에 데이터 시각화 기능을 연동시켜 동적 결정나무를 생성하는 과정을 설명하고, 생성된 동적 결정나무의 효율성과 유용성을 실제 데이터를 사용하여 분석하였다. 본 연구의 의의는 동적 결정나무를 생성함으로써 기존의 결정나무로만으로는 분석할 수 없었던 다양한 정보를 얻을 수 있음을 직접적으로 보인 것이다. 따라서 본 연구의 방법처럼 데이터마이닝 기법에 데이터 시각화 기능을 연결하면 데이터로부터 숨어있는 지식을 탐구하는 데이터마이닝 과정이 더욱 효율적일 수 있다.

가설 설정

① 유아사망률이 31.4 보다 높으면 생활만족도는 낮다(오류율 = 0/19).

제안 방법

두 번째, 관심 있는 데이터에 대해 다른 시각화 모듈에서의 시각화 방법을 적용하고 이 결과가 결정 나무에 나타나도록 한다.
첫 번째로, 결정나무에서 관심 있는 노드에 속해 있는 데이터 부분집합의 성격을 알아 보기 위해서는 해당 부분에 마우스 오른쪽 버튼을 클릭하고 Focus를 택한다. 이렇게 하면 해당 부분이 하이라이트 되고 이 부분집합이 다른 시각화 모듈에 표현된다.

성능/효과

평행좌표계와 상자 도형 등을 통해 볼 때, 이 3개 군집의 특성은 IQ, GDP, 출생율, 유아사망율 등에 의해 구분되었다는 것을 알 수 있다. 결정나무에서 나타나는 규칙을 살펴보면 이 3개의 그룹 중 첫 번째 그룹은(붉은 색 그룹 15개국: 막대그래프의 오른쪽) 모두 만족도가 낮은 나라이고, 두 번째 그룹(초록색 28개국: 막대그래프의 가운데)은 비교적 만족도가 높은 나라의 집단에 속하는 규칙에 잘 적용되고, 세 번째 그룹(파란색 28개국: 막대그래프의 왼쪽)은 만족과 불만족이 섞여 있는 규칙을 모두 만족하는 것을 알 수 있다.
본 연구의 의의는 동적 결정나무를 생성함으로써 기존의 결정나무로만으로는 분석할 수 없었던 다양한 정보를 얻을 수 있음을 직접적으로 보인 것이다. 따라서 본 연구의 방법처럼 데이터마이닝 기법에 데이터 시각화 기능을 연결하면 데이터로부터 숨어있는 지식을 탐구하는 데이터마이닝 과정이 더욱 효율적일 수 있다.
또한 본문 2장에서 기술한 바와 같이, REP 방법에 의한 가지치기를 수행하는 경우 자료의 일부만 사용하여 결정나무를 만들기 때문에 시각화 방법과 직접 연결시키지는 못한다. 본 논문의 방법을 사용하여 동적 결정나무를 생성하면 데이터에 대한 분석을 할 때 더욱 많은 정보를 획득할 수 있고, 데이터로부터 숨어있는 지식을 탐구하는 데이터마이닝 과정이 더욱 효율적일 수 있다.
본 논문에서는 결정나무를 기존의 시각화 도구에 연결시키는 방법에 대해 알아보고 기존의 데이터 탐색 소프트웨어인 DAVIS에서 이를 구현한 것을 소개하였다. 비교적 간단한 방법으로 결정나무와 시각화 방법을 연동시킬 수 있으며, 실제 데이터에 대해 결정나무와 시각화방법을 연동시켰을 때 기존의 방법으로는 얻을 수 없었던 다양한 정보를 얻을 수 있음을 보였다. 그러나 이 소프트웨어는 현재 실험적인 단계에 있으므로 결정나무를 생성하는 모든 방법을 다 구현한 것은 아니며, 또한 결측값이 있는 경우도 아직 완벽하게 처리하지는 못하는 상태이다.
그림 3(d)에 상자도형을 그린 것이 나타나 있다. 이 상자도형을 참고하면 첫 번째 규칙에 해당하는 국가들은 IQ가 다른 나라에 비해 낮고, 출생율, 유아사망율과 AIDS 환자 비율이 높으며 GDP가 상대적으로 낮은 것을 알 수 있다. 여기에서 국가의 인구 수와는 별 관계가 없는 것으로 나타났다.
이 그림에 나타난 것은 OECD 가입 여부, 종교 등의 명목형 변수를 표현할 때 jittering 방법을 사용한 결과이다. 평행좌표계와 상자 도형 등을 통해 볼 때, 이 3개 군집의 특성은 IQ, GDP, 출생율, 유아사망율 등에 의해 구분되었다는 것을 알 수 있다. 결정나무에서 나타나는 규칙을 살펴보면 이 3개의 그룹 중 첫 번째 그룹은(붉은 색 그룹 15개국: 막대그래프의 오른쪽) 모두 만족도가 낮은 나라이고, 두 번째 그룹(초록색 28개국: 막대그래프의 가운데)은 비교적 만족도가 높은 나라의 집단에 속하는 규칙에 잘 적용되고, 세 번째 그룹(파란색 28개국: 막대그래프의 왼쪽)은 만족과 불만족이 섞여 있는 규칙을 모두 만족하는 것을 알 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	데이터 시각화의 기본적인 원리는 무엇인가?	데이터 시각화의 기본적인 원리는 데이터 컨디셔닝(data conditioning)으로서, 데이터의 일부를 선택(select)하거나, 삭제(delete), 집중(focus)하여 이 결과가 통계적 모형이나 도형에 미치는 영향을 분석하는 것이다. 데이터 컨디셔닝은 통계적 도형 위에서 컴퓨터의 마우스를 이용하여 데이터의 일부를 하이라이트(highlight) 또는 브러싱(brushing)하고 이를 다른 도형과 링크함으로서 이루어진다.
	데이터마이닝이란 무엇인가?	데이터마이닝은 대규모 데이터베이스로부터 이전에는 발견되지 않았던 유용한 정보를 추출하는 지식 발견 작업이다. 데이터에서 체계적이고 자동적으로 통계적 규칙이나 패턴 등 다양한 정보를 찾아내기 위한 데이터마이닝 방법론으로는 통계적 기법, 기계학습, 패턴인식 기법 등이 있다.
	결정나무에서 2분형(binary split) 방법의 장점은 무엇인가?	분리는 변수를 사용하여 이루어지며 대개 2분형(binary split) 방법을 적용한다. 가지를 만들 때 꼭 이분형으로 나누어지지 않을 수도 있지만, 이분형 나무는 논리적으로 더 명백할 뿐만 아니라 다분형도 이분형으로 표현할 수 있다는 장점이 있다. 명목형 변수의 경우에는 범주에 의해 이분형을 만들어 나갈 수가 있으며, 한번 분리된 변수는 다시 분리되지 않는다(이분형의 경우).

참고문헌 (12)

Breiman, L., Friedman, J. H., Olshen, R. A. and Stone, C. J. (1984). Classification and Regression Trees, Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software
Cleveland, W. S. and McGill, M. E. (1988). Dynamic Graphics for Statistics, Wadsworth & Brooks/Cole, Belmont, CA
Huh, M. Y. (2001). Strategy for visual clustering, The Korean Journal of Applied Statistics, 4, 177？190. (in Korean)
Huh, M. Y. (1995). Exploring multidimensional data with FEDF, Journal of Computational and Graphical Statistics, 4, 335？343
Huh, M. Y. (2009). http://stat.skku.ac.kr/myhuh.
Huh, M. Y. and Song, K. Y. (2002). DAVIS: A Java-based data visualization system, Computational Statistics, 17, 411？423

상세보기
Kass, G. V. (1980) An exploratory technique for investigating large quantities of categorical data, Applied Statistics, 29, 119？127
Nocholas, C. J. (1999). The emergence of data visualization and prospects for its business application, Masters of Information Systems Management Professional Seminar
Quinlan, J. R. ( 1986). Induction of decision trees, Machine Learning, 1, 81？106

상세보기
Quinlan, J. R. (1993). C4.5: Programs for Machine Learning, Morgan Kaufmann Publishers
Quinlan, J. R. (1996). Improved use of continuous attributes in c4.5., Journal of Artificial Intelligence Research, 4, 77？90

상세보기
Witten, I. H. and Frank, E. (2005). Data Mining: Practical Machine Learning Tools and Techniques, (Second Edition), Morgan Kaufmann

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

데이터마이닝을 위한 동적 결정나무
Dynamic Decision Tree for Data Mining 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

성능/효과

질의응답

참고문헌 (12)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

데이터마이닝을 위한 동적 결정나무 Dynamic Decision Tree for Data Mining 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

성능/효과

질의응답

참고문헌 (12)

이 논문을 인용한 문헌

저자의 다른 논문 :

최병수 (16) 차운옥 (9)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

데이터마이닝을 위한 동적 결정나무
Dynamic Decision Tree for Data Mining 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper