[논문]인간 지식을 이용한 경험적 의사결정트리의 설계

윤태복; 이지형

doi:10.5391/jkiis.2009.19.4.525

인간 지식을 이용한 경험적 의사결정트리의 설계
Design of Heuristic Decision Tree (HDT) Using Human Knowledge 원문보기

한국지능시스템학회 논문지 = Journal of Korean institute of intelligent systems, v.19 no.4, 2009년, pp.525 - 531

윤태복 (성균관대학교 컴퓨터공학과) , 이지형 (성균관대학교 컴퓨터공학과)

초록
AI-Helper

데이터 마이닝(Data Mining)은 수집된 데이터로 부터 감춰진 패턴을 찾는 작업이다. 여기에서 수집된 데이터는 예측 및 추천을 위한 기반 정보로 중요한 역할을 하며, 분석 결과의 성능을 향상시키기 위해 잘못된(Missing value) 데이터를 선별하는 과정을 필요로 한다. 수집한 데이터에서 의도하지 못한 데이터를 선별하기 위한 기존의 방법은 주로 통계적이거나 단순 거리(Distance)에 기반을 둔 방법을 이용하였다. 하지만 환경 및 데이터의 특성을 고려하지 못하여, 의미 있는 데이터도 함께 분석에서 제외 될 수 있는 문제점을 가지고 있다. 본 논문은 인간의 경험적 지식을 수집된 데이터와 비교하여 가중치로 변환하고, 의사결정트리(Decision Tree)의 생성에 이용한다. 생성된 트리는 인간의 지식이 반영되어 기존의 분석 방법보다 신뢰성이 높다고 할 수 있으며, 실험을 통하여 제안하는 방법의 유효성을 확인하였다.

Abstract ▼ AI-Helper

Data mining is the process of extracting hidden patterns from collected data. At this time, for collected data which take important role as the basic information for prediction and recommendation, the process to discriminate incorrect data in order to enhance the performance of analysis result, is needed. The existing methods to discriminate unexpected data from collected data, mainly relies on methods which are based on statistics or simple distance between data. However, for these methods, the problematic point that even meaningful data could be excluded from analysis due that the environment and characteristic of the relevant data are not considered, exists. This study proposes a method to endow human heuristic knowledge with weight value through the comparison between collected data and human heuristic knowledge, and to use the value for creating a decision tree. The data discrimination by the method proposed is more credible as human knowledge is reflected in the created tree. The validity of the proposed method is verified through an experiment.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문은 수집된 데이터의 의미 및 중요도를 고려하기 위해서 인간의 경험적 지식(Heuristic Knowledge)을 이용한 의사결정나무(Heuristic Decision Tree : HDT)방법을 제안한다. HDT는 인간의 경험적 지식을 이용하여 수집된 데이터를 평가하고 중요도에 따른 가중치를 계산한다.
본 논문은 인간의 경험적 지식을 데이터 마이닝 분석에 적용하여 보다 의미 있는 정보를 얻는 방법을 제안하였다. 환경에 따라 정의된 속성에 대한 경험적 지식을 수집하고, 수집된 데이터의 각 사례별 가중치를 계산하였다.
우선 의사결정트리 알고리즘에서 정의하는 엔트로피공식을 소개한다. 일반적인 의사결정트리 학습 방법을 위한 엔트로피는 수식(2)와 같다.
Kim[5]은 지능형 이러닝 시스템에서 수집된 학습자의 학습 행위 데이터에서 이상치 데이터를 감소하기 위한 연구를 수행하였다. 이 논문에서는 군집화 방법을 이용하여 이상치를 감소시키고 학습자 모델의 성능이 향상된 것을 실험을 통하여 확인하였다. Lee와 Choi[6]는 방대하고 불분명한 자료 및 정보를 해석하는데 있어서 여러 속성을 이용한 분류화 및 근사화를 효과적으로 제공하는 러프집합이론(Rough Sets theory) 소개하고, 위스콘신 대학병원의 유방암 관련 데이터를 분석에 이용하여, 뉴로-퍼지, C4.

제안 방법

각 실험 데이터는 학습 데이터 50%, 검증 데이터 30%, 가지치기 데이터 20%로 분류하고, 각 실험환경에 따른 경험적 지식을 이용하여 경험적 가중치 테이블을 생성하였다. 제안하는 방법의 유효성을 기존 방법과 비교 검증하기 위해 3번의 다른 조건에서 실시하였다.
이 방법은 의미 없는(가중치가 낮은) 데이터일수록 결과에 낮은 영향을 미치도록 하였다. 기존에는 데이터를 선별하여 의미 없다고 판단되면 제거하는 방법을 사용하였으나, 제안하는 방법은 데이터의 중요도에 따른 가중치를 부여하고, 중요한 정도를 고려하여 분석에 영향을 주는 방법을 선택하였다.
첫 번째는 의사결정나무학습 방법을 이용하고, 검증 데이터를 이용하여 에러율을 측정하였다. 두 번째는 의사결정나무 학습 후, RPP를 이용하여 가지치기를 하고 검증 데이터를 이용하여 에러율을 측정하다. 마지막으로 제안하는 방법은 HDT방법을 이용하여 학습시키고, HDT_Weight 를 이용하여 가지치기한 후의 검증 데이터를 이용한 에러율을 측정하였다.
수집 데이터와 인간의 경험적 지식이 일치 할 경우 1의 값을 얻으며, 값이 멀어질수록 0에 근접한 값을 얻는다. 또한, 경험적 지식의 신뢰도(CF)를 수식에 포함하여 신뢰 정도에 따라 다른 결과가 나올 수 있도록 하였다. Ai_max는 Ai의 최대값, Ai_min은 Ai의 최소값을 의미한다.
표 2는 n개의 속성 A에 대한 j개의 경험적 지식 H를 수집한 예를 보여주고 있다. 또한, 정의된 경험적 지식의 신뢰도(Confidence degree: CF)를 0~1값으로 인간 스스로 부여함으로써, 확실하지 않은 지식도 수렴할 수 있도록 하였다.
두 번째는 의사결정나무 학습 후, RPP를 이용하여 가지치기를 하고 검증 데이터를 이용하여 에러율을 측정하다. 마지막으로 제안하는 방법은 HDT방법을 이용하여 학습시키고, HDT_Weight 를 이용하여 가지치기한 후의 검증 데이터를 이용한 에러율을 측정하였다. 3가지 다른 조건의 실험은 5회 Cross-Validation 방법으로 실시하였다.
속성에는 전복의 길이, 무게, 지름, 내장무게, 표면 무게 등 7가지의 속성과 클래스는 1～29년 사이의 값을 갖는다. 본 실험에서는 10년생 이상과 이하, 두 가지 클래스로 분류하고 사용하였다. 분석에 사용된 데이터는 10년생 이하 1000개, 10년생 이상 1000개, 총 2000개를 이용하였다.
분석가는 도메인에 대하여, 사전에 정의된 속성에 따라 인간의 경험적 또는 전문가적 지식을 수집한다. 도메인의 특성 및 수집 데이터의 특성을 고려하여 데이터를 자동으로 선별하는 작업에서 인간의 경험적 지식을 이용하지 않는 것은 매우 어려운 일이다.
수집된 데이터의 사례 I와 경험적 지식 H를 이용한 가중치 계산은 수식(1)을 이용한다. 수식(1)에서 n은 전체 속성의 개수를 나타내며, I와 H의 i번째 속성 값은 유사할수록 2에 가까운 값을 얻을 수 있도록 하였다.
일반적인 데이터 마이닝 작업은 설계, 수집, 가공, 분석, 해석의 과정을 거친다. 제안하는 방법은 일반적인 방법과 유사하나 가공과 분석과정에 인간의 지식을 반영하기 위해 경험적 지식 수집(Step 3)과 사례에 대한 가중치 생성(Step 4) 그리고 사례별 가중치(Step 5,6)를 분석에 적용하기 위한 과정이 추가 되었다.
제안하는 방법의 검증을 위한 실험에서는 3가지 다른 도메인 데이터를 이용하여 일반적인 의사결정나무 학습 방법, 의사결정 나무 방법과 가지치기 방법 그리고 제안하는 방법인 경험적 의사결정나무 방법에 대한 에러율을 측정하였다. Iris 데이터 실험의 경우 전체 데이터의 개수가 100개 였으며, 이 데이터는 다시 학습 데이터, 검증 데이터, 가지치기 데이터로 나누어 사용하였다.
제안하는 방법의 유효성을 기존 방법과 비교 검증하기 위해 3번의 다른 조건에서 실시하였다. 첫 번째는 의사결정나무학습 방법을 이용하고, 검증 데이터를 이용하여 에러율을 측정하였다. 두 번째는 의사결정나무 학습 후, RPP를 이용하여 가지치기를 하고 검증 데이터를 이용하여 에러율을 측정하다.
즉, 일치하는 사례 4가지가 존재할 때, 그중에서 2가지가 동일한 클래스에 속한다고 하며, 50%의 에러율을 가진다고 이야기 한다(그림 5). 하지만, 본 논문에서는 일치하는 사례에 대하여 단순 횟수가 아닌 표 4의 HDT_Weight 값을 이용하여 오류 정도 계산에 반영한다. 어떤 사례에 대하여, 속성 값이 일치하는 개수가 5개이고 이중에서 3개가 일치한다면 정확도는 (3/5*100) 60%이다.
본 논문은 인간의 경험적 지식을 데이터 마이닝 분석에 적용하여 보다 의미 있는 정보를 얻는 방법을 제안하였다. 환경에 따라 정의된 속성에 대한 경험적 지식을 수집하고, 수집된 데이터의 각 사례별 가중치를 계산하였다. 가중치는 변형된 엔트로피와 가지치기에 적용하여 의사결정트리 생성에 인간의 경험적 지식이 반영되어 생성될 수 있도록 하였다.

대상 데이터

제안하는 방법의 검증을 위한 실험에서는 3가지 다른 도메인 데이터를 이용하여 일반적인 의사결정나무 학습 방법, 의사결정 나무 방법과 가지치기 방법 그리고 제안하는 방법인 경험적 의사결정나무 방법에 대한 에러율을 측정하였다. Iris 데이터 실험의 경우 전체 데이터의 개수가 100개 였으며, 이 데이터는 다시 학습 데이터, 검증 데이터, 가지치기 데이터로 나누어 사용하였다. 에러율이 크게 개선되지 않은 이유는 데이터의 개수가 너무 작았기 때문이다.
속성에는 세포 이미지의 둘레, 면적, 부드러운 정도 등에 따라 10가지를 가지며, 클래스는 악성과 양성 두 가지로 나뉜다. 본 실험에서는 악성 데이터 200개, 양성 데이터 200개, 전체 400개의 데이터를 사용하였다. 그림 8은 3가지 다른 조건에서의 실험 결과이다.
본 실험에서는 10년생 이상과 이하, 두 가지 클래스로 분류하고 사용하였다. 분석에 사용된 데이터는 10년생 이하 1000개, 10년생 이상 1000개, 총 2000개를 이용하였다. 그림 9는 실험결과를 나타내고 있다.
제안하는 방법의 실험을 위해 UC Irvine Machine Learning Repository[12] 데이터를 이용하여 검증하였다. 실험에 사용한 데이터는 Iris Data Set, Breast Cancer Wisconsin (Diagnostic) Data Set, Abalone Data Set이며 실험 방법은 그림 6과 같다.
4개의 속성(Attributes)을 과, Iris Versicolour와 Iris Virginica 두 가지 클래스(Class)를 가지고 있다. 전체 사례(Instance)의 개수는 100개이며, 이중 50개는 학습 데이터, 30개는 검증 데이터, 20개는 가지치기 데이터로 사용하였다. 그림 7는 단순한 의사결정나무 학습(Normal DT) 후의 에러율, 의사결정 나무 학습과 가지치기(Pruning DT) 후의 에러율, 제안하는 방법인 경험적 지식을 이용한 의사결정나무(Heuristic DT) 학습 후의 에러율을 나타내고 있다.
제안하는 방법의 실험을 위해 UC Irvine Machine Learning Repository[12] 데이터를 이용하여 검증하였다. 실험에 사용한 데이터는 Iris Data Set, Breast Cancer Wisconsin (Diagnostic) Data Set, Abalone Data Set이며 실험 방법은 그림 6과 같다.

데이터처리

실험에서는 일반적인 의사결정트리 학습 방법과 경험적 의사결정트리 학습 방법을 비교 분석하였으며, 제안하는 방법의 유효성을 확인하였다.

이론/모형

마지막으로 제안하는 방법은 HDT방법을 이용하여 학습시키고, HDT_Weight 를 이용하여 가지치기한 후의 검증 데이터를 이용한 에러율을 측정하였다. 3가지 다른 조건의 실험은 5회 Cross-Validation 방법으로 실시하였다.
가지치기는 의사결정나무를 형성하며 분리 할 때 정지규칙을 적용하여 가지치기를 수행하는 사전 가지치기(Pre-Pruning)와 의사결정나무를 생성한 후 상위노드와 하위노드의 에러율을 비교하여 가지치기를 결정하는 사후 가지치기(Post-Pruning)로 구분되어진다. 본 논문에서는 사후 가지치기 방법 중에 Rule Post-Pruning(RPP) [11] 방법을 이용하였다. RPP 방법은 생성된 트리의 모양을 직접 변형하는 것이 아닌, 의사결정트리로부터 얻은 If-then형태의 규칙을 가지치기 데이터(Growing Data)를 이용하여 오류율이 클 경우 제거하는 방식을 이용한다(그림 4).
HDT는 인간의 경험적 지식을 이용하여 수집된 데이터를 평가하고 중요도에 따른 가중치를 계산한다. 생성된 가중치는 변형된 엔트로피(Entropy) 알고리즘에 적용하여 중요도가 높은 데이터틀 선별하여 의사결정트리 생성에 반영한다. 이 방법은 의미 없는(가중치가 낮은) 데이터일수록 결과에 낮은 영향을 미치도록 하였다.

성능/효과

에러율이 크게 개선되지 않은 이유는 데이터의 개수가 너무 작았기 때문이다. 그에 반해 유방암 관련 데이터와 전복 데이터의 분석결과는 제안하는 방법인 경험적 의사결정나무가 기존의 방법에 비하여 에러율이 감소한 것을 확인 할 수 있다. 데이터 분석 앞서 인간의 경험적 지식을 수집하는 것은 쉽지 않은 작업니다.
하지만, 본 논문에서는 일치하는 사례에 대하여 단순 횟수가 아닌 표 4의 HDT_Weight 값을 이용하여 오류 정도 계산에 반영한다. 어떤 사례에 대하여, 속성 값이 일치하는 개수가 5개이고 이중에서 3개가 일치한다면 정확도는 (3/5*100) 60%이다. 하지만, HDT_Weight 값을 이용한다면 가중치의 값의 따라 다양한 정확도가 계산된다.
가중치는 변형된 엔트로피와 가지치기에 적용하여 의사결정트리 생성에 인간의 경험적 지식이 반영되어 생성될 수 있도록 하였다. 제안 사항은 이상치(Outlier data) 및 불완전 데이터(Incomplete data)에 적절하게 대응할 수 있는 방법으로 데이터의 손실 없이, 분석 결과를 얻을 수 있다.

후속연구

데이터 분석 앞서 인간의 경험적 지식을 수집하는 것은 쉽지 않은 작업니다. 향후 연구로는 인간의 경험적 지식을 보다 효과적으로 처리하고 분석할 수 있는 방법이 필요하겠다.

질의응답

핵심어	질문	논문에서 추출한 답변
	경험적 의사결정트리는 무엇에 영향을 미치는가?	경험적 의사결정트리(HDT)는 인간의 지식을 이용하여 수집데이터에 가중치를 부여하고, 그 가중치는 의사결정트리 생성 과정에 영향을 미친다. 생성된 트리는 경험적 지식이 반영되어 보다 의미 있는 정보를 가지고 있으며, 다음은 그림은 제안하는 방법인 HDT를 위한 단계별 작업 흐름도이다.
	데이터 마이닝이란 무엇인가?	데이터 마이닝(Data Mining)은 수집된 데이터로 부터 감춰진 패턴을 찾는 작업이다. 여기에서 수집된 데이터는 예측 및 추천을 위한 기반 정보로 중요한 역할을 하며, 분석 결과의 성능을 향상시키기 위해 잘못된(Missing value) 데이터를 선별하는 과정을 필요로 한다.
	데이터 마이닝에서 수집된 데이터는 어떤 역할을 하는가?	데이터 마이닝(Data Mining)은 수집된 데이터로 부터 감춰진 패턴을 찾는 작업이다. 여기에서 수집된 데이터는 예측 및 추천을 위한 기반 정보로 중요한 역할을 하며, 분석 결과의 성능을 향상시키기 위해 잘못된(Missing value) 데이터를 선별하는 과정을 필요로 한다. 수집한 데이터에서 의도하지 못한 데이터를 선별하기 위한 기존의 방법은 주로 통계적이거나 단순 거리(Distance)에 기반을 둔 방법을 이용하였다.

참고문헌 (12)

Usama Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth,'Knowledge Discorvery and Data Mining : Towards a Unifying Framework', Proc. KDD-96, 1996
Sun-Young Hwang, H. E. Hahn,'Pre-Adjustment of Incomplete Group Variable via K-Means Clustering', Journal of Korea Data & Information Science Society, Vol. 15, No. 3, 2004
Uwe Dick, Peter Haider, Tobias Scheffer,'Learning from Incomplete Data with Infinite Imputations', Proceedings of the 25th International Conference on Machine Learning, 2008
Jingke Xi, 'Outlier Detection Algorithms in Data Mining,' IEEE Second International Symposium on Intelligent Information Technology Application, 2008
Yongse Kim, Taebok Yoon, Heonjin Cha, Youngmo Jung,Eric Wang and Jee-Hyong Lee, 'An Outliers Analysis of Learner's Data based on User Interface Behaviors', Proc. 7th IEEE Int'l. Conf. Advanced Learning Technologies (ICALT), 2007
Chul-Heui Lee, Sang-Chul Choi,'Discovering Classification Knowledge for Data Mining using Rough Sets and Hierarchical Classification Structure,' Journal of Telecommunication and Information, Vol. 5, pp.79-85, 2001
Emmanuel Muller, Ira Assent, Uwe Steinhausen, Thomas Seidl,'OutRank: ranking outliers in high dimensional data', International Conference on Data Engineering (ICDE) Workshop 2008
Sheng-yi Jiang, Qing-bo An,'Clustering-based Outlier Detection Method', Fifth International Conference on Fuzzy Systems and Knowledge Discovery, 2008
Hongwei Zhang, Yuchang Lu,'Learning Bayesian network classifiers from data with missing values', Proceedings. IEEE Region 10 Conference on Computers, Communications, Control and Power Engineering(TENCON '02), 2002
Zhiqiang Zheng,'On an incomplete data problem in modeling: Evidence from Web usage mining and a general purpose solution', Dissertation, University of Pennsylvania, 2003
Trong Dung Nguyen, Tu Bao Ho, Hiroshi Shimodaira, 'A Scalable Algorithm for Rule Post-pruning of Large Decision Trees', Proceedings of the 5th Pacific-Asia Conference on Knowledge, 2001
'http://archive.ics.uci.edu/ml/index.html', UC Irvine Machine Learning Repository Website

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증