[논문]데이터마이닝의 자동 데이터 규칙 추출 방법론 개발 : 계층적 클러스터링 알고리듬과 러프 셋 이론을 중심으로

오승준; 박찬웅

doi:10.9708/jksci.2009.14.6.135

데이터마이닝의 자동 데이터 규칙 추출 방법론 개발 : 계층적 클러스터링 알고리듬과 러프 셋 이론을 중심으로
Development of Automatic Rule Extraction Method in Data Mining : An Approach based on Hierarchical Clustering Algorithm and Rough Set Theory 원문보기

韓國컴퓨터情報學會論文誌 = Journal of the Korea Society of Computer and Information, v.14 no.6, 2009년, pp.135 - 142

오승준 (경기공업대학 산업경영과) , 박찬웅 (경원대학교 산업정보시스템공학과)

초록
AI-Helper

테이터 마이닝은 대용량의 데이터 셋을 분석하기 위하여 새로운 이론, 기법, 분석 툴을 제공하는 전산 지능분야의 새로운 영역중 하나이다. 데이터 마이닝의 주요 기법으로는 연관규칙 탐사, 분류, 클러스터링 등이 있다. 그러나 이들 기법을 기존 연구 방법들처럼 개별적으로 사용하는 것보다는 통합화하여 규칙들을 자동적으로 발견해내는 방법론이 필요하다. 이런 데이터 규칙 추출 방법론은 대량의 데이터들을 분석하여 성공적인 의사결정을 내리는데 도움을 줄 수 있기에 많은 분야에 이용될 수 있다. 본 논문에서는 계층적 클러스터링 알고리듬과 러프셋 이론을 이용하여 대량의 데이터로부터 의미 있는 규칙들을 발견해 내는 자동적인 규칙 추출 방법론을 제안한다. 또한 UCI KDD 아카이브에 포함되어 있는 데이터 셋을 이용하여 제안하는 방법에 대하여 실험을 수행하였으며, 실제 생성된 규칙들을 예시하였다. 이들 자동 생성된 규칙들은 효율적인 의사결정에 도움을 준다.

Abstract ▼ AI-Helper

Data mining is an emerging area of computational intelligence that offers new theories, techniques, and tools for analysis of large data sets. The major techniques used in data mining are mining association rules, classification and clustering. Since these techniques are used individually, it is necessary to develop the methodology for rule extraction using a process of integrating these techniques. Rule extraction techniques assist humans in analyzing of large data sets and to turn the meaningful information contained in the data sets into successful decision making. This paper proposes an autonomous method of rule extraction using clustering and rough set theory. The experiments are carried out on data sets of UCI KDD archive and present decision rules from the proposed method. These rules can be successfully used for making decisions.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

처리 과정을 수행한다. 본 논문에서는 결측치를 처리하기 위해서 결측치가 포함되어 있는 데이터를 제거하는 과정을 수행한다.
본 논문에서는 계층적 클러스터링 알고리듬을 이용하여 러프 셋 이론 기반의 자동 규칙 추출 방법을 제안한다. 이 방법은 대량의 데이터로부터 의미 있는 규칙들을 발견해 내는 체계적인 방법론이다.
본 논문에서는 클러스터링 알고리듬과 러프 셋 이론을 이용하여 데이터들로부터 규칙을 추출하는 통합적인 방법을 제안하였다. 이러한 방법은 기존의 데이터 마이닝 기법들을 개별적으로 적용하는 것이 아니라, 각 개별 기법들을 통합화하여 자동적으로 규칙을 생성하는 방법이다.

가설 설정

3) 규칙을 생성하기 위해 사용되지 않는 속성들은 제거한다.

제안 방법

두 번째 단계는 데이터들을 클러스터링 하는 단계이다. 데이터들을 계층적 클러스터링 알고리듬을 이용하여 몇 개의 그룹들로 나눈 후, 이 결과를 결정 변수로 사용한다. 세 번째 단계는 두 번째 단계에서 얻어진 데이터들에 러프셋 이론을 적용하여 리덕트들을찾아내는 것이다.
이루어진다. 따라서 본 논문에서 사용되는 데이터들은 범주형 뿐만 아니라 이산형 값들도 사용될 수 있도록 하기 위하여 이산형 값들을 가진 속성들을 범주형 값으로 변환하기 위한 이산화 처리 과정을 수행한다. 이를 위해 엔트로피를 기반으로 한 Dougherty et.
본 논문에서는 그림 2의 데이터 셋처럼 결정 변수가 없는 데이터들을 입력 데이터로 사용하여 규칙들을 자동적으로 생성한다.
데이터들로 이루어져 있다. 본 논문에서는 이들 데이터들을 계층적 클러스터링 알고리듬을 적용하여 k 개의 그룹으로 클러스터링 한 후, 이 결과를 결정 변수의 값으로 사용한다.
분류, 클러스터링 등을 데이터 셋에 개별적으로 적용하여 의미있는 규칙이나 패턴들을 찾아낸다. 즉, 데이터들을 분석하여 연관규칙을 찾아내거나 분류 모형을 만들거나 데이터들을 군집화 한다.
실험은 표 1의 데이터 셋을 본 논문에서 제안하는 방법을 사용하여 수행하였으며, 표 2와 같은 결과를 얻었다. 표 2에서 k는 클러스터의 개수이다.

대상 데이터

Soybean 데이터 셋은 잎의 상태, 줄기의 상태, 씨앗의 상태 등 35개의 속성들을 가지고 콩에 생기는 병의 종류를 분류한 데이터 셋이다. Zoo 데이터 셋은 다리의 개수, 꼬리의 유무, 머리카락의 유무, 척추의 유무 등 17개의 속성들로 동물 타입을 분류한 데이터 셋이다.
제시한다. 먼저 본 실험에 사용된 데이터 셋은 UCI KDD 아카이브〔16〕에 포함되어 있는 데이터 셋으로서, Soybean과 Zoo 데이터 셋이다.
이 방법은 대량의 데이터로부터 의미 있는 규칙들을 발견해 내는 체계적인 방법론이다. 여기서 사용되는 데이터들은 범주형 뿐만 아니라 이산형 데이터도 가능하며, 결정 변수(클래스 속성)가 없는 데이터들을 대상으로 한다. 본 논문의 제안 방법은 다음과 같이 크게 네 가지 단계로 구분할 수 있다.

이론/모형

al.〔13〕가 제안한 알고리듬을 이용하여 이산화 과정을 수행한다.
생성하는 단계이다. 규칙을 생성하기 위해서는 다음과 같은 네 가지 휴리스틱 방법을 이용한다.
본 논문에서는 Ohrn〔15〕가 제안한 방법을 통하여 리덕트들을 찾는다. 여기서는 히팅 셋이라는 용어를 정의하고, 최소히팅 셋을 계산하기 위하여 유전자 알고리듬을 이용하며 , 여기서 사용되는 적합도 함수 f는 다음과 같이 정의된다.
본 논문에서는 통합 방법의 계층적 클러스터링 알고리즘을 사용한다. n개의 데이터들을 클러스터링 하는 문제를 생각해보자.

성능/효과

이런 데이터 규칙 추출 방법론은 인간이 대량의 데이터들을 분석하여 이들 정보로부터 성공적인 의사결정을 내리는데 도움을 줄 수 있기에 많은 분야에 이용될 수 있다. 즉 여러 단계를 개별적으로 수행하며 규칙들을 찾아내기에는 많은 시간과 시행착오가 필요하므로, 본 연구에서 제시하는 통합적인 방법의 자동 규칙추출 방법론이 현실 문제의 효율적인 의사결정에 많은 도움을 준다.

후속연구

본 연구에서는 UCI KDD 아카이브에 포함되어 있는 Soybean과 Zoo 데이터 셋만을 대상으로 실험을 수행하였는데, 향후에는 본 논문에서 제안하는 방법을 UCI KDD 데이터 셋 외에 다양한 데이터 셋에 적용해 보는 것이 필요하겠다. 특히 웹 로그 데이터 등을 이용하여 고객 관계 관리(CRM)나 부정사용방지 시스템(fraud detection)에 활용해 보는 것이 필요하겠다.

참고문헌 (16)

J. Han, M. Kamber, Data Mining: concepts and techniques, Morgan Kaufmann publishers, 2000.
오승준, "확장된 시퀀스 요소 기반의 유사도를 이용한 계층적 클러스터링 알고리즘", 한국컴퓨터정보학회 논문지, 제11권, 제5호, 2006년 11월.
오승준, "범주형 시퀀스 데이터의 K-Nearest Neighbour 알고리즘", 한국컴퓨터정보학회 논문지, 제10권, 제2호, 2005년 6월.
Z. Pawlak, "Rough sets", Int. J. Comput. Inform. Sci. Vol. 11, pp 341-356, 1982.

상세보기
Z. Pawlak, Rough sets: theoretical aspects of reasoning about data, Kluwer Academy Publisher, 1991.
D. Kim, "Data classification based on tolerant rough set", Pattern Recognition, Vol. 34 No.8, pp.1613-24, 2001.

상세보기
T. McKee, T., Lensberg, "Genetic programming and rough sets: a hybrid approach to bankruptcy classification", European Journal of Operational Research, Vol. 136, No.2, pp.436-51, 2002.
A. Kusiak, "Rough set theory: a data mining tool for semiconductor manufacturing", IEEE Transactions on Electronics Packaging Manufacturing, Vol. 24, No.1, pp.44-50, 2001.

상세보기
K. Thangavel, Q. Shen, A. Pethalakshmi, "Application of clustering for feature selection based on rough set theory approach", AIML Journal, Vol. 6, No. 1, 2006.
S. Asharaf, M. N. Murty, S. K. Shevade, "Rough set based incremental clustering of interval data", Pattern Recognition Letters, Vol. 27, pp.515-519, 2006.

상세보기
A. Kusiak, J. A. Kern, K. H. kernstine, and B. T. L. Tseng, "Autonomous Decision-Making: A Data Mining Approach", IEEE Transaction on Information Technology in Biomedicine, Vol. 4, No. 4, 2000
H. Sakai, K. Kobe, and M. Nakata, "Rough Sets Based Rule Generation from Data with Categorical and Numerical Values", Journal of Advanced Computational Intelligence and Intelligent Informatics, Vol. 12, No. 5, 2008
J. Dougherty, R. Kohavi, and M. Sahami, "Supervised and unsupervised discretization of continuous features", Proc. 13th Int. Conf. on Machine Learning, pp 194-202, 1995.
F. Questier, I. Arnaut-Rollier, B. Walczak, and D.L. Massart, "Application of rough set theory to feature selection for unsupervised clustering", Chemometrics and Intelligent Laboratory Systems, Vol. 63, 2002.
A. Ohrn, "Discernibility and rough sets in medicine: tools and applications", PhD thesis, Norwegian Univ. of Science and technology, 1999.
C. L. Blake and C. J. Merz, UCI Repository of Machine Learning Databases, 1998.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (16)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (16)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

초록
AI-Helper

AI 본문요약
AI-Helper