[논문]사회지표조사에서의 3단계 복합 데이터마이닝의 적용 방안

조광현; 박희창

doi:10.7465/jkdi.2012.23.5.983

사회지표조사에서의 3단계 복합 데이터마이닝의 적용 방안
A study on 3-step complex data mining in society indicator survey 원문보기 논문타임라인

Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, v.23 no.5, 2012년, pp.983 - 992

초록
AI-Helper

사회지표조사는 주민들이 생각하는 사회 상태를 총체적으로 파악할 수 있는 조사로서 다양한 시책 개발에 있어 지역의 여론을 반영할 수 있는 장점이 있다. 사회지표조사는 사회 변화를 알 수 있는 중요한 척도라고 할 수 있으며, 많은 지자체 (서울시, 인천시, 부산시, 울산시, 경상남도 등)에서 많은 예산과 시간을 들여 조사를 실시하고 있다. 그러나 조사에 대한 분석 결과가 기초통계분석 위주로 되어 있어 실제 사회지표조사 자료를 제대로 활용하고 있지 못하고 있는 실정이므로 데이터마이닝 등의 다양한 방법의 적용이 필요하다. 이에 본 논문에서는 사회지표조사의 효율적인 분석을 위하여 새로운 데이터마이닝 방법론을 제시하고자 한다. 본 논문에서는 매개연관성규칙, k-평균 군집분석, 의사결정나무를 순차적으로 적용하는 3단계 복합 데이터마이닝의 적용 방법을 제안하며, 이를 2010년에 조사된 경상남도 사회지표조사 자료에 적용하고자 한다.

Abstract ▼ AI-Helper

Social indicator survey can identify the state of society as a whole. When we create a policy, social indicator survey can reflect the public opinion of the region. Social indicator survey is an important measure of social change. Social indicator survey has been conducted in many municipalities (Seoul, Incheon, Busan, Ulsan, Gyeongsangnamdo, etc.). But, the result of social indicator survey analysis is mainly the basic statistical analysis. In this study, we propose a new data mining methodology for effective analysis. We propose a 3-step complex data mining in society indicator survey. 3-step complex data mining uses three data mining method (intervening association rule, clustering, decision tree).

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

즉, 데이터의 물리적 혹은 추상적 객체를 비슷한 객체군으로 묶는 과정이라 할 수 있다. 군집분석의 기본 목적은 관찰대상이 되는 개체들의 집합을 여러 개의 자연스러운 군집으로 분류하는 데 있다. 분류된 군집들은 상호 배타적이어서 한 군집에 속한 개체들은 서로 유사한 성질을 갖지만, 이들은 다른 군집에 속한 개체들과는 서로 다른 성질을 가지고 있다.
이에 군집분석에 사용할 변수를 도출하기 위하여 연관성 규칙을 이용하고자 한다. 또한 연관성 규칙 시, 변수들 간의 간접적 관계가 존재 할 수 있으므로 매개변수 (intervening variable)를 도출할 수 있는 매개연관성규칙 (intervening association rule)을 적용하고자 한다. 이에 본 논문에서는 매개연관성규칙에 의하여 성향이 유사한 변수들을 도출하고 이 변수들을 이용하여 군집분석을 실시 한 후 의미 있는 군집분석 결과를 도출한다.
본 논문에서는 매개연관성규칙, 군집분석, 의사결정나무를 순차적으로 적용하는 방법을 제시한 후 2010년에 조사된 경상남도 사회지표조사 자료에 적용하고자 한다. 논문의 2절에서는 논문의 이론적 배경에 대하여 기술하고 3절에서는 연구방법에 대하여 기술하며 4절에서 실제자료 분석 결과를 제시한 후, 5절에서 결론을 맺고자 한다.
본 논문은 효율적인 의사결정나무 생성을 위하여 매개연관성규칙, 군집분석, 의사결정나무를 순차적으로 적용하는 3단계 데이터마이닝 적용 방안이라고 할 수 있다. 본 논문에서 제안하는 연구방법을 자세하게 설명하면 Figure 3.
사회지표조사에서의 데이터마이닝의 적용에 관한 연구로는 국내적으로 연구가 미비한 실정이다. 이에 본 논문에서는 사회지표조사 자료에 대하여 보다 심층적인 분석을 실시하기 위하여 새로운 데이터마이닝 방법론을 제시하고자 한다. 데이터마이닝은 방대한 양의 데이터로부터 쉽게 드러나지 않는 유용한 정보들을 추출하는 과정을 의미하며, 군집분석 (cluster analysis), 연결 분석 (link analysis), 판별 분석 (discrimination analysis), 연관성규칙 (association rule), 의사결정나무기법 (decision tree), 신경망모형 (neural network) 등의 다양한 분석 기법이 있다.
그러나 각 지자체에서 많은 예산과 시간을 들여 사회지표조사를 실시하고 있으나, 조사 자료의 분석이 단순 통계분석에 그쳐 실제 사회지표 조사 자료를 제대로 활용하고 있지 못하고 있는 실정이다. 이에 본 논문에서는 효율적인 의사결정나무 생성을 위하여 매개연관성규칙, 군집분석, 의사결정나무를 순차적으로 적용하는 3단계 복합 데이터마이닝 적용 방법을 제시하였다. 3단계 복합 데이터마이닝은 매개연관성규칙에 의한 변수들 간의 관계를 파악한 뒤, 이를 바탕으로 k-평균 군집분석을 통하여 여러 개의 변수들을 축약하고 이 축약된 결과를 이용하여 의사결정나무 분석을 실시하는 방법을 제안하였다.
만일 비슷한 속성을 가지는 문항들을 하나의 변수로 축소할 수 있다면 의사결정나무 모형의 생성 및 해석에 있어 효율적일 수 있다. 이에 본 절에서는 오염의 8개 문항에 대하여 본 논문에서 제안하는 3단계 복합 데이터마이닝 방법을 적용하고자 한다. 우선 관심대상이 되는 변수는 앞서 설명한 오염에 대한 8개의 변수이고 각 변수들의 관련성을 알아보기 위하여 매개연관성규칙을 적용하였다.

제안 방법

이에 본 논문에서는 효율적인 의사결정나무 생성을 위하여 매개연관성규칙, 군집분석, 의사결정나무를 순차적으로 적용하는 3단계 복합 데이터마이닝 적용 방법을 제시하였다. 3단계 복합 데이터마이닝은 매개연관성규칙에 의한 변수들 간의 관계를 파악한 뒤, 이를 바탕으로 k-평균 군집분석을 통하여 여러 개의 변수들을 축약하고 이 축약된 결과를 이용하여 의사결정나무 분석을 실시하는 방법을 제안하였다.
k-평균 군집분석에서는 수질오염의 3문항 (상수도 오염, 하천 오염, 해양 오염)과 토양 · 대기 오염의 4문항 (소음 오염, 악취 오염, 대기 오염, 토양 오염)에 대하여 군집분석을 실시하였다.
2) k-평균 군집분석 실시 : 군집의 특성이 명확하게 파악되는 군집을 도출하기 위하여 군집의 수를 2개∼5개로 하여 k-평균 군집분석을 실행한다. k-평균 군집분석은 군집의 수를 연구자가 임의로 지정해야 한다는 단점이 있어 본 논문에서는 군집의 수를 다양하게 지정하여 군집분석을 실시한다.
일반적으로 생성된 의사결정 나무 모형이 복잡해지면 해석이 어렵게 된다. 본 논문에서는 비교적 모형이 간단한 CART 알고리즘을 사용하여 의사결정나무 모형을 생성하며, 의사결정나무의 모형화 보다는 응답자의 분류에 주안점을 두기 위함이므로 훈련자료와 평가자료로 나누지 않고 모형을 생성한다.
다음으로 변수 축소로 나타난 수질 오염 결과와 토양 · 대기 오염 결과를 목표변수로 지정하여 의사결정나무 모형을 생성한다. 의사결정나무 모형 생성 시 입력변수로는 나이, 성별, 학력, 직업, 건강상태, 월평균 소득의 6개 인구통계학적 문항을 사용하였다. 생성된 의사결정나무 모형은 Figure 4.
그러나 군집 분석 생성 시, 군집분석에 사용되는 변수의 수 및 변수의 관계에 따라서 군집의 결과가 다를 수가 있다. 이에 군집분석에 사용할 변수를 도출하기 위하여 연관성 규칙을 이용하고자 한다. 또한 연관성 규칙 시, 변수들 간의 간접적 관계가 존재 할 수 있으므로 매개변수 (intervening variable)를 도출할 수 있는 매개연관성규칙 (intervening association rule)을 적용하고자 한다.
또한 연관성 규칙 시, 변수들 간의 간접적 관계가 존재 할 수 있으므로 매개변수 (intervening variable)를 도출할 수 있는 매개연관성규칙 (intervening association rule)을 적용하고자 한다. 이에 본 논문에서는 매개연관성규칙에 의하여 성향이 유사한 변수들을 도출하고 이 변수들을 이용하여 군집분석을 실시 한 후 의미 있는 군집분석 결과를 도출한다. 최종적으로 도출된 군집 분석 결과를 목표변수로 지정하여 의사결정나무 모형을 생성하고자 하므로 3단계 복합 데이터마이닝 방법론이라고 할 수 있다.
일반사항은 조사응답자의 연령, 성별, 학력, 가구주와의 관계, 결혼 유무, 직업 등으로 구성되어 있으며, 도민의식조사부문은 소득·소비, 고용·노사, 교육, 보건·체육, 주택, 환경, 사회, 정보화, 문화·여가, 그리고 안전부문 등으로 구성되어 있다.

대상 데이터

본 절에서는 논문에서 제안하는 방법을 2010년에 조사된 경상남도사회지표조사 자료에 적용하기로 한다. 경상남도는 1992년부터 매년 설문 조사를 통하여 도민의식을 파악하고 있으며, 당해 년도에 필요하고 부적절한 몇 몇 첨삭항목을 제외하고는 3년 주기로 재조사를 하여 의식변화를 비교 분석해오고 있다.

데이터처리

2) k-평균 군집분석 실시 : 군집의 특성이 명확하게 파악되는 군집을 도출하기 위하여 군집의 수를 2개∼5개로 하여 k-평균 군집분석을 실행한다.
[단계 3] 변수 축소를 위한 k-평균 군집분석 실시 앞의 매개연관성규칙에서 추출된 연관성규칙을 바탕으로 실제적으로 의사결정나무 분석에서 목표변수로 사용된 변수를 추출하기 위하여 k-평균 군집분석을 실시한다. 세부 과정은 다음과 같다.
이에 매개연관성규칙의 결과를 바탕으로 변수 축소를 위하여 k-평균 군집분석을 실시한다. k-평균 군집분석에서는 수질오염의 3문항 (상수도 오염, 하천 오염, 해양 오염)과 토양 · 대기 오염의 4문항 (소음 오염, 악취 오염, 대기 오염, 토양 오염)에 대하여 군집분석을 실시하였다.

이론/모형

변수들의 관련성을 알아보기 위하여 매개연관성규칙을 적용한다. 매개연관성규칙에 의하여 도출된 변수들의 관련성은 k-평균 군집분석의 변수 축소에 사용된다. 세부 과정은 다음과 같다.
변수들의 관련성을 알아보기 위하여 매개연관성규칙을 적용한다. 매개연관성규칙에 의하여 도출된 변수들의 관련성은 k-평균 군집분석의 변수 축소에 사용된다.
연관성 규칙에 의하여 나타나는 규칙들 중 실제로 매개변수가 존재하는 가를 파악하기 위하여 매개 연관성규칙을 적용하였다. 적용 결과 Table 4.
이에 본 절에서는 오염의 8개 문항에 대하여 본 논문에서 제안하는 3단계 복합 데이터마이닝 방법을 적용하고자 한다. 우선 관심대상이 되는 변수는 앞서 설명한 오염에 대한 8개의 변수이고 각 변수들의 관련성을 알아보기 위하여 매개연관성규칙을 적용하였다. 우선 8개 변수들에 대한 연관성 규칙 (최소 지지도 : 10, 최소 신뢰도 : 70, 향상도 : 1) 결과는 Table 4.

성능/효과

[조건 3] X₁ 및 X₂와 Y 와의 연관성규칙의 결과가 지정된 최소 지지도와 최소 신뢰도보다 커야 한다.
또한 나이가 60대 이상이고 직업이 사무직인 주민들은 토양 · 대기 오염에 대하여 전체 보다 긍정적인 응답을 하고 있는 것으로 나타났다.
실제 2010년 조사된 경상남도 사회지표조사 자료에 대하여 본 논문에서 제안하는 방법을 적용한 결과, 관심대상이 되는 8개의 오염 변수를 수질 오염, 토양 · 대기 오염의 2개의 변수로 축약할 수 있었다.
실제 2010년 조사된 경상남도 사회지표조사 자료에 대하여 본 논문에서 제안하는 방법을 적용한 결과, 관심대상이 되는 8개의 오염 변수를 수질 오염, 토양 · 대기 오염의 2개의 변수로 축약할 수 있었다. 즉, 원래 관심대상이 되는 8개 변수 각각에 대한 의사결정나무 모형을 생성해야 하나, 본 논문에서 제안하는 방법을 이용하면 2개의 의사결정나무 모형만으로도 해석이 가능하므로 의사결정나무 모형 생성 및 해석에 있어 효율적이라고 할 수 있다. 추후 연구 과제로 변수들 간의 관계 및 변수 축약에 있어 꼭 연관성 규칙 및 군집분석을 사용해야 하는 것은 아니므로 변수들 간의 관계 파악 및 다양한 변수들을 축약하여 새로운 변수로 추출하는 방법에 대하여 여러 가지 다양한 분석 방법을 접목해 볼 필요성이 있다.

후속연구

즉, 원래 관심대상이 되는 8개 변수 각각에 대한 의사결정나무 모형을 생성해야 하나, 본 논문에서 제안하는 방법을 이용하면 2개의 의사결정나무 모형만으로도 해석이 가능하므로 의사결정나무 모형 생성 및 해석에 있어 효율적이라고 할 수 있다. 추후 연구 과제로 변수들 간의 관계 및 변수 축약에 있어 꼭 연관성 규칙 및 군집분석을 사용해야 하는 것은 아니므로 변수들 간의 관계 파악 및 다양한 변수들을 축약하여 새로운 변수로 추출하는 방법에 대하여 여러 가지 다양한 분석 방법을 접목해 볼 필요성이 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	데이터마이닝이란 무엇인가?	이에 본 논문에서는 사회지표조사 자료에 대하여 보다 심층적인 분석을 실시하기 위하여 새로운 데이터마이닝 방법론을 제시하고자 한다. 데이터마이닝은 방대한 양의 데이터로부터 쉽게 드러나지 않는 유용한 정보들을 추출하는 과정을 의미하며, 군집분석 (cluster analysis), 연결 분석 (link analysis), 판별 분석 (discrimination analysis), 연관성규칙 (association rule), 의사결정나무기법 (decision tree), 신경망모형 (neural network) 등의 다양한 분석 기법이 있다. 데이터마이닝의 여러 가지 기법 중 분류와 예측을 위하여 가장 많이 사용되는 방법이 의사결정나무기법이다.
	사회지표조사의 장점은 무엇인가?	사회지표조사는 주민들이 생각하는 사회 상태를 총체적으로 파악할 수 있는 조사로서 다양한 시책 개발에 있어 지역의 여론을 반영할 수 있는 장점이 있다. 사회지표조사는 사회 변화를 알 수 있는 중요한 척도라고 할 수 있으며, 많은 지자체 (서울시, 인천시, 부산시, 울산시, 경상남도 등)에서 많은 예산과 시간을 들여 조사를 실시하고 있다.

참고문헌 (12)
타임라인 바로가기

Agrawal, R., Imielinski, R. and Swami, A. (1993). Mining association rules between sets of items in large databases. Proceedings of the ACM SIGMOD Conference on Management of Data, 207-216.

인용구절

인용 구절

연관성규칙은 항목 집합으로 표현된 트랜잭션에서 각 항목간의 연관성을 반영하는 규칙으로서 Agrawal 등 (1993)에 의해 처음 소개되어 졌다.
Breiman, L., Friedman, J. H., Olshen, R. A. and Stone, C. J. (1984). Classification and regression trees, Wadsworth and books, California.

인용구절

인용 구절

대표적인 의사결정나무 알고리즘에는 Hartigan (1975)에 의하여 제시된 CHAID (Chi-squared Automatic Interaction detecion), Breiman 등 (1984)에 의하여 제시된 CART (Classification and Regression Trees), Quinlan (1993)의 ID3을 기반으로 한 C5.0 등의 알고리즘 있으며, CHAID는 의사결정나무의 가장 오래된 알고리즘으로 분리기준으로 카이제곱통계량을 사용하고, CART는 분리기준으로 지니 지수를 사용하여 이지 분리를 수행하는 알고리즘이며, C5.0은 분리기준으로 엔트로피를 사용하여 다지 분리를 수행하는 알고리즘이다.
Cho, K. H. and Park, H. C. (2011a). A study on decision tree creation using intervening variable. Journal of the Korean Data & Information Science Society, 22, 671-678.

인용구절

인용 구절

복합 데이터마이닝 방법에 대한 국내연구로는 Cho와 Park (2011a, 2011b, 2011c, 2012a, 2012b)이 있으며, 그리고 Park (2011a, 2011b) 등이 데이터마이닝과 관련된 연관규칙 평가 기준에 대한 연구를 진행하였다.
Cho, K. H. and Park, H. C. (2011b). A study on removal of unnecessary input variables using multiple external association rule. Journal of the Korean Data & Information Science Society, 22, 877-884.

인용구절

인용 구절

복합 데이터마이닝 방법에 대한 국내연구로는 Cho와 Park (2011a, 2011b, 2011c, 2012a, 2012b)이 있으며, 그리고 Park (2011a, 2011b) 등이 데이터마이닝과 관련된 연관규칙 평가 기준에 대한 연구를 진행하였다.
Cho, K. H. and Park, H. C. (2011c). A study on insignificant rules discovery in association rule mining. Journal of the Korean Data Analysis Society, 22, 81-88.

인용구절

인용 구절

복합 데이터마이닝 방법에 대한 국내연구로는 Cho와 Park (2011a, 2011b, 2011c, 2012a, 2012b)이 있으며, 그리고 Park (2011a, 2011b) 등이 데이터마이닝과 관련된 연관규칙 평가 기준에 대한 연구를 진행하였다.

Cho와 Park (2011c)은 연관성 규칙을 이용하여 매개변수를 추출하는 방법에 대하여 연구한 바 있고, 이 방법을 매개연관성규칙이라고 명하였으며, 그 조건은 다음과 같다.
Cho, K. H. and Park, H. C. (2012a). A study on association rule creation by marginally conditional variables. Journal of the Korean Data & Information Science Society, 23, 121-129.

원문보기 상세보기 타임라인에서 보기
인용구절

인용 구절

복합 데이터마이닝 방법에 대한 국내연구로는 Cho와 Park (2011a, 2011b, 2011c, 2012a, 2012b)이 있으며, 그리고 Park (2011a, 2011b) 등이 데이터마이닝과 관련된 연관규칙 평가 기준에 대한 연구를 진행하였다.
Cho, K. H. and Park, H. C. (2012b). A study on decision tree creation using marginally conditional variables. Journal of the Korean Data & Information Science Society, 23, 299-307.

원문보기 상세보기 타임라인에서 보기
인용구절

인용 구절

복합 데이터마이닝 방법에 대한 국내연구로는 Cho와 Park (2011a, 2011b, 2011c, 2012a, 2012b)이 있으며, 그리고 Park (2011a, 2011b) 등이 데이터마이닝과 관련된 연관규칙 평가 기준에 대한 연구를 진행하였다.
Hartigan, J. A. (1975). Clustering algorithms, John Wiley & Sons, New York.

인용구절

인용 구절

대표적인 의사결정나무 알고리즘에는 Hartigan (1975)에 의하여 제시된 CHAID (Chi-squared Automatic Interaction detecion), Breiman 등 (1984)에 의하여 제시된 CART (Classification and Regression Trees), Quinlan (1993)의 ID3을 기반으로 한 C5.0 등의 알고리즘 있으며, CHAID는 의사결정나무의 가장 오래된 알고리즘으로 분리기준으로 카이제곱통계량을 사용하고, CART는 분리기준으로 지니 지수를 사용하여 이지 분리를 수행하는 알고리즘이며, C5.0은 분리기준으로 엔트로피를 사용하여 다지 분리를 수행하는 알고리즘이다.
MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations. Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability, 1, 281-297.

인용구절

인용 구절

k-평균 군집분석은 MacQueen (1967)에 의해 처음 소개되어진 분할군집법의 일종으로 데이터들을 k개의 군집으로 임의로 분할을 하여 군집의 평균을 대표값으로 분할해 나가는 방법으로 데이터들을 유사성을 바탕으로 재배치를 하는 방법이다.
Park, H. C. (2011a). Proposition of negatively pure association rule threshold. Journal of the Korean Data & Information Science Society, 22, 179-188.

인용구절

인용 구절

복합 데이터마이닝 방법에 대한 국내연구로는 Cho와 Park (2011a, 2011b, 2011c, 2012a, 2012b)이 있으며, 그리고 Park (2011a, 2011b) 등이 데이터마이닝과 관련된 연관규칙 평가 기준에 대한 연구를 진행하였다.
Park, H. C. (2011b). The proposition of attributably pure confidence in association rule mining. Journal of the Korean Data & Information Science Society, 22, 235-243.

인용구절

인용 구절

복합 데이터마이닝 방법에 대한 국내연구로는 Cho와 Park (2011a, 2011b, 2011c, 2012a, 2012b)이 있으며, 그리고 Park (2011a, 2011b) 등이 데이터마이닝과 관련된 연관규칙 평가 기준에 대한 연구를 진행하였다.
Quinlan, J. R. (1993). C4.5 programs for machine learning, Morgan Kaufmann Publishers, San Francisco.

인용구절

인용 구절

대표적인 의사결정나무 알고리즘에는 Hartigan (1975)에 의하여 제시된 CHAID (Chi-squared Automatic Interaction detecion), Breiman 등 (1984)에 의하여 제시된 CART (Classification and Regression Trees), Quinlan (1993)의 ID3을 기반으로 한 C5.0 등의 알고리즘 있으며, CHAID는 의사결정나무의 가장 오래된 알고리즘으로 분리기준으로 카이제곱통계량을 사용하고, CART는 분리기준으로 지니 지수를 사용하여 이지 분리를 수행하는 알고리즘이며, C5.0은 분리기준으로 엔트로피를 사용하여 다지 분리를 수행하는 알고리즘이다.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증