$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

사회지표조사에서의 3단계 복합 데이터마이닝의 적용 방안
A study on 3-step complex data mining in society indicator survey 원문보기 논문타임라인

Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, v.23 no.5, 2012년, pp.983 - 992  

조광현 (창원대학교 유아교육학과) ,  박희창 (창원대학교 통계학과)

초록
AI-Helper 아이콘AI-Helper

사회지표조사는 주민들이 생각하는 사회 상태를 총체적으로 파악할 수 있는 조사로서 다양한 시책 개발에 있어 지역의 여론을 반영할 수 있는 장점이 있다. 사회지표조사는 사회 변화를 알 수 있는 중요한 척도라고 할 수 있으며, 많은 지자체 (서울시, 인천시, 부산시, 울산시, 경상남도 등)에서 많은 예산과 시간을 들여 조사를 실시하고 있다. 그러나 조사에 대한 분석 결과가 기초통계분석 위주로 되어 있어 실제 사회지표조사 자료를 제대로 활용하고 있지 못하고 있는 실정이므로 데이터마이닝 등의 다양한 방법의 적용이 필요하다. 이에 본 논문에서는 사회지표조사의 효율적인 분석을 위하여 새로운 데이터마이닝 방법론을 제시하고자 한다. 본 논문에서는 매개연관성규칙, k-평균 군집분석, 의사결정나무를 순차적으로 적용하는 3단계 복합 데이터마이닝의 적용 방법을 제안하며, 이를 2010년에 조사된 경상남도 사회지표조사 자료에 적용하고자 한다.

Abstract AI-Helper 아이콘AI-Helper

Social indicator survey can identify the state of society as a whole. When we create a policy, social indicator survey can reflect the public opinion of the region. Social indicator survey is an important measure of social change. Social indicator survey has been conducted in many municipalities (Se...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 즉, 데이터의 물리적 혹은 추상적 객체를 비슷한 객체군으로 묶는 과정이라 할 수 있다. 군집분석의 기본 목적은 관찰대상이 되는 개체들의 집합을 여러 개의 자연스러운 군집으로 분류하는 데 있다. 분류된 군집들은 상호 배타적이어서 한 군집에 속한 개체들은 서로 유사한 성질을 갖지만, 이들은 다른 군집에 속한 개체들과는 서로 다른 성질을 가지고 있다.
  • 이에 군집분석에 사용할 변수를 도출하기 위하여 연관성 규칙을 이용하고자 한다. 또한 연관성 규칙 시, 변수들 간의 간접적 관계가 존재 할 수 있으므로 매개변수 (intervening variable)를 도출할 수 있는 매개연관성규칙 (intervening association rule)을 적용하고자 한다. 이에 본 논문에서는 매개연관성규칙에 의하여 성향이 유사한 변수들을 도출하고 이 변수들을 이용하여 군집분석을 실시 한 후 의미 있는 군집분석 결과를 도출한다.
  • 본 논문에서는 매개연관성규칙, 군집분석, 의사결정나무를 순차적으로 적용하는 방법을 제시한 후 2010년에 조사된 경상남도 사회지표조사 자료에 적용하고자 한다. 논문의 2절에서는 논문의 이론적 배경에 대하여 기술하고 3절에서는 연구방법에 대하여 기술하며 4절에서 실제자료 분석 결과를 제시한 후, 5절에서 결론을 맺고자 한다.
  • 본 논문은 효율적인 의사결정나무 생성을 위하여 매개연관성규칙, 군집분석, 의사결정나무를 순차적으로 적용하는 3단계 데이터마이닝 적용 방안이라고 할 수 있다. 본 논문에서 제안하는 연구방법을 자세하게 설명하면 Figure 3.
  • 사회지표조사에서의 데이터마이닝의 적용에 관한 연구로는 국내적으로 연구가 미비한 실정이다. 이에 본 논문에서는 사회지표조사 자료에 대하여 보다 심층적인 분석을 실시하기 위하여 새로운 데이터마이닝 방법론을 제시하고자 한다. 데이터마이닝은 방대한 양의 데이터로부터 쉽게 드러나지 않는 유용한 정보들을 추출하는 과정을 의미하며, 군집분석 (cluster analysis), 연결 분석 (link analysis), 판별 분석 (discrimination analysis), 연관성규칙 (association rule), 의사결정나무기법 (decision tree), 신경망모형 (neural network) 등의 다양한 분석 기법이 있다.
  • 그러나 각 지자체에서 많은 예산과 시간을 들여 사회지표조사를 실시하고 있으나, 조사 자료의 분석이 단순 통계분석에 그쳐 실제 사회지표 조사 자료를 제대로 활용하고 있지 못하고 있는 실정이다. 이에 본 논문에서는 효율적인 의사결정나무 생성을 위하여 매개연관성규칙, 군집분석, 의사결정나무를 순차적으로 적용하는 3단계 복합 데이터마이닝 적용 방법을 제시하였다. 3단계 복합 데이터마이닝은 매개연관성규칙에 의한 변수들 간의 관계를 파악한 뒤, 이를 바탕으로 k-평균 군집분석을 통하여 여러 개의 변수들을 축약하고 이 축약된 결과를 이용하여 의사결정나무 분석을 실시하는 방법을 제안하였다.
  • 만일 비슷한 속성을 가지는 문항들을 하나의 변수로 축소할 수 있다면 의사결정나무 모형의 생성 및 해석에 있어 효율적일 수 있다. 이에 본 절에서는 오염의 8개 문항에 대하여 본 논문에서 제안하는 3단계 복합 데이터마이닝 방법을 적용하고자 한다. 우선 관심대상이 되는 변수는 앞서 설명한 오염에 대한 8개의 변수이고 각 변수들의 관련성을 알아보기 위하여 매개연관성규칙을 적용하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
데이터마이닝이란 무엇인가? 이에 본 논문에서는 사회지표조사 자료에 대하여 보다 심층적인 분석을 실시하기 위하여 새로운 데이터마이닝 방법론을 제시하고자 한다. 데이터마이닝은 방대한 양의 데이터로부터 쉽게 드러나지 않는 유용한 정보들을 추출하는 과정을 의미하며, 군집분석 (cluster analysis), 연결 분석 (link analysis), 판별 분석 (discrimination analysis), 연관성규칙 (association rule), 의사결정나무기법 (decision tree), 신경망모형 (neural network) 등의 다양한 분석 기법이 있다. 데이터마이닝의 여러 가지 기법 중 분류와 예측을 위하여 가장 많이 사용되는 방법이 의사결정나무기법이다.
사회지표조사의 장점은 무엇인가? 사회지표조사는 주민들이 생각하는 사회 상태를 총체적으로 파악할 수 있는 조사로서 다양한 시책 개발에 있어 지역의 여론을 반영할 수 있는 장점이 있다. 사회지표조사는 사회 변화를 알 수 있는 중요한 척도라고 할 수 있으며, 많은 지자체 (서울시, 인천시, 부산시, 울산시, 경상남도 등)에서 많은 예산과 시간을 들여 조사를 실시하고 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (12)

  1. Agrawal, R., Imielinski, R. and Swami, A. (1993). Mining association rules between sets of items in large databases. Proceedings of the ACM SIGMOD Conference on Management of Data, 207-216. 

    인용구절

    인용 구절

    연관성규칙은 항목 집합으로 표현된 트랜잭션에서 각 항목간의 연관성을 반영하는 규칙으로서 Agrawal 등 (1993)에 의해 처음 소개되어 졌다.

  2. Breiman, L., Friedman, J. H., Olshen, R. A. and Stone, C. J. (1984). Classification and regression trees, Wadsworth and books, California. 

    인용구절

    인용 구절

    대표적인 의사결정나무 알고리즘에는 Hartigan (1975)에 의하여 제시된 CHAID (Chi-squared Automatic Interaction detecion), Breiman 등 (1984)에 의하여 제시된 CART (Classification and Regression Trees), Quinlan (1993)의 ID3을 기반으로 한 C5.0 등의 알고리즘 있으며, CHAID는 의사결정나무의 가장 오래된 알고리즘으로 분리기준으로 카이제곱통계량을 사용하고, CART는 분리기준으로 지니 지수를 사용하여 이지 분리를 수행하는 알고리즘이며, C5.0은 분리기준으로 엔트로피를 사용하여 다지 분리를 수행하는 알고리즘이다.

  3. Cho, K. H. and Park, H. C. (2011a). A study on decision tree creation using intervening variable. Journal of the Korean Data & Information Science Society, 22, 671-678. 

    인용구절

    인용 구절

    복합 데이터마이닝 방법에 대한 국내연구로는 Cho와 Park (2011a, 2011b, 2011c, 2012a, 2012b)이 있으며, 그리고 Park (2011a, 2011b) 등이 데이터마이닝과 관련된 연관규칙 평가 기준에 대한 연구를 진행하였다.

  4. Cho, K. H. and Park, H. C. (2011b). A study on removal of unnecessary input variables using multiple external association rule. Journal of the Korean Data & Information Science Society, 22, 877-884. 

    인용구절

    인용 구절

    복합 데이터마이닝 방법에 대한 국내연구로는 Cho와 Park (2011a, 2011b, 2011c, 2012a, 2012b)이 있으며, 그리고 Park (2011a, 2011b) 등이 데이터마이닝과 관련된 연관규칙 평가 기준에 대한 연구를 진행하였다.

  5. Cho, K. H. and Park, H. C. (2011c). A study on insignificant rules discovery in association rule mining. Journal of the Korean Data Analysis Society, 22, 81-88. 

    인용구절

    인용 구절

    복합 데이터마이닝 방법에 대한 국내연구로는 Cho와 Park (2011a, 2011b, 2011c, 2012a, 2012b)이 있으며, 그리고 Park (2011a, 2011b) 등이 데이터마이닝과 관련된 연관규칙 평가 기준에 대한 연구를 진행하였다.

    Cho와 Park (2011c)은 연관성 규칙을 이용하여 매개변수를 추출하는 방법에 대하여 연구한 바 있고, 이 방법을 매개연관성규칙이라고 명하였으며, 그 조건은 다음과 같다.

  6. Cho, K. H. and Park, H. C. (2012a). A study on association rule creation by marginally conditional variables. Journal of the Korean Data & Information Science Society, 23, 121-129. 

    원문보기 상세보기 crossref 타임라인에서 보기
    인용구절

    인용 구절

    복합 데이터마이닝 방법에 대한 국내연구로는 Cho와 Park (2011a, 2011b, 2011c, 2012a, 2012b)이 있으며, 그리고 Park (2011a, 2011b) 등이 데이터마이닝과 관련된 연관규칙 평가 기준에 대한 연구를 진행하였다.

  7. Cho, K. H. and Park, H. C. (2012b). A study on decision tree creation using marginally conditional variables. Journal of the Korean Data & Information Science Society, 23, 299-307. 

    원문보기 상세보기 crossref 타임라인에서 보기
    인용구절

    인용 구절

    복합 데이터마이닝 방법에 대한 국내연구로는 Cho와 Park (2011a, 2011b, 2011c, 2012a, 2012b)이 있으며, 그리고 Park (2011a, 2011b) 등이 데이터마이닝과 관련된 연관규칙 평가 기준에 대한 연구를 진행하였다.

  8. Hartigan, J. A. (1975). Clustering algorithms, John Wiley & Sons, New York. 

    인용구절

    인용 구절

    대표적인 의사결정나무 알고리즘에는 Hartigan (1975)에 의하여 제시된 CHAID (Chi-squared Automatic Interaction detecion), Breiman 등 (1984)에 의하여 제시된 CART (Classification and Regression Trees), Quinlan (1993)의 ID3을 기반으로 한 C5.0 등의 알고리즘 있으며, CHAID는 의사결정나무의 가장 오래된 알고리즘으로 분리기준으로 카이제곱통계량을 사용하고, CART는 분리기준으로 지니 지수를 사용하여 이지 분리를 수행하는 알고리즘이며, C5.0은 분리기준으로 엔트로피를 사용하여 다지 분리를 수행하는 알고리즘이다.

  9. MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations. Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability, 1, 281-297. 

    인용구절

    인용 구절

    k-평균 군집분석은 MacQueen (1967)에 의해 처음 소개되어진 분할군집법의 일종으로 데이터들을 k개의 군집으로 임의로 분할을 하여 군집의 평균을 대표값으로 분할해 나가는 방법으로 데이터들을 유사성을 바탕으로 재배치를 하는 방법이다.

  10. Park, H. C. (2011a). Proposition of negatively pure association rule threshold. Journal of the Korean Data & Information Science Society, 22, 179-188. 

    인용구절

    인용 구절

    복합 데이터마이닝 방법에 대한 국내연구로는 Cho와 Park (2011a, 2011b, 2011c, 2012a, 2012b)이 있으며, 그리고 Park (2011a, 2011b) 등이 데이터마이닝과 관련된 연관규칙 평가 기준에 대한 연구를 진행하였다.

  11. Park, H. C. (2011b). The proposition of attributably pure confidence in association rule mining. Journal of the Korean Data & Information Science Society, 22, 235-243. 

    인용구절

    인용 구절

    복합 데이터마이닝 방법에 대한 국내연구로는 Cho와 Park (2011a, 2011b, 2011c, 2012a, 2012b)이 있으며, 그리고 Park (2011a, 2011b) 등이 데이터마이닝과 관련된 연관규칙 평가 기준에 대한 연구를 진행하였다.

  12. Quinlan, J. R. (1993). C4.5 programs for machine learning, Morgan Kaufmann Publishers, San Francisco. 

    인용구절

    인용 구절

    대표적인 의사결정나무 알고리즘에는 Hartigan (1975)에 의하여 제시된 CHAID (Chi-squared Automatic Interaction detecion), Breiman 등 (1984)에 의하여 제시된 CART (Classification and Regression Trees), Quinlan (1993)의 ID3을 기반으로 한 C5.0 등의 알고리즘 있으며, CHAID는 의사결정나무의 가장 오래된 알고리즘으로 분리기준으로 카이제곱통계량을 사용하고, CART는 분리기준으로 지니 지수를 사용하여 이지 분리를 수행하는 알고리즘이며, C5.0은 분리기준으로 엔트로피를 사용하여 다지 분리를 수행하는 알고리즘이다.

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로