[논문]커널필터링 기법을 이용한 건강비용의 효과적인 지출에 관한 군집화 분석

정용규; 최영진; 차병헌

doi:10.18807/jsrs.2015.5.2.25

초록
AI-Helper

데이터마이닝은 방대한 데이터를 기반으로 정보를 추출하는 방법으로 많은 분야에 적용하고 있으며 특히 보건의료 데이터를 다루는 기법으로 많이 활용 되고 있다. 하지만 데이터가 다양하고 방대해짐에 따라 데이터들을 완벽하게 다룰 수 있는 알고리즘이 개발되지 못한 현황이다. 따라서 본 논문에서는 군집화 알고리즘 중의 하나인 DBSCAN 알고리즘과 EM 알고리즘의 성능을 동일한 데이터에 대하여 분석을 시도하였다. 이를 위하여 DBSACN과 EM 알고리즘에 따른 변화를 Health expenditure 실험데이터의 결과를 기반으로 분석 하였고 더욱 정확한 실험과 더욱 정확한 결과를 알아내기 위하여 Kernel Filtering을 통하여 정확한 데이터분석을 시도하였다. 본 연구에서는 알고리즘의 기술적 성능을 비교한 것을 물론이고 성능을 높이기 위한 시도를 하였다. 이를 통하여 확장한 알고리즘에 따른 성능의 변화와 실험데이터의 적용결과를 기반으로 비교하고 이를 분석하게 되었다. 특히 의료기관을 이용하는 다양한 군집으로부터 데이터 레코드를 수집하여 의료 서비스에 대한 효과적인 비용 지출을 권장할 수 있도록 실험하였다.

Abstract ▼ AI-Helper

As Data mining is a method of extracting the information based on the large data, the technique has been used in many application areas to deal with data in particular. However, the status of the algorithm that can deal with the healthcare data are not fully developed. In this paper, One of clusteri...

As Data mining is a method of extracting the information based on the large data, the technique has been used in many application areas to deal with data in particular. However, the status of the algorithm that can deal with the healthcare data are not fully developed. In this paper, One of clustering algorithm, the EM and DBSCAN are used for performance comparison. It could be analyzed using by the same data. To do this, EM and DBSACN algorithm are changing performance according to the variables in Health expenditure database. Based on the results of the experimental data, We analyze more precise and accurate results using by Kernel Filtering. In this study, we tried comparison of the performance for the algorithm as well as attempt to improve the performance. Through this work, we were analyzed the comparison result of the application of the experimental data and of performance change according to expansion algorithm. Especially, Collects data from the various cluster using the medical record, it could be recommended the effective spending on medical services.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

하지만 데이터가 방대함에 따라 데이터들을 완벽하게 다룰 수 있는 알고리즘이 개발되지 못한 현황이다. 따라서 본 논문에서는 데이터마이닝 기법 중의 DBSCAN 알고리즘과 데이터마이닝 군집화 알고리즘 중의 하나인 EM 알고리즘의 성능을 동일한 데이터에 대하여 분석하였다. DBSACN과 EM 알고리즘에 따른 변화를 Health expenditure 실험데이터의 결과를 기반으로 분석하였다.
특히 최근 들어 건강에 관한 관심도 많아지고 따라서 건강에 사용하는 건강비용을 중요하게 되었다. 본 논문에서는 건강비용을 효과적으로 지출하는 방법을 제시하기 위하여 공공데이터를 활용하여 분석하게 되었다. 분석기법으로는 DBSCAN, EM 알고리즘을 사용하였으며 보다 정확성과 효율을 높이기 위하여 Kernel Filtering을 적용하였다.

제안 방법

따라서 본 논문에서는 데이터마이닝 기법 중의 DBSCAN 알고리즘과 데이터마이닝 군집화 알고리즘 중의 하나인 EM 알고리즘의 성능을 동일한 데이터에 대하여 분석하였다. DBSACN과 EM 알고리즘에 따른 변화를 Health expenditure 실험데이터의 결과를 기반으로 분석하였다. 향후에 는 더욱 정확한 실험과 더욱 정확한 결과를 알아내기 위하여 더욱 정확한 데이터를 찾아내고 그에 맞는 알고리즘을 사용하고 그에 적용할 수 있는 다수의 알고리즘을 찾아 복합적으로 적용하고 더욱 많은 데이터의 정보로 정확한 결과를 도출할 수 있게 연구할 것이다.
본 논문에서 데이터를 Kernel Filter를 이용하여 전처리를 하였다. Kernel Filter는 새로운 데어터 집합을 출력하는데, 여기에는 이전과 동일한 개수의 인스턴스가 들어있다.
연도에 따라서 사람들이 건강을 위해 건강비용 지출의 증가를 토대로 건강의 중요성을 인식하고 EM 알고리즘과 DBSCAN 알고리즘을 통해 비교 분석을 하고 Clustering을 통해 건강비용 지출을 예측한다.
위 그림을 살펴보면 2000년 초반과 2010년 초반의 최고 건강비용 지출을 비교할 수 있으며, DBSCAN 알고리즘과 EM 알고리즘의 성능을 동일한 데이터에 대하여 분석하였다. 이를 통하여 점점 건강에 대한 중요도가 커지고 그에 따른 건강비용 지출 또한 커지고 있음을 확인할 수 있다.

대상 데이터

실험데이터는 호주의 건강비용 지출을 정하는 속성변수로서 financial year의 Numeric 속성과 state, area of expenditure, broad source of funding, detailed source of funding의 attribute는 Nominal로 돼 있고 알고 싶은 건강지출 비용속성인 real expenditure millions는 Numeric으로 구성되어 있다. 각각의 속성에 대한 세부적인 사항은 표 1과 같다.
arff 이다. 실험에 사용된 데이터는 총 5,480개를 사용한다.
실험을 위한 도구로써 Waikato 대학교에서 개발된 WEKA v3.6.12을 사용하고[3], 사용된 데이터는 호주의 건강비용 지출이 기록된 health expenditure.arff 이다. 실험에 사용된 데이터는 총 5,480개를 사용한다.

이론/모형

본 논문에서는 건강비용을 효과적으로 지출하는 방법을 제시하기 위하여 공공데이터를 활용하여 분석하게 되었다. 분석기법으로는 DBSCAN, EM 알고리즘을 사용하였으며 보다 정확성과 효율을 높이기 위하여 Kernel Filtering을 적용하였다.
실험은 health expenditure 데이터를 기반으로 real expenditure million 속성을 대상으로 선택한 탐색 알고리즘으로 앞에서 설명한 LinearRegression와 EM 알고리즘을 사용하였으며, 데이터 군집화에는 numcluster (군집 개수)의 값을 3으로 주어 수행하였다. 아래 그림에서는 연도에 따라서 DBSCAN의 실험 결과를 나타내었고 아래 그림에서 EM 알고리즘의 실험 결과를 나타내었다.

성능/효과

기본적으로 모든 값은 평균이 0에 가깝게 변환된다. 본 실험과정에서 Kernel Filter를 통한 전처리 과정을 통해 데이터들이 보기 좋은 집합 형태로 변환되었다.

후속연구

DBSACN과 EM 알고리즘에 따른 변화를 Health expenditure 실험데이터의 결과를 기반으로 분석하였다. 향후에 는 더욱 정확한 실험과 더욱 정확한 결과를 알아내기 위하여 더욱 정확한 데이터를 찾아내고 그에 맞는 알고리즘을 사용하고 그에 적용할 수 있는 다수의 알고리즘을 찾아 복합적으로 적용하고 더욱 많은 데이터의 정보로 정확한 결과를 도출할 수 있게 연구할 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	데이터마이닝 분야에서 데이터에 대한 통계분석이나 모델링을 통해 정보를 추출하는 것이 단순한 작업이 아닌 이유는?	이러한 데이터마이닝 분야에서는 데이터에 대한 통계분석이나 모델링을 통하여 정보를 추출해내기 위해서 연관성(Association), 군집화(Clustering), 결정 나무(Decision Tree), 신경망(Neural Network) 등의 다양한 알고리즘들이 연구되고 있는 현황이다[6]. 그러나 실제 문제에서 이러한 기법들을 적용하는 경우, 그 결과에 영향을 미치는 요인이 다수 존재하기 때문에 모든 상황에서 완벽하게 동작할 수 있는 최적의 알고리즘을 선택하는 작업은 단순한 문제가 아니다.
	비즈니스 의사결정에 있어 기존의 대용량 데이터베이스의 조회방법보다 더 요구되고 있는 것은 무엇인가요?	비즈니스 환경의 변화에 따라 기업은 의사결정 지원을 위한 고급정보를 필요로 하게 되었으며, 비즈니스 우위를 위해 기존의 대용량 데이터베이스의 조회방법보다 우수한 분석모델을 통한 예측 데이터를 필요로 하게 되었다. 데이터마이닝을 한마디로 요약하면 “대량의 데이터 집합으로부터 유용한 정보를 추출하는 것”으로 정의된다.
	데이터마이닝을 한마디로 요약하면?	비즈니스 환경의 변화에 따라 기업은 의사결정 지원을 위한 고급정보를 필요로 하게 되었으며, 비즈니스 우위를 위해 기존의 대용량 데이터베이스의 조회방법보다 우수한 분석모델을 통한 예측 데이터를 필요로 하게 되었다. 데이터마이닝을 한마디로 요약하면 “대량의 데이터 집합으로부터 유용한 정보를 추출하는 것”으로 정의된다. 데이터마이닝은 대량의 가공하지 않은 데이터로부터 알려지지 않은 새로운 정보나 유용한 패턴과 상관관계를 추출하여 의사 결정에 이용하는 작업으로써 최근 H/W와 S/W 를 비롯한 IT의 기술적 발전과 더불어 많은 연구가 이루어져 왔다.

참고문헌 (6)

Doddi, S., Achla Marathe, Ravi, S. S., and Torney, D. C. (2001), "Discovery of association rules in medical data", Informatics for Health and Social Care, 26(1), 25-33.

상세보기
Hosking, J. R. M. and Wallis, J. R. (2005), Regional frequency analysis: an approach based on Lmoments, Cambridge University Press.
Kirchhoff, W. H. (2012), "LOGISTIC FUNCTION PROFILE FIT: A least-squares program for fitting interface profiles to an extended logistic functiona)", Journal of Vacuum Science and Technology, A 30.5, 051101.

상세보기
Malefaki, S., Trevezas, S., and Limnios, N. (2010), "An EM and a stochastic version of the EM algorithm for nonparametric Hidden semi-Markov models", Communications in Statistics-Simulation and Computation(R), 39(2), 240-261.

상세보기
Palaniappan, S. and Awang, R. (2008), "Intelligent heart disease prediction system using data mining techniques", 108-115.
Witten, I. H. and Frank, E. (2005), Data Mining: Practical machine learning tools and techniques, Morgan Kaufmann.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

커널필터링 기법을 이용한 건강비용의 효과적인 지출에 관한 군집화 분석
Clustering Analysis of Effective Health Spending Cost based on Kernel Filtering Techniques 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (6)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

커널필터링 기법을 이용한 건강비용의 효과적인 지출에 관한 군집화 분석 Clustering Analysis of Effective Health Spending Cost based on Kernel Filtering Techniques 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (6)

이 논문을 인용한 문헌

저자의 다른 논문 :

정용규 (74) 최영진 (26) 차병헌 (8)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

커널필터링 기법을 이용한 건강비용의 효과적인 지출에 관한 군집화 분석
Clustering Analysis of Effective Health Spending Cost based on Kernel Filtering Techniques 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper