데이터마이닝은 방대한 데이터를 기반으로 정보를 추출하는 방법으로 많은 분야에 적용하고 있으며 특히 보건의료 데이터를 다루는 기법으로 많이 활용 되고 있다. 하지만 데이터가 다양하고 방대해짐에 따라 데이터들을 완벽하게 다룰 수 있는 알고리즘이 개발되지 못한 현황이다. 따라서 본 논문에서는 군집화 알고리즘 중의 하나인 DBSCAN 알고리즘과 EM 알고리즘의 성능을 동일한 데이터에 대하여 분석을 시도하였다. 이를 위하여 DBSACN과 EM 알고리즘에 따른 변화를 Health expenditure 실험데이터의 결과를 기반으로 분석 하였고 더욱 정확한 실험과 더욱 정확한 결과를 알아내기 위하여 Kernel Filtering을 통하여 정확한 데이터분석을 시도하였다. 본 연구에서는 알고리즘의 기술적 성능을 비교한 것을 물론이고 성능을 높이기 위한 시도를 하였다. 이를 통하여 확장한 알고리즘에 따른 성능의 변화와 실험데이터의 적용결과를 기반으로 비교하고 이를 분석하게 되었다. 특히 의료기관을 이용하는 다양한 군집으로부터 데이터 레코드를 수집하여 의료 서비스에 대한 효과적인 비용 지출을 권장할 수 있도록 실험하였다.
데이터마이닝은 방대한 데이터를 기반으로 정보를 추출하는 방법으로 많은 분야에 적용하고 있으며 특히 보건의료 데이터를 다루는 기법으로 많이 활용 되고 있다. 하지만 데이터가 다양하고 방대해짐에 따라 데이터들을 완벽하게 다룰 수 있는 알고리즘이 개발되지 못한 현황이다. 따라서 본 논문에서는 군집화 알고리즘 중의 하나인 DBSCAN 알고리즘과 EM 알고리즘의 성능을 동일한 데이터에 대하여 분석을 시도하였다. 이를 위하여 DBSACN과 EM 알고리즘에 따른 변화를 Health expenditure 실험데이터의 결과를 기반으로 분석 하였고 더욱 정확한 실험과 더욱 정확한 결과를 알아내기 위하여 Kernel Filtering을 통하여 정확한 데이터분석을 시도하였다. 본 연구에서는 알고리즘의 기술적 성능을 비교한 것을 물론이고 성능을 높이기 위한 시도를 하였다. 이를 통하여 확장한 알고리즘에 따른 성능의 변화와 실험데이터의 적용결과를 기반으로 비교하고 이를 분석하게 되었다. 특히 의료기관을 이용하는 다양한 군집으로부터 데이터 레코드를 수집하여 의료 서비스에 대한 효과적인 비용 지출을 권장할 수 있도록 실험하였다.
As Data mining is a method of extracting the information based on the large data, the technique has been used in many application areas to deal with data in particular. However, the status of the algorithm that can deal with the healthcare data are not fully developed. In this paper, One of clusteri...
As Data mining is a method of extracting the information based on the large data, the technique has been used in many application areas to deal with data in particular. However, the status of the algorithm that can deal with the healthcare data are not fully developed. In this paper, One of clustering algorithm, the EM and DBSCAN are used for performance comparison. It could be analyzed using by the same data. To do this, EM and DBSACN algorithm are changing performance according to the variables in Health expenditure database. Based on the results of the experimental data, We analyze more precise and accurate results using by Kernel Filtering. In this study, we tried comparison of the performance for the algorithm as well as attempt to improve the performance. Through this work, we were analyzed the comparison result of the application of the experimental data and of performance change according to expansion algorithm. Especially, Collects data from the various cluster using the medical record, it could be recommended the effective spending on medical services.
As Data mining is a method of extracting the information based on the large data, the technique has been used in many application areas to deal with data in particular. However, the status of the algorithm that can deal with the healthcare data are not fully developed. In this paper, One of clustering algorithm, the EM and DBSCAN are used for performance comparison. It could be analyzed using by the same data. To do this, EM and DBSACN algorithm are changing performance according to the variables in Health expenditure database. Based on the results of the experimental data, We analyze more precise and accurate results using by Kernel Filtering. In this study, we tried comparison of the performance for the algorithm as well as attempt to improve the performance. Through this work, we were analyzed the comparison result of the application of the experimental data and of performance change according to expansion algorithm. Especially, Collects data from the various cluster using the medical record, it could be recommended the effective spending on medical services.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
하지만 데이터가 방대함에 따라 데이터들을 완벽하게 다룰 수 있는 알고리즘이 개발되지 못한 현황이다. 따라서 본 논문에서는 데이터마이닝 기법 중의 DBSCAN 알고리즘과 데이터마이닝 군집화 알고리즘 중의 하나인 EM 알고리즘의 성능을 동일한 데이터에 대하여 분석하였다. DBSACN과 EM 알고리즘에 따른 변화를 Health expenditure 실험데이터의 결과를 기반으로 분석하였다.
특히 최근 들어 건강에 관한 관심도 많아지고 따라서 건강에 사용하는 건강비용을 중요하게 되었다. 본 논문에서는 건강비용을 효과적으로 지출하는 방법을 제시하기 위하여 공공데이터를 활용하여 분석하게 되었다. 분석기법으로는 DBSCAN, EM 알고리즘을 사용하였으며 보다 정확성과 효율을 높이기 위하여 Kernel Filtering을 적용하였다.
제안 방법
따라서 본 논문에서는 데이터마이닝 기법 중의 DBSCAN 알고리즘과 데이터마이닝 군집화 알고리즘 중의 하나인 EM 알고리즘의 성능을 동일한 데이터에 대하여 분석하였다. DBSACN과 EM 알고리즘에 따른 변화를 Health expenditure 실험데이터의 결과를 기반으로 분석하였다. 향후에 는 더욱 정확한 실험과 더욱 정확한 결과를 알아내기 위하여 더욱 정확한 데이터를 찾아내고 그에 맞는 알고리즘을 사용하고 그에 적용할 수 있는 다수의 알고리즘을 찾아 복합적으로 적용하고 더욱 많은 데이터의 정보로 정확한 결과를 도출할 수 있게 연구할 것이다.
본 논문에서 데이터를 Kernel Filter를 이용하여 전처리를 하였다. Kernel Filter는 새로운 데어터 집합을 출력하는데, 여기에는 이전과 동일한 개수의 인스턴스가 들어있다.
연도에 따라서 사람들이 건강을 위해 건강비용 지출의 증가를 토대로 건강의 중요성을 인식하고 EM 알고리즘과 DBSCAN 알고리즘을 통해 비교 분석을 하고 Clustering을 통해 건강비용 지출을 예측한다.
위 그림을 살펴보면 2000년 초반과 2010년 초반의 최고 건강비용 지출을 비교할 수 있으며, DBSCAN 알고리즘과 EM 알고리즘의 성능을 동일한 데이터에 대하여 분석하였다. 이를 통하여 점점 건강에 대한 중요도가 커지고 그에 따른 건강비용 지출 또한 커지고 있음을 확인할 수 있다.
대상 데이터
실험데이터는 호주의 건강비용 지출을 정하는 속성변수로서 financial year의 Numeric 속성과 state, area of expenditure, broad source of funding, detailed source of funding의 attribute는 Nominal로 돼 있고 알고 싶은 건강지출 비용속성인 real expenditure millions는 Numeric으로 구성되어 있다. 각각의 속성에 대한 세부적인 사항은 표 1과 같다.
arff 이다. 실험에 사용된 데이터는 총 5,480개를 사용한다.
실험을 위한 도구로써 Waikato 대학교에서 개발된 WEKA v3.6.12을 사용하고[3], 사용된 데이터는 호주의 건강비용 지출이 기록된 health expenditure.arff 이다. 실험에 사용된 데이터는 총 5,480개를 사용한다.
이론/모형
본 논문에서는 건강비용을 효과적으로 지출하는 방법을 제시하기 위하여 공공데이터를 활용하여 분석하게 되었다. 분석기법으로는 DBSCAN, EM 알고리즘을 사용하였으며 보다 정확성과 효율을 높이기 위하여 Kernel Filtering을 적용하였다.
실험은 health expenditure 데이터를 기반으로 real expenditure million 속성을 대상으로 선택한 탐색 알고리즘으로 앞에서 설명한 LinearRegression와 EM 알고리즘을 사용하였으며, 데이터 군집화에는 numcluster (군집 개수)의 값을 3으로 주어 수행하였다. 아래 그림에서는 연도에 따라서 DBSCAN의 실험 결과를 나타내었고 아래 그림에서 EM 알고리즘의 실험 결과를 나타내었다.
성능/효과
기본적으로 모든 값은 평균이 0에 가깝게 변환된다. 본 실험과정에서 Kernel Filter를 통한 전처리 과정을 통해 데이터들이 보기 좋은 집합 형태로 변환되었다.
후속연구
DBSACN과 EM 알고리즘에 따른 변화를 Health expenditure 실험데이터의 결과를 기반으로 분석하였다. 향후에 는 더욱 정확한 실험과 더욱 정확한 결과를 알아내기 위하여 더욱 정확한 데이터를 찾아내고 그에 맞는 알고리즘을 사용하고 그에 적용할 수 있는 다수의 알고리즘을 찾아 복합적으로 적용하고 더욱 많은 데이터의 정보로 정확한 결과를 도출할 수 있게 연구할 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
데이터마이닝 분야에서 데이터에 대한 통계분석이나 모델링을 통해 정보를 추출하는 것이 단순한 작업이 아닌 이유는?
이러한 데이터마이닝 분야에서는 데이터에 대한 통계분석이나 모델링을 통하여 정보를 추출해내기 위해서 연관성(Association), 군집화(Clustering), 결정 나무(Decision Tree), 신경망(Neural Network) 등의 다양한 알고리즘들이 연구되고 있는 현황이다[6]. 그러나 실제 문제에서 이러한 기법들을 적용하는 경우, 그 결과에 영향을 미치는 요인이 다수 존재하기 때문에 모든 상황에서 완벽하게 동작할 수 있는 최적의 알고리즘을 선택하는 작업은 단순한 문제가 아니다.
비즈니스 의사결정에 있어 기존의 대용량 데이터베이스의 조회방법보다 더 요구되고 있는 것은 무엇인가요?
비즈니스 환경의 변화에 따라 기업은 의사결정 지원을 위한 고급정보를 필요로 하게 되었으며, 비즈니스 우위를 위해 기존의 대용량 데이터베이스의 조회방법보다 우수한 분석모델을 통한 예측 데이터를 필요로 하게 되었다. 데이터마이닝을 한마디로 요약하면 “대량의 데이터 집합으로부터 유용한 정보를 추출하는 것”으로 정의된다.
데이터마이닝을 한마디로 요약하면?
비즈니스 환경의 변화에 따라 기업은 의사결정 지원을 위한 고급정보를 필요로 하게 되었으며, 비즈니스 우위를 위해 기존의 대용량 데이터베이스의 조회방법보다 우수한 분석모델을 통한 예측 데이터를 필요로 하게 되었다. 데이터마이닝을 한마디로 요약하면 “대량의 데이터 집합으로부터 유용한 정보를 추출하는 것”으로 정의된다. 데이터마이닝은 대량의 가공하지 않은 데이터로부터 알려지지 않은 새로운 정보나 유용한 패턴과 상관관계를 추출하여 의사 결정에 이용하는 작업으로써 최근 H/W와 S/W 를 비롯한 IT의 기술적 발전과 더불어 많은 연구가 이루어져 왔다.
참고문헌 (6)
Doddi, S., Achla Marathe, Ravi, S. S., and Torney, D. C. (2001), "Discovery of association rules in medical data", Informatics for Health and Social Care, 26(1), 25-33.
Hosking, J. R. M. and Wallis, J. R. (2005), Regional frequency analysis: an approach based on Lmoments, Cambridge University Press.
Kirchhoff, W. H. (2012), "LOGISTIC FUNCTION PROFILE FIT: A least-squares program for fitting interface profiles to an extended logistic functiona)", Journal of Vacuum Science and Technology, A 30.5, 051101.
Malefaki, S., Trevezas, S., and Limnios, N. (2010), "An EM and a stochastic version of the EM algorithm for nonparametric Hidden semi-Markov models", Communications in Statistics-Simulation and Computation(R), 39(2), 240-261.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.