SVM과 meta-learning algorithm을 이용한 고지혈증 유병 예측모형 개발과 활용 Development and application of prediction model of hyperlipidemia using SVM and meta-learning algorithm원문보기
본 연구는 만성질환 중의 하나인 고지혈증 유병을 예측하는 분류모형을 개발하고자 한다. 이를 위해 SVM과 meta-learning알고리즘을 이용하여 성과를 비교하였다. 또한 각 알고리즘에서 성과를 향상시키기 위해 변수선정 방법을 통해 유의한 변수만을 선정하여 투입하여 분석하였고 이 결과 역시 각각 성과를 비교하였다. 본 연구목적을 달성하기 위해 한국의료패널 2012년 자료를 이용하였고, 변수 선정을 위해 세 가지 방법을 사용하였다. 먼저 단계적 회귀분석(stepwise regression)을 실시하였다. 둘째, 의사결정나무(decision tree) 알고리즘을 사용하였다. 마지막으로 유전자 알고리즘을 사용하여 변수를 선정하였다. 한편, 이렇게 선정된 변수를 기준으로 SVM, meta-learning 알고리즘 등을 이용하여 고지혈증 환자분류 예측모형을 비교하였고, TP rate, precision 등을 사용하여 분류 성과를 비교분석하였다. 이에 대한 분석결과는 다음과 같다. 첫째, 모든 변수를 투입하여 분류한 결과 SVM의 정확도는 88.4%, 인공신경망의 정확도는 86.7%로 SVM의 정확도가 좀 더 높았다. 둘째, stepwise를 통해 선정된 변수만을 투입하여 분류한 결과 전체 변수를 투입하였을 때보다 각각 정확도가 약간 높았다. 셋째, 의사결정나무에 의해 선정된 변수 3개만을 투입하였을 때 인공신경망의 정확도가 SVM보다 높았다. 유전자 알고리즘을 통해 선정된 변수를 투입하여 분류한 결과 SVM은 88.5%, 인공신경망은 87.9%의 분류 정확도를 보여 주었다. 마지막으로, 본 연구에서 제안하는 meta-learning 알고리즘인 스태킹(stacking)을 적용한 결과로서, SVM과 MLP의 예측결과를 메타 분류기인 SVM의 입력변수로 사용하여 예측한 결과, 고지혈증 분류 정확도가 meta-learning 알고리즘 중에서는 가장 높은 것으로 나타났다.
본 연구는 만성질환 중의 하나인 고지혈증 유병을 예측하는 분류모형을 개발하고자 한다. 이를 위해 SVM과 meta-learning 알고리즘을 이용하여 성과를 비교하였다. 또한 각 알고리즘에서 성과를 향상시키기 위해 변수선정 방법을 통해 유의한 변수만을 선정하여 투입하여 분석하였고 이 결과 역시 각각 성과를 비교하였다. 본 연구목적을 달성하기 위해 한국의료패널 2012년 자료를 이용하였고, 변수 선정을 위해 세 가지 방법을 사용하였다. 먼저 단계적 회귀분석(stepwise regression)을 실시하였다. 둘째, 의사결정나무(decision tree) 알고리즘을 사용하였다. 마지막으로 유전자 알고리즘을 사용하여 변수를 선정하였다. 한편, 이렇게 선정된 변수를 기준으로 SVM, meta-learning 알고리즘 등을 이용하여 고지혈증 환자분류 예측모형을 비교하였고, TP rate, precision 등을 사용하여 분류 성과를 비교분석하였다. 이에 대한 분석결과는 다음과 같다. 첫째, 모든 변수를 투입하여 분류한 결과 SVM의 정확도는 88.4%, 인공신경망의 정확도는 86.7%로 SVM의 정확도가 좀 더 높았다. 둘째, stepwise를 통해 선정된 변수만을 투입하여 분류한 결과 전체 변수를 투입하였을 때보다 각각 정확도가 약간 높았다. 셋째, 의사결정나무에 의해 선정된 변수 3개만을 투입하였을 때 인공신경망의 정확도가 SVM보다 높았다. 유전자 알고리즘을 통해 선정된 변수를 투입하여 분류한 결과 SVM은 88.5%, 인공신경망은 87.9%의 분류 정확도를 보여 주었다. 마지막으로, 본 연구에서 제안하는 meta-learning 알고리즘인 스태킹(stacking)을 적용한 결과로서, SVM과 MLP의 예측결과를 메타 분류기인 SVM의 입력변수로 사용하여 예측한 결과, 고지혈증 분류 정확도가 meta-learning 알고리즘 중에서는 가장 높은 것으로 나타났다.
This study aims to develop a classification model for predicting the occurrence of hyperlipidemia, one of the chronic diseases. Prior studies applying data mining techniques for predicting disease can be classified into a model design study for predicting cardiovascular disease and a study comparing...
This study aims to develop a classification model for predicting the occurrence of hyperlipidemia, one of the chronic diseases. Prior studies applying data mining techniques for predicting disease can be classified into a model design study for predicting cardiovascular disease and a study comparing disease prediction research results. In the case of foreign literatures, studies predicting cardiovascular disease were predominant in predicting disease using data mining techniques. Although domestic studies were not much different from those of foreign countries, studies focusing on hypertension and diabetes were mainly conducted. Since hypertension and diabetes as well as chronic diseases, hyperlipidemia, are also of high importance, this study selected hyperlipidemia as the disease to be analyzed. We also developed a model for predicting hyperlipidemia using SVM and meta learning algorithms, which are already known to have excellent predictive power. In order to achieve the purpose of this study, we used data set from Korea Health Panel 2012. The Korean Health Panel produces basic data on the level of health expenditure, health level and health behavior, and has conducted an annual survey since 2008. In this study, 1,088 patients with hyperlipidemia were randomly selected from the hospitalized, outpatient, emergency, and chronic disease data of the Korean Health Panel in 2012, and 1,088 nonpatients were also randomly extracted. A total of 2,176 people were selected for the study. Three methods were used to select input variables for predicting hyperlipidemia. First, stepwise method was performed using logistic regression. Among the 17 variables, the categorical variables(except for length of smoking) are expressed as dummy variables, which are assumed to be separate variables on the basis of the reference group, and these variables were analyzed. Six variables (age, BMI, education level, marital status, smoking status, gender) excluding income level and smoking period were selected based on significance level 0.1. Second, C4.5 as a decision tree algorithm is used. The significant input variables were age, smoking status, and education level. Finally, C4.5 as a decision tree algorithm is used. In SVM, the input variables selected by genetic algorithms consisted of 6 variables such as age, marital status, education level, economic activity, smoking period, and physical activity status, and the input variables selected by genetic algorithms in artificial neural network consist of 3 variables such as age, marital status, and education level. Based on the selected parameters, we compared SVM, meta learning algorithm and other prediction models for hyperlipidemia patients, and compared the classification performances using TP rate and precision. The main results of the analysis are as follows. First, the accuracy of the SVM was 88.4% and the accuracy of the artificial neural network was 86.7%. Second, the accuracy of classification models using the selected input variables through stepwise method was slightly higher than that of classification models using the whole variables. Third, the precision of artificial neural network was higher than that of SVM when only three variables as input variables were selected by decision trees. As a result of classification models based on the input variables selected through the genetic algorithm, classification accuracy of SVM was 88.5% and that of artificial neural network was 87.9%. Finally, this study indicated that stacking as the meta learning algorithm proposed in this study, has the best performance when it uses the predicted outputs of SVM and MLP as input variables of SVM, which is a meta classifier. The purpose of this study was to predict hyperlipidemia, one of the representative chronic diseases. To do this, we used SVM and meta-learning algorithms, which is known to have high accuracy. As a result, the accuracy of classification of hyperlipidemia in the stacking as a meta learner wa
This study aims to develop a classification model for predicting the occurrence of hyperlipidemia, one of the chronic diseases. Prior studies applying data mining techniques for predicting disease can be classified into a model design study for predicting cardiovascular disease and a study comparing disease prediction research results. In the case of foreign literatures, studies predicting cardiovascular disease were predominant in predicting disease using data mining techniques. Although domestic studies were not much different from those of foreign countries, studies focusing on hypertension and diabetes were mainly conducted. Since hypertension and diabetes as well as chronic diseases, hyperlipidemia, are also of high importance, this study selected hyperlipidemia as the disease to be analyzed. We also developed a model for predicting hyperlipidemia using SVM and meta learning algorithms, which are already known to have excellent predictive power. In order to achieve the purpose of this study, we used data set from Korea Health Panel 2012. The Korean Health Panel produces basic data on the level of health expenditure, health level and health behavior, and has conducted an annual survey since 2008. In this study, 1,088 patients with hyperlipidemia were randomly selected from the hospitalized, outpatient, emergency, and chronic disease data of the Korean Health Panel in 2012, and 1,088 nonpatients were also randomly extracted. A total of 2,176 people were selected for the study. Three methods were used to select input variables for predicting hyperlipidemia. First, stepwise method was performed using logistic regression. Among the 17 variables, the categorical variables(except for length of smoking) are expressed as dummy variables, which are assumed to be separate variables on the basis of the reference group, and these variables were analyzed. Six variables (age, BMI, education level, marital status, smoking status, gender) excluding income level and smoking period were selected based on significance level 0.1. Second, C4.5 as a decision tree algorithm is used. The significant input variables were age, smoking status, and education level. Finally, C4.5 as a decision tree algorithm is used. In SVM, the input variables selected by genetic algorithms consisted of 6 variables such as age, marital status, education level, economic activity, smoking period, and physical activity status, and the input variables selected by genetic algorithms in artificial neural network consist of 3 variables such as age, marital status, and education level. Based on the selected parameters, we compared SVM, meta learning algorithm and other prediction models for hyperlipidemia patients, and compared the classification performances using TP rate and precision. The main results of the analysis are as follows. First, the accuracy of the SVM was 88.4% and the accuracy of the artificial neural network was 86.7%. Second, the accuracy of classification models using the selected input variables through stepwise method was slightly higher than that of classification models using the whole variables. Third, the precision of artificial neural network was higher than that of SVM when only three variables as input variables were selected by decision trees. As a result of classification models based on the input variables selected through the genetic algorithm, classification accuracy of SVM was 88.5% and that of artificial neural network was 87.9%. Finally, this study indicated that stacking as the meta learning algorithm proposed in this study, has the best performance when it uses the predicted outputs of SVM and MLP as input variables of SVM, which is a meta classifier. The purpose of this study was to predict hyperlipidemia, one of the representative chronic diseases. To do this, we used SVM and meta-learning algorithms, which is known to have high accuracy. As a result, the accuracy of classification of hyperlipidemia in the stacking as a meta learner wa
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
고혈압과 당뇨병뿐 아니라 만성질환 중 고지혈증 역시 중요성이 높기 때문에, 본 연구에서는 고지혈증을 분석대상 질환으로 선정하였다. 또한 이미 예측력이 우수하다고 알려진 SVM과 메타러닝 알고리즘을 이용하여 고지혈증 유병에 영향을 미치는 요인을 파악하고 예측하는 모형을 개발하고자 한다.
이에 본 연구에서는 한국의료패널에서 수집된 개인별 의료자료를 이용하여 만성질환 중의 하나인 고지혈증 유병을 예측하는 분류모형을 개발하고자 한다. 이를 위해 성과가 좋은 SVM과 meta-learning 알고리즘을 이용하여 성과를 비교하였다.
가설 설정
고지혈증 유무에 유의한 영향을 미치는 독립변수 중 설명력이 높은 변수를 순서대로 찾고자 단계적 회귀분석(stepwise regression analysis)을 시행하였다. 투입된 변수는 모두 17개이며(표 4참조) 이들 중 범주형 변수(length of smoking 제외)는 더미변수로 표현되는데, 이 더미변수는 참조그룹(reference group) 기준으로 그 이외의 범주를 각각 별개의 변수로 가정되며, 이 변수를 대상으로 분석하였다. 본 분석결과는 [Table 2]와 같으며 유의수준 0.
제안 방법
IHDPS는 데이터 이해, 전처리, 모델링 등 6단계로 구성되어 있는 CRISP-DM 방법론을 사용하였다. 13개 변수를 투입하여 5가지의 목표를 평가하였다. 심장질환으로 진단받을 것 같은 사람을 예측한 결과 나이브 베이즈가 95.
SVM의 커널함수는 radial basis function으로 하고, 각 파라미터는 조정하여 정확도가 가장 높게 나오는 값을 최종 모델로 사용하였다. 옵션 중 cost만 모델에 따라 정확도의 차이가 있어 가장 성과가 좋게 나오는 값(10.
(2008)은 고지혈증 진단에 도움을 주는 의사결정 지원시스템을 개발하였다. 고지혈증을 판단하는 기준인 총콜레스테롤, LDL, 트리글리세이드, HDL, VLDL 등의 지표를 사용하였고 신뢰도와 지지도로 결과를 평가하였다. 그 결과 오분류된 데이터가 없어 매우 높은 신뢰성을 보여주었다.
이 연구에서 연관성 분류기의 정확도를 향상시키기 위해 규칙 생성시 유용한 변수를 투입하였고, Z 통계량으로 가설을 검정하였다. 구체적으로 각 변수의 지니계수를 찾고, Z 통계량으로 규칙의 적합도를 평가하고, 규칙을 생성하였다. 판단노드에서 crossover를 수행한 후, 판단 노드의 값을 mutation하여 generation을 생성하고, 생성된 규칙을 기반으로 분류기를 만들고 예측하여 정확도를 평가하였다.
추출한 데이터는 결측값 및 이상치를 제외하는 전처리 과정을 거쳤다. 그리고 변수선정을 위해 세 가지 방법을 사용하였다. 먼저 단계적 회귀분석(stepwise regression)을 시행하였다.
본 연구에 사용된 독립변수는 총 17개로, 첫째, 사회경제적 수준을 반영하는 성별, 연령, 결혼상태, 교육수준, 장애유무, 경제활동 유무, 의료보장형태, 직종, 유형, 소득 5분위를 포함하였다. 둘째, 건강행태를 반영한 흡연유무, 흡연기간, 음주여부, 음주량, 운동유무, 운동량 등을 포함하였다.
배깅(bagging)을 이용하여 최종 예측모형을 산출하는 메타분류기는 단일모형 분류기에서 성과가 좋았던 SVM(6개 변수 투입)과 인공신경망(3 개 변수 투입)을 이용하였으며 두 분류기에 따른 정확도의 차이는 거의 없었다. 또한 잘못 분류된 개체들에 집중하여 새로운 분류규칙을 만들기 위한 부스팅(boosting) 역시, 배깅과 동일한 단일 모형 분류기를 사용하였다.
투입된 변수는 모두 17개이며(표 4참조) 이들 중 범주형 변수(length of smoking 제외)는 더미변수로 표현되는데, 이 더미변수는 참조그룹(reference group) 기준으로 그 이외의 범주를 각각 별개의 변수로 가정되며, 이 변수를 대상으로 분석하였다. 본 분석결과는 [Table 2]와 같으며 유의수준 0.1을 기준으로 하여 소득수준과 흡연기간 등을 제외한 6개(연령, BMI, 교육수준, 결혼유무, 흡연여부, 성별)의 변수가 선정되었다(Table 3, 4 참조).
본 연구는 대표적인 만성질환 중 하나인 고지혈증을 예측하고자 하였으며, 이를 위해 과적합의 문제가 적고 정확도가 높은 SVM과 meta-learning 알고리즘을 이용하였다. 그 결과 SVM과 MLP의 예측결과를 메타 분류기인 SVM의 입력변수로 사용하여 예측한 결과, 고지혈증 분류 정확도가 다른 meta-learning 알고리즘에 비해서 가장 높은 것으로 나타났다.
본 연구는 변수선정을 위한 세 번째 방법인 유전자 알고리즘을 이용하였는데 population의 크기는 10개로 하고, generation의 수는 최대 20개로 제한하였다. 그리고 crossover rate는 0.
본 연구에 사용된 독립변수는 총 17개로, 첫째, 사회경제적 수준을 반영하는 성별, 연령, 결혼상태, 교육수준, 장애유무, 경제활동 유무, 의료보장형태, 직종, 유형, 소득 5분위를 포함하였다. 둘째, 건강행태를 반영한 흡연유무, 흡연기간, 음주여부, 음주량, 운동유무, 운동량 등을 포함하였다.
본 연구에서는 고지혈증 예측을 위해 변수선택을 여러 가지 방법에 의해 시도하였다. 단계적 회귀분석에 의하면 연령, 교육수준, 성별, 결혼상태, 흡연유무, BMI가 중요한 변수로 선정되었다.
마지막으로 유전자 알고리즘을 사용하여 변수를 선정하였다. 선정된 변수를 기준으로 SVM, meta-learning 알고리즘 등을 이용한 고지혈증 환자 분류모형을 서로 비교하였고, 성과분류표와 ROC 지표 등을 사용하여 분류 예측성과를 비교하였다.
정확도 측면에서는 배깅과 비교하였을 때 동일하거나 약간 낮았지만, TP rate는 약간 높았다. 스태킹(stacking)에서는, 메타분류기로는 각각 SVM, Multilayer Perception을 사용하고 단일모형으로는 SVM과 MLP를 결합하여 분석하였다. MLP에서 은닉층 (hidden layer)은 각각 6, 3개로 하여 정확도의 차이를 보았다.
본 연구의 한계점은 다음과 같다. 우선, 다양한 변수선정 방법을 시도하였으나, 연구에 사용된 대부분의 변수는 범주형으로 더미변수 처리하였다. 이렇게 범주형 변수가 많은 경우에는 신경망 모형과 같은 일반적인 모형보다 의사결정트리와 같은 범주형 변수에 적합한 모형의 성과가 더 좋을 수 있기 때문에 연속형 변수를 사용하였을 경우 결과가 달라질 수 있을 것으로 판단된다.
이에 본 연구에서는 한국의료패널에서 수집된 개인별 의료자료를 이용하여 만성질환 중의 하나인 고지혈증 유병을 예측하는 분류모형을 개발하고자 한다. 이를 위해 성과가 좋은 SVM과 meta-learning 알고리즘을 이용하여 성과를 비교하였다. 또한 각 알고리즘에서 성과를 향상시키기 위해 변수선정 방법을 통해 유의한 변수만을 선정하여 투입하여 분석하였고 이 결과 역시 각각 성과를 비교하였다.
구체적으로 각 변수의 지니계수를 찾고, Z 통계량으로 규칙의 적합도를 평가하고, 규칙을 생성하였다. 판단노드에서 crossover를 수행한 후, 판단 노드의 값을 mutation하여 generation을 생성하고, 생성된 규칙을 기반으로 분류기를 만들고 예측하여 정확도를 평가하였다. SGI의 데이터 셋 6개, UCI의 데이터셋 2개 총 8개를 기준으로 제안된 방법의 정확도를 평가하였다.
한편, 본 연구는 변수선정을 위해 의사결정나무 분석을 시행하였으며, 범주형 변수는 더미변수로 사용되었다.
대상 데이터
국내 연구는 외국에 비하여 많지 않았지만 고혈압과 당뇨병을 중심으로 한 연구가 이루어졌다. 고혈압과 당뇨병뿐 아니라 만성질환 중 고지혈증 역시 중요성이 높기 때문에, 본 연구에서는 고지혈증을 분석대상 질환으로 선정하였다. 또한 이미 예측력이 우수하다고 알려진 SVM과 메타러닝 알고리즘을 이용하여 고지혈증 유병에 영향을 미치는 요인을 파악하고 예측하는 모형을 개발하고자 한다.
본 연구는 한국보건사회연구원과 국민건강보험공단이 공동으로 수행하는 한국의료패널자료를 활용하였다. 한국의료패널은 의료비 지출수준, 건강수준 및 건강행태 등에 관한 기초자료를 생산하는 것으로 2008년 이후 매년 조사를 수행하고 있다.
한국의료패널은 의료비 지출수준, 건강수준 및 건강행태 등에 관한 기초자료를 생산하는 것으로 2008년 이후 매년 조사를 수행하고 있다. 본 연구에서는 2012년 한국의료패널에서 가구원 기준으로 입원, 외래, 응급 이용 및 만성질환 자료 중 고지혈증이 있는 대상자 1,088명과 질환이 전혀 없는 사람을 무작위 할당방법으로 1,088명을 추출하였다. 이를 통해 총 2,176명을 연구대상으로 하였다.
본 연구에서는 2012년 한국의료패널에서 가구원 기준으로 입원, 외래, 응급 이용 및 만성질환 자료 중 고지혈증이 있는 대상자 1,088명과 질환이 전혀 없는 사람을 무작위 할당방법으로 1,088명을 추출하였다. 이를 통해 총 2,176명을 연구대상으로 하였다.
본 연구의 목적인 고지혈증 유병여부를 예측하기 위한 모형을 개발하기 위한 연구 절차는 다음의 [Figure 1]과 같다. 한국의료패널 2012년 자료를 이용하여 고지혈증이 있는 사람 1,088명, 정상인 1,088명을 추출하였다. 추출한 데이터는 결측값 및 이상치를 제외하는 전처리 과정을 거쳤다.
데이터처리
판단노드에서 crossover를 수행한 후, 판단 노드의 값을 mutation하여 generation을 생성하고, 생성된 규칙을 기반으로 분류기를 만들고 예측하여 정확도를 평가하였다. SGI의 데이터 셋 6개, UCI의 데이터셋 2개 총 8개를 기준으로 제안된 방법의 정확도를 평가하였다. 10 fold-cross validation을 수행하였고, 의료 데이터셋을 이용한 분류기 정확도는 c4.
고지혈증 유무에 유의한 영향을 미치는 독립변수 중 설명력이 높은 변수를 순서대로 찾고자 단계적 회귀분석(stepwise regression analysis)을 시행하였다. 투입된 변수는 모두 17개이며(표 4참조) 이들 중 범주형 변수(length of smoking 제외)는 더미변수로 표현되는데, 이 더미변수는 참조그룹(reference group) 기준으로 그 이외의 범주를 각각 별개의 변수로 가정되며, 이 변수를 대상으로 분석하였다.
먼저 단계적 회귀분석(stepwise regression)을 시행하였다. 단계적 회귀분석은 독립변수가 여러 개 일 때 종속변수를 가장 잘 설명해주는 변수를 순서대로 찾는 방법이며 SAS 9.3을 이용하여 실시하였다. 둘째, 의사결정나무 (Decision tree) 알고리즘을 사용하였다.
이를 위해 성과가 좋은 SVM과 meta-learning 알고리즘을 이용하여 성과를 비교하였다. 또한 각 알고리즘에서 성과를 향상시키기 위해 변수선정 방법을 통해 유의한 변수만을 선정하여 투입하여 분석하였고 이 결과 역시 각각 성과를 비교하였다.
그리고 변수선정을 위해 세 가지 방법을 사용하였다. 먼저 단계적 회귀분석(stepwise regression)을 시행하였다. 단계적 회귀분석은 독립변수가 여러 개 일 때 종속변수를 가장 잘 설명해주는 변수를 순서대로 찾는 방법이며 SAS 9.
변수선정 방법을 통해 선정한 변수를 SVM과 meta-learning 알고리즘에 각각 투입하여 분석하였고, 모든 분석시 10 folds cross-validation으로 하였다.
본 연구에 사용된 명목변수에 대해서는 카이제곱 검정을 실시하였고, 연속변수는 t검정을 실시하였다. 그 결과는 [Table 1]과 같다.
(2012)은 데이터 마이닝 기법을 이용하여 Andhra Pradesh의 심장병 예측을 위한 연관성 분류를 제안하였다. 이 연구에서 연관성 분류기의 정확도를 향상시키기 위해 규칙 생성시 유용한 변수를 투입하였고, Z 통계량으로 가설을 검정하였다. 구체적으로 각 변수의 지니계수를 찾고, Z 통계량으로 규칙의 적합도를 평가하고, 규칙을 생성하였다.
이론/모형
(2008)은 의사결정나무, 나이브 베이즈, 신경망을 이용하여 IHDPS(Intelligent Heart Disease Prediction System)의 표준을 개발하고자 하였다. IHDPS는 데이터 이해, 전처리, 모델링 등 6단계로 구성되어 있는 CRISP-DM 방법론을 사용하였다. 13개 변수를 투입하여 5가지의 목표를 평가하였다.
3을 이용하여 실시하였다. 둘째, 의사결정나무 (Decision tree) 알고리즘을 사용하였다. 의사결정나무 알고리즘은 분류를 위해서도 사용되지만 변수 선택을 위해서도 사용된다.
의사결정나무 알고리즘은 분류를 위해서도 사용되지만 변수 선택을 위해서도 사용된다. 마지막으로 유전자 알고리즘을 사용하여 변수를 선정하였다. 선정된 변수를 기준으로 SVM, meta-learning 알고리즘 등을 이용한 고지혈증 환자 분류모형을 서로 비교하였고, 성과분류표와 ROC 지표 등을 사용하여 분류 예측성과를 비교하였다.
(2012)은 생명을 위협하는 질환인 심혈관 질환, 폐암, 뇌졸중, 결핵, 당뇨병을 대상으로 연구한 결과를 기술하였다. 선행연구에서 질병을 예측하기 위해 의사결정 모델, 베이지안 분류기, 신경망, 유전자 알고리즘, Adaptive Neuro fuzzy interference system, Multivariate adaptive regression spline등의 기법을 이용하였다. 의료분야에서 데이터 마이닝을 적용한 많은 연구들이 있었다.
07로 정하였다. 유전자 알고리즘에서 분류기법은 SVM과 인공신경망을 사용하였다. SVM으로 찾은 결과, 입력변수는 연령, 결혼유무, 교육수준, 경제활동유무, 흡연기간, 신체활동 유무 등 6개, 인공신경망의 경우에는 연령, 결혼유무, 교육수준 등 총 3개였다(Table 3, 4 참조).
성능/효과
SGI의 데이터 셋 6개, UCI의 데이터셋 2개 총 8개를 기준으로 제안된 방법의 정확도를 평가하였다. 10 fold-cross validation을 수행하였고, 의료 데이터셋을 이용한 분류기 정확도는 c4.5, 나이브 베이즈, GNP, 신경망과 비교하여 제안한 방법의 평균정확도가 더 높았고, 비의료데이터셋의 정확도는 c4.5, 나이브 베이즈와 비슷하거나 높았다. Chitra & Seenivasagam (2013)은 심장마비 위험인자를 예측하고자 CNN(Cascaded Neural Network) 방법을 제안하였고 그 성과를 SVM과 비교하였다.
지식해석단계는 새로운 사례가 들어오면 검색, 재사용, 교정, 저장 등의 과정을 거친다. CDPD 모델의 추론 정확도, 일관성 등을 평가한 결과 retrieval 정확도는 0.924로 높은 유사성을 보였고 일관성은 100%를 보였다. 이러한 결과를 종합하여 CDPD는 만성 질환 진단에서 높은 수준의 신뢰도와 정확도를 가진다.
유전자 알고리즘에서 분류기법은 SVM과 인공신경망을 사용하였다. SVM으로 찾은 결과, 입력변수는 연령, 결혼유무, 교육수준, 경제활동유무, 흡연기간, 신체활동 유무 등 6개, 인공신경망의 경우에는 연령, 결혼유무, 교육수준 등 총 3개였다(Table 3, 4 참조).
SVM의 분류 결과, stepwise에 의해 선정된 변수 6개(연령, BMI, 교육수준, 결혼유무, 흡연여부, 성별)만 투입하였을 때 분류 성과가 가장 좋았다. 인공신경망의 경우, 의사결정나무에 의해 선정된 변수 3개(연령, 흡연여부, 교육수준)만 투입하였을 때 모형의 성과가 가장 좋았다.
7%로 SVM의 정확도가 좀 더 높았다. Stepwise를 통해 선정된 변수만을 투입하여 분류한 결과는 전체변수를 투입하였을 때보다 각각 정확도가 약간 높았다. 한편, 의사결정나무에 의해 선정된 변수 3개만을 투입하였을 때에는 인공신경망과 SVM의 정확도가 동일한 결과를 나타냈다.
본 연구는 대표적인 만성질환 중 하나인 고지혈증을 예측하고자 하였으며, 이를 위해 과적합의 문제가 적고 정확도가 높은 SVM과 meta-learning 알고리즘을 이용하였다. 그 결과 SVM과 MLP의 예측결과를 메타 분류기인 SVM의 입력변수로 사용하여 예측한 결과, 고지혈증 분류 정확도가 다른 meta-learning 알고리즘에 비해서 가장 높은 것으로 나타났다. 다만, 본 연구에서 제안하는 스태깅 방식의 meta-learning 알고리즘의 예측 성과는 단일모형 중 가장 성과가 좋은 SVM과 동일한 성과를 갖는 것으로 분석되었다.
MLP에서 은닉층 (hidden layer)은 각각 6, 3개로 하여 정확도의 차이를 보았다. 그 결과 SVM을 메타분류기로 하고 은닉층을 6개로 한 경우의 정확도가 metalearning 알고리즘 중에서는 가장 높게 나왔다.
(2011)은 심장질환을 예측하기 위하여 13개 변수를 투입하고 신경망을 이용하여 HDPS(Heart Disease Prediction System)를 개발하였다. 그 결과 분류 정확도는 80% 전후, 민감도와 특이도는 각각 85%, 70% 전후로 나왔다.
고지혈증을 판단하는 기준인 총콜레스테롤, LDL, 트리글리세이드, HDL, VLDL 등의 지표를 사용하였고 신뢰도와 지지도로 결과를 평가하였다. 그 결과 오분류된 데이터가 없어 매우 높은 신뢰성을 보여주었다. Jabbar et al.
그 결과 SVM과 MLP의 예측결과를 메타 분류기인 SVM의 입력변수로 사용하여 예측한 결과, 고지혈증 분류 정확도가 다른 meta-learning 알고리즘에 비해서 가장 높은 것으로 나타났다. 다만, 본 연구에서 제안하는 스태깅 방식의 meta-learning 알고리즘의 예측 성과는 단일모형 중 가장 성과가 좋은 SVM과 동일한 성과를 갖는 것으로 분석되었다.
본 연구에서는 고지혈증 예측을 위해 변수선택을 여러 가지 방법에 의해 시도하였다. 단계적 회귀분석에 의하면 연령, 교육수준, 성별, 결혼상태, 흡연유무, BMI가 중요한 변수로 선정되었다. 의사결정나무를 통한 변수 선정 시, 가장 중요한 변수는 연령이었다.
53%였다. 데이터의 크기를 줄이기 위해 유전자 알고리즘을 적용한 후 위의 알고리즘을 적용한 결과 정확도는 각각 96.5%, 99.2%, 88.3%로 향상되었다. Chen et al.
855)보다 낮았다. 또한 ROC 곡선을 비교한 결과 CNN이 SVM보다 더 높은 예측력을 보여주어 결과적으로 CNN이 심장질환 예측에 더 강한 도구라고 제안하였다. Huang et al.
그밖에, 본 연구에서는 한국의료패널을 사용하였는데, 의료패널은 설문조사로서, 기억의 오류, 정보의 누락이 있을 수 있어 청구자료에 비하여 정보의 정확도가 떨어진다. 또한 본 연구목적에 맞게 자료를 추출하다 보니 전체 자료 중 실제로 활용된 케이스는 약 1천 건으로 대표성이 부족할 수 있다. 따라서 보다 더 많은 표본을 확보하여 분석할 경우 성과가 향상될 것으로 기대된다.
한편, 의사결정나무에 의해 선정된 변수 3개만을 투입하였을 때에는 인공신경망과 SVM의 정확도가 동일한 결과를 나타냈다. 마지막으로, 유전자 알고리즘을 통해 선정된 변수를 투입하여 분류한 결과, SVM은 88.5%, 인공신경망은 87.9%의 정확도를 가졌다.
유전자 알고리즘에 의해 변수를 선정하고 분류한 결과가 다른 변수선정방법에 의해 선정된 변수를 투입한 분류기의 정확도보다 향상되지 않았다. 메타러닝의 이론에 따르면 성과가 우수한 분류기를 결합하면 성과가 향상되어야 하나 본 연구에서는 분류기를 결합한 메타러닝의 성과가 다른 모형에 비해 향상되지는 않는 것으로 나왔다. 이러한 이유에 대해 설명할 수 있는 이유로 첫째, 모형에 사용된 변수가 거의 비슷한 경우 성과에 있어서도 차이가 나지 않을 수 있다는 점과 둘째 메타러닝 에서 발생하는 과적합화의 문제 등을 꼽을 수 있다.
그 결과는 [Table 1]과 같다. 명목변수는 총 15개로 연구에 사용된 모든 변수가 종속 변수인 고지혈증 유병과는 유의한 차이가 있었다. 연속변수는 총 2개로서, 흡연기간만 10% 유의수준에서 고지혈증 유병과 유의한 차이가 있었고 음주기간은 유의한 차이가 없는 것으로 나타났다.
모든 변수를 투입하여 분류한 결과 SVM의 정확도는 88.4%, 인공신경망의 정확도는 86.7%로 SVM의 정확도가 좀 더 높았다. Stepwise를 통해 선정된 변수만을 투입하여 분류한 결과는 전체변수를 투입하였을 때보다 각각 정확도가 약간 높았다.
(2011)은 심혈관질환 예측을 위해 나이브 베이즈, 인공신경망, 의사결정나무 등 서로 다른 지도학습 데이터 마이닝 기법을 이용한 연구들을 비교하였다. 세 가지 방법 모두를 이용한 IHDPS에서 나이브 베이즈, 의사결정나무, 인공신경망의 정확도는 각각 86.53%, 89%, 85.53%였다. 데이터의 크기를 줄이기 위해 유전자 알고리즘을 적용한 후 위의 알고리즘을 적용한 결과 정확도는 각각 96.
김한결 외(2016)는 의사결정나무, 로지스틱 회귀분석, 인공신경망 알고리즘을 사용하여 대사증후군과 관련된 요인을 사회경제적 요인과 건강행위요인으로 선별하고 이를 토대로 대사증후군 유병여부를 예측하는 모형을 개발하였다. 속성선택의 순위 결과를 기반으로 분류기법을 적용한 결과, 의사결정나무 알고리즘이 로지스틱 회귀분석 및 인공신경망 알고리즘 보다는 예측정확도가 더 높았다.
13개 변수를 투입하여 5가지의 목표를 평가하였다. 심장질환으로 진단받을 것 같은 사람을 예측한 결과 나이브 베이즈가 95.1%로 가장 높은 성과를 보였고, 의사결정나무(94.93%), 신경망(93.54%)가 각각 뒤를 이었다. 심장질환을 예측하는데 주요한 변수를 찾는데는 의사결정나무보다 나이브 베이즈가 더 나은 결과를 보였다.
Chitra & Seenivasagam (2013)은 심장마비 위험인자를 예측하고자 CNN(Cascaded Neural Network) 방법을 제안하였고 그 성과를 SVM과 비교하였다. 연령, 성별, 흉통 등을 포함한 13개의 변수를 이용하여 분류한 결과 CNN의 정확도는 training data, testing data 각각 78.55%, 85%로 SVM의 정확도 75%, 82%보다 각각 높았다. 정확도 이외 민감도와 특이도도 비교하였는데 그 결과 특이도는 CNN(0.
명목변수는 총 15개로 연구에 사용된 모든 변수가 종속 변수인 고지혈증 유병과는 유의한 차이가 있었다. 연속변수는 총 2개로서, 흡연기간만 10% 유의수준에서 고지혈증 유병과 유의한 차이가 있었고 음주기간은 유의한 차이가 없는 것으로 나타났다.
변수를 3개만 투입하였을 때 인공신경망의 정확도가 크게 향상되었는데 유의한 차이가 있는지 판단하기는 어렵다. 유전자 알고리즘에 의해 변수를 선정하고 분류한 결과가 다른 변수선정방법에 의해 선정된 변수를 투입한 분류기의 정확도보다 향상되지 않았다. 메타러닝의 이론에 따르면 성과가 우수한 분류기를 결합하면 성과가 향상되어야 하나 본 연구에서는 분류기를 결합한 메타러닝의 성과가 다른 모형에 비해 향상되지는 않는 것으로 나왔다.
924로 높은 유사성을 보였고 일관성은 100%를 보였다. 이러한 결과를 종합하여 CDPD는 만성 질환 진단에서 높은 수준의 신뢰도와 정확도를 가진다.
55%, 85%로 SVM의 정확도 75%, 82%보다 각각 높았다. 정확도 이외 민감도와 특이도도 비교하였는데 그 결과 특이도는 CNN(0.87)이 SVM(0.775)보다 높은 반면 민감도는 CNN(0.83)이 SVM(0.855)보다 낮았다. 또한 ROC 곡선을 비교한 결과 CNN이 SVM보다 더 높은 예측력을 보여주어 결과적으로 CNN이 심장질환 예측에 더 강한 도구라고 제안하였다.
또한 잘못 분류된 개체들에 집중하여 새로운 분류규칙을 만들기 위한 부스팅(boosting) 역시, 배깅과 동일한 단일 모형 분류기를 사용하였다. 정확도 측면에서는 배깅과 비교하였을 때 동일하거나 약간 낮았지만, TP rate는 약간 높았다. 스태킹(stacking)에서는, 메타분류기로는 각각 SVM, Multilayer Perception을 사용하고 단일모형으로는 SVM과 MLP를 결합하여 분석하였다.
한편, SVM과 인공신경망 분류기를 사용한 단일 모델 성과를 평가 시, 모든 변수를 사용하였을 때 인공신경망보다 SVM의 정확도가 더 높았다. 이와 달리 변수선정방법에 의해 추출된 변수만을 투입하여 분류한 결과는 정확도에서 각각 차이가 있었다.
후속연구
또한 본 연구목적에 맞게 자료를 추출하다 보니 전체 자료 중 실제로 활용된 케이스는 약 1천 건으로 대표성이 부족할 수 있다. 따라서 보다 더 많은 표본을 확보하여 분석할 경우 성과가 향상될 것으로 기대된다. 또한 고지혈증의 예측을 위해서는 총콜레스테롤, LDL과 같은 임상지표가 포함되어야 하는데, 본 연구에서는 임상자료를 활용하지 못한 한계가 있다.
이러한 한계에도 불구하고 본 연구는 기존에 연구가 이루어지지 않은 고지혈증 유병을 예측했다는 점에서 의의를 가지며, 여러 변수선정 기법을 적용하여 모델 정확도를 향상시킨 결과가 의미를 갖는다고 할 수 있겠다. 또한 고지혈증 고위험군을 예측하여 맞춤 서비스를 제공함으로써 효과적인 고지혈증 관리 및 예방사업을 운영하는데 활용할 수 있을 것이다.
따라서 보다 더 많은 표본을 확보하여 분석할 경우 성과가 향상될 것으로 기대된다. 또한 고지혈증의 예측을 위해서는 총콜레스테롤, LDL과 같은 임상지표가 포함되어야 하는데, 본 연구에서는 임상자료를 활용하지 못한 한계가 있다.
그러나 의료분야의 정보가 갖는 부정확성, 개인정보보호 등의 특징들로 인해 적용에 제한이 있을 수 있다. 이러한 한계에도 불구하고 다양한 데이터 마이닝 기법을 적용하여 임상에서의 의사결정지원시스템을 도입 및 활용할 수 있을 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
심뇌혈관질환은 단일질환 암을 제외하고 사망원인 몇 위인가?
이러한 만성질환의 대표적인 질환은 고혈압, 당뇨병, 이상지질혈증 등으로 심뇌혈관질환의 선행질환이기도 하다. 심뇌혈관질환은 단일질환인 암을 제외 하고 사망원인 2, 3위를 차지하며, 특히 심장질환은 10년 전인 2004년에 비하여 42.8% 증가하였다.
만성질환 중의 하나인 고지혈증 유병을 예측하는 분류모형을 개발하기 위해 어떤 방법을 사용했는가?
본 연구목적을 달성하기 위해 한국의료패널 2012년 자료를 이용하였고, 변수 선정을 위해 세 가지 방법을 사용하였다. 먼저 단계적 회귀분석(stepwise regression)을 실시하였다. 둘째, 의사결정나무(decision tree) 알고리즘을 사용하였다. 마지막으로 유전자 알고리즘을 사용하여 변수를 선정하였다. 한편, 이렇게 선정된 변수를 기준으로 SVM, meta-learning 알고리즘 등을 이용하여 고지혈증 환자분류 예측모형을 비교하였고, TP rate, precision 등을 사용하여 분류 성과를 비교분석하였다.
암 유전자를 찾기 위해 어떤 연구를 하였는가?
의료분야에서 데이터 마이닝을 적용한 많은 연구들이 있었다. 구체적으로 암 유전자를 찾기 위해 유전자 알고리즘 이용, 간암 진단을 위해 CART와 CBR을 이용, 뇌혈관 질환 예측을 위해 의사결정나무, 베이지안, 신경망 이용, 뇌졸중 원인 파악을 위한 인공신경망 이용, 고혈압 혹은 고지혈증을 환자를 대상으로 복합질환예측을 위해 MARS(Multivariate Adaptive Regression Splines) 사용한 연구 등이 있었다. 결과적으로 의료분야에서 데이터 마이닝 기법을 적용하는 것은 위험수준을 확인하고 위험을 줄이기 위한 것이다.
참고문헌 (15)
Chitra, R., & Seenivasagam, V., "Heart disease prediction system using supervised learning classifier," Bonfring International Journal of Software Engineering and Soft Computing. Vol.3, No.1(2013), 1-7.
Dogan, S., Turkoglu, I., "Diagnosing hyperlipidemia using association rules," Mathematical and Computational Applicationas. Vol.13, No.3(2008), 193-202.
Huang, M. J., CHen, M. Y., Lee, S. C. "Integrating data mining with case-based reasoning for chronic diseases prognosis and diagnosis," Expert Systems with Application. Vol.32,(2007), 856-867.
Jabbar, M. A., Deekshatulu, B. L., & Chandra, P., "Heart disease prediction system using associative classification and genetic algorithm," arXiv preprint arXiv:1303.5919. (2013)
Jackson, N., "Developing the concept of metalearning," Innovations in Education and Teaching Internal. Vol.41, No.4(2004), 391-403.
Kim, M. J., "Ensemble Learning with Support Vector Machines for Bond Rating," Journal of Intelligence and Information Systems, Vol.18, No.2(2012), 29-45.
Min, S. H, "Bankruptcy prediction using an improved bagging ensemble," Journal of Intelligence and Information Systems, Vol.20, No.4(2014), 121-139.
OECD(2012). Health Care Quality Review: Korea. OECD.
Palaniappan, S., & Awang, R. "Intelligent Heart Disease Prediction system using data mining techniques," International Journal of Computer Science and Network Security. Vol. 8, No.8(2008), 343-350.
Santhanam, T., Padmavathi, M. S., "Application of K-means and Genetic Algorithms for dimension reduction by intergrating SVM for diabetes diagnosis," Procedia Computer Science, Vol.47, (2015), 76-83.
Shin, T. S., Hong, T. H., "Corporate Credit Rating based on Bankruptcy Probability Using AdaBoost Algorithm-based Support Vector Machine," Journal of Intelligence and Information Systems, Vol.17, No.3(2011), 25-41.
Soni, J., Ansari, U., Sharma, D., "Predictive data mining for medical diagnosis: An overview of heart disease prediction," International Journal of Computer Applications. Vol.17, No.8(2011), 43-48.
Sudha, A., Gayathri, P., Jaisankar, N., "Utilization of data mining approaches for prediction of life threatening diseases survivability," International Journal of Computer Applications. Vol.41, No.17(2012), 51-55.
Tan, P. N., Steinbach, M., & Kumar, V. , Introduction to data mining. Boston: Pearson Addison Wesley.(2005).
※ AI-Helper는 부적절한 답변을 할 수 있습니다.