[논문]SVM과 meta-learning algorithm을 이용한 고지혈증 유병 예측모형 개발과 활용

이슬기; 신택수

doi:10.13088/jiis.2018.24.2.111

문제 정의

고혈압과 당뇨병뿐 아니라 만성질환 중 고지혈증 역시 중요성이 높기 때문에, 본 연구에서는 고지혈증을 분석대상 질환으로 선정하였다. 또한 이미 예측력이 우수하다고 알려진 SVM과 메타러닝 알고리즘을 이용하여 고지혈증 유병에 영향을 미치는 요인을 파악하고 예측하는 모형을 개발하고자 한다.
이에 본 연구에서는 한국의료패널에서 수집된 개인별 의료자료를 이용하여 만성질환 중의 하나인 고지혈증 유병을 예측하는 분류모형을 개발하고자 한다. 이를 위해 성과가 좋은 SVM과 meta-learning 알고리즘을 이용하여 성과를 비교하였다.

가설 설정

고지혈증 유무에 유의한 영향을 미치는 독립변수 중 설명력이 높은 변수를 순서대로 찾고자 단계적 회귀분석(stepwise regression analysis)을 시행하였다. 투입된 변수는 모두 17개이며(표 4참조) 이들 중 범주형 변수(length of smoking 제외)는 더미변수로 표현되는데, 이 더미변수는 참조그룹(reference group) 기준으로 그 이외의 범주를 각각 별개의 변수로 가정되며, 이 변수를 대상으로 분석하였다. 본 분석결과는 [Table 2]와 같으며 유의수준 0.

제안 방법

IHDPS는 데이터 이해, 전처리, 모델링 등 6단계로 구성되어 있는 CRISP-DM 방법론을 사용하였다. 13개 변수를 투입하여 5가지의 목표를 평가하였다. 심장질환으로 진단받을 것 같은 사람을 예측한 결과 나이브 베이즈가 95.
SVM의 커널함수는 radial basis function으로 하고, 각 파라미터는 조정하여 정확도가 가장 높게 나오는 값을 최종 모델로 사용하였다. 옵션 중 cost만 모델에 따라 정확도의 차이가 있어 가장 성과가 좋게 나오는 값(10.
(2008)은 고지혈증 진단에 도움을 주는 의사결정 지원시스템을 개발하였다. 고지혈증을 판단하는 기준인 총콜레스테롤, LDL, 트리글리세이드, HDL, VLDL 등의 지표를 사용하였고 신뢰도와 지지도로 결과를 평가하였다. 그 결과 오분류된 데이터가 없어 매우 높은 신뢰성을 보여주었다.
이 연구에서 연관성 분류기의 정확도를 향상시키기 위해 규칙 생성시 유용한 변수를 투입하였고, Z 통계량으로 가설을 검정하였다. 구체적으로 각 변수의 지니계수를 찾고, Z 통계량으로 규칙의 적합도를 평가하고, 규칙을 생성하였다. 판단노드에서 crossover를 수행한 후, 판단 노드의 값을 mutation하여 generation을 생성하고, 생성된 규칙을 기반으로 분류기를 만들고 예측하여 정확도를 평가하였다.
추출한 데이터는 결측값 및 이상치를 제외하는 전처리 과정을 거쳤다. 그리고 변수선정을 위해 세 가지 방법을 사용하였다. 먼저 단계적 회귀분석(stepwise regression)을 시행하였다.
본 연구에 사용된 독립변수는 총 17개로, 첫째, 사회경제적 수준을 반영하는 성별, 연령, 결혼상태, 교육수준, 장애유무, 경제활동 유무, 의료보장형태, 직종, 유형, 소득 5분위를 포함하였다. 둘째, 건강행태를 반영한 흡연유무, 흡연기간, 음주여부, 음주량, 운동유무, 운동량 등을 포함하였다.
배깅(bagging)을 이용하여 최종 예측모형을 산출하는 메타분류기는 단일모형 분류기에서 성과가 좋았던 SVM(6개 변수 투입)과 인공신경망(3 개 변수 투입)을 이용하였으며 두 분류기에 따른 정확도의 차이는 거의 없었다. 또한 잘못 분류된 개체들에 집중하여 새로운 분류규칙을 만들기 위한 부스팅(boosting) 역시, 배깅과 동일한 단일 모형 분류기를 사용하였다.
투입된 변수는 모두 17개이며(표 4참조) 이들 중 범주형 변수(length of smoking 제외)는 더미변수로 표현되는데, 이 더미변수는 참조그룹(reference group) 기준으로 그 이외의 범주를 각각 별개의 변수로 가정되며, 이 변수를 대상으로 분석하였다. 본 분석결과는 [Table 2]와 같으며 유의수준 0.1을 기준으로 하여 소득수준과 흡연기간 등을 제외한 6개(연령, BMI, 교육수준, 결혼유무, 흡연여부, 성별)의 변수가 선정되었다(Table 3, 4 참조).
본 연구는 대표적인 만성질환 중 하나인 고지혈증을 예측하고자 하였으며, 이를 위해 과적합의 문제가 적고 정확도가 높은 SVM과 meta-learning 알고리즘을 이용하였다. 그 결과 SVM과 MLP의 예측결과를 메타 분류기인 SVM의 입력변수로 사용하여 예측한 결과, 고지혈증 분류 정확도가 다른 meta-learning 알고리즘에 비해서 가장 높은 것으로 나타났다.
본 연구는 변수선정을 위한 세 번째 방법인 유전자 알고리즘을 이용하였는데 population의 크기는 10개로 하고, generation의 수는 최대 20개로 제한하였다. 그리고 crossover rate는 0.
본 연구에 사용된 독립변수는 총 17개로, 첫째, 사회경제적 수준을 반영하는 성별, 연령, 결혼상태, 교육수준, 장애유무, 경제활동 유무, 의료보장형태, 직종, 유형, 소득 5분위를 포함하였다. 둘째, 건강행태를 반영한 흡연유무, 흡연기간, 음주여부, 음주량, 운동유무, 운동량 등을 포함하였다.
본 연구에서는 고지혈증 예측을 위해 변수선택을 여러 가지 방법에 의해 시도하였다. 단계적 회귀분석에 의하면 연령, 교육수준, 성별, 결혼상태, 흡연유무, BMI가 중요한 변수로 선정되었다.
마지막으로 유전자 알고리즘을 사용하여 변수를 선정하였다. 선정된 변수를 기준으로 SVM, meta-learning 알고리즘 등을 이용한 고지혈증 환자 분류모형을 서로 비교하였고, 성과분류표와 ROC 지표 등을 사용하여 분류 예측성과를 비교하였다.
정확도 측면에서는 배깅과 비교하였을 때 동일하거나 약간 낮았지만, TP rate는 약간 높았다. 스태킹(stacking)에서는, 메타분류기로는 각각 SVM, Multilayer Perception을 사용하고 단일모형으로는 SVM과 MLP를 결합하여 분석하였다. MLP에서 은닉층 (hidden layer)은 각각 6, 3개로 하여 정확도의 차이를 보았다.
본 연구의 한계점은 다음과 같다. 우선, 다양한 변수선정 방법을 시도하였으나, 연구에 사용된 대부분의 변수는 범주형으로 더미변수 처리하였다. 이렇게 범주형 변수가 많은 경우에는 신경망 모형과 같은 일반적인 모형보다 의사결정트리와 같은 범주형 변수에 적합한 모형의 성과가 더 좋을 수 있기 때문에 연속형 변수를 사용하였을 경우 결과가 달라질 수 있을 것으로 판단된다.
이에 본 연구에서는 한국의료패널에서 수집된 개인별 의료자료를 이용하여 만성질환 중의 하나인 고지혈증 유병을 예측하는 분류모형을 개발하고자 한다. 이를 위해 성과가 좋은 SVM과 meta-learning 알고리즘을 이용하여 성과를 비교하였다. 또한 각 알고리즘에서 성과를 향상시키기 위해 변수선정 방법을 통해 유의한 변수만을 선정하여 투입하여 분석하였고 이 결과 역시 각각 성과를 비교하였다.
구체적으로 각 변수의 지니계수를 찾고, Z 통계량으로 규칙의 적합도를 평가하고, 규칙을 생성하였다. 판단노드에서 crossover를 수행한 후, 판단 노드의 값을 mutation하여 generation을 생성하고, 생성된 규칙을 기반으로 분류기를 만들고 예측하여 정확도를 평가하였다. SGI의 데이터 셋 6개, UCI의 데이터셋 2개 총 8개를 기준으로 제안된 방법의 정확도를 평가하였다.
한편, 본 연구는 변수선정을 위해 의사결정나무 분석을 시행하였으며, 범주형 변수는 더미변수로 사용되었다.

대상 데이터

국내 연구는 외국에 비하여 많지 않았지만 고혈압과 당뇨병을 중심으로 한 연구가 이루어졌다. 고혈압과 당뇨병뿐 아니라 만성질환 중 고지혈증 역시 중요성이 높기 때문에, 본 연구에서는 고지혈증을 분석대상 질환으로 선정하였다. 또한 이미 예측력이 우수하다고 알려진 SVM과 메타러닝 알고리즘을 이용하여 고지혈증 유병에 영향을 미치는 요인을 파악하고 예측하는 모형을 개발하고자 한다.
본 연구는 한국보건사회연구원과 국민건강보험공단이 공동으로 수행하는 한국의료패널자료를 활용하였다. 한국의료패널은 의료비 지출수준, 건강수준 및 건강행태 등에 관한 기초자료를 생산하는 것으로 2008년 이후 매년 조사를 수행하고 있다.
한국의료패널은 의료비 지출수준, 건강수준 및 건강행태 등에 관한 기초자료를 생산하는 것으로 2008년 이후 매년 조사를 수행하고 있다. 본 연구에서는 2012년 한국의료패널에서 가구원 기준으로 입원, 외래, 응급 이용 및 만성질환 자료 중 고지혈증이 있는 대상자 1,088명과 질환이 전혀 없는 사람을 무작위 할당방법으로 1,088명을 추출하였다. 이를 통해 총 2,176명을 연구대상으로 하였다.
본 연구에서는 2012년 한국의료패널에서 가구원 기준으로 입원, 외래, 응급 이용 및 만성질환 자료 중 고지혈증이 있는 대상자 1,088명과 질환이 전혀 없는 사람을 무작위 할당방법으로 1,088명을 추출하였다. 이를 통해 총 2,176명을 연구대상으로 하였다.
본 연구의 목적인 고지혈증 유병여부를 예측하기 위한 모형을 개발하기 위한 연구 절차는 다음의 [Figure 1]과 같다. 한국의료패널 2012년 자료를 이용하여 고지혈증이 있는 사람 1,088명, 정상인 1,088명을 추출하였다. 추출한 데이터는 결측값 및 이상치를 제외하는 전처리 과정을 거쳤다.

데이터처리

판단노드에서 crossover를 수행한 후, 판단 노드의 값을 mutation하여 generation을 생성하고, 생성된 규칙을 기반으로 분류기를 만들고 예측하여 정확도를 평가하였다. SGI의 데이터 셋 6개, UCI의 데이터셋 2개 총 8개를 기준으로 제안된 방법의 정확도를 평가하였다. 10 fold-cross validation을 수행하였고, 의료 데이터셋을 이용한 분류기 정확도는 c4.
고지혈증 유무에 유의한 영향을 미치는 독립변수 중 설명력이 높은 변수를 순서대로 찾고자 단계적 회귀분석(stepwise regression analysis)을 시행하였다. 투입된 변수는 모두 17개이며(표 4참조) 이들 중 범주형 변수(length of smoking 제외)는 더미변수로 표현되는데, 이 더미변수는 참조그룹(reference group) 기준으로 그 이외의 범주를 각각 별개의 변수로 가정되며, 이 변수를 대상으로 분석하였다.
먼저 단계적 회귀분석(stepwise regression)을 시행하였다. 단계적 회귀분석은 독립변수가 여러 개 일 때 종속변수를 가장 잘 설명해주는 변수를 순서대로 찾는 방법이며 SAS 9.3을 이용하여 실시하였다. 둘째, 의사결정나무 (Decision tree) 알고리즘을 사용하였다.
이를 위해 성과가 좋은 SVM과 meta-learning 알고리즘을 이용하여 성과를 비교하였다. 또한 각 알고리즘에서 성과를 향상시키기 위해 변수선정 방법을 통해 유의한 변수만을 선정하여 투입하여 분석하였고 이 결과 역시 각각 성과를 비교하였다.
그리고 변수선정을 위해 세 가지 방법을 사용하였다. 먼저 단계적 회귀분석(stepwise regression)을 시행하였다. 단계적 회귀분석은 독립변수가 여러 개 일 때 종속변수를 가장 잘 설명해주는 변수를 순서대로 찾는 방법이며 SAS 9.
변수선정 방법을 통해 선정한 변수를 SVM과 meta-learning 알고리즘에 각각 투입하여 분석하였고, 모든 분석시 10 folds cross-validation으로 하였다.
본 연구에 사용된 명목변수에 대해서는 카이제곱 검정을 실시하였고, 연속변수는 t검정을 실시하였다. 그 결과는 [Table 1]과 같다.
(2012)은 데이터 마이닝 기법을 이용하여 Andhra Pradesh의 심장병 예측을 위한 연관성 분류를 제안하였다. 이 연구에서 연관성 분류기의 정확도를 향상시키기 위해 규칙 생성시 유용한 변수를 투입하였고, Z 통계량으로 가설을 검정하였다. 구체적으로 각 변수의 지니계수를 찾고, Z 통계량으로 규칙의 적합도를 평가하고, 규칙을 생성하였다.

이론/모형

(2008)은 의사결정나무, 나이브 베이즈, 신경망을 이용하여 IHDPS(Intelligent Heart Disease Prediction System)의 표준을 개발하고자 하였다. IHDPS는 데이터 이해, 전처리, 모델링 등 6단계로 구성되어 있는 CRISP-DM 방법론을 사용하였다. 13개 변수를 투입하여 5가지의 목표를 평가하였다.
3을 이용하여 실시하였다. 둘째, 의사결정나무 (Decision tree) 알고리즘을 사용하였다. 의사결정나무 알고리즘은 분류를 위해서도 사용되지만 변수 선택을 위해서도 사용된다.
의사결정나무 알고리즘은 분류를 위해서도 사용되지만 변수 선택을 위해서도 사용된다. 마지막으로 유전자 알고리즘을 사용하여 변수를 선정하였다. 선정된 변수를 기준으로 SVM, meta-learning 알고리즘 등을 이용한 고지혈증 환자 분류모형을 서로 비교하였고, 성과분류표와 ROC 지표 등을 사용하여 분류 예측성과를 비교하였다.
(2012)은 생명을 위협하는 질환인 심혈관 질환, 폐암, 뇌졸중, 결핵, 당뇨병을 대상으로 연구한 결과를 기술하였다. 선행연구에서 질병을 예측하기 위해 의사결정 모델, 베이지안 분류기, 신경망, 유전자 알고리즘, Adaptive Neuro fuzzy interference system, Multivariate adaptive regression spline등의 기법을 이용하였다. 의료분야에서 데이터 마이닝을 적용한 많은 연구들이 있었다.
07로 정하였다. 유전자 알고리즘에서 분류기법은 SVM과 인공신경망을 사용하였다. SVM으로 찾은 결과, 입력변수는 연령, 결혼유무, 교육수준, 경제활동유무, 흡연기간, 신체활동 유무 등 6개, 인공신경망의 경우에는 연령, 결혼유무, 교육수준 등 총 3개였다(Table 3, 4 참조).

성능/효과

SGI의 데이터 셋 6개, UCI의 데이터셋 2개 총 8개를 기준으로 제안된 방법의 정확도를 평가하였다. 10 fold-cross validation을 수행하였고, 의료 데이터셋을 이용한 분류기 정확도는 c4.5, 나이브 베이즈, GNP, 신경망과 비교하여 제안한 방법의 평균정확도가 더 높았고, 비의료데이터셋의 정확도는 c4.5, 나이브 베이즈와 비슷하거나 높았다. Chitra & Seenivasagam (2013)은 심장마비 위험인자를 예측하고자 CNN(Cascaded Neural Network) 방법을 제안하였고 그 성과를 SVM과 비교하였다.
지식해석단계는 새로운 사례가 들어오면 검색, 재사용, 교정, 저장 등의 과정을 거친다. CDPD 모델의 추론 정확도, 일관성 등을 평가한 결과 retrieval 정확도는 0.924로 높은 유사성을 보였고 일관성은 100%를 보였다. 이러한 결과를 종합하여 CDPD는 만성 질환 진단에서 높은 수준의 신뢰도와 정확도를 가진다.
유전자 알고리즘에서 분류기법은 SVM과 인공신경망을 사용하였다. SVM으로 찾은 결과, 입력변수는 연령, 결혼유무, 교육수준, 경제활동유무, 흡연기간, 신체활동 유무 등 6개, 인공신경망의 경우에는 연령, 결혼유무, 교육수준 등 총 3개였다(Table 3, 4 참조).
SVM의 분류 결과, stepwise에 의해 선정된 변수 6개(연령, BMI, 교육수준, 결혼유무, 흡연여부, 성별)만 투입하였을 때 분류 성과가 가장 좋았다. 인공신경망의 경우, 의사결정나무에 의해 선정된 변수 3개(연령, 흡연여부, 교육수준)만 투입하였을 때 모형의 성과가 가장 좋았다.
7%로 SVM의 정확도가 좀 더 높았다. Stepwise를 통해 선정된 변수만을 투입하여 분류한 결과는 전체변수를 투입하였을 때보다 각각 정확도가 약간 높았다. 한편, 의사결정나무에 의해 선정된 변수 3개만을 투입하였을 때에는 인공신경망과 SVM의 정확도가 동일한 결과를 나타냈다.
본 연구는 대표적인 만성질환 중 하나인 고지혈증을 예측하고자 하였으며, 이를 위해 과적합의 문제가 적고 정확도가 높은 SVM과 meta-learning 알고리즘을 이용하였다. 그 결과 SVM과 MLP의 예측결과를 메타 분류기인 SVM의 입력변수로 사용하여 예측한 결과, 고지혈증 분류 정확도가 다른 meta-learning 알고리즘에 비해서 가장 높은 것으로 나타났다. 다만, 본 연구에서 제안하는 스태깅 방식의 meta-learning 알고리즘의 예측 성과는 단일모형 중 가장 성과가 좋은 SVM과 동일한 성과를 갖는 것으로 분석되었다.
MLP에서 은닉층 (hidden layer)은 각각 6, 3개로 하여 정확도의 차이를 보았다. 그 결과 SVM을 메타분류기로 하고 은닉층을 6개로 한 경우의 정확도가 metalearning 알고리즘 중에서는 가장 높게 나왔다.
(2011)은 심장질환을 예측하기 위하여 13개 변수를 투입하고 신경망을 이용하여 HDPS(Heart Disease Prediction System)를 개발하였다. 그 결과 분류 정확도는 80% 전후, 민감도와 특이도는 각각 85%, 70% 전후로 나왔다.
고지혈증을 판단하는 기준인 총콜레스테롤, LDL, 트리글리세이드, HDL, VLDL 등의 지표를 사용하였고 신뢰도와 지지도로 결과를 평가하였다. 그 결과 오분류된 데이터가 없어 매우 높은 신뢰성을 보여주었다. Jabbar et al.
그 결과 SVM과 MLP의 예측결과를 메타 분류기인 SVM의 입력변수로 사용하여 예측한 결과, 고지혈증 분류 정확도가 다른 meta-learning 알고리즘에 비해서 가장 높은 것으로 나타났다. 다만, 본 연구에서 제안하는 스태깅 방식의 meta-learning 알고리즘의 예측 성과는 단일모형 중 가장 성과가 좋은 SVM과 동일한 성과를 갖는 것으로 분석되었다.
본 연구에서는 고지혈증 예측을 위해 변수선택을 여러 가지 방법에 의해 시도하였다. 단계적 회귀분석에 의하면 연령, 교육수준, 성별, 결혼상태, 흡연유무, BMI가 중요한 변수로 선정되었다. 의사결정나무를 통한 변수 선정 시, 가장 중요한 변수는 연령이었다.
53%였다. 데이터의 크기를 줄이기 위해 유전자 알고리즘을 적용한 후 위의 알고리즘을 적용한 결과 정확도는 각각 96.5%, 99.2%, 88.3%로 향상되었다. Chen et al.
855)보다 낮았다. 또한 ROC 곡선을 비교한 결과 CNN이 SVM보다 더 높은 예측력을 보여주어 결과적으로 CNN이 심장질환 예측에 더 강한 도구라고 제안하였다. Huang et al.
그밖에, 본 연구에서는 한국의료패널을 사용하였는데, 의료패널은 설문조사로서, 기억의 오류, 정보의 누락이 있을 수 있어 청구자료에 비하여 정보의 정확도가 떨어진다. 또한 본 연구목적에 맞게 자료를 추출하다 보니 전체 자료 중 실제로 활용된 케이스는 약 1천 건으로 대표성이 부족할 수 있다. 따라서 보다 더 많은 표본을 확보하여 분석할 경우 성과가 향상될 것으로 기대된다.
한편, 의사결정나무에 의해 선정된 변수 3개만을 투입하였을 때에는 인공신경망과 SVM의 정확도가 동일한 결과를 나타냈다. 마지막으로, 유전자 알고리즘을 통해 선정된 변수를 투입하여 분류한 결과, SVM은 88.5%, 인공신경망은 87.9%의 정확도를 가졌다.
유전자 알고리즘에 의해 변수를 선정하고 분류한 결과가 다른 변수선정방법에 의해 선정된 변수를 투입한 분류기의 정확도보다 향상되지 않았다. 메타러닝의 이론에 따르면 성과가 우수한 분류기를 결합하면 성과가 향상되어야 하나 본 연구에서는 분류기를 결합한 메타러닝의 성과가 다른 모형에 비해 향상되지는 않는 것으로 나왔다. 이러한 이유에 대해 설명할 수 있는 이유로 첫째, 모형에 사용된 변수가 거의 비슷한 경우 성과에 있어서도 차이가 나지 않을 수 있다는 점과 둘째 메타러닝 에서 발생하는 과적합화의 문제 등을 꼽을 수 있다.
그 결과는 [Table 1]과 같다. 명목변수는 총 15개로 연구에 사용된 모든 변수가 종속 변수인 고지혈증 유병과는 유의한 차이가 있었다. 연속변수는 총 2개로서, 흡연기간만 10% 유의수준에서 고지혈증 유병과 유의한 차이가 있었고 음주기간은 유의한 차이가 없는 것으로 나타났다.
모든 변수를 투입하여 분류한 결과 SVM의 정확도는 88.4%, 인공신경망의 정확도는 86.7%로 SVM의 정확도가 좀 더 높았다. Stepwise를 통해 선정된 변수만을 투입하여 분류한 결과는 전체변수를 투입하였을 때보다 각각 정확도가 약간 높았다.
(2011)은 심혈관질환 예측을 위해 나이브 베이즈, 인공신경망, 의사결정나무 등 서로 다른 지도학습 데이터 마이닝 기법을 이용한 연구들을 비교하였다. 세 가지 방법 모두를 이용한 IHDPS에서 나이브 베이즈, 의사결정나무, 인공신경망의 정확도는 각각 86.53%, 89%, 85.53%였다. 데이터의 크기를 줄이기 위해 유전자 알고리즘을 적용한 후 위의 알고리즘을 적용한 결과 정확도는 각각 96.
김한결 외(2016)는 의사결정나무, 로지스틱 회귀분석, 인공신경망 알고리즘을 사용하여 대사증후군과 관련된 요인을 사회경제적 요인과 건강행위요인으로 선별하고 이를 토대로 대사증후군 유병여부를 예측하는 모형을 개발하였다. 속성선택의 순위 결과를 기반으로 분류기법을 적용한 결과, 의사결정나무 알고리즘이 로지스틱 회귀분석 및 인공신경망 알고리즘 보다는 예측정확도가 더 높았다.
13개 변수를 투입하여 5가지의 목표를 평가하였다. 심장질환으로 진단받을 것 같은 사람을 예측한 결과 나이브 베이즈가 95.1%로 가장 높은 성과를 보였고, 의사결정나무(94.93%), 신경망(93.54%)가 각각 뒤를 이었다. 심장질환을 예측하는데 주요한 변수를 찾는데는 의사결정나무보다 나이브 베이즈가 더 나은 결과를 보였다.
Chitra & Seenivasagam (2013)은 심장마비 위험인자를 예측하고자 CNN(Cascaded Neural Network) 방법을 제안하였고 그 성과를 SVM과 비교하였다. 연령, 성별, 흉통 등을 포함한 13개의 변수를 이용하여 분류한 결과 CNN의 정확도는 training data, testing data 각각 78.55%, 85%로 SVM의 정확도 75%, 82%보다 각각 높았다. 정확도 이외 민감도와 특이도도 비교하였는데 그 결과 특이도는 CNN(0.
명목변수는 총 15개로 연구에 사용된 모든 변수가 종속 변수인 고지혈증 유병과는 유의한 차이가 있었다. 연속변수는 총 2개로서, 흡연기간만 10% 유의수준에서 고지혈증 유병과 유의한 차이가 있었고 음주기간은 유의한 차이가 없는 것으로 나타났다.
변수를 3개만 투입하였을 때 인공신경망의 정확도가 크게 향상되었는데 유의한 차이가 있는지 판단하기는 어렵다. 유전자 알고리즘에 의해 변수를 선정하고 분류한 결과가 다른 변수선정방법에 의해 선정된 변수를 투입한 분류기의 정확도보다 향상되지 않았다. 메타러닝의 이론에 따르면 성과가 우수한 분류기를 결합하면 성과가 향상되어야 하나 본 연구에서는 분류기를 결합한 메타러닝의 성과가 다른 모형에 비해 향상되지는 않는 것으로 나왔다.
924로 높은 유사성을 보였고 일관성은 100%를 보였다. 이러한 결과를 종합하여 CDPD는 만성 질환 진단에서 높은 수준의 신뢰도와 정확도를 가진다.
55%, 85%로 SVM의 정확도 75%, 82%보다 각각 높았다. 정확도 이외 민감도와 특이도도 비교하였는데 그 결과 특이도는 CNN(0.87)이 SVM(0.775)보다 높은 반면 민감도는 CNN(0.83)이 SVM(0.855)보다 낮았다. 또한 ROC 곡선을 비교한 결과 CNN이 SVM보다 더 높은 예측력을 보여주어 결과적으로 CNN이 심장질환 예측에 더 강한 도구라고 제안하였다.
또한 잘못 분류된 개체들에 집중하여 새로운 분류규칙을 만들기 위한 부스팅(boosting) 역시, 배깅과 동일한 단일 모형 분류기를 사용하였다. 정확도 측면에서는 배깅과 비교하였을 때 동일하거나 약간 낮았지만, TP rate는 약간 높았다. 스태킹(stacking)에서는, 메타분류기로는 각각 SVM, Multilayer Perception을 사용하고 단일모형으로는 SVM과 MLP를 결합하여 분석하였다.
한편, SVM과 인공신경망 분류기를 사용한 단일 모델 성과를 평가 시, 모든 변수를 사용하였을 때 인공신경망보다 SVM의 정확도가 더 높았다. 이와 달리 변수선정방법에 의해 추출된 변수만을 투입하여 분류한 결과는 정확도에서 각각 차이가 있었다.

후속연구

또한 본 연구목적에 맞게 자료를 추출하다 보니 전체 자료 중 실제로 활용된 케이스는 약 1천 건으로 대표성이 부족할 수 있다. 따라서 보다 더 많은 표본을 확보하여 분석할 경우 성과가 향상될 것으로 기대된다. 또한 고지혈증의 예측을 위해서는 총콜레스테롤, LDL과 같은 임상지표가 포함되어야 하는데, 본 연구에서는 임상자료를 활용하지 못한 한계가 있다.
이러한 한계에도 불구하고 본 연구는 기존에 연구가 이루어지지 않은 고지혈증 유병을 예측했다는 점에서 의의를 가지며, 여러 변수선정 기법을 적용하여 모델 정확도를 향상시킨 결과가 의미를 갖는다고 할 수 있겠다. 또한 고지혈증 고위험군을 예측하여 맞춤 서비스를 제공함으로써 효과적인 고지혈증 관리 및 예방사업을 운영하는데 활용할 수 있을 것이다.
따라서 보다 더 많은 표본을 확보하여 분석할 경우 성과가 향상될 것으로 기대된다. 또한 고지혈증의 예측을 위해서는 총콜레스테롤, LDL과 같은 임상지표가 포함되어야 하는데, 본 연구에서는 임상자료를 활용하지 못한 한계가 있다.
그러나 의료분야의 정보가 갖는 부정확성, 개인정보보호 등의 특징들로 인해 적용에 제한이 있을 수 있다. 이러한 한계에도 불구하고 다양한 데이터 마이닝 기법을 적용하여 임상에서의 의사결정지원시스템을 도입 및 활용할 수 있을 것이다.

핵심어	질문	논문에서 추출한 답변
	심뇌혈관질환은 단일질환 암을 제외하고 사망원인 몇 위인가?	이러한 만성질환의 대표적인 질환은 고혈압, 당뇨병, 이상지질혈증 등으로 심뇌혈관질환의 선행질환이기도 하다. 심뇌혈관질환은 단일질환인 암을 제외 하고 사망원인 2, 3위를 차지하며, 특히 심장질환은 10년 전인 2004년에 비하여 42.8% 증가하였다.
	만성질환 중의 하나인 고지혈증 유병을 예측하는 분류모형을 개발하기 위해 어떤 방법을 사용했는가?	본 연구목적을 달성하기 위해 한국의료패널 2012년 자료를 이용하였고, 변수 선정을 위해 세 가지 방법을 사용하였다. 먼저 단계적 회귀분석(stepwise regression)을 실시하였다. 둘째, 의사결정나무(decision tree) 알고리즘을 사용하였다. 마지막으로 유전자 알고리즘을 사용하여 변수를 선정하였다. 한편, 이렇게 선정된 변수를 기준으로 SVM, meta-learning 알고리즘 등을 이용하여 고지혈증 환자분류 예측모형을 비교하였고, TP rate, precision 등을 사용하여 분류 성과를 비교분석하였다.
	암 유전자를 찾기 위해 어떤 연구를 하였는가?	의료분야에서 데이터 마이닝을 적용한 많은 연구들이 있었다. 구체적으로 암 유전자를 찾기 위해 유전자 알고리즘 이용, 간암 진단을 위해 CART와 CBR을 이용, 뇌혈관 질환 예측을 위해 의사결정나무, 베이지안, 신경망 이용, 뇌졸중 원인 파악을 위한 인공신경망 이용, 고혈압 혹은 고지혈증을 환자를 대상으로 복합질환예측을 위해 MARS(Multivariate Adaptive Regression Splines) 사용한 연구 등이 있었다. 결과적으로 의료분야에서 데이터 마이닝 기법을 적용하는 것은 위험수준을 확인하고 위험을 줄이기 위한 것이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

SVM과 meta-learning algorithm을 이용한 고지혈증 유병 예측모형 개발과 활용
Development and application of prediction model of hyperlipidemia using SVM and meta-learning algorithm 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

SVM과 meta-learning algorithm을 이용한 고지혈증 유병 예측모형 개발과 활용 Development and application of prediction model of hyperlipidemia using SVM and meta-learning algorithm 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

신택수 (20)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

SVM과 meta-learning algorithm을 이용한 고지혈증 유병 예측모형 개발과 활용
Development and application of prediction model of hyperlipidemia using SVM and meta-learning algorithm 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper