머신러닝 기법을 활용한 합병증 예측모형에 관한 연구 : 국민건강데이터를 중심으로 A Analysis in Complication Prediction Using Machine Learning Prediction Algorithm : Focusing on National Health Data원문보기
기존의 다양한 질병예측에 관한 연구들은 설문지 및 코호트DB를 그대로 사용하여 다양한 합병증 위험도 예측을 그대로 반영하지 못했다는 한계를 가졌다. 합병증에 관한 다각적인 분석을 위해서는 상당한 노력과 전문성이 요구되기에 이러한 복잡한 분석과정을 자동으로 지원해줄 수 있는 다양한 방법들을 적용할 필요가 있다. 그래서 본 연구에서는 국민건강공공데이터들을 분석하여 당뇨합병증에 주요하게 영향을 미치는 요인이 무엇인지 그리고 당뇨합병증의 위험도를 예측하는 모델이 무엇인지를 확인하고자 하였다. 이에 대한 분석으로 ...
기존의 다양한 질병예측에 관한 연구들은 설문지 및 코호트DB를 그대로 사용하여 다양한 합병증 위험도 예측을 그대로 반영하지 못했다는 한계를 가졌다. 합병증에 관한 다각적인 분석을 위해서는 상당한 노력과 전문성이 요구되기에 이러한 복잡한 분석과정을 자동으로 지원해줄 수 있는 다양한 방법들을 적용할 필요가 있다. 그래서 본 연구에서는 국민건강공공데이터들을 분석하여 당뇨합병증에 주요하게 영향을 미치는 요인이 무엇인지 그리고 당뇨합병증의 위험도를 예측하는 모델이 무엇인지를 확인하고자 하였다. 이에 대한 분석으로 머신러닝 예측기법 중 의사결정나무, 랜덤포레스트, Gredient Boosting, Ada Boosting, 로지스틱 회귀분석을 활용하였다. 그 결과 가장 적합한 모형인 랜덤포레스트 예측모형을 통해 예측률을 확인하였고 당뇨합병증 위험도를 예측하는 당뇨합병증 위험도 예측 회귀식이 도출하였다.
주제어 : 당뇨합병증, 기계학습, 예측분석, 랜덤포레스트, 회귀모형
기존의 다양한 질병예측에 관한 연구들은 설문지 및 코호트DB를 그대로 사용하여 다양한 합병증 위험도 예측을 그대로 반영하지 못했다는 한계를 가졌다. 합병증에 관한 다각적인 분석을 위해서는 상당한 노력과 전문성이 요구되기에 이러한 복잡한 분석과정을 자동으로 지원해줄 수 있는 다양한 방법들을 적용할 필요가 있다. 그래서 본 연구에서는 국민건강공공데이터들을 분석하여 당뇨합병증에 주요하게 영향을 미치는 요인이 무엇인지 그리고 당뇨합병증의 위험도를 예측하는 모델이 무엇인지를 확인하고자 하였다. 이에 대한 분석으로 머신러닝 예측기법 중 의사결정나무, 랜덤포레스트, Gredient Boosting, Ada Boosting, 로지스틱 회귀분석을 활용하였다. 그 결과 가장 적합한 모형인 랜덤포레스트 예측모형을 통해 예측률을 확인하였고 당뇨합병증 위험도를 예측하는 당뇨합병증 위험도 예측 회귀식이 도출하였다.
Existing studies on disease prediction had limitations of using the questionnaire and cohort DB as they did not reflect various complication risk predictions. Multilateral analysis of complications requires considerable effort and expertise, and it is necessary to apply a variety of methods that can...
Existing studies on disease prediction had limitations of using the questionnaire and cohort DB as they did not reflect various complication risk predictions. Multilateral analysis of complications requires considerable effort and expertise, and it is necessary to apply a variety of methods that can automatically support this complex analysis process. In this study, we analyzed public health data to find out what factors affect diabetic complications and what models predict the risk of diabetic complications. Decision trees, random forests, Gredient Boosting, Ada Boosting, and logistic regression analysis were used in the machine learning prediction techniques. As a result, the prediction rate was confirmed through the random forest prediction model, which is the most suitable model, and the regression equation for diabetic complication risk predicting the risk of diabetic complication was derived.
Key words: Diabetes complications, Machine learning, Predictive analysis, Random forest, Regression model
Existing studies on disease prediction had limitations of using the questionnaire and cohort DB as they did not reflect various complication risk predictions. Multilateral analysis of complications requires considerable effort and expertise, and it is necessary to apply a variety of methods that can automatically support this complex analysis process. In this study, we analyzed public health data to find out what factors affect diabetic complications and what models predict the risk of diabetic complications. Decision trees, random forests, Gredient Boosting, Ada Boosting, and logistic regression analysis were used in the machine learning prediction techniques. As a result, the prediction rate was confirmed through the random forest prediction model, which is the most suitable model, and the regression equation for diabetic complication risk predicting the risk of diabetic complication was derived.
Key words: Diabetes complications, Machine learning, Predictive analysis, Random forest, Regression model
※ AI-Helper는 부적절한 답변을 할 수 있습니다.