머신러닝 기반 체지방 측정정보를 이용한 고콜레스테롤혈증 예측모델
Prediction model of hypercholesterolemia using body fat mass based on machine learning 원문보기

Journal of the convergence on culture technology : JCCT = 문화기술의 융합, v.5 no.4, 2019년, pp.413 - 420  

이범주 (한국한의학연구원)

AI-Helper 아이콘AI-Helper

본 연구의 목적은 기존의 body fat mass 변수와 고콜레스테롤혈증의 연관성연구를 벗어나, 머신러닝기법을 기반으로 body fat mass 변수들의 조합을 이용하여 고콜레스테롤혈증 예측 모델을 개발하는 것이다. 이러한 연구를 위하여 국민건강영양조사 데이터를 기반으로 두 가지 variable selection 메소드와 머신러닝 알고리즘을 이용하여 총 6개의 모델을 생성하였고 질병 예측력을 비교분석하였다. 여러 body fat mass 관련 변수들 중에서 몸통지방량 변수가 고콜레스테롤혈증 예측력이 가장 우수한 변수인 것을 밝혀내었고, 머신러닝 기반 예측모델들 중에서 correlation-based feature subset selection 기반 naive Bayes 알고리즘을 이용한 모델이 0.739의 the area under the receiver operating characteristic curve 값과 0.36의 Matthews correlation coefficient 값을 얻었다. 이러한 연구의 결과는 향후 국내외 대규모 스크리닝 및 대중보건 연구에서 질병예측분야의 중요정보로 활용될 것으로 예상한다.

Abstract AI-Helper 아이콘AI-Helper

The purpose of the present study is to develop a model for predicting hypercholesterolemia using an integrated set of body fat mass variables based on machine learning techniques, beyond the study of the association between body fat mass and hypercholesterolemia. For this study, a total of six model...


문제 정의

  • 아울러, 이러한 수많은 연구들에도 불구하고, 아직까지 머신러닝을 기반으로 고콜레스테롤혈증을 예측할 수 있는 모델에 대한 연구는 전 세계적으로 찾아보기 어렵다. 따라서, 본 논문에서는 기존의 체지방 변수와 콜레스테롤 수치와의 연관성에 대한 연구가 아니라, 체지방 변수들을 기반으로 머신러닝 기법을 이용하여 고콜레스테롤혈증 예측 모델을 개발하는 것을 목적으로 한다. 이러한 연구결과는 대중보건 및 대규모 건강 스크리닝 분야에서 다양한 질병 예측 분야에 공헌할 수 있으리라 예상한다.
  • 본 연구에서는 기존의 연구방법인 body fat mass 관련 변수들과 고콜레스테롤혈증과의 연관성 연구에서 벗어나, 머신러닝을 기반으로 통합된 변수들을 이용하여 보다 질병 식별력을 높이기 위한 모델을 개발하였다. 본 연구에서는 body fat mass 관련 변수들 중에서 몸통지방량이 고콜레스테롤혈증을 예측하는데 가장 식별력이 좋은 변수인 것을 밝혀내었고, 머신러닝 기반예측모델에서 CFS 기반 naive Bayes 모델을 이용하여 약 0.
  • 이러한 거의 모든 연구들은 각각의 변수들과 고콜레스테롤혈증의 연관성여부 및 변수 각각에 대한식별력 또는 예측력에 관한 연구로 한정되어져 있다. 본 연구에서는 이러한 각각의 변수에 대한 질병 식별력에 대한 연구가 아니라 이러한 변수들을 통합하고 머신러닝을 적용하여 보다 예측력을 높이려는 것에 초점을 두고 있다.

가설 설정

  • 본 연구의 제약사항은 다음과 같다. 첫째, 본 연구의 결과가 한국인 인구를 대표하기는 어렵다. 이러한 이유는 샘플에 있어서 class imbalance 문제와 매우 적은 질병군 샘플수의 부족으로 인하여 class별 약 1,000개씩의 샘플을 추출하였기 때문이다.
핵심어 질문 논문에서 추출한 답변
가족성 고콜레스테롤혈증은 어떠한 경향이 있는가? 고콜레스테롤혈증(hypercholesterolemia)은 죽상경화증의 발달에 매우 높은 영향을 미치는 질병으로써 심혈관 질환들에 대한 주요 요인으로 작용하고 있다 [1, 2]. 가족성 고콜레스테롤혈증 (familialhypercholesterolemia)은 약 250명 중 한 명 정도로 발생하며 유전적인 요인이 매우 높을 뿐만아니라, 이러한 환자들은 LDL 콜레스테롤이 상승하고 죽상 동맥경화성 심혈관 질환이 촉진되는 경향이 있다 [3].
어떤 연구들이 인공지능 연구까지 진행되게 하였는가? 최근 머신러닝 및 데이터마이닝은 의학/생물학분야에서 질병 예측 및 식별을 위한 연구에 널리 사용되고 있다[6-9, 18]. 예를 들어, 여러 머신러닝 기법을 기반으로 인체계측정보를 이용한 serum high-density (HDL) lipoprotein 콜레스테롤과 low-density lipoprotein(LDL) 콜레스테롤 예측 연구가 수행되어졌으며 [6], 고중성지방혈증 예측 모델에 관한 연구도 보고되었다[7]. 이러한 연구들은 최근 인공지능 (artificial intelligence)을 기반으로 한 질병 예측 및 식별 연구로 까지 진행되고 있다.
고콜레스테롤혈증은 무엇인가? 고콜레스테롤혈증(hypercholesterolemia)은 죽상경화증의 발달에 매우 높은 영향을 미치는 질병으로써 심혈관 질환들에 대한 주요 요인으로 작용하고 있다 [1, 2]. 가족성 고콜레스테롤혈증 (familialhypercholesterolemia)은 약 250명 중 한 명 정도로 발생하며 유전적인 요인이 매우 높을 뿐만아니라, 이러한 환자들은 LDL 콜레스테롤이 상승하고 죽상 동맥경화성 심혈관 질환이 촉진되는 경향이 있다 [3].
