제2형 당뇨병은 고혈당이 특징인 대사성 분비 장애로 여러 합병증을 야기하는 질병이며, 장기적인 치료가 필요하기 때문에 매년 많은 의료비를 지출한다. 이를 해결하기 위해 많은 연구들이 있어왔지만, 기존의 연구들은 한 시점에서의 데이터를 학습시켜 예측함으로써 정확도가 높지 않았다. 그래서 본 연구는 제2형 당뇨병 발생 예측에 대한 정확도를 높이기 위하여 RNN을 이용한 모델을 제안하였다. 본 모델을 개발하기 위해 한국인유전체역학조사 지역사회 코호트(안산 안성) 데이터를 이용하였으며, 시간의 흐름에 따른 데이터들을 모두 학습시켜 당뇨병 발생 예측모델을 만들었다. 예측 모델의 성능을 검증하기 위해 기존의 기계 학습 방법인 LR, k-NN, SVM과 정확도를 비교하였다. 비교한 결과 제안한 예측모델의 accuracy는 0.92, AUC는 0.92로 다른 기계 학습 방법보다 높은 정확도를 보였다. 따라서 본 연구에서 제안한 제2형 당뇨병 발생 예측 모델을 활용하여 발병을 조기 예측함으로써 생활습관 개선 및 혈당조절을 통해 당뇨병 발병을 예방하고 늦출 수 있을 것이다.
제2형 당뇨병은 고혈당이 특징인 대사성 분비 장애로 여러 합병증을 야기하는 질병이며, 장기적인 치료가 필요하기 때문에 매년 많은 의료비를 지출한다. 이를 해결하기 위해 많은 연구들이 있어왔지만, 기존의 연구들은 한 시점에서의 데이터를 학습시켜 예측함으로써 정확도가 높지 않았다. 그래서 본 연구는 제2형 당뇨병 발생 예측에 대한 정확도를 높이기 위하여 RNN을 이용한 모델을 제안하였다. 본 모델을 개발하기 위해 한국인유전체역학조사 지역사회 코호트(안산 안성) 데이터를 이용하였으며, 시간의 흐름에 따른 데이터들을 모두 학습시켜 당뇨병 발생 예측모델을 만들었다. 예측 모델의 성능을 검증하기 위해 기존의 기계 학습 방법인 LR, k-NN, SVM과 정확도를 비교하였다. 비교한 결과 제안한 예측모델의 accuracy는 0.92, AUC는 0.92로 다른 기계 학습 방법보다 높은 정확도를 보였다. 따라서 본 연구에서 제안한 제2형 당뇨병 발생 예측 모델을 활용하여 발병을 조기 예측함으로써 생활습관 개선 및 혈당조절을 통해 당뇨병 발병을 예방하고 늦출 수 있을 것이다.
Type 2 diabetes mellitus(T2DM) is included in metabolic disorders characterized by hyperglycemia, which causes many complications, and requires long-term treatment resulting in massive medical expenses each year. There have been many studies to solve this problem, but the existing studies have not b...
Type 2 diabetes mellitus(T2DM) is included in metabolic disorders characterized by hyperglycemia, which causes many complications, and requires long-term treatment resulting in massive medical expenses each year. There have been many studies to solve this problem, but the existing studies have not been accurate by learning and predicting the data at specific time point. Thus, this study proposed a model using RNN to increase the accuracy of prediction of T2DM. This work propose a T2DM prediction model based on Korean Genome and Epidemiology study(Ansan, Anseong Korea). We trained all of the data over time to create prediction model of diabetes. To verify the results of the prediction model, we compared the accuracy with the existing machine learning methods, LR, k-NN, and SVM. Proposed prediction model accuracy was 0.92 and the AUC was 0.92, which were higher than the other. Therefore predicting the onset of T2DM by using the proposed diabetes prediction model in this study, it could lead to healthier lifestyle and hyperglycemic control resulting in lower risk of diabetes by alerted diabetes occurrence.
Type 2 diabetes mellitus(T2DM) is included in metabolic disorders characterized by hyperglycemia, which causes many complications, and requires long-term treatment resulting in massive medical expenses each year. There have been many studies to solve this problem, but the existing studies have not been accurate by learning and predicting the data at specific time point. Thus, this study proposed a model using RNN to increase the accuracy of prediction of T2DM. This work propose a T2DM prediction model based on Korean Genome and Epidemiology study(Ansan, Anseong Korea). We trained all of the data over time to create prediction model of diabetes. To verify the results of the prediction model, we compared the accuracy with the existing machine learning methods, LR, k-NN, and SVM. Proposed prediction model accuracy was 0.92 and the AUC was 0.92, which were higher than the other. Therefore predicting the onset of T2DM by using the proposed diabetes prediction model in this study, it could lead to healthier lifestyle and hyperglycemic control resulting in lower risk of diabetes by alerted diabetes occurrence.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
LSTM은 RNN 네트워크의 한 종류이고, 1997년 Hochreiter, Sepp, and Jürgen Schmidhuber에 의해 제안되었다[17]. LSTM은 cell state와 게이트를 활용하여 기존의 전통적인 RNN 네트워크의 문제점인 데이터와 데이터 사이의 시간 간격이 멀 경우 학습능력이 크게 저하되는 것을 해결하기 위해 고안되었다. LSTM의 기본구조는 Fig.
구축한 모델을 평가하기 위해 대표적인 판단 기준인 accuracy와 AUC(Area under the curve)로 모델의 정확도를 보고자 했다. Base line 모델들은 데이터에서 시간적 동역학(temporal dynamics)을 모델링할 수 없으므로 각 ID 별로 한 시퀀스 전의 데이터를 바탕으로 다음 시퀀스에 발생하는지 예측하는 모델을 만들었다.
따라서 본 연구는 딥러닝 방법론 중 시계열 데이터를 바탕으로 미래를 예측하는 데 중점을 둔 RNN을 이용하여 일반인들의 당뇨병 발생을 예측할 수 있는 모델을 만들었다. 데이터는 국내 코호트 데이터인 한국인유전체역학조사(KoGES : Korean Genome and Epidemiology Study)의 지역사회 기반 코호트(안산, 안성) 자료원을 사용하였다.
본 연구는 지도 학습(Supervised Learning)의 형태를 취하기 때문에, 예측하고자 하는 결과를 바탕으로 모델이 만들어졌다. 따라서 제안한 모델은 동일한 데이터 형태를 대상으로 했을 경우에만 예측이 가능하다는 점과 당뇨병만을 예측하는 모델이라는 한계점이 있다.
본 연구에서는 T2DM 발생을 예측하기 위하여 LSTM 모델을 설계하였다. 모델 구축에 사용한 소프트웨어는 Python 3.
본 연구에서는 T2DM의 발생을 예측하기 위해 RNN을 이용한 질병발생 조기 예측 모델을 개발하였다. 모델은 KoGES 데이터 세트를 사용하여 다양한 입력 크기로 학습하고 테스트하였다.
제안 방법
2로 설정하였다. 1개의 완전 연결 레이어(fully connected layer)의 활성 함수(activation function)는 RELU를 이용하였다. 출력은 최종 예측된 당뇨 발생 환자를 출력하는 데 사용하였다.
구축한 모델을 평가하기 위해 대표적인 판단 기준인 accuracy와 AUC(Area under the curve)로 모델의 정확도를 보고자 했다. Base line 모델들은 데이터에서 시간적 동역학(temporal dynamics)을 모델링할 수 없으므로 각 ID 별로 한 시퀀스 전의 데이터를 바탕으로 다음 시퀀스에 발생하는지 예측하는 모델을 만들었다.
RNN을 이용한 당뇨병 예측 모델의 성능 평가는 기존의 기계 학습에서 널리 사용되고 있는 모델에 동일한 데이터 세트로 학습시키고 테스트하여 비교 분석하였다. 본 연구에서 비교대상 모델은 LR(Logistic Regression),k-NN(K-Nearest Neighbor), SVM(Support Vector Machine)이다.
왜냐하면, 공복혈당 측정이나 경구당부하검사를 위해서는 반드시 금식이 필요하지만, 데이터 전처리 과정 중 금식하지 않은 상태에서 검사를 받은 관찰 대상자가 많아 보였기 때문이다. 그러므로 본 연구에서는 최근 3개월간 헤모글로빈의 평균 혈당 상태를 반영하는 것으로 알려진 당화혈색소만을 변수로 채택하였다. 국내 연구를 살펴보면, 당뇨병 진단 기준으로서 당화혈색소 측정이 유용하다는 연구 결과가 있다[16].
또한 5 개의 LSTM 레이어의 출력공간(units)은 50,20, 20, 20, 20개로 설정하였으며, LSTM 레이어의 활성화 함수는 sigmoid를 사용했고, 각 레이어의 drop out은 0.2로 설정하였다. 1개의 완전 연결 레이어(fully connected layer)의 활성 함수(activation function)는 RELU를 이용하였다.
본 연구에서는 당뇨병 환자군과 대조군으로 데이터를 나누었다. 먼저 1차 조사 이전에 당뇨를 겪은 환자를 제외하고, 다음과 같은 기준으로 당뇨병 환자군과 대조군을 나누었다. 첫째, HbA1C ≥ 6.
본 연구에서는 T2DM의 발생을 예측하기 위해 RNN을 이용한 질병발생 조기 예측 모델을 개발하였다. 모델은 KoGES 데이터 세트를 사용하여 다양한 입력 크기로 학습하고 테스트하였다. 당뇨병 발생 예측 결과는 동일한 데이터 세트를 사용하는 다른 기계학습(LR, k-NN 및 SVM)과 정확도를 비교한 결과 RNN 모델이 다른 기계학습보다 더 높은 성능을 보였다.
모든 환자군과 대조군은 ID별로 조사한 시기에 따라 순서대로 데이터를 정렬하였다. 각 ID마다 시퀀스 별로 67개의 연속형 변수로 구성하였다.
본 연구는 자료원에서 연속형 변수만을 이용하였다. 연속형 변수는 혈당, 당화혈색소(HBA1C), 혈액요소질소(BUN), 간 수치(AST, ALT), 콜레스테롤, 인슐린 등 혈액 검사를 통해 분석한 수치와소변산도, 요비중(Urine-SG) 등 소변검사를 분석한 수치, 그리고 혈압, 키, 몸무게, BMI, 허리둘레 등 신체 계측치를 포함하여 총 67개 변수를 사용하였다.
본 연구에서는 당뇨병 환자군과 대조군으로 데이터를 나누었다. 먼저 1차 조사 이전에 당뇨를 겪은 환자를 제외하고, 다음과 같은 기준으로 당뇨병 환자군과 대조군을 나누었다.
본 연구는 자료원에서 연속형 변수만을 이용하였다. 연속형 변수는 혈당, 당화혈색소(HBA1C), 혈액요소질소(BUN), 간 수치(AST, ALT), 콜레스테롤, 인슐린 등 혈액 검사를 통해 분석한 수치와소변산도, 요비중(Urine-SG) 등 소변검사를 분석한 수치, 그리고 혈압, 키, 몸무게, BMI, 허리둘레 등 신체 계측치를 포함하여 총 67개 변수를 사용하였다.
또한 Choi, Edward, et al.의 연구를 살펴보면[15], RNN 기술 중 GRU(Gated Recurrent Unit)로 일반 환자의 임상 기록 중 시간 순서로 측정된 환자 데이터를 이용하여 예측 모델을 만들었다. Lipton et al.
저자들은 Children 's Intensive Care Unit(ICU) 데이터 세트에서 LSTM을 사용하여 13개의 병리적 테스트 결과를 사용하여 여러 가지 질병 발생(예 : 천식, 고혈압 및 빈혈)을 예측했다.
대상 데이터
자료원의 수집 기간은 2001년 ~ 2016년까지이고, 2년에 한 번씩 총 7번 추적 관찰한 자료이다. 대상 연령은 40대 이상의 성인남녀이고, 관찰대상 수는 10,038명이다.
따라서 본 연구는 딥러닝 방법론 중 시계열 데이터를 바탕으로 미래를 예측하는 데 중점을 둔 RNN을 이용하여 일반인들의 당뇨병 발생을 예측할 수 있는 모델을 만들었다. 데이터는 국내 코호트 데이터인 한국인유전체역학조사(KoGES : Korean Genome and Epidemiology Study)의 지역사회 기반 코호트(안산, 안성) 자료원을 사용하였다.
또한 본 연구의 구현 환경은 H/W는 AWS(Amazon Web Service) EC2의 GPU 기반 컴퓨팅의 장점을 활용하기 위해 구축된 g3.4xlarge 인스턴스를 사용하였고,S/W는 Pycharm을 사용하였다.
RNN을 이용한 당뇨병 예측 모델의 성능 평가는 기존의 기계 학습에서 널리 사용되고 있는 모델에 동일한 데이터 세트로 학습시키고 테스트하여 비교 분석하였다. 본 연구에서 비교대상 모델은 LR(Logistic Regression),k-NN(K-Nearest Neighbor), SVM(Support Vector Machine)이다.
본 연구에서 사용된 자료원은 질병관리본부에서 질병 연구 기반구축을 위해 대규모 추적 조사한 ‘한국인유전체역학조사(KoGES)’ 중 안성(농촌), 안산(도시) 지역사회 코호트 자료이다.
본 연구에서 사용된 자료원은 질병관리본부에서 질병 연구 기반구축을 위해 대규모 추적 조사한 ‘한국인유전체역학조사(KoGES)’ 중 안성(농촌), 안산(도시) 지역사회 코호트 자료이다. 자료원의 수집 기간은 2001년 ~ 2016년까지이고, 2년에 한 번씩 총 7번 추적 관찰한 자료이다. 대상 연령은 40대 이상의 성인남녀이고, 관찰대상 수는 10,038명이다.
이론/모형
[24]과 Polat et al. [25]은 인공 신경 퍼지 추론 시스템(ANFIS : Adaptive Neuro Fuzzy Inference System)을 사용했다. 그러나 기존의 기계학습을 이용한 당뇨병 예측모델 연구들은 질병의 발생을 예측하는 것이 아닌 정상인과 환자를 분류(classification)하는데 초점을 맞춘 연구이다.
나머지 10%는 테스트에 사용하였다. 모델은 0.001의 학습률을 가진 adam optimizer이며, 손실 함수(loss function)는 binary cross-entropy를 이용하였다.
성능/효과
본 연구의 한계점은 KoGES에서 조사된 자료원에는 당뇨 발생 환자의 데이터의 양이 적은 것이다. 그러나 적은 양의 데이터임에도 불구하고 다른 기계학습보다 높은 정확도를 보였다는 것은 질병을 예측하는 데 있어 기존의 기계학습 방법보다 RNN 방법이 미래를 예측하는 데 더 적합하다는 것을 의미한다.
모델은 KoGES 데이터 세트를 사용하여 다양한 입력 크기로 학습하고 테스트하였다. 당뇨병 발생 예측 결과는 동일한 데이터 세트를 사용하는 다른 기계학습(LR, k-NN 및 SVM)과 정확도를 비교한 결과 RNN 모델이 다른 기계학습보다 더 높은 성능을 보였다.
이와 같이 모델의 AUC는 RNN 방법을 사용한 모델이 다른 모델들에 비해 모든 분류의 임계값에서 가장 정확한 결과를 보였다. 따라서 모델의 accuracy와 AUC 결과를 살펴보면, RNN 모델이 다른 기계학습 모델에 비해 정확도 측면에서 모두 우수한 것으로 나타났다.
과 같다. 모델 간의 accuracy는 LR, k-NN, SVM, RNN이 각각 0.75, 0.81, 0.76, 0.92로 RNN 방법으로 구축한 모델의 accuracy가 가장 높았다.
92로 나타났다. 이와 같이 모델의 AUC는 RNN 방법을 사용한 모델이 다른 모델들에 비해 모든 분류의 임계값에서 가장 정확한 결과를 보였다. 따라서 모델의 accuracy와 AUC 결과를 살펴보면, RNN 모델이 다른 기계학습 모델에 비해 정확도 측면에서 모두 우수한 것으로 나타났다.
후속연구
본 연구는 지도 학습(Supervised Learning)의 형태를 취하기 때문에, 예측하고자 하는 결과를 바탕으로 모델이 만들어졌다. 따라서 제안한 모델은 동일한 데이터 형태를 대상으로 했을 경우에만 예측이 가능하다는 점과 당뇨병만을 예측하는 모델이라는 한계점이 있다.
본 연구의 한계점은 KoGES에서 조사된 자료원에는 당뇨 발생 환자의 데이터의 양이 적은 것이다. 그러나 적은 양의 데이터임에도 불구하고 다른 기계학습보다 높은 정확도를 보였다는 것은 질병을 예측하는 데 있어 기존의 기계학습 방법보다 RNN 방법이 미래를 예측하는 데 더 적합하다는 것을 의미한다.
앞으로는 T2DM 예측 모델로 T2DM의 발생을 예측함으로써 환자에게 질병발생 전 경각심을 느끼게 해줄 수 있을 뿐만 아니라 당뇨가 발생하기 전에 생활습관 개선 및 혈당조절을 통해 당뇨병 발병을 예방하고 늦출 수 있을 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
제2형 당뇨병은 무엇인가?
제2형 당뇨병은 고혈당이 특징인 대사성 분비 장애로 여러 합병증을 야기하는 질병이며, 장기적인 치료가 필요하기 때문에 매년 많은 의료비를 지출한다. 이를 해결하기 위해 많은 연구들이 있어왔지만, 기존의 연구들은 한 시점에서의 데이터를 학습시켜 예측함으로써 정확도가 높지 않았다.
T2DM에 대하여 질병 발생 예측 연구가 왜 효과적인가?
미국 당뇨병 협회(American Diabetes Association)에서 발표한 자료에 따르면, 당뇨병을 조기 진단받고 질병관리를 한다면 당뇨병과 관련된 합병증을 줄이는 데 효과적임을 알 수 있다[6]. 또한 당뇨병 환자의 조기 진단은 T2DM으로 인한 합병증을 예방하거나 지연시킬 수 있음이 밝혀졌고[7],최적화된 예측모형을 통해 T2DM을 조기 예측함으로써 생활습관 개선 및 혈당조절이 가능하며, 고위험군의 T2DM 발생률을 낮출 수 있다고 알려져 있다[8]. 이는 당뇨병의 조기발견 및 예측이 당뇨병 치료에 매우 효과적이라는 것을 보여준다.
당뇨병으로 인한 과혈당이 장기에 영향이 미칠 때 나타나는 증상은 무엇인가?
그리고 당뇨병은 눈, 신장 및 신경에 영향을 미치고, 심혈관 질환에 대한 위험 증가 등 여러 합병증을 야기하는 질병으로 알려져 있다[1]. 게다가 당뇨병으로 인한 과혈당이 오랜 기간 몸 속 장기에 영향을 미치게 되면 결국에는 의식 불명 상태, 혼수상태, 심지어 죽음을 초래한다. 당뇨병은 크게 제1형 당뇨병, 제2형 당뇨병, 임신 당뇨병으로 나뉜다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.