Hyunchul Choi
(Dept. of Health Services Management, Kyung Hee University)
,
Chiho Yoon
(Evaluation Institute of Regional Public Corporation)
,
Sae Bom Lee
(Software Convergence Education Institute, Sahmyook University)
본 연구는 고령층의 치매 예방을 위한 선별검사 수단으로 자동화된 기계학습(AutoML)을 활용하여 인지기능 장애 예측모형을 개발하였다. 연구 데이터는 한국지능정보사회진흥원의 '치매 고위험군 웨어러블 라이프로그 데이터'를 활용하였다. 분석은 구글 코랩 환경에서 PyCaret 3.0.0이 사용하여 우수한 분류성능을 보여주는 5개의 모형을 선정하고 앙상블 학습을 진행하여 모형을 통합한 뒤, 최종 성능평가를 진행하였다. 연구결과, VotingClassifier, Gradient Boosting Classifier, Extreme Gradient Boosting, Light Gradient Boosting Machine, Extra Trees Classifier, Random Forest Classifier 모형 순으로 높은 예측성능을 보이는 것으로 나타났다. 특히 '수면 중 분당 평균 호흡수'와 '수면 중 분당 평균 심박수'가 가장 중요한 특성변수(feature)로 확인되었다. 본 연구의 결과는 고령층의 인지기능 장애를 보다 효과적으로 관리하고 예방하기 위한 수단으로 기계학습과 라이프로그의 활용 가능성에 대한 고려를 시사한다.
본 연구는 고령층의 치매 예방을 위한 선별검사 수단으로 자동화된 기계학습(AutoML)을 활용하여 인지기능 장애 예측모형을 개발하였다. 연구 데이터는 한국지능정보사회진흥원의 '치매 고위험군 웨어러블 라이프로그 데이터'를 활용하였다. 분석은 구글 코랩 환경에서 PyCaret 3.0.0이 사용하여 우수한 분류성능을 보여주는 5개의 모형을 선정하고 앙상블 학습을 진행하여 모형을 통합한 뒤, 최종 성능평가를 진행하였다. 연구결과, Voting Classifier, Gradient Boosting Classifier, Extreme Gradient Boosting, Light Gradient Boosting Machine, Extra Trees Classifier, Random Forest Classifier 모형 순으로 높은 예측성능을 보이는 것으로 나타났다. 특히 '수면 중 분당 평균 호흡수'와 '수면 중 분당 평균 심박수'가 가장 중요한 특성변수(feature)로 확인되었다. 본 연구의 결과는 고령층의 인지기능 장애를 보다 효과적으로 관리하고 예방하기 위한 수단으로 기계학습과 라이프로그의 활용 가능성에 대한 고려를 시사한다.
This study developed a cognitive impairment predictive model as one of the screening tests for preventing dementia in the elderly by using Automated Machine Learning(AutoML). We used 'Wearable lifelog data for high-risk dementia patients' of National Information Society Agency, then conducted using ...
This study developed a cognitive impairment predictive model as one of the screening tests for preventing dementia in the elderly by using Automated Machine Learning(AutoML). We used 'Wearable lifelog data for high-risk dementia patients' of National Information Society Agency, then conducted using PyCaret 3.0.0 in the Google Colaboratory environment. This study analysis steps are as follows; first, selecting five models demonstrating excellent classification performance for the model development and lifelog data analysis. Next, using ensemble learning to integrate these models and assess their performance. It was found that Voting Classifier, Gradient Boosting Classifier, Extreme Gradient Boosting, Light Gradient Boosting Machine, Extra Trees Classifier, and Random Forest Classifier model showed high predictive performance in that order. This study findings, furthermore, emphasized on the the crucial importance of 'Average respiration per minute during sleep' and 'Average heart rate per minute during sleep' as the most critical feature variables for accurate predictions. Finally, these study results suggest that consideration of the possibility of using machine learning and lifelog as a means to more effectively manage and prevent cognitive impairment in the elderly.
This study developed a cognitive impairment predictive model as one of the screening tests for preventing dementia in the elderly by using Automated Machine Learning(AutoML). We used 'Wearable lifelog data for high-risk dementia patients' of National Information Society Agency, then conducted using PyCaret 3.0.0 in the Google Colaboratory environment. This study analysis steps are as follows; first, selecting five models demonstrating excellent classification performance for the model development and lifelog data analysis. Next, using ensemble learning to integrate these models and assess their performance. It was found that Voting Classifier, Gradient Boosting Classifier, Extreme Gradient Boosting, Light Gradient Boosting Machine, Extra Trees Classifier, and Random Forest Classifier model showed high predictive performance in that order. This study findings, furthermore, emphasized on the the crucial importance of 'Average respiration per minute during sleep' and 'Average heart rate per minute during sleep' as the most critical feature variables for accurate predictions. Finally, these study results suggest that consideration of the possibility of using machine learning and lifelog as a means to more effectively manage and prevent cognitive impairment in the elderly.
본 연구는 기존의 연구들과는 달리, 라이프로그 데이터에 AutoML을 적용하여 인지기능 장애 예측모형을 개발하였다. 분석 도구로 AutoML을 사용하여 다양한 기계학습 알고리즘을 학습용 데이터에 탐색적으로 적용하고 검증하면서 가장 우수한 기계학습 알고리즘을 효과적으로 선정할 수 있었다.
본 연구에서는 ‘치매 고위험군 웨어러블 라이프로그’ 데이터의 활동성과 수면 관련 특성을 활용하여 인지기능 장애를 예측하기 위해 AutoML을 사용하여 기계학습 모형을 개발하였다
본 연구에서는 라이프로그 데이터에 자동화된 기계학습(Automated Machine Learning, AutoML)을 적용하여, 인지기능 고위험군의 정밀검사(진단검사, 감별검사) 및 체계적인 관리가 필요한 인지기능 장애 고위험군을 발견하기 위한 예측모형을 개발하고자 하였다. 이를 위해, 임상적 소견을 기반으로 경도인지장애 및 치매를 진단받은 환자를 인지기능 장애군으로 재정의하고, 인지기능 정상군과 분류하는 모형을 개발하여 선별검사 단계 및 일상에서 손쉽게 활용할 수 있는 예측모형의 일반화 성능과 측정도구로서의 유용성을 확보하고자 하였다.
본 연구의 목적은 병리적 진단을 받은 연구대상자들의 일일 라이프로그 데이터를 활용하여 인지기능 장애를 분류하는 기계학습 기반의 이진 분류 모형개발이다. 의료분야와 이진 분류 문제를 다루는 기계학습 모형의 성능평가는 ROC(Receiver Operating Characteristic)곡선의 하단 면적에 해당하는 AUC(Area Under the Curve)와 정밀도(Precision)와 재현율(Recall)의 조화평균을 이용한 F1-Score가 사용된다.
이를 위해, 임상적 소견을 기반으로 경도인지장애 및 치매를 진단받은 환자를 인지기능 장애군으로 재정의하고, 인지기능 정상군과 분류하는 모형을 개발하여 선별검사 단계 및 일상에서 손쉽게 활용할 수 있는 예측모형의 일반화 성능과 측정도구로서의 유용성을 확보하고자 하였다. 이로써 노인복지 수요가 급증하는 상황 속에서 사회경제적 비용을 절감하고 치매 예방에 기여할 수 있는 기계학습 예측모형을 실증적으로 검증하는 것이 본 연구의 목적과 의의이다.
제안 방법
기계학습 모형을 활용하여 인지기능 장애를 예측하는 과정에서 47개의 특성변수 중에서 상대적인 중요도가 높은 10개의 특성변수를 확인하기 위해 예측성능이 우수했던 GBC 모형을 활용하여 특성 중요도(Feature Importance)를 확인했다.
본 연구의 절차는 크게 데이터 준비와 기계학습 모형개발, 성능 평가단계로 구성된다. 데이터 준비단계에서는 탐색적 데이터 분석에 따른 데이터 전처리, 인코딩(Encoding) 및 스케일링(Scaling) 작업을 진행한 후, 기계 학습을 진행하기 위해 7:3의 비율로 학습용과 평가용 데이터를 분리하였다. 모형개발 단계는 학습용 데이터를 기반으로 기계학습을 진행하였으며, 10-폴드 교차검증을 통해 높은 성능을 보여주는 모형 5개를 선정한 뒤, 하이퍼파라미터 튜닝을 진행하였다.
본 연구에서는 ‘치매 고위험군 웨어러블 라이프로그’ 데이터의 활동성과 수면 관련 특성을 활용하여 인지기능 장애를 예측하기 위해 AutoML을 사용하여 기계학습 모형을 개발하였다. 먼저 가장 우수한 분류성능을 보여주었던 5개의 모형을 선정하고 최적화한 뒤, 앙상블 학습을 통해 통합모형을 생성하여 예측성능을 평가하였다. 마지막으로 특성변수의 중요도를 확인함으로써, 실무적인 시사점을 제공하고자 하였다.
데이터 준비단계에서는 탐색적 데이터 분석에 따른 데이터 전처리, 인코딩(Encoding) 및 스케일링(Scaling) 작업을 진행한 후, 기계 학습을 진행하기 위해 7:3의 비율로 학습용과 평가용 데이터를 분리하였다. 모형개발 단계는 학습용 데이터를 기반으로 기계학습을 진행하였으며, 10-폴드 교차검증을 통해 높은 성능을 보여주는 모형 5개를 선정한 뒤, 하이퍼파라미터 튜닝을 진행하였다. 다음으로 앙상블 학습을 통해 통합모형을 생성하였다.
본 연구에 사용된 데이터는 174명의 대상자로부터 얻은 12,183건의 일일 라이프로그 정보로, 활동성 변수 22개와 수면변수 25개를 기계학습을 위한 특성변수(feature)로 사용하였다. 목표변수(target)인 진단 라벨링은 연구의 목적에 따라, 인지기능 정상군(CN)과 인지기능 장애군(MCI, Dementia)으로 재정의하였다.
본 연구에서는 검증용 데이터셋에 대한 과적합 위험이 있는 블렌딩을 제외하고 스태킹과 소프트보팅을 통한 앙상블 학습을 진행하였다.
본 연구의 절차는 크게 데이터 준비와 기계학습 모형개발, 성능 평가단계로 구성된다. 데이터 준비단계에서는 탐색적 데이터 분석에 따른 데이터 전처리, 인코딩(Encoding) 및 스케일링(Scaling) 작업을 진행한 후, 기계 학습을 진행하기 위해 7:3의 비율로 학습용과 평가용 데이터를 분리하였다.
앞서 선정된 5개의 기본 기계학습 분류모형을 활용하여 앙상블 학습을 진행, Stacking Classifier와 Voting Classifier를 생성하였다. 이렇게 구축된 7개의 모형(기본 모형 5개, 앙상블 모형 2개)을 사용하여 평가용 데이터 3,655건에 대해 예측을 수행하였고, 성능평가는 AUC와 F1-Score를 중심으로 진행하였다.
앞서 선정된 5개의 기본 기계학습 분류모형을 활용하여 앙상블 학습을 진행, Stacking Classifier와 Voting Classifier를 생성하였다. 이렇게 구축된 7개의 모형(기본 모형 5개, 앙상블 모형 2개)을 사용하여 평가용 데이터 3,655건에 대해 예측을 수행하였고, 성능평가는 AUC와 F1-Score를 중심으로 진행하였다.
본 연구에서는 라이프로그 데이터에 자동화된 기계학습(Automated Machine Learning, AutoML)을 적용하여, 인지기능 고위험군의 정밀검사(진단검사, 감별검사) 및 체계적인 관리가 필요한 인지기능 장애 고위험군을 발견하기 위한 예측모형을 개발하고자 하였다. 이를 위해, 임상적 소견을 기반으로 경도인지장애 및 치매를 진단받은 환자를 인지기능 장애군으로 재정의하고, 인지기능 정상군과 분류하는 모형을 개발하여 선별검사 단계 및 일상에서 손쉽게 활용할 수 있는 예측모형의 일반화 성능과 측정도구로서의 유용성을 확보하고자 하였다. 이로써 노인복지 수요가 급증하는 상황 속에서 사회경제적 비용을 절감하고 치매 예방에 기여할 수 있는 기계학습 예측모형을 실증적으로 검증하는 것이 본 연구의 목적과 의의이다.
의료분야와 이진 분류 문제를 다루는 기계학습 모형의 성능평가는 ROC(Receiver Operating Characteristic)곡선의 하단 면적에 해당하는 AUC(Area Under the Curve)와 정밀도(Precision)와 재현율(Recall)의 조화평균을 이용한 F1-Score가 사용된다. 전반적인 연구결과를 제시하는 Table에는 정확도(Accuracy)와 AUC, F1-Score를 표기하고, 결과 기술에서는 본 연구의 목적에 부합하는 평가지표인 AUC와 F1-Score를 중점적으로 기술한다.
본 연구가 제시하는 시사점을 요약하면 다음과 같다. 첫째, 구조화된 측정도구와 의료영상(MRI, PET) 데이터 대신 라이프로그 데이터를 활용하여 의미 있는 결과를 도출하였다. 이러한 관점은 기존 연구와는 차별화되며, 라이프로그 데이터의 활용 가능성을 제안한다.
본 연구에서 사용한 12,183건의 일일 라이프로그 데이터는 인지기능 정상군이 7,737건, 인지기능 장애군이 4,446건이었으며, 결측치는 존재하지 않았다. 특성변수의 형태(Type)를 확인한 결과, 모두 수치형 데이터로 구성되어있어 별도의 인코딩은 적용하지 않았고 대신 스케일링으로 Z-score 정규화(Normalize)를 진행하였다.
대상 데이터
이는 전문의의 병리적 진단을 통해 정상인지군(Cognitive Normal, CN), 경도인지장애군(Mild Cognitive Impairment, MCI), 그리고 치매(Dementia)를 판정받은 55세 이상의 300명을 대상으로 2020년 10월부터 12월까지 12주 동안 웨어러블 기기를 통해 수집된 일일 라이프로그 데이터이다. 데이터 1건은 연구대상자 1인의 하루 라이프로그 정보이며, 수집 과정에서 개인정보 비식별 처리를 거친 상태로 공개된 원천데이터는 나이, 성별, 학업, 소득, 거주지 등은 제외되어 일반 사용이 허용된 데이터이다. 데이터셋의 구성은 활동성, 수면, 병리진단 라벨링 값과 MMSE-K 조사 결과로 구성된다.
데이터셋의 구성은 활동성, 수면, 병리진단 라벨링 값과 MMSE-K 조사 결과로 구성된다. 본 연구에 사용된 데이터는 174명의 대상자로부터 얻은 12,183건의 일일 라이프로그 정보로, 활동성 변수 22개와 수면변수 25개를 기계학습을 위한 특성변수(feature)로 사용하였다. 목표변수(target)인 진단 라벨링은 연구의 목적에 따라, 인지기능 정상군(CN)과 인지기능 장애군(MCI, Dementia)으로 재정의하였다.
라이프로그 데이터의 특성을 파악하기 위해 탐색적 데이터 분석(Exploratory Data Analysis, EDA)을 수행하였다. 본 연구에서 사용한 12,183건의 일일 라이프로그 데이터는 인지기능 정상군이 7,737건, 인지기능 장애군이 4,446건이었으며, 결측치는 존재하지 않았다. 특성변수의 형태(Type)를 확인한 결과, 모두 수치형 데이터로 구성되어있어 별도의 인코딩은 적용하지 않았고 대신 스케일링으로 Z-score 정규화(Normalize)를 진행하였다.
본 연구에서 활용한 데이터는 한국지능정보사회진흥원 AI-Hub(https://aihub.or.kr/)에서 제공하는 ‘치매 고위험군 웨어러블 라이프로그’ 데이터이다
kr/)에서 제공하는 ‘치매 고위험군 웨어러블 라이프로그’ 데이터이다. 이는 전문의의 병리적 진단을 통해 정상인지군(Cognitive Normal, CN), 경도인지장애군(Mild Cognitive Impairment, MCI), 그리고 치매(Dementia)를 판정받은 55세 이상의 300명을 대상으로 2020년 10월부터 12월까지 12주 동안 웨어러블 기기를 통해 수집된 일일 라이프로그 데이터이다. 데이터 1건은 연구대상자 1인의 하루 라이프로그 정보이며, 수집 과정에서 개인정보 비식별 처리를 거친 상태로 공개된 원천데이터는 나이, 성별, 학업, 소득, 거주지 등은 제외되어 일반 사용이 허용된 데이터이다.
데이터처리
PyCaret 3.0.0에서 지원하는 Scikit-learn을 활용하여 학습용 데이터 8,528건에 대한 기계학습을 진행하고 10-폴드로 교차 검증하였다.
라이프로그 데이터의 특성을 파악하기 위해 탐색적 데이터 분석(Exploratory Data Analysis, EDA)을 수행하였다. 본 연구에서 사용한 12,183건의 일일 라이프로그 데이터는 인지기능 정상군이 7,737건, 인지기능 장애군이 4,446건이었으며, 결측치는 존재하지 않았다.
다음으로 앙상블 학습을 통해 통합모형을 생성하였다. 마지막으로, 성능 평가단계에서는 최종 개발된 기계학습 모형을 활용하여 평가용 데이터를 예측하고 각 모형의 성능을 비교하였다.
선정된 5개의 분류모형의 성능 최적화를 위해 PyCaret 3.0.0의 Random Grid Search 방법으로 하이퍼파라미터 튜닝을 진행하였다. 하이퍼파라미터 튜닝 모형의 선정 여부를 결정하는 성능평가지표는 AUC, 검증 방법으로는 10-폴드 교차검증을 사용하였다.
0의 Random Grid Search 방법으로 하이퍼파라미터 튜닝을 진행하였다. 하이퍼파라미터 튜닝 모형의 선정 여부를 결정하는 성능평가지표는 AUC, 검증 방법으로는 10-폴드 교차검증을 사용하였다. 초기모형과 하이퍼파라미터 튜닝을 진행한 모형의 AUC를 비교한 결과, XGB(AUC = 0.
이론/모형
기계학습 모형 개발과 성능평가를 위해 구글 코랩(Google Colaboratory) 개발환경에서 Python 오픈소스 라이브러리인 PyCaret 3.0.0버전을 사용하였다.
본 연구의 목적은 병리적 진단을 받은 연구대상자들의 일일 라이프로그 데이터를 활용하여 인지기능 장애를 분류하는 기계학습 기반의 이진 분류 모형개발이다. 의료분야와 이진 분류 문제를 다루는 기계학습 모형의 성능평가는 ROC(Receiver Operating Characteristic)곡선의 하단 면적에 해당하는 AUC(Area Under the Curve)와 정밀도(Precision)와 재현율(Recall)의 조화평균을 이용한 F1-Score가 사용된다. 전반적인 연구결과를 제시하는 Table에는 정확도(Accuracy)와 AUC, F1-Score를 표기하고, 결과 기술에서는 본 연구의 목적에 부합하는 평가지표인 AUC와 F1-Score를 중점적으로 기술한다.
성능/효과
AutoML을 통해 최초에 우수한 분류모형 5개를 확인한 결과, Extreme Gradient Boosting(XGB), Light Gradient Boosting Machine(LGBM), Random Forest Classifier(RF), Extra Trees Classifier(ET) 및 Gradient Boosting Classifier(GBC)가 선정되었다. 학습용 데이터를 10-폴드 교차 검증한 결과, GBC(AUC = 0.
결과적으로, 본 연구에서 최종 선정된 5개의 기본 기계 학습 분류모형은 하이퍼파라미터 튜닝을 진행한 XGB, GBC 그리고 초기모형을 유지한 LGBM, RF, ET이다.
분석 도구로 AutoML을 사용하여 다양한 기계학습 알고리즘을 학습용 데이터에 탐색적으로 적용하고 검증하면서 가장 우수한 기계학습 알고리즘을 효과적으로 선정할 수 있었다. 나아가, 앙상블 학습을 통해 기계학습 모형을 통합하였으며 그 결과, Voting Classifier가 가장 우수한 예측성능(AUC=0.9193, F1=0.7833)을 보여, 상당한 성능 향상을 달성했다고 볼 수 있다. 이는 임상에서 유용한 선별도구로 판단하는 기준치(AUC=0.
이러한 관점은 기존 연구와는 차별화되며, 라이프로그 데이터의 활용 가능성을 제안한다. 둘째, 분석 도구로 AutoML을 활용함으로써, 다양한 기계학습 알고리즘을 데이터에 적용하고 검증하는 과정에서 효율성을 높일 수 있었다. 이를 통해 가장 우수한 알고리즘을 보다 효과적으로 식별하고 최적화할 수 있었다.
이를 통해 가장 우수한 알고리즘을 보다 효과적으로 식별하고 최적화할 수 있었다. 마지막으로, 앙상블 학습을 통해 모형의 성능을 극대화하였으며, 이로써 유의미한 성능 향상을 확인하였다. 종합적으로, AutoML과 라이프로그 데이터를 활용하여 인지기능 장애를 예측할 수 있었고, 그 과정에서 수면이 중요한 특성변수로 작용함을 확인하였다.
분석 결과, 수면 관련 특성변수 7개, 활동성 관련 특성 변수 3개가 확인되었다. 먼저, 수면과 관련된 특성변수의 중요도는 분당 평균 호흡수(0.088), 분당 평균 심박수(0.059), 수면 중간지점 델타값(0.056), 심박수 변이(0.055), 분당 최저 심박수(0.049), 뒤척임 비율(0.035) 및 가벼운 수면 시간(0.032)순으로 나타났다. 활동성과 관련된 특성변수는 총 사용 칼로리(0.
이는 인지기능저하를 동반하는 수면무호흡증과도 밀접한 관련이 있을 것으로 사료되며, 본 연구대상 중의 인지기능 장애군의 수면의 질이 대체로 좋지 못했던 것과 관련이 있을 것으로 판단할 수 있다. 본 연구에서는 실시간으로 측정되는 라이프로그 데이터를 활용하였기 때문에, 기존의 연구들에서 발견하지 못하였던 통찰을 제공할 수 있을 것으로 기대하였으나, 대체로 선행연구 결과와 일치하고 있음을 알 수 있었다. 이는 인지기능 장애를 예측하는 과정에서 라이프로그 데이터의 사용 가능성도 고려해볼 수 있다는 시사점을 제공함과 동시에 후속 연구를 통해 측정된 라이프로그 특성변수 각각의 연관성, 인과관계 등을 자세히 살펴볼 필요가 있음을 시사한다.
분석 결과, Voting Classifier(AUC = 0.9193, F1 = 0.7833)가 가장 우수한 예측성능을 보였으며, GBC(AUC = 0.9161, F1 = 0.7525), XGB(AUC = 0.9132, F1 = 0.7654), LGBM(AUC = 0.8971, F1 = 0.7144), ET(AUC = 0.8877, F1 = 0.6189), RF(AUC = 0.8781, F1 = 0.6391), Stacking Classifier(AUC = 0.6539, F1 = 0.3398)순으로 예측성능이 확인되었다.
분석 결과, 높은 분류성능을 보여주는 5개의 모형으로 Extreme Gradient Boosting(이하 XGB), Light Gradient Boosting Machine(이하 LGBM), Random Forest Classifier(이하 RF), Extra Trees Classifier(이하 ET), Gradient Boosting Classifier(이하 GBC)가 선정되었다.
분석 결과, 수면 관련 특성변수 7개, 활동성 관련 특성 변수 3개가 확인되었다. 먼저, 수면과 관련된 특성변수의 중요도는 분당 평균 호흡수(0.
본 연구는 기존의 연구들과는 달리, 라이프로그 데이터에 AutoML을 적용하여 인지기능 장애 예측모형을 개발하였다. 분석 도구로 AutoML을 사용하여 다양한 기계학습 알고리즘을 학습용 데이터에 탐색적으로 적용하고 검증하면서 가장 우수한 기계학습 알고리즘을 효과적으로 선정할 수 있었다. 나아가, 앙상블 학습을 통해 기계학습 모형을 통합하였으며 그 결과, Voting Classifier가 가장 우수한 예측성능(AUC=0.
마지막으로, 앙상블 학습을 통해 모형의 성능을 극대화하였으며, 이로써 유의미한 성능 향상을 확인하였다. 종합적으로, AutoML과 라이프로그 데이터를 활용하여 인지기능 장애를 예측할 수 있었고, 그 과정에서 수면이 중요한 특성변수로 작용함을 확인하였다. 이러한 연구결과는 고령층에서 빈번하게 발생하는 인지기능 장애를 초기에 검진하고 예측하는데 유용한 근거자료로 활용될 수 있다.
초기모형과 하이퍼파라미터 튜닝을 진행한 모형의 AUC를 비교한 결과, XGB(AUC = 0.8932 → 0.9129)와 GBC(AUC = 0.7986 → 0.9061)에서 분류성능이 향상되었으며, LGBM(AUC = 0.8873 → 0.8846), RF(AUC = 0.8718 → 0.7317), ET(AUC = 0.8804 → 0.7740)에서는 초기모형의 분류성능이 우수한 것으로 확인되었다.
특성 중요도를 확인한 결과에서는 인지기능 장애 예측시 수면이 중요하게 작용함을 알 수 있었다. 이는 인지기능저하를 동반하는 수면무호흡증과도 밀접한 관련이 있을 것으로 사료되며, 본 연구대상 중의 인지기능 장애군의 수면의 질이 대체로 좋지 못했던 것과 관련이 있을 것으로 판단할 수 있다.
AutoML을 통해 최초에 우수한 분류모형 5개를 확인한 결과, Extreme Gradient Boosting(XGB), Light Gradient Boosting Machine(LGBM), Random Forest Classifier(RF), Extra Trees Classifier(ET) 및 Gradient Boosting Classifier(GBC)가 선정되었다. 학습용 데이터를 10-폴드 교차 검증한 결과, GBC(AUC = 0.7986)를 제외하면 AUC 값이 모두 0.80 이상으로 나타났다.
활동성 특성변수 22개의 일반적 특성을 확인한 결과, 이동거리, 걸음 수, 활동 칼로리, 총 사용 칼로리, 저강도 활동시간, 중강도 활동시간, 그리고 휴식 시간은 인지기능 장애군이 높은 경향을 보였지만, 고강도 활동시간, 고강도 활동 신진대사 해당치, 활동 목표 달성 점수, 운동 강도 점수에서는 인지기능 정상군이 높은 경향을 보였다.
후속연구
둘째, 인지기능 장애가 경증에서 중증으로 진행되는 시기 등을 고려했을 때, 라이프로그 데이터를 보다 장기적으로 수집하고 분석할 필요가 있다. 마지막으로, 기계학습 모형의 예측 결과는 인과관계를 확립하지 않기 때문에, 인과관계를 확인하고 설명할 수 있는 후속 연구가 필요하다.
이러한 연구결과는 고령층에서 빈번하게 발생하는 인지기능 장애를 초기에 검진하고 예측하는데 유용한 근거자료로 활용될 수 있다. 앞으로 더 나아가, 지속적인 데이터 수집과 모형의 개선, 그리고 구체적인 배포전략 수립 등을 통해, 개인이 자신의 인지기능 장애의 위험을 판단하고, 적절한 조치를 취할 기회를 제공할 수 있을 것으로 기대한다.
본 연구에서는 실시간으로 측정되는 라이프로그 데이터를 활용하였기 때문에, 기존의 연구들에서 발견하지 못하였던 통찰을 제공할 수 있을 것으로 기대하였으나, 대체로 선행연구 결과와 일치하고 있음을 알 수 있었다. 이는 인지기능 장애를 예측하는 과정에서 라이프로그 데이터의 사용 가능성도 고려해볼 수 있다는 시사점을 제공함과 동시에 후속 연구를 통해 측정된 라이프로그 특성변수 각각의 연관성, 인과관계 등을 자세히 살펴볼 필요가 있음을 시사한다.
종합적으로, AutoML과 라이프로그 데이터를 활용하여 인지기능 장애를 예측할 수 있었고, 그 과정에서 수면이 중요한 특성변수로 작용함을 확인하였다. 이러한 연구결과는 고령층에서 빈번하게 발생하는 인지기능 장애를 초기에 검진하고 예측하는데 유용한 근거자료로 활용될 수 있다. 앞으로 더 나아가, 지속적인 데이터 수집과 모형의 개선, 그리고 구체적인 배포전략 수립 등을 통해, 개인이 자신의 인지기능 장애의 위험을 판단하고, 적절한 조치를 취할 기회를 제공할 수 있을 것으로 기대한다.
본 연구는 다음과 같은 한계점을 가진다. 첫째, 분석에 사용된 데이터는 12,183건의 일일 라이프로그 데이터지만, 실제 측정된 연구대상은 174명에 불과하여 표본의 크기가 제한적이기에 대표성 확보의 한계점이 존재할 수 있다. 둘째, 인지기능 장애가 경증에서 중증으로 진행되는 시기 등을 고려했을 때, 라이프로그 데이터를 보다 장기적으로 수집하고 분석할 필요가 있다.
참고문헌 (40)
Statistics Korea, 2022 Statistics of the aged, Statistics Korea Press,?https://kostat.go.kr/board.es?mida10301010000&bid10820&tag&actview&list_no420896&ref_bid
Health Insurance Review & Assessment Service, 2021 Statistics?index of the medical care cost, https://www.hira.or.kr/
W. Baek, and D. R. Kim, "Factors Affecting Cognitive Function?in the Elderly Using Aging Panel Data: Focusing on?Demographics, Psycho-social, Physical, and Health-related?Behavioral Characteristics," Journal of The Korean Data Analysis?Society, Vol. 24, No. 5, pp. 1893-1906, October 2022. DOI:?https://doi.org/10.37727/jkdas.2022.24.5.1893
D. Park, G. R. Lee, and H. Yang, "Risk Factors Associated with?Transition to Dementia in Patients with Mild Cognitive?Impairment," Journal of Health Informatics and Statistics, Vol. 47,?No. 4, pp. 307-311, November 2022. DOI: http://doi.org/10.21032/jhis.2022.47.4.307
E. Oh, and A. Y. Lee, "Mild Cognitive Impairment," Journal of?Korean Neurological Association, Vol. 34, No. 3, pp. 167-175,?March 2016. DOI: https://doi.org/10.17340/jkna.2016.3.1
R. C. Petersen, "Mild cognitive impairment," CONTINUUM:?Lifelong Learning in Neurology, Vol. 10, No. 1, pp. 9-28,?February 2004. DOI: 10.1212/01.CON.0000293545.39683.cc
A. So, and H. S. Lim, "Analysis for Development of The Dementia?Sorting System using Machine Learning Techniques," The Korean?Association Of Computer Education Academic Conference Papers,?Vol. 19, No. 1, pp. 137-140, January 2015.
K. O. Chang, Y. S. Cho, and M. J. Kim, "Effects of Perception?and Fear of Dementia Attitude among Local Public Officials,"?Journal of The Korean Data Analysis Society, Vol. 24, No. 2,?pp. 873-886, April 2022. DOI: https://doi.org/10.37727/jkdas.2022.24.2.873
H. Choi, S. H. Kim, J. H. Lee, Y. A. Lee, K. W. Park, E. A?Lee, S. H Choi, D. L. Na, and J. H. Jeong, "National Responsibility?Policy for Dementia Care: Current and Future," Journal of the?Korean Neurological Association, Vol. 36, No. 3, pp. 152-158,?July 2018. DOI: https://doi.org/10.17340/jkna.2018.3.3
T. H. Kim, H. J. Jeong, J. Y. Song, N. Kim, and E. M Lee,?"Analysis of Influencing Factors of Suicide Ideation Using?Random Forest Model : Focusing on the National Health and Nutrition Examination Survey," Journal of The Korean Data?Analysis Society, Vol. 25, No. 3, pp. 1121-1132, June 2023. DOI:?http://doi.org/10.37727/jkdas.2023.25.3.1121
T. Lee, and H. Oh, "Dementia Prediction Model based on Gradient?Boosting," Journal of the Korea Institute of Information and?Communication Engineering, Vol. 25, No. 12, pp. 1729-1738,?December 2021. DOI: http://doi.org/10.6109/jkiice.2021.25.12.1729
S. Kwon, and S. Lee, "Relational Database Model for Collecting?Lifelog from Heterogeneous Smart Watches," Journal of Korean?Institute of Information Technology, Vol. 16, No. 9, pp. 13-21,?September 2018. DOI: http://dx.doi.org/10.14801/jkiit.2018.16.9.13
G. Han, and S. Jin, "Introduction to Big Data and the Case Study?of Its Applications," Journal of The Korean Data Analysis?Society, Vol. 16, No. 3, pp. 1337-1351, 2014. DOI: G704-000930.2014.16.3.002
W. Jo, S. Yang, S. Choi, J. Paek, M. Min, Y. Lee, K. Park,?and K. Lee, "Lifelog big data-based lifestyle (life pattern) analysis?and wellness predictive care service system using IoT," The?Journal of The Korean Institute of Communication Sciences, Vol.?31, No. 12, pp. 17-24, 2014.
C. Jonker, M. I. Geerlings, and B. Schmand, "Are memory?complaints predictive for dementia? A review of clinical and?population-based studies," International journal of geriatric?psychiatry, Vol. 15, No. 11, pp. 983-991, November 2000. DOI:?https://doi.org/10.1002/1099-1166(200011)15:11 3.0.CO;2-5
G. J. Larrabee, and T. H. Crook, "Estimated prevalence of?age-associated memory impairment derived from standardized?tests of memory function," International psychogeriatrics, Vol.?6, No. 1, 95-104, January 2005. DOI: https://doi.org/10.1017/S1041610294001663
Korean Dementia Association, 99 Stories of dementia, March?2012. https://www.dementia.or.kr/general/bbs/?codestory
R. L. Kahn, A. I. Goldfarb, M. Pollack, A. Peck, "Brief objective?measures for the determination of mental status in the aged,"?American journal of Psychiatry, Vol. 117, No. 4, pp. 326-328,?October 1960. DOI: https://doi.org/10.1176/ajp.117.4.326
M. F. Folstein, S. E. Folstein, and P. R. McHugh, "Mini-mental?state: a practical method for grading the cognitive state of patients?for the clinician," Journal of psychiatric research, Vol. 12, No.?3, pp. 189-198, 1975
S. Y. Lee, J. M. Kim, J. A. Yoo, and I. S. Shin, "Screening?Instruments for Dementia," J Korean Soc Biol Ther Psych, Vol.?12, No. 2, pp. 131-139, 2006.
J. H. Park, Y. C. Kwon, "Modification of the mini-mental state?examination for use in the elderly in a non-western society. Part?1. Development of korean version of mini-mental state?examination," International Journal of Geriatric Psychiatry, Vol.?5, No. 6, pp. 381-387, December 1990. DOI: https://doi.org/10.1002/gps.930050606
Y. Kang, D. L. Na, and S. Hann, "A Validity Study on the Korean?Mini-Mental State Examination(K-MMSE) in Dementia Patients,"?J Korean Neurol Assoc, Vol. 15, No. 2, pp. 300-308, 1997.
S. H. Choi, D. L. Na, K. M. Oh, and B. J. Park, "A Short form?of the Samsung Dementia Questionnaire (S-SDQ): development?and cross-validation," J Korean Neurol Assoc, Vol. 17, No. 2,?pp. 253-258, 1999.
D. Galasko, M. R. Klauber, C. R. Hofstetter, D. P. Salmon, B.?Lasker, and L. J Thal, "The Mini-Mental State Examination in?the early diagnosis of Alzheimer's disease," Archives of?neurology, Vol. 47, Nol. 1, pp. 49-52, January 1990. DOI:?http://doi.org/10.1001/archneur.1990.00530010061020
C. M. Clark, L. Sheppard, G. G. Fillenbaum, D. Galasko, J. C.?Morris, E. Koss, R. Mohs, A. Heyman, and Cerad Investigators,?"Variability in annual Mini-Mental State Examination score in?patients with probable Alzheimer disease: a clinical perspective?of data from the Consortium to Establish a Registry for?Alzheimer's Disease," Archives of neurology, Vol. 56, No. 7, pp.?857-862, July 1999. DOI: http://doi.org/10.1001/archneur.56.7.857
S. A. Mofrad, A. J. Lundervold, A. Vik, and A. S. Lundervold?"Cognitive and MRI trajectories for prediction of Alzheimer's?disease," Scientific Reports. 11:2122. 123AD, January 2021.?DOI: https://doi.org/10.1038/s41598-020-78095-7
A. H. Syaifullah, A. Shiino, H. Kitahara, R. Ito, M. Ishida, and?K. Tanigaki, "Machine learning for diagnosis of AD and?prediction of MCI progression from brain MRI using brain?anatomical analysis using diffeomorphic deformation," Frontiers?in Neurology, Vol. 11, pp. 1-13, February 2021. DOI: http://doi.org/10.3389/fneur.2020.576029
S. H. Lee, W. S. Kang, C. Moon, Lifelog-based classification?of mild cognitive impairment using artificial neural networks.?In 2018 International Conference on Electronics, Information, and?Communication (ICEIC) pp. 1-2. IEEE. January 2018. DOI:?10.23919/ELINFOCOM.2018.8330611
T. Nagarajah, and G. Poravi, A review on automated machine?learning (AutoML) systems, IEEE, pp. 1-6, Bombay, India,?March 2019. DOI: http://doi.org/10.1109/I2CT45611.2019.9033810
K. H. Nam, M. I. Kim, O. I. Kwon, W. Fawu, and G. C. Jeong,?"Prediction of Landslides and Determination of Its Variable?Importance Using AutoML," The Journal of Engineering?Geology, Vol. 30, Nol. 3, pp. 315-325, September, 2020. DOI:?https://doi.org/10.9720/kseg.2020.3.315
M. Graczyk, T. Lasota, B. Trawinski, and K. Trawinski,?Comparison of bagging, boosting and stacking ensembles applied to real estate appraisal, In Intelligent Information and Database?Systems: Second International Conference, ACIIDS, Springer?Berlin Heidelberg, Proceedings, Part II 2, pp. 340-350, Hue City,?Vietnam, March 24-26, 2010.
A. A. Aburomman, and M. B. I. Reaz, "A novel SVM-kNN-PSO?ensemble method for intrusion detection system," Applied Soft?Computing, Vol. 38, pp. 360-372, October 2016. DOI:?http://dx.doi.org/10.1016/j.asoc.2015.10.011
T. Wu, W. Zhang, X. Jiao, W. Guo, and Y. A. Hamoud,?"Evaluation of stacking and blending ensemble learning methods?for estimating daily reference evapotranspiration," Computers?and Electronics in Agriculture, Vol. 184, 106039, May 2021.?DOI: https://doi.org/10.1016/j.compag.2021.106039
S. Kumari, D. Kumar, and M. Mittal. An ensemble approach?for classification and prediction of diabetes mellitus using soft?voting classifier. International Journal of Cognitive Computing?in Engineering, Vol. 2, pp. 40-46. June 2021. DOI: https://doi.org/10.1016/j.ijcce.2021.01.001
W. Muangpaisan, S. Intalapaporn, and P. Assantachai,?"Neuropsychiatric symptoms in the community based patients?with mild cognitive impairment and the influence of demographic?factors," International Journal of Geriatric Psychiatry, Vol. 23,?No. 7, pp. 699-703, January 2008. DOI: http://doi.org/10.1002/gps.1963
S. Y. Jeoung, E. K. Kim, H. Park, "Related Factors to Sleep?Quality in Older Adults with Mild Cognitive Impairment at Long?Term Care Hospitals in South Korea: A Cross-Sectional Study",?Journal of Korean Gerontological Nursing, Vol. 24, No. 2, pp.?210-217, May 2022. DOI: 10.17079/jkgn.2022.24.2.210
C. Y. Lim, I. S. Shin, H. Y. Shin, J. M. Kim, S. W. Kim, and?J. S. Yoon, "Relationship between Sleep Disturbance and?Cognitive Dysfunction in Patients with Mild Cognitive?Impairment," Journal of the Korean Society of Biological?Therapies in Psychiatry, Vol. 22, No. 3, pp. 187-195, September?2016.
K. H. Lee, H. C. Kim, "Relationship Between Sleep and?Alzheimer's Dementia", Sleep Medicine ans Psychophysiology,?Vol 29, No 1, pp. 1-3, June 2022. DOI: 10.14401/KASMED.2022.29.1.1
B. H. Choi, L. Kim, and K. Y. Suh, "Neurocognitive Function?in Obstructive Sleep Apnea Patients. Sleep Medicine and?Psychophysiology," Sleep Med Psychophysiol, Vol. 3, No. 1, pp.?38-46, Jun 1996.
T. Kageyama, N. Nishikido, T. Kobayashi, Y. Kurokawa, T.?Kaneko, and M. Kabuto, "Self-reported sleep quality, job stress,?and daytime autonomic activities assessed in terms of short-term?heart rate variability among male white-collar workers,"?Industrial health, Vol. 36, No. 3, pp. 263-272, April 1998. DOI:?https://doi.org/10.2486/indhealth.36.263
※ AI-Helper는 부적절한 답변을 할 수 있습니다.