한국에서는 국가 주도로 건강보험가입자들의 건강을 유지, 증진하고 경제적 손실을 최소화하고자 건강검진제도를 1980년부터 시행한 이후로 생활 습관성 질환인 고혈압, 당뇨병, 이상지질혈증 등 심뇌혈관질환 예방과 6대 암을 조기에 발견하고 치료하여 국민 건강 수준 향상과 국민의료비를 절감하고자 하는 목적을 가지고 건강검진제도를 운영 하고 있다. 2020년 건강검진 통계 연보에 따르면 건강검진 수검자는 14,544,995명으로 건강검진 수진 대상 전체 인구의 67.8%를 차지한다. 국민건강보험공단은 대한민국 보험 급여대상자의 질병, 부상에 대한 예방·진단·치료·재활 등에 사용하는 국민건강보험을 운영하는 공공기관으로 그 과정에서 축적된 가입자 자격 및 건강검진 수진내역, 의료 제공자가 제출한 진료내역, 의료기관 정보 등을 ...
한국에서는 국가 주도로 건강보험가입자들의 건강을 유지, 증진하고 경제적 손실을 최소화하고자 건강검진제도를 1980년부터 시행한 이후로 생활 습관성 질환인 고혈압, 당뇨병, 이상지질혈증 등 심뇌혈관질환 예방과 6대 암을 조기에 발견하고 치료하여 국민 건강 수준 향상과 국민의료비를 절감하고자 하는 목적을 가지고 건강검진제도를 운영 하고 있다. 2020년 건강검진 통계 연보에 따르면 건강검진 수검자는 14,544,995명으로 건강검진 수진 대상 전체 인구의 67.8%를 차지한다. 국민건강보험공단은 대한민국 보험 급여대상자의 질병, 부상에 대한 예방·진단·치료·재활 등에 사용하는 국민건강보험을 운영하는 공공기관으로 그 과정에서 축적된 가입자 자격 및 건강검진 수진내역, 의료 제공자가 제출한 진료내역, 의료기관 정보 등을 정부 3.0 정책에 따라 database로 구축하여 연구자에게 연구 목적으로 대규모 빅데이터를 제공하고 있다. 이에 본 연구에서는 국민건강보험공단(National Health Insurance Service)의 2010년부터 2017년까지의 사회경제적 data 및 장애 data, 진료 및 건강검진 data를 이용하여 당해 연도의 사회경제적 data 및 진료, 건강검진 data를 바탕으로 차기년도의 의료비 고비용 지출 여부 예측 모델을 개발하고 모델의 중요 변수를 통해 차기년도의 고비용 지출에 영향을 미치는 변수를 확인하고 고비용 의료비 예측에 큰 영향을 미치는 요인을 확인하고자 하였다. 본 연구의 특징은 국민건강보험공단 빅데이터가 가지고 있는 장점인 많은 표본을 활용하여 국가주도로 시행하는 건강검진 항목 data를 적용한 국내 의료비 이용자의 고비용 지출 관련 중요변수를 도출하고자 하였다. 또한 의료비 예측 모델에 단계별로 변수를 투입하여 1.사회 자격변수 2. 사회자격변수 및 건강 검진관련 변수(비용 외 변수) 3.의료비 지출 비용변수 4.의료비 지출 비용 및 진료 횟수 관련 변수 등 다양한 변수 조합을 통해 의료비용 예측 모델에서 비용 외 관련 변수의 변수 중요도를 비교하고, 비용 외 변수인 건강검진변수가 의료비 지출예측에 미치는 영향을 확인하였다. 고비용 예측을 위한 선행 연구에서는 1-2 년의 의료기록을 바탕으로 차기 년도의 고비용 예측을 수행하였으나, 본 연구에서는 다년간(8년)의 의료비 지출 데이터를 누적 학습하여 예측 모델을 학습데이터로 활용하였다. 고비용(10%) 예측으로 인해 연구과정에서 나타나는 불균형 데이터는 원본 데이터, down-sampling, up-sampling등 데이터 전처리를 다르게 하여 데이터 불균형에 의한 머신러닝 학습효과를 실증적으로 확인하였다. 모델 평가 지표로는 F1-socre 및 AUC를 사용하여 예측 모델의 정확도를 평가하였다. 평가 결과로는 XGBoost 모델 기법이 가장 성능이 우수함을 확인하였다. 향후 연구에서는 일반 건강검진 이외 생애전환기, 구강검진, 암 검진 등 다른 건강검진 DB를 일반건강검진 DB와 연계하여 의료비 고비용 지출 예측 모델에서 건강검진변수의 예측력이 향상되는지 확인하여 보고자 한다.
한국에서는 국가 주도로 건강보험가입자들의 건강을 유지, 증진하고 경제적 손실을 최소화하고자 건강검진제도를 1980년부터 시행한 이후로 생활 습관성 질환인 고혈압, 당뇨병, 이상지질혈증 등 심뇌혈관질환 예방과 6대 암을 조기에 발견하고 치료하여 국민 건강 수준 향상과 국민의료비를 절감하고자 하는 목적을 가지고 건강검진제도를 운영 하고 있다. 2020년 건강검진 통계 연보에 따르면 건강검진 수검자는 14,544,995명으로 건강검진 수진 대상 전체 인구의 67.8%를 차지한다. 국민건강보험공단은 대한민국 보험 급여대상자의 질병, 부상에 대한 예방·진단·치료·재활 등에 사용하는 국민건강보험을 운영하는 공공기관으로 그 과정에서 축적된 가입자 자격 및 건강검진 수진내역, 의료 제공자가 제출한 진료내역, 의료기관 정보 등을 정부 3.0 정책에 따라 database로 구축하여 연구자에게 연구 목적으로 대규모 빅데이터를 제공하고 있다. 이에 본 연구에서는 국민건강보험공단(National Health Insurance Service)의 2010년부터 2017년까지의 사회경제적 data 및 장애 data, 진료 및 건강검진 data를 이용하여 당해 연도의 사회경제적 data 및 진료, 건강검진 data를 바탕으로 차기년도의 의료비 고비용 지출 여부 예측 모델을 개발하고 모델의 중요 변수를 통해 차기년도의 고비용 지출에 영향을 미치는 변수를 확인하고 고비용 의료비 예측에 큰 영향을 미치는 요인을 확인하고자 하였다. 본 연구의 특징은 국민건강보험공단 빅데이터가 가지고 있는 장점인 많은 표본을 활용하여 국가주도로 시행하는 건강검진 항목 data를 적용한 국내 의료비 이용자의 고비용 지출 관련 중요변수를 도출하고자 하였다. 또한 의료비 예측 모델에 단계별로 변수를 투입하여 1.사회 자격변수 2. 사회자격변수 및 건강 검진관련 변수(비용 외 변수) 3.의료비 지출 비용변수 4.의료비 지출 비용 및 진료 횟수 관련 변수 등 다양한 변수 조합을 통해 의료비용 예측 모델에서 비용 외 관련 변수의 변수 중요도를 비교하고, 비용 외 변수인 건강검진변수가 의료비 지출예측에 미치는 영향을 확인하였다. 고비용 예측을 위한 선행 연구에서는 1-2 년의 의료기록을 바탕으로 차기 년도의 고비용 예측을 수행하였으나, 본 연구에서는 다년간(8년)의 의료비 지출 데이터를 누적 학습하여 예측 모델을 학습데이터로 활용하였다. 고비용(10%) 예측으로 인해 연구과정에서 나타나는 불균형 데이터는 원본 데이터, down-sampling, up-sampling등 데이터 전처리를 다르게 하여 데이터 불균형에 의한 머신러닝 학습효과를 실증적으로 확인하였다. 모델 평가 지표로는 F1-socre 및 AUC를 사용하여 예측 모델의 정확도를 평가하였다. 평가 결과로는 XGBoost 모델 기법이 가장 성능이 우수함을 확인하였다. 향후 연구에서는 일반 건강검진 이외 생애전환기, 구강검진, 암 검진 등 다른 건강검진 DB를 일반건강검진 DB와 연계하여 의료비 고비용 지출 예측 모델에서 건강검진변수의 예측력이 향상되는지 확인하여 보고자 한다.
주제어
#NHIS, health examination cohort DB, Medical cost prediction, data imbalance, machine learning, Logistic regression, Random forest, XGBoost
학위논문 정보
저자
최영아
학위수여기관
경희대학교 대학원
학위구분
국내석사
학과
빅데이터응용학과
지도교수
김재경
발행연도
2022
총페이지
vii, 51 p.
키워드
NHIS, health examination cohort DB, Medical cost prediction, data imbalance, machine learning, Logistic regression, Random forest, XGBoost
※ AI-Helper는 부적절한 답변을 할 수 있습니다.