[논문]국민건강보험공단 건강검진 빅데이터를 활용한 머신러닝 기반 고비용 지출 예측 모델 개발 및 평가

최영아

국민건강보험공단 건강검진 빅데이터를 활용한 머신러닝 기반 고비용 지출 예측 모델 개발 및 평가 원문보기

최영아 (경희대학교 대학원 빅데이터응용학과 국내석사)

초록 ▼
AI-Helper

한국에서는 국가 주도로 건강보험가입자들의 건강을 유지, 증진하고 경제적 손실을 최소화하고자 건강검진제도를 1980년부터 시행한 이후로 생활 습관성 질환인 고혈압, 당뇨병, 이상지질혈증 등 심뇌혈관질환 예방과 6대 암을 조기에 발견하고 치료하여 국민 건강 수준 향상과 국민의료비를 절감하고자 하는 목적을 가지고 건강검진제도를 운영 하고 있다. 2020년 건강검진 통계 연보에 따르면 건강검진 수검자는 14,544,995명으로 건강검진 수진 대상 전체 인구의 67.8%를 차지한다. 국민건강보험공단은 대한민국 보험 급여대상자의 질병, 부상에 대한 예방·진단·치료·재활 등에 사용하는 국민건강보험을 운영하는 공공기관으로 그 과정에서 축적된 가입자 자격 및 건강검진 수진내역, 의료 제공자가 제출한 진료내역, 의료기관 정보 등을 정부 3.0 정책에 따라 database로 구축하여 연구자에게 연구 목적으로 대규모 빅데이터를 제공하고 있다.
이에 본 연구에서는 국민건강보험공단(National Health Insurance Service)의 2010년부터 2017년까지의 사회경제적 data 및 장애 data, 진료 및 건강검진 data를 이용하여 당해 연도의 사회경제적 data 및 진료, 건강검진 data를 바탕으로 차기년도의 의료비 고비용 지출 여부 예측 모델을 개발하고 모델의 중요 변수를 통해 차기년도의 고비용 지출에 영향을 미치는 변수를 확인하고 고비용 의료비 예측에 큰 영향을 미치는 요인을 확인하고자 하였다.
본 연구의 특징은 국민건강보험공단 빅데이터가 가지고 있는 장점인 많은 표본을 활용하여 국가주도로 시행하는 건강검진 항목 data를 적용한 국내 의료비 이용자의 고비용 지출 관련 중요변수를 도출하고자 하였다.
또한 의료비 예측 모델에 단계별로 변수를 투입하여 1.사회 자격변수 2. 사회자격변수 및 건강 검진관련 변수(비용 외 변수) 3.의료비 지출 비용변수 4.의료비 지출 비용 및 진료 횟수 관련 변수 등 다양한 변수 조합을 통해 의료비용 예측 모델에서 비용 외 관련 변수의 변수 중요도를 비교하고, 비용 외 변수인 건강검진변수가 의료비 지출예측에 미치는 영향을 확인하였다.
고비용 예측을 위한 선행 연구에서는 1-2 년의 의료기록을 바탕으로 차기 년도의 고비용 예측을 수행하였으나, 본 연구에서는 다년간(8년)의 의료비 지출 데이터를 누적 학습하여 예측 모델을 학습데이터로 활용하였다.
고비용(10%) 예측으로 인해 연구과정에서 나타나는 불균형 데이터는 원본 데이터, down-sampling, up-sampling등 데이터 전처리를 다르게 하여 데이터 불균형에 의한 머신러닝 학습효과를 실증적으로 확인하였다. 모델 평가 지표로는 F1-socre 및 AUC를 사용하여 예측 모델의 정확도를 평가하였다. 평가 결과로는 XGBoost 모델 기법이 가장 성능이 우수함을 확인하였다.
향후 연구에서는 일반 건강검진 이외 생애전환기, 구강검진, 암 검진 등 다른 건강검진 DB를 일반건강검진 DB와 연계하여 의료비 고비용 지출 예측 모델에서 건강검진변수의 예측력이 향상되는지 확인하여 보고자 한다.

주제어

학위논문 정보

저자	최영아
학위수여기관	경희대학교 대학원
학위구분	국내석사
학과	빅데이터응용학과
지도교수	김재경
발행연도	2022
총페이지	vii, 51 p.
키워드	NHIS, health examination cohort DB, Medical cost prediction, data imbalance, machine learning, Logistic regression, Random forest, XGBoost
언어	kor
원문 URL	http://www.riss.kr/link?id=T16385453&outLink=K
정보원	한국교육학술정보원

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명(한글), 저자명(한글), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문) 관리번호, 논문명(한글), 논문명(영문), 저자명(한글), 저자명(영문), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문)
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

국민건강보험공단 건강검진 빅데이터를 활용한 머신러닝 기반 고비용 지출 예측 모델 개발 및 평가 원문보기

초록 ▼
AI-Helper

주제어

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

국민건강보험공단 건강검진 빅데이터를 활용한 머신러닝 기반 고비용 지출 예측 모델 개발 및 평가 원문보기

초록 ▼ 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

주제어

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

초록 ▼
AI-Helper