본 연구는 국민건강보험공단의 건강검진데이터, 자격 및 보험료, 그리고 진료비 데이터를 활용하여 위암 발생 예측모형을 개발하고자 하였다. 모형개발에는 데이터마이닝 방법론에 의한 로지스틱 회귀모형을 활용하였으며, 모형개발은 남성, 여성 그리고 전체에 대해 각각 개발하여 각 모형에서 위암 발생 결정요인의 차이를 비교하였다. 그 결과 위암 발견 예측에 가장 큰 영향을 미치는 특성은 수검자의 연령이었고, 다음으로 음주, 가족병력 (암) 순으로 나타났다. 남자가 여자보다 위암 발견 가능성이 다소 높은 것으로 나타났으며, 남성의 경우는 연령, 여성의 경우는 음주유무가 위암 발생에 많은 영향을 미치는 것을 확인 할 수 있었다.
본 연구는 국민건강보험공단의 건강검진데이터, 자격 및 보험료, 그리고 진료비 데이터를 활용하여 위암 발생 예측모형을 개발하고자 하였다. 모형개발에는 데이터마이닝 방법론에 의한 로지스틱 회귀모형을 활용하였으며, 모형개발은 남성, 여성 그리고 전체에 대해 각각 개발하여 각 모형에서 위암 발생 결정요인의 차이를 비교하였다. 그 결과 위암 발견 예측에 가장 큰 영향을 미치는 특성은 수검자의 연령이었고, 다음으로 음주, 가족병력 (암) 순으로 나타났다. 남자가 여자보다 위암 발견 가능성이 다소 높은 것으로 나타났으며, 남성의 경우는 연령, 여성의 경우는 음주유무가 위암 발생에 많은 영향을 미치는 것을 확인 할 수 있었다.
We develope the predictive model for the incidence of the stomach cancer by utilizing the health screening data of the National Health Insurance in Korea. We also explore the characteristics for the stomach cancer. We perform the logistic regression analysis using the data mining methodology and use...
We develope the predictive model for the incidence of the stomach cancer by utilizing the health screening data of the National Health Insurance in Korea. We also explore the characteristics for the stomach cancer. We perform the logistic regression analysis using the data mining methodology and use SAS Enterprise Miner 4.1. This study shows that there exists a higher rate of the stomach cancer for males than females. Our study confirms that the major influencing factors for the incidence of the stomach cancer are age, drinking and a family history of cancer, lack of exercise. For man, the age is the most important determinant of the stomach cancer incidence, whereas the drinking is the most important determinant of the stomach cancer incidence for women.
We develope the predictive model for the incidence of the stomach cancer by utilizing the health screening data of the National Health Insurance in Korea. We also explore the characteristics for the stomach cancer. We perform the logistic regression analysis using the data mining methodology and use SAS Enterprise Miner 4.1. This study shows that there exists a higher rate of the stomach cancer for males than females. Our study confirms that the major influencing factors for the incidence of the stomach cancer are age, drinking and a family history of cancer, lack of exercise. For man, the age is the most important determinant of the stomach cancer incidence, whereas the drinking is the most important determinant of the stomach cancer incidence for women.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 데이터마이닝을 이용하여 위암으로 진단 및 치료 받을 가능성이 큰 고위험 대상자 예측모형을 제안하고자 한다.
제안 방법
2004년 위암검진 (연령 만40세 이상)을 받은 건강보험가입자들의 위암판정결과에 대해 국민건강보험 자격, 보험료, 진료량, 1차, 2차 검진·문진 및 암검진·문진에 나타난 인구사회학적 특성, 건강행위 특성, 건강위험요인 등을 토대로 현황분석을 실시하였다.
국제암연구소와 미국 국립암협회지에서 발표한 암 발생의 위험요인과 국립암센터에서 권고하고 있는 위험요인들을 고려하여, 생활습관 (음주, 흡연, 운동, 식생활, 비만), 개인 과거병력, 가족력 그리고 건강검진 결과 등의 위험요인을 반영하였다. 또한 수검자의 인구사회학적 특성인 성별, 연령, 거주지 구분(대도시, 중소도시, 소도시), 국민건강보험 가입자 자격 (직장가입자, 지역가입자)과 소득수준의 대리변수인 보험료를 설명변수로 포함하였다.
예측모형 개발 프로세스의 첫 번째 단계로 위암 발생 고위험군 예측모형 개발에서 위암 발생의 유형을 정하고 분석대상, 분석기간, 분석주제의 정의, 평가 그리고 예측기간을 정의하였다. 두 번째 단계는 예측모형의 정확성을 높이기 위해 데이터 탐색 및 데이터 정제 작업을 수행하고, 분석용 데이터를 구축하였다. 세 번째 단계에서는 구축된 분석용 데이터를 활용하여 모델링 작업을 수행하였다.
국제암연구소와 미국 국립암협회지에서 발표한 암 발생의 위험요인과 국립암센터에서 권고하고 있는 위험요인들을 고려하여, 생활습관 (음주, 흡연, 운동, 식생활, 비만), 개인 과거병력, 가족력 그리고 건강검진 결과 등의 위험요인을 반영하였다. 또한 수검자의 인구사회학적 특성인 성별, 연령, 거주지 구분(대도시, 중소도시, 소도시), 국민건강보험 가입자 자격 (직장가입자, 지역가입자)과 소득수준의 대리변수인 보험료를 설명변수로 포함하였다.
자료는 국민건강보험공단의 원천시스템(operational data store) 및 데이터웨어하우스 (data warehouse)에서 2000년부터 2004년까지의 특정암 검진 및 문진자료, 1·2차 건강검진 및 문진자료, 현물급여 자료의 각 연도별 개인급여정보 (2005년 7월 지급기준), 상병정보 및 수검자의 자격정보 (수검월말 자격)를 이용하였다. 또한, 정확한 암발견 판정 기준을 위해, 통계청의 사망원인 자료를 연계하여 활용하였다. 단, 연구대상은 우리나라의 건강검진 대상자 선정기준에 근거하여 2000년부터 2004년 기간에 특정암 검진을 받은 국민건강보험가입자로 제한하였다.
두 번째 단계는 예측모형의 정확성을 높이기 위해 데이터 탐색 및 데이터 정제 작업을 수행하고, 분석용 데이터를 구축하였다. 세 번째 단계에서는 구축된 분석용 데이터를 활용하여 모델링 작업을 수행하였다. 로지스틱 회귀 분석을 통해 모델링을 수행하였다.
예측모형 개발 프로세스의 첫 번째 단계로 위암 발생 고위험군 예측모형 개발에서 위암 발생의 유형을 정하고 분석대상, 분석기간, 분석주제의 정의, 평가 그리고 예측기간을 정의하였다. 두 번째 단계는 예측모형의 정확성을 높이기 위해 데이터 탐색 및 데이터 정제 작업을 수행하고, 분석용 데이터를 구축하였다.
예측모형은 성별에 따른 암발생율과 치명율에 있어서 남녀 차이가 있음을 고려하여 (유근영과 신해림, 2003; 김정순, 2004), 전체 모형을 포함한 남녀 각각의 예측모형을 개발하였다.
위암 건강검진 정보를 기초로 최종 결정된 위암발견 요인은 표3.2에 제시된 바와 같이 연령, 음주, 가족병력 중 암, 운동, 직역구분, 거주지역, 보험료, 식생활, 성별을 최종 위암 발견 가능 특성으로 선별하여 로지스틱 회귀모형에 반영하였다. 단, 모든 유효 변수는 목표 (target) 변수와의 발견율을 고려하여 범주화 시켜 더미 (dummy) 변수로 모형에 적합하였다.
위암의 위험요인들이 상대적으로 위암 발견에 미치고 있는 영향력을 수검자의 성별, 연령, 거주지역, 국민건강보험 가입자의 직역 그리고 보험료를 고려한 데이터마이닝 방법론에 의한 로지스틱 회귀모형을 활용하여 위험요인들의 상대적 위험도를 살펴보았다.
대상 데이터
또한, 정확한 암발견 판정 기준을 위해, 통계청의 사망원인 자료를 연계하여 활용하였다. 단, 연구대상은 우리나라의 건강검진 대상자 선정기준에 근거하여 2000년부터 2004년 기간에 특정암 검진을 받은 국민건강보험가입자로 제한하였다. 분석 패키지는 SAS Enterprise Miner 4.
분석데이터는 크게 분석용 (training data), 평가용 (validation data), 검정용 (test data)으로 구분하였고, 분석용과 평가용 데이터는 2000년, 2001년 암 건강검진 대상자를 기준으로 7 대 3의 비율로 분할하여 생성하였다. 검정용 자료는 2002년 암 검진 대상자를 기준으로 분석용 데이터와 동일한 기준으로 구축하였고, 이를 이용하여 개발된 예측모형의 일반화 검정을 통해 모형의 안정성을 평가하였다 (그림 2.
자료는 국민건강보험공단의 원천시스템(operational data store) 및 데이터웨어하우스 (data warehouse)에서 2000년부터 2004년까지의 특정암 검진 및 문진자료, 1·2차 건강검진 및 문진자료, 현물급여 자료의 각 연도별 개인급여정보 (2005년 7월 지급기준), 상병정보 및 수검자의 자격정보 (수검월말 자격)를 이용하였다.
데이터처리
분석데이터는 크게 분석용 (training data), 평가용 (validation data), 검정용 (test data)으로 구분하였고, 분석용과 평가용 데이터는 2000년, 2001년 암 건강검진 대상자를 기준으로 7 대 3의 비율로 분할하여 생성하였다. 검정용 자료는 2002년 암 검진 대상자를 기준으로 분석용 데이터와 동일한 기준으로 구축하였고, 이를 이용하여 개발된 예측모형의 일반화 검정을 통해 모형의 안정성을 평가하였다 (그림 2.1 참조).
국민건강보험 가입자 중 암 건강검진을 받은 자를 중심으로 데이터마이닝을 이용하여 위암 발생 예측모형을 개발하였고 분석 방법은 로지스틱 회귀분석을 적용하였다.
분석용 데이터와 평가용 데이터를 통해 모형을 생성하고 생성된 모형을 검정용 데이터에 적용했을 경우 모형 구축에서 발생할 수 있는 과적합 문제를 해결하였다. 또한 다양한 알고리즘을 통해 만들어진 모형들 중에서 가장 좋은 모형을 평가하고 선정하기 위해 향상도 도표와 ROC (Receiver Operating Characteristic)분석과 정확도를 계산하였다.
세 번째 단계에서는 구축된 분석용 데이터를 활용하여 모델링 작업을 수행하였다. 로지스틱 회귀 분석을 통해 모델링을 수행하였다. 분석용 데이터와 평가용 데이터를 통해 모형을 생성하고 생성된 모형을 검정용 데이터에 적용했을 경우 모형 구축에서 발생할 수 있는 과적합 문제를 해결하였다.
성능/효과
개인의 건강행위 위험요인으로 고려된 운동습관은 운동을 전혀 하지 않는 경우가 그렇지 않은 경우보다 상대적으로 위암발견 위험도가 1.29배 높았고, 남자는 1.69배 높은 것으로 나타났다. 또한 음주습관의 경우는 소주를 1병 이상, 주 3회 이상 마시는 경우는 그렇지 않은 경우보다 상대적으로 위암발견 위험도가 5.
2에서와 같이 위암발견 요인별 분석을 살펴보면 다음과 같다. 그 결과 전체모형에서 수검자의 성별은 여자보다 남자의 경우가 위암 발견 가능성이 상대적으로 높은 것으로 나타났다. 연령대로는 40대보다 60대 이상의 경우가 상대적으로 위암발견 가능성이 7.
그 결과, 남자가 여자보다 위암 발견 가능성이 상대적으로 1.01배로 다소 높은 것으로 나타났으며, 위암 발견 예측에 가장 큰 영향을 미치는 특성은 남성의 경우는 수검자의 연령, 여성의 경우는 음주유무가 가장 많은 영향을 미치는 것을 확인 할 수 있었다. 따라서 제안된 위암 예측모형의 결과 성별에 따라 위암 발생 결정요인이 차이가 있으므로, 대상 집단을 세분화하고 대상자의 선별적 관리가 필요가 필요하다.
위암 발생 로지스틱 회귀예측모형에 대한 평가는 평가용과 검정용 데이터에서 ROC 곡선과 향상도에 근거하였다. 그림3.1에서와 같이, ROC 곡선의 밑면적을 나타내는 C-통계량이 검정용 데이터에서의 개발된 로지스틱 예측모형의 C-통계량은 전체 모형에서 0.735, 남자와 여자 예측모형에서는 각각 0.730과 0.673의 값을 보여 임의의 모형 (random model)이 가지는 C-통계량 0.5보다 크게 나타나 상대적으로 모형이 우수함을 나타내 주었다 (그림 3.1).
27배 높은 것으로 나타났다. 다만, 기타 거주지역, 가입자의 직역 그리고 보험료 수준은 위암 발견에 통계학적으로 영향력이 유의하지 않은 것으로 나타났다
다음 누적 향상도 도표는 추정된 사후확률의 분위수에 따른 반응률 (%response)을 도표화 한 것으로, 위암 발견 로지스틱 회귀 예측모형은 평가용과 검정용 데이터 모두에서 상위 분위수에 대응되는 리프트가 더 큰 값을 보여, 개발된 예측모형의 안정성과 효과성을 확인하였다. 제시된 표3.
2에 제시된 바와 같이 연령, 음주, 가족병력 중 암, 운동, 직역구분, 거주지역, 보험료, 식생활, 성별을 최종 위암 발견 가능 특성으로 선별하여 로지스틱 회귀모형에 반영하였다. 단, 모든 유효 변수는 목표 (target) 변수와의 발견율을 고려하여 범주화 시켜 더미 (dummy) 변수로 모형에 적합하였다.
69배 높은 것으로 나타났다. 또한 음주습관의 경우는 소주를 1병 이상, 주 3회 이상 마시는 경우는 그렇지 않은 경우보다 상대적으로 위암발견 위험도가 5.3배 높았으며, 남자의 경우는 4.71배 그리고 여자의 경우는 무려 15.7배 높게 나타났다. 한편, 가족 중 암병력이 있을 경우 그렇지 않은 경우보다 상대적으로 위암발견 위험도가 1.
17%로 상대적으로 가장 높았다. 보험료 등급이 높을수록 위암수검비율이 낮아졌으며, 의료이용량 부분에서는 위암치료대상자들 중 입원한 비율이 19.40%로 정상 (2.57%), 재검 대상 (2.92%), 기타질환 (2.73%)보다 상대적으로 높게 나타났다. 가족력에서는 위암치료대상자인 경우 2.
07%)로 가장 많았고, 연령이 증가할수록 감소하였다. 위암 재검대상 및 기타질환으로 판명된 경우 또한, 연령이 증가할수록 해당판정비율이 감소하는 경향을 보였다. 위암치료대상의 경우엔 다른 판정결과와는 달리 연령이 증가할수록 위암치료대상자가 증가하였다.
이러한 변수 중 전체 위암 발견 고위험군 예측에 영향을 미치는 특성을 로지스틱 회귀모형결과의 Wald χ2통계량을 통해 살펴본 결과, 위암 발견 예측에 가장 큰 영향을 미치는 특성은 수검자의 연령이었고, 다음으로 음주, 가족병력 (암) 순으로 나타났다.
다음 누적 향상도 도표는 추정된 사후확률의 분위수에 따른 반응률 (%response)을 도표화 한 것으로, 위암 발견 로지스틱 회귀 예측모형은 평가용과 검정용 데이터 모두에서 상위 분위수에 대응되는 리프트가 더 큰 값을 보여, 개발된 예측모형의 안정성과 효과성을 확인하였다. 제시된 표3.1의 검정용 데이터에서 상위 10% 수준의 리프트값을 보면 전체 예측모형에서는 4.79, 남자의 경우는 4.91 그리고 여자의 경우는 5.31 값을 나타내, 위암 발견 고위험군 예측모형을 활용하여 상위 10%에서 관리할 경우 전체 위암 수검자 대비 각각 4.79배, 4.91배 그리고 5.31배의 효율을 남녀별로 각각 기대할 수 있을 것이다.
7배 높게 나타났다. 한편, 가족 중 암병력이 있을 경우 그렇지 않은 경우보다 상대적으로 위암발견 위험도가 1.45배 높았는데, 그중 남자의 경우는 1.74배 높은 것으로 나타났다.
후속연구
01배로 다소 높은 것으로 나타났으며, 위암 발견 예측에 가장 큰 영향을 미치는 특성은 남성의 경우는 수검자의 연령, 여성의 경우는 음주유무가 가장 많은 영향을 미치는 것을 확인 할 수 있었다. 따라서 제안된 위암 예측모형의 결과 성별에 따라 위암 발생 결정요인이 차이가 있으므로, 대상 집단을 세분화하고 대상자의 선별적 관리가 필요가 필요하다.
본 연구에서 국민건강보험공단의 건강검진을 받은 수검자를 중심으로 예측모형을 개발했고, 현재 국민건강보험 가입자의 연령, 성별, 거주 지역별, 직역별에 따라 수검율이 큰 차이를 보이고 있어 제안된 예측 모형이 모든 국민들에게 적용되는 일반화된 예측모형으로 사용함에 있어서는 한계점을 가지고 있다. 그러나 본 연구는 이러한 한계에도 불구하고 우리나라 전국민 자료가 구축된 국민건강보험공단의 방대한 데이터베이스와 최신 정보기술인 데이터마이닝을 활용함으로써 위암뿐만 아니라 향후 우리나라 국민을 위한 맞춤형 건강정보 제공, 관리대상자의 효율적 선정 및 관리서비스 제공 등의 적극적인 건강관리사업으로 발전시킬 수 있는 정보기술의 인프라 구축이라는 측면에서 중요한 의의를 갖는다고 할 수 있겠다.
질의응답
핵심어
질문
논문에서 추출한 답변
세계보건기구에 의하면 암은 두번째로 사망률이 높은 질환이지만 암으로의 죽음의 40%는 무엇으로 예방 가능한가?
5백만명이 암으로 사망할 것으로 예상하고 있다. 그러나 암으로 인한 죽음의 40%는 흡연률의 감소, 식이습관 향상, 운동, 음주, 직장내 발암물질 제거, B형 간염 바이러스 그리고 인유두종 바이러스 (HPV: Human Papillomavirus) 면역체계 형성으로 예방가능하다고 밝히고 있으며, 이를 통제하지 못할 경우 꾸준히 증가할 것이라고 경고하고 있다 (WHO, 2007).
위암 발견 예측에 가장 큰 영향을 미치는 특성은 무엇인가?
모형개발에는 데이터마이닝 방법론에 의한 로지스틱 회귀모형을 활용하였으며, 모형개발은 남성, 여성 그리고 전체에 대해 각각 개발하여 각 모형에서 위암 발생 결정요인의 차이를 비교하였다. 그 결과 위암 발견 예측에 가장 큰 영향을 미치는 특성은 수검자의 연령이었고, 다음으로 음주, 가족병력 (암) 순으로 나타났다. 남자가 여자보다 위암 발견 가능성이 다소 높은 것으로 나타났으며, 남성의 경우는 연령, 여성의 경우는 음주유무가 위암 발생에 많은 영향을 미치는 것을 확인 할 수 있었다.
남자가 여자보다 위암 발견 가능성이 높은 것으로 나타났으며, 남성의 경우에는 무엇이 많은 영향을 미치는가?
그 결과 위암 발견 예측에 가장 큰 영향을 미치는 특성은 수검자의 연령이었고, 다음으로 음주, 가족병력 (암) 순으로 나타났다. 남자가 여자보다 위암 발견 가능성이 다소 높은 것으로 나타났으며, 남성의 경우는 연령, 여성의 경우는 음주유무가 위암 발생에 많은 영향을 미치는 것을 확인 할 수 있었다.
이애경, 이상이, 박일수, 김수영, 윤태호, 정백근 (2006). 대장암 발생 고위험군의 예측모형 개발과 활용. , 39, 438-446.
D'Agostino, Sr R. B., Grundy, S., Sullivan, L. M. and Wilson, P. (2001). Validation of the Framingham coronary heart disease prediction scores. Journal of the American Medical Association, 286, 180-187.
Liu, J., Hong, Y., D'Agostino, Sr R. B., Wu, Z., Wang, W., Sun, J., Wilson, P. W. F., Kannel, W. B. and Zhao D. (2004). Predictive value for the Chinese population of the Framingham CHD risk assessment tool compared with the Chinese multi-provincial cohort study. Journal of the American Medical Association. 291, 2591-2599.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.