보고서 정보
주관연구기관 |
국립암센터 National Cancer Center |
연구책임자 |
남병호
|
보고서유형 | 최종보고서 |
발행국가 | 대한민국 |
언어 |
한국어
|
발행년월 | 2013-10 |
과제시작연도 |
2013 |
주관부처 |
보건복지부 |
사업 관리 기관 |
국립암센터 National Cancer Center |
등록번호 |
TRKO201400002812 |
과제고유번호 |
1465014822 |
DB 구축일자 |
2014-04-19
|
키워드 |
암 발생위험예측 통계 모델,암발생 위험 요인,위험비,코호트 연구,통계 컨설팅Cancer Risk Prediction Models,Cancer incidence risk factor,Hazard ratio,Cohort study,Statistical consulting
|
초록
▼
연구목표
<최종목표>
○남자 4대 암(위, 폐, 간, 대장), 여자 6대 암(위, 폐, 간, 대장, 유방, 자궁경부)에 대하여 암 발생에 영향을 미치는 위험 요소들을 연구하며 이를 근거로 개인별 암 발생위험예측 통계모델(cancer prediction model)을 개발하고 그 효능에 대해 평가함
○예측모델을 근거로 일반인들이 편리하게 사용할 수 있는 암 발생위험 산출시스템을 개발
○암 위험요소들에 대한 연구를 계속적으로 진행하고 추가 연구 성과에 반영하여 지속적으로 모델들을 보완해 나가며 암 예방과 조기검진을
연구목표
<최종목표>
○남자 4대 암(위, 폐, 간, 대장), 여자 6대 암(위, 폐, 간, 대장, 유방, 자궁경부)에 대하여 암 발생에 영향을 미치는 위험 요소들을 연구하며 이를 근거로 개인별 암 발생위험예측 통계모델(cancer prediction model)을 개발하고 그 효능에 대해 평가함
○예측모델을 근거로 일반인들이 편리하게 사용할 수 있는 암 발생위험 산출시스템을 개발
○암 위험요소들에 대한 연구를 계속적으로 진행하고 추가 연구 성과에 반영하여 지속적으로 모델들을 보완해 나가며 암 예방과 조기검진을 위한 지표 설정 및 방향 제시에 도움을 제공함
<당해연도목표>
○남자 4대 암, 여자 6대 암 모델 개발 및 완성
○위험요인 분석(전립선암, 갑상선암, 식이와 식도암 등)
○통계적 방법론 연구
○연구진과의 통계 컨설팅
연구내용 및 방법
◆ 연구내용 및 방법
1. 데이터 확보, 정리 및 분석 : 국민건강보험공단 1996년-2008년 1차 검진 및 문진 자료, 중앙암등록본부 1956년-2007년 암 발생 자료, 통계청 1996년-2007년 사망 자료
2. 모델 개발
-암 종별로 관계하는 위험요소들이 다르기 때문에 각 전문가들의 의견과 지금까지 발표된 여러 모델들을 바탕으로 병인학적, 생물학적으로 타당하고 정확한 모델을 개발함
-모델개발을 위하여 각 위험요소마다 상대적 위험도를 다양한 통계모델을 사용하여 측정
-개발된 암 위험예측 모델들의 평가 후 가장 적합한 모델 선택
3. 사용할 통계 모델 -Cox proportional hazard model을 비롯한 비모수적, 모수적 통계모델
4. 모델 개발 방법 -다양한 모델들을 개발한 후 가장 적합한 모델을 선택
5. 모델 개발 순서
-First step : 보험공단자료의 검토, cleaning, code화 작업
-Second step : 모델개발에 사용되어질 자료의 구성, 암종별 위험요소들의 정의 문헌고찰을 통한 암종별 위험요소들을 정리, 사용된 위험요소들의 characteristics 구분
-Third step : Cox proportional hazard model을 이용한 단변량 분석
-Fourth step : 모델 개발 - 모수적, 비모수적 접근, 위험요소들의 다양한 변환
-Fifth step : Model Validation
ㆍDiscrimination
-개발된 모델들이 실질적으로 고 위험군의 사람들에게 저 위험군의 사람들에 비해서 얼마만큼 정확하게 더 높은 암 발생 위험률을 제시하는가를 측정
-측정방법 : C statistics (area under the ROC curve)
ㆍCalibration
-개발된 모델들이 실제의 암발생률에 비해서 얼마만큼 정확하게발생위험을 예측하는가를 측정
-측정방법 : Hosmer-Lemeshow type chi-square statistics
ㆍInternal Validation
-data splitting : 70% development set, 30% validation set
-cross-validation : repeated data splitting(samples leaving out 10000 observations each run, repeat 200 times, average results)
-Bootstrapping : large number of samples with replacement from original sample, estimate generalization error based on resampling.
ㆍExternal Validation
-개발된 모델의 일반화를 위한 adjustment를 수행한 후에
국립암센터의 지역코호트 자료 등 다른 인구에 적용하여, 개발된 모델의 예측능력을 평가함
연구개발에 따른 기대성과
<정량적 성과>
<정성적 성과>
- 췌장암 모델: ASCO 2013 Poster발표
- 식이습관과 식도암 연구: AACR2 012 Poster발표
- 총 19건의 통계컨설팅 진행
Abstract
▼
The purpose of this project was to develop and validate cancer risk prediction models for major solid tumors (men: lung, stomach, colo-rectal, liver, women: stomach, breast, lung, liver, colo-rectal, cervical). Various statistical models including the Cox proportional Hazard model were used for mode
The purpose of this project was to develop and validate cancer risk prediction models for major solid tumors (men: lung, stomach, colo-rectal, liver, women: stomach, breast, lung, liver, colo-rectal, cervical). Various statistical models including the Cox proportional Hazard model were used for model development. The models' performance was evaluated with respect to the discrimination and the calibration ability. C-statistic(ROC curve) was used for the discrimination and Hosmer-Lameshow type chi-square was used for the calibration. Once we develop and evaluate the models, we will develop a web-based service program so that people are able to know their risk of developing cancer provided their information about the risk factors. Through this system, people can not only know their risk level of developing cancers, but also how much the risk can be reduced by changing the health status and modifying their life style. We will continue to study about the possible risk factors of these solid tumor and incorporate those into the prediction models.
The data that was used for this project came from three different sources: The Korean Central Cancer Registry (KCCR) and the National Health Insurance Corporation Study (NHICS). The physical examinations and the life-style questionnaires measured in 1996-97 from the NHICS was the baseline data. Cancer Incidence information upto 2008 came from the KCCR. and the death statistics upto 2007 came from the NHICS. The first step of this project was to generate a clean data set by merging the three different data set. At the same time, we performed thorough literature reviews and gathered risk factors for each cancer. Expert working groups for each cancer site was organized and possible risk factors were selected from the data that we generated. In developing the models, we split the data into two parts: a development and validation data set. We developed the models from the development set and measured their performance in the validation set. For Breast cancer, two separate models(<50 year, >=50year) were developed. Age, height, age at the first menarche, menopausal status, age at first live birth were identified as the major risk factors. The discrimination ability was reasonably high and the calibration ability was very high. Lung and Stomach cancer models for men were also developed. Smoking variables(smoking status, amount of smoking) were the major risk factors for lung cancer. Smoking, Irregular eating habit, and alcohol intake were the major risk factors for stomach cancer in men. The discrimination and calibration ability for both cancers were very high.
Body mass index (BMI), meat consumption, alcohol intake, family history of cancer were the risk factors for colon cancer in mean and the discrimination and calibration ability for the model was high. Regarding the lung cancer model, since the effect of smoking depends on the histologic type of lung cancer, separate models are under development for Squamous cell carcinoma, Adenocarcinoma and Small cell carcinoma. Smoking habit differs depending on starting age of smoking. The impact of Physical activity on lung cancer risk differs depending on the smoking status. Gender specific stomach cancer models were developed and validated. For Colorectal cancer, risk factor association analyses were done before developing models. For each gender, three different models for colorectal cancer depending on the location were developed and validated: Right colon, Left colon, and Rectum. Association between nutrition and cancer incidence(gastric, colorectal, esophageal cancers) were evaluated. For finding possible risk factors, exploratory analyses for prostate, ovarian, and brain tumors were performed. Various statistical consultations were provided in about 20 projects. The results of some of these projects were already published.
목차 Contents
- 기관고유연구사업 최종보고서 ... 1
- 목차 ... 2
- 표 차례 ... 3
- <그림 차례> ... 5
- 요약문 ... 6
- Project Summary ... 8
- 1. 연구의 최종목표 ... 10
- 1.1 최종목표 ... 10
- 1.2 연구수행방법 ... 10
- 2. 연구의 내용 및 결과 ... 14
- 2.1 연구 방법 ... 14
- 2.2 연구 내용 및 결과 ... 17
- (1) 데이터 ... 17
- (2) 암 발생위험예측 모델 ... 21
- 2-1) 남성 폐암 ... 21
- 2-2) 위암(남성, 여성) ... 29
- 2-3) 대장암(남성, 여성) ... 36
- 2-4) 췌장암(남성, 여성) ... 50
- (3) 위험요인 분석 ... 57
- 3-1) 대장직장암 발생부위별 위험요인 분석 ... 57
- 3-2) 식이(diet)와 대장암 발생 위험 ... 67
- 3-3) 식이(diet)와 식도암 발생 위험 ... 72
- 3-4) 식이(diet)와 췌장암 발생 위험 ... 76
- 3-5) 난소암 발생 위험요인 ... 82
- 3-6) BMI와 암 발생 ... 91
- 3-7) 전립선암 발생위험 ... 103
- 3-8) 뇌종양 발생위험 ... 114
- 3-9) 갑상선암 발생위험 ... 124
- (4) 통계 컨설팅 ... 138
- 4-1) 위암 ... 138
- 4-2) 간암 ... 141
- 4-3) 뇌암 ... 144
- 4-4) 신장암 ... 147
- 4-5) 부인암 ... 149
- 4-6) 기타 암종 ... 151
- 3. 연구결과 고찰 및 결론 ... 157
- 3.1 암 발생위험예측 모델 ... 157
- 3.2 위험요인 분석 ... 161
- 3.3 통계 컨설팅 ... 164
- 4. 연구성과 및 목표달성도 ... 170
- 5. 연구결과의 활용계획 ... 181
- 6. 참고문헌 ... 184
- 7. 첨부서류 ... 191
- 끝페이지 ... 304
※ AI-Helper는 부적절한 답변을 할 수 있습니다.