보고서 정보
주관연구기관 |
국립암센터 National Cancer Center |
연구책임자 |
남병호
|
참여연구자 |
박소희
,
주정남
,
박정인
,
양혜령
,
김영우
,
최일주
,
박숙련
,
한지연
,
박중원
,
김선영
,
노정실
,
박인혜
,
김주영
,
김정선
,
임민경
,
신애선
,
김연주
|
보고서유형 | 최종보고서 |
발행국가 | 대한민국 |
언어 |
한국어
|
발행년월 | 2010-12 |
과제시작연도 |
2010 |
주관부처 |
보건복지가족부 |
사업 관리 기관 |
한국보건산업진흥원 Korea Health Industry Development Institute |
등록번호 |
TRKO201100007108 |
과제고유번호 |
1355061592 |
DB 구축일자 |
2015-01-08
|
키워드 |
암 발생위험예측 통계 모델Cancer risk prediction model
|
초록
▼
◆ 연구내용 및 방법
1. 데이터 확보, 정리 및 분석
2. 모델 개발
-암 종별로 관계하는 위험요소들이 다르기 때문에 각 전문가들의 의견과 지금까지 발표된 여러 모델들을 바탕으로 병인학적, 생물학적으로 타당하고 정확한 모델을 개발함
-모델개발을 위하여 각 위험요소마다 상대적 위험도를 다양한 통계모델을 사용하여 측정
-개발된 암 위험예측 모델들의 평가 후 가장 적합한 모델 선택
3. 사용할 통계 모델
-Cox proportional hazard model을 비롯한 비모수적, 모수적 통계모
◆ 연구내용 및 방법
1. 데이터 확보, 정리 및 분석
2. 모델 개발
-암 종별로 관계하는 위험요소들이 다르기 때문에 각 전문가들의 의견과 지금까지 발표된 여러 모델들을 바탕으로 병인학적, 생물학적으로 타당하고 정확한 모델을 개발함
-모델개발을 위하여 각 위험요소마다 상대적 위험도를 다양한 통계모델을 사용하여 측정
-개발된 암 위험예측 모델들의 평가 후 가장 적합한 모델 선택
3. 사용할 통계 모델
-Cox proportional hazard model을 비롯한 비모수적, 모수적 통계모델
4. 모델 개발 방법
-다양한 모델들을 개발한 후 가장 적합한 모델을 선택
5. 모델 개발 순서
-First step
보험공단자료의 검토, cleaning, code화 작업
-Second step :
모델개발에 사용되어질 자료의 구성, 암종별 위험요소들의 정의
문헌고찰을 통한 암종별 위험요소들을 정리, 사용된 위험요소들의 characteristics 구분
-Third step :
Cox proportional hazard model을 이용한 단변량 분석
-Fourth step : 모델 개발
모수적, 비모수적 접근, 위험요소들의 다양한 변환
-Fifth step : Model Validation
ㆍDiscrimination
-개발된 모델들이 실질적으로 고 위험군의 사람들에게 저 위험군의 사람들에 비해서 얼마만큼 정확하게 더 높은 암 발생 위험률을 제시하는가를 측정
-측정방법 : C statistics - area under the ROC curve
ㆍCalibration
-개발된 모델들이 실제의 암발생률에 비해서 얼마만큼 정확하게 발생위험을 예측하는가를 측정
-측정방법 : Hosmer-Lemeshow type chi-square statistics
ㆍInternal Validation
-data splitting : 70% development set, 30% validation set
-cross-validation : repeated data splitting
(samples leaving out 10000 observations each run, repeat 200 times, average results)
-Bootstrapping : large number of samples with replacement from original sample, estimate generalization error based on resampling.
ㆍExternal Validation
-개발된 모델의 일반화를 위한 adjustment를 수행한 후에 국립암센터의 지역코호트 자료 등 다른 인구에 적용하여, 개발된 모델의 예측능력을 평가함
Abstract
▼
The purpose of this project was to develop cancer risk prediction models for major solid tumors (men: lung, stomach, colo-rectal, liver, women: stomach, breast, lung, liver, colo-rectal, cervical). Various statistical models including the Cox proportional Hazard model were used. We evaluated the mod
The purpose of this project was to develop cancer risk prediction models for major solid tumors (men: lung, stomach, colo-rectal, liver, women: stomach, breast, lung, liver, colo-rectal, cervical). Various statistical models including the Cox proportional Hazard model were used. We evaluated the models' performance with respect to the discrimination and the calibration ability. C-statistic(ROC curve) was used for the discrimination and Hosmer-Lameshow type chi-square was used for the calibration. Once we develop and evaluate the models, we will develop a web-based service program so that people are able to know their risk of developing cancer provided their information about the risk factors. Through this system, people can not only know their risk level of developing cancers, but also how much the risk can be reduced by changing the health status and modifying their life style. We will continue to study about the possible risk factors of these solid tumor and incorporate those into the prediction models. The data that was used for this project came from three different sources: The Korean Central Cancer Registry (KCCR), The Korean Statistical Office, and the National Health Insurance Corporation Study (NHICS). The physical examinations and the life-style questionnaires measured in 1996-1997 from the NHICS was the baseline data. They were followed by upto 2008. Cancer Incidence information up to 2007 came from the KCCR. And the death statistics up to 2007 came from both the Korean Statistical Office and the NHICS. The first step of this project was to generate a clean data set by merging the three different data set. At the same time, we performed thorough literature review and gathered risk factors for each cancer. Expert working groups for each cancer site was organized and possible risk factors were selected from the data that we generated. In developing the models, we split the data into two parts: a development and validation data set. We developed the models from the development set and measured their performance in the validation set. For Breast cancer, two separate models(<50 year, >=50year) were developed. Age, height, age at the first menarche, menopausal status, age at first live birth were identified as the major risk factors. The discrimination ability was reasonably high and the calibration ability was very high. Lung cancer model for men, stomach cancer models for men and women, colorectal cancer model for men and women were developed. Smoking variables(smoking status, amount of smoking) were the major risk factors for lung cancer. The discrimination ability for lung cancer for men was very high and the calibration ability was moderately good. Smoking, Irregular eating habit, salt intake and alcohol intake were the major risk factors for stomach cancer in men and Smoking status and Irregular eating habit in women. The discrimination and calibration ability for both models were high. Body mass index (BMI), meat consumption, alcohol intake, family history of cancer were the risk factors for colon cancer in men and the discrimination and calibration ability for the model was high. Regarding the lung cancer model, since the effect of smoking depends on the histologic type of lung cancer, separate models are under development for Squamous cell carcinoma, Adenocarcinoma and Small cell carcinoma. Smoking habit differs depending on starting age of smoking. The impact of Physical activity on lung cancer risk differs depending on the smoking status. Stomach cancer model will be separately developed for different location: Cardia and Distal. For Colorectal cancer, three models are under development: Right colon, Left colon, Rectum. Methodological research will be conducted with respect to handling missing data.
목차 Contents
- 기관고유연구사업 결과 보고...1
- 제 출 문...2
- 차 례...3
- < 요 약 문 > ...9
- Project Summary ...11
- 1. 연구의 최종목표...13
- (1) 암부담의 증가와 암 연구의 중요성 ...13
- (2) 암 발생위험예측모델 ...13
- (3) 국내외 연구 및 기술 현황 ...14
- 2. 연구의 내용 및 결과 ...17
- 2.1. 연구 방법 ...17
- 2.2. 연구 결과 ...21
- 2.2.1. 암 발생위험예측 통계 모델 ...21
- 2.2.1.1. 50세 미만 여성 유방암 ...21
- 2.2.1.2. 50세 이상 여성 유방암 ...30
- 2.2.1.3. 남성 폐암 ...38
- 2.2.1.4. 남성 위암 ...59
- 2.2.1.5. 여성 위암 ...72
- 2.2.1.6. 남성 대장암 ...81
- 2.2.1.7. 여성 대장암 ...93
- 2.2.1.8. 여성 자궁경부암 ...98
- 2.2.2. 암 위험요인 분석 ...103
- 2.2.2.1. 식이(diet)와 위암 발생위험 분석 ...103
- 2.2.2.2. 식이(diet)와 대장암 발생위험 분석 ...105
- 2.2.2.3.남녀 대장직장암 발생부위별 위험요인 분석 ...107
- 2.2.3. 암 발생위험 예측 시스템 컨텐츠 및 알고리즘 개발 ...112
- 2.2.3.1. 여성 유방암 ...112
- 2.2.3.2. 남성 폐암 ...112
- 3. 연구결과 고찰 및 결론 ...113
- 4. 연구성과 및 목표달성도 ...117
- (1) 연구성과 ...117
- (2) 목표달성도 ...120
- 5. 연구결과의 활용계획 ...122
- (1) 연구종료 2년후 예상 연구성과 ...122
- (2) 연구성과의 활용계획 ...122
- 6. 참고문헌 ...124
- 7. 첨부 서류 ...131
- 첨부 1. 연구과제와 관련된 과제책임자의 대표적 논문 초록페이지 사본 1 ...131
- 첨부 2. 연구과제와 관련된 과제책임자의 대표적 논문 초록페이지 사본 2 ...132
- 첨부 3. 50세 미만 여성 유방암 단변량 분석 ...133
- 첨부 4. 50세 이상 여성 유방암 단변량 분석 ...139
- 첨부 5. 남성 위암 단변량 분석...145
- 첨부 6. 남성 위암 단변량 분석 (1996년 위암 발생 제외)...157
- 첨부 7. 남성 위암 단변량 분석 (1996-1997년 위암 발생 제외)...169
- 첨부 8. 여성 위암 단변량 분석...181
- 첨부 9. 여성 위암 단변량 분석 (1996년 위암 발생 제외)...193
- 첨부 10. 여성 위암 단변량 분석 (1996-1997년 위암 발생 제외)...205
- 첨부 11. 남성 대장암 단변량 분석...217
- 첨부 12. 여성 대장암 단변량 분석...225
- 첨부 13. 여성 유방암 발생 위험률 자동 산출 시스템 알고리즘...233
- 첨부 14. 남성 폐암 발생 위험률 자동 산출 시스템 알고리즘...254
※ AI-Helper는 부적절한 답변을 할 수 있습니다.