$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

COPD 코호트 자료에서의 Machine Learning 방법론 비교
Comparison of Machine Learning Methodology in COPD Cohort Data 원문보기

The journal of Bigdata = 한국빅데이터학회지, v.2 no.2, 2017년, pp.115 - 128  

정현명 (인하대학교 통계학과) ,  박헌진 (인하대학교 통계학과) ,  이진국 (서울성모병원) ,  이종민 (서울성모병원)

초록
AI-Helper 아이콘AI-Helper

최근 머신러닝 방법은 높은 예측력과 함께 널리 이용되지만 머신러닝을 제대로 활용하기 위해서 데이터가 가진 한계를 통계적 기법으로 해결한다면 기존보다 더 높은 예측력을 이끌어 낼 수 있다. 본 연구에서는 Longitudinal and Imbalanced Data에서 SMOTE 방법을 활용하여 불균형 문제를 해결한 결과 예측력이 증가하는 것을 확인할 수 있었다. 추가적으로 만성폐쇄성폐질환 급성악화 관련 연구가 활발히 이루어지고 있지만 급성악화와 관련 있는 요인을 찾는 연구만 이루어지고 있어 여러 요인들에 대한 복합적인 관철과 예측모형을 통한 급성악화 예측 연구는 이루어지지 않는다. 본 연구에서는 여러 요인을 같이 살펴봤을 때 어떤 요인들이 만성폐쇄성폐질환 급성악화와 관련이 있는지 확인하고 개인 맞춤형 특정 질환 예측 모형을 구축하였다.

Abstract AI-Helper 아이콘AI-Helper

Recently, Machine Learning Methods are widely used with high prediction performance. But if the limit of the data is solved by the statistical technique, It can, lead to higher prediction performance than the existing one. In this study, the SMOTE method is used to solve the imbalance problem in the...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • AUC를 통해 전반적인 모델의 예측력을 살펴보는 것 외에도 본 연구에서의 목표는 COPD 급성악화를 찾아내는 것이고 급성악화 질병은 매우 위험한 질병이기 때문에 민감도에 해당하는 Sensitivity를 통해 급성악화에 걸린 사람 중 얼마나 많은 인원을 찾아낼 수 있는지 또한 중요하다. 민감도 기준으로 살펴봤을 때 GEE는 AUC와 마찬가지로 SMOTE 비율이 높아질수록 좋으며 랜덤포레스트와 DNN은 AUC와 달리 SMOTE 비율이 높아질수록 민감도가 지속적으로 좋아지는 것을 확인할 수 있었고 랜덤포레스트가 SMOTE 400%일 때 0.
  • 본 연구는 Imbalanced and Longitudinal Data의 Parametric Model과 머신러닝의 비교를 하고 머신러닝 방법에서 Imbalanced 문제를 해결 했을 때 예측력의 변화를 살펴보는데 중점을 두었다.
  • 본 연구의 주 목적은 Imbalance이고 Longitudinal인 Data에서의 모델 비교도 목적에 있지만 추가적으로 이때까지 COPD 급성악화 연구는 COPD 급성 악화와 관련 있는 요인이 어떤 것인지 알아보는 단일적인 연구로만 이루어져 있어 여러 요인들을 복합적으로 봤을 때 어떤 요인이 가장 영향력이 크며 어떤 요인은 예측 관점에서 필요 없는지 확인하는 목적을 동시에 지니고 있다.
  • 만약 이런 특징을 지닌 급성악화를 미리 예견하고 치료를 준비하거나 대비책을 마련 한다면 급성악화로 인한 사망을 줄일 수 있을 것이라 기대할 수 있다. 위와 같은 급성악화에 대한 사망률을 줄이기 위해 본 연구에서는 COPD 급성악화 종류 중 Moderate, Severe 두 급성악화 정의에 대한 예측 모델링을 개발 하였다.
  • SMOTE(Synthetic Minority Over-sampling Technique)란 Over sampling의 방법 중 하나로 기존의 Re sampling에 의해 발생하는 Over fitting을 줄여 예측력을 올리고자 하는 방법론 이다[7]. 이 방법론은 기본적으로 KNN 알고리즘을 이용하여 Minority 부분 사이에 새로운 데이터를 인조적으로 생성하여 예측력을 올리고자 하는 방법론이다.
  • KOCOSS 코호트 자료를 통해 얻을 수 있는 폐 기능검사나 삶의 질 검사, 흡연력 등에 대한 연구는 이미 많이 이루어져 있고 현재 COPD 질병에 대한 관심의 증가와 함께 최근에는 이런 연구데이터 이상의 효과를 살피기 위해 환경적 요인들을 중점적으로 살펴보는 연구가 나타나고 있다. 이런 트렌드에 맞춰 본 연구에서는 기상청의 기상데이터[26], 에어코리아의 미세먼지데이터[27], 질병관리 본부의 주간 질병감시 정보 중 하나인 인플루엔자 및 호흡기 바이러스 주별 발생 정보[25] 등을 활용하여 현재 이루어지고 있는 여러 환경적 요인들에 대한 효과를 함께 살펴보았다.

가설 설정

  • GLM에서 Mixed Effect를 통한 모델링은 주로 Repeated Data에서 사용하지만 Longitudinal Data에서도 이용이 가능하다. 하지만 GLM의 경우에는 Stochastic process, Mixed distribution에 따라 환자군 별 시간에 따라 변화한다고 가정[22]하기 때문에 본 연구에서는 환자군 별로 heterogeneity를 지니는 것에 집중하기 위하여 GEE 방법을 이용하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
COPD 질병에서 가장 조심해야 할 것은? 이에 따라 대한결핵 및 호흡기학회에서 2014년 COPD 치료를 위한 Guideline을 제시하며 COPD 질병 치료에 대한 중요성을 나타내고 있다. 특히 COPD 질병에서 가장 조심해야 하는 것은 바로 급성악화이다[4, 11]. 급성악화의 종류는 Mild, Moderate, Severe 세 가지로 구분되며 COPD 질병 사망의 주 요인[4]인데 그 이유는 Aucte Exacerbation(급성악화) 발생 시 급격히 폐 기능이 떨어지기 때문에 호흡곤란으로 인해 사망할 수 있다[4, 11].
COPD란? Chronic Obstructive Pulmonary Disease(COPD)란 만성 폐쇄성 폐질환이라고 일컬으며 비가역적인 기류제한을 특징으로 하는 폐질환[2, 21]으로 만성염증을 동반하여 폐실질 손상을 일컫는다. COPD는 현재 세계에서 사망률 3위[2, 22], 우리나라에서는 사망률 7위에 이르고 특히 80세 이상에서는 전체 사망원인 중 5위를 차지[23]하고 있는 매우 위험한 질병이며 유병률 또한 매우 높아 2012년 기준 40세 이상에서는 14.
COPD 급성악화 예측 모델링 제작의 어려움을 극복하기 위해 어떠한 속성을 해결하여야 하는가? 특히 본 연구에서 추가적으로 발견한 문제는 Imbalance 문제로 COPD 유병 중 급성악화 발생률이 낮아 COPD로 인해 병원에 내원할 경우 불과 3% 정도만 급성악화로 인한 내원으로 확인되어 진다. 그렇기 때문에 Longitudinal 속성과 Imbalance 속성 두 가지를 해결하지 않은 이상 예측 모델을 만들기 어려움은 쉬이 예견할 수 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (27)

  1. 유광하, 정기석, 김영삼, 박용범, 신경철, 윤형규, 이상엽, 이진국, 이진화, "전국적 COPD Cohort 연구 기초 자료(KOCOSS 연구 cohort)", 대한결핵 및 호흡기학회 추계학술발표 초록집, pp.196-196, 2012. 

  2. 유지홍, "COPD 진료지침", 대한결핵 및 호흡기학회, 2014. 

  3. 이범석, "반응 표면 방법을 이용한 딥러닝 매개 변수 최적화 연구", 인하대학교학위논문, 2017. 

  4. Andersson, F., S. Borg, S.-A. Jansson, A.-C. Jonnson, A. Erincsson, C. Prutz, E. Ronmark, and B. Lundback, "The costs of exacerbations in chronic obstructive pulmonary disease (COPD)", Respiratory Medicine, Vol.96, No.9, pp.700-708, 2002. 

  5. Au, D.H., C.L. Bryson, J.W. Chine, H. Sun, E.M. Udris, L.E. Evans, and K.A. Bradley, "The Effects of Smoking Cessation on the Risk of Chronic Obstructive Pulmonary Disease Exacerbations", J Gen Intern Med, Vol.24, pp.457-463, 2009. 

  6. Burge, S. and J.A. Wedzicha, "COPD exacerbations: definitions and classifications", Eur Respir J, Vol.21, No.41, pp.46s-53s, 2003. 

  7. Chawla, N.V., K.W. Bowyer, L.O. Hall, and W.P. Kegelmeyer, "SMOTE: Synthetic Minority Over- sampling Technique", Journal of Artificial Intelligence Research, Vol.16, pp.321-357, 2002. 

  8. Donaldson, G.C., T.A.R. Seemungal, A. Bhowmik, and J.A. Wedzicha, "Relationship between exacerbations frequency and lung function decline in chronic obstructive pulmonary disease", Thorax, Vol.57, pp.847-852, 2002. 

  9. Gama, J. and G. Castillo, "Adaptive Bayes for User Modeling", EUNITE, 2002. 

  10. Hinton, G., L. Deng, D. Yu, G. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. Sainath, and B. Kingsbury, "Deep Neural Networks for Acoustic Modeling in Speech Recognition", IEEE Signal Processing Magazine, Vol.29, No.6, pp.82-97, 2012. 

  11. Hurst, J.R., "Susceptibility to Exacerbations in Chronic Obstructive Pulmonary Disease", The New England Journal of Medicine, Vol.363, No.12, 2010. 

  12. Khuri, A.I. and S. Mukhopadhyay, "Response surface methodology", TOC, Vol.2, No.2, pp.128-149, 2010. 

  13. Laird, N.M. and J.H. Ware, "Random-Effects Models for Longitudinal Data", Biometrics, Vol.38, pp.963-974, 1982. 

  14. Luts, J., G. Molenberghs, G. Verbeke, S. Van Huffel, and J.A.K. Suykens, "A mixed effects least suqres support vector machine models for classificatio of longitudinal data", Computational Statistics and Data Analysis, Vol.56, pp.611-628, 2012. 

  15. Nathalie, J. and S. Shaju, "The class imbalance problem: A systematic study", Intelligent Data Analysis, Vol.6, pp.429-449, 2002. 

  16. Seemungal, T., R. Happer-Owen, and A. Bhowmik, "Respiratory viruses, Symptoms, and Inflammatory Markers in Acute Exacerbations and Stable Chronic Obstructive Pulmonary Disease", Am J Respir Crit Care Med, Vol.164, No.9, pp.429-449, 2001. 

  17. Terence, A.R. and A. Jadwiga, "Exacerbation frequency and FEV1 decline of COPD: is it geographic?", European Respiratory Journal, Vo.l43, pp.1220-1222, 2014. 

  18. Teresa, T., "Progression from Asthma to Chronic Obstructive Pulmonary Disease Is Air Pollution a Risk Factor?", AM J Respir Crit Care Med, Vol.194, No.4, pp.429-438, 2016. 

  19. Tseng, C.M., Y.T. Chen, S.M. Ou, Y.H. Hsiao, S.Y. Li, S.J. Wang, A.C. Yang, T. Chen, and D. Perg, "The Effect of Cold Temperature on Increased Exacerbation of Chronic Obstructive Pulmonary Disease: A Nationwide Study", PLOS ONE, Vol.8, No.3, pp.e57066, 2013. 

  20. Tu, Y.H., Y. Zhang and G. Fei, "Utility of the CAT in therapy assessment of COPD exacerbations in China", BMC Pulmonary Medicine, pp.14-42, 2014. 

  21. Yoon, H.K., Y.B. Park, C.K. Rhee, J.H. Lee, and Y.M. Oh, "Summary of the Chronic Obstructive Pulmonary Disease Clinical Practive Guideline Revised in 2014", The Korean Academy of Tuberculosis and Respiratory Diseases, 2017. 

  22. Zeger, S.L., K.Y. Lian, and P.S. Albert, "Models for Longitudinal Data: A Generalized Estimating Equation Approach", Biometircs, Vol.44, pp.1049-1060, 1988. 

  23. http://health.chosun.com/site/data/html_dir/2016/09/27/2016092702474.html. 

  24. https://www.analyticsvidhya.com/blog/2017/03/imbalanced-classification-problem/. 

  25. http://www.cdc.go.kr/CDC/main.jsp. 

  26. http://www.kma.go.kr/index.jsp. 

  27. https://www.airkorea.or.kr/index. 

저자의 다른 논문 :

관련 콘텐츠

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로