[논문]건강검진 데이터 기반 흡연자 분류를 위한 모형별 성능 분석

윤지선; 유헌창

문제 정의

평가결과를 통해 종양 분류를 위한 특징추출은 Information Gain을 사용하고 분류기법으로 SVM 알고리즘을 제안하였다[1]. [2]는 간암 진단을 위한 최적의 분류모형을 제안하여 간암 초기진단에 도움이 되고자 연구를 진행하였다.
그렇기 때문에 흡연여부 감별 시 외부요인에 영향을 덜 받는 지표가 금연사업에 필요하게 되었다. 그래서 국민건강보험공단에서 제공하는 건강검진데이터에 항상성을 가진 속성이 존재하다면, 이 데이터를 이용하여 흡연 여부 감별하는데 적합한 모형을 찾아 외부요인에 영향이 적은 지표를 개발하는데 도움이 되고자 연구를 진행하였다.
흡연 여부 감별에 적합한 모형을 학인하기 위해 속성에 따른 모형의 성능과 학습데이터 수에 따른 성능을 확인하기 위해 실험을 진행하였다. 속성에 따른 모델의 성능을 측정하기 위해 학습데이터의 속성을 추가 또는 제거를 하면서 총 6번 실험을 수행하였다.

제안 방법

속성에 따른 모형의 성능 변화 실험의 6번째 실험 조건(콜레스테롤과 신체조건 속성 제외)을 기준으로 실험을 진행하였다. 다만, 학습데이터 수를 10만, 25만, 50만, 75만, 100만건으로 변경하여 모델별 성능을 측정하였다.
실험은 속성에 따른 모형의 성능과 학습데이터 수에 따른 모형의 성능을 측정하였다. 또한 각 모형별 성능평가는 내부평가 방법인 정확도(accuracy), 정밀도(precision), 재현율(recall), 조화 평균(f1-score)값을 확인하여 모형의 성능을 확인하였다.
여기에 단일 모형의 성능을 높이기 위해 앙상블 알고리즘을 적용하였다. 또한 실험인자로 앙상블 기법 그리고 분류기의 개수를 적용하고 반응변수로는 분류 정확도, 민감도, 그리고 특이도를 값으로 하여 삼원배치법 실험을 실시하였다. 실험한 결과를 분산 분석과 던칸(Duncan) 검정을 이용하여 분석한 결과를 소개하였다[2].
속성에 따른 모델의 성능을 측정하기 위해 학습데이터의 속성을 추가 또는 제거를 하면서 총 6번 실험을 수행하였다. 또한 학습데이터 수에 따른 성능을 측정하기 위해 학습데이터의 수를 늘려가면서 총 5번의 실험을 진행하였다.
흡연 여부 감별에 적합한 모형을 학인하기 위해 속성에 따른 모형의 성능과 학습데이터 수에 따른 성능을 확인하기 위해 실험을 진행하였다. 속성에 따른 모델의 성능을 측정하기 위해 학습데이터의 속성을 추가 또는 제거를 하면서 총 6번 실험을 수행하였다. 또한 학습데이터 수에 따른 성능을 측정하기 위해 학습데이터의 수를 늘려가면서 총 5번의 실험을 진행하였다.
속성에 따른 모형의 성능 변과 실험은 에 따라 속성을 변화시키며 실험을 진행하였다.
속성에 따른 모형의 성능 변화 실험에 사용한 7개 모형별 최고치 성능을 비교하였다. 그 결과 정확도는 최저 61%(KNN)에서 최고 70%(dandomforest, gradientboosting)로 9%차이를 보였다.
속성에 따른 모형의 성능 변화 실험의 6번째 실험 조건(콜레스테롤과 신체조건 속성 제외)을 기준으로 실험을 진행하였다. 다만, 학습데이터 수를 10만, 25만, 50만, 75만, 100만건으로 변경하여 모델별 성능을 측정하였다.
모형별 성능 평가를 위해 SVM, Logistic Regression,KNN, Decision tree, RandomForest, GradientBoosting, MLP 모형을 이용하였다. 실험은 속성에 따른 모형의 성능과 학습데이터 수에 따른 모형의 성능을 측정하였다. 또한 각 모형별 성능평가는 내부평가 방법인 정확도(accuracy), 정밀도(precision), 재현율(recall), 조화 평균(f1-score)값을 확인하여 모형의 성능을 확인하였다.
[3]은 심혈관이나 관상 동맥 심장질환이 없는 환자의 위험인자로 부터 위험도를 평가하고, 향후 10년 내 당뇨병 및 심장질환이 발생할 위험도를 예측하였다. 여기에 예측의 성능을 높이기 위하여 SVM을 사용하였으며, 이를 검증하기 위하여 SVM을 사용한 회귀방법과 사용하지 않은 회귀 방법의 성능을 실험한 결과를 소개하였다[3]. [4]는 한국인 유방암 환자의 예후 인자 분석과 보조적 화학치료를 위한 환자군 선별을 위한 모형을 Decision tree를 이용하여 구현하였다.
이렇게 정규화된 데이터에서 Information Gain, Gini Index, One-dimensional Support Vector Machine, T-statistic 방법을 이용하여 특징을 추출하여 학습데이터로 이용하였다. 준비된 학습데이터를 이용하여 Naive Bayes, KNN, Decision Tree, Support Vector Machine, Neural Network 알고리즘을 적용하여 종양 분류 모델을 구축하고 성능평가를 하였다. 평가결과를 통해 종양 분류를 위한 특징추출은 Information Gain을 사용하고 분류기법으로 SVM 알고리즘을 제안하였다[1].
준비된 학습데이터를 이용하여 Naive Bayes, KNN, Decision Tree, Support Vector Machine, Neural Network 알고리즘을 적용하여 종양 분류 모델을 구축하고 성능평가를 하였다. 평가결과를 통해 종양 분류를 위한 특징추출은 Information Gain을 사용하고 분류기법으로 SVM 알고리즘을 제안하였다[1]. [2]는 간암 진단을 위한 최적의 분류모형을 제안하여 간암 초기진단에 도움이 되고자 연구를 진행하였다.

대상 데이터

국민건강보험공단에서 제공한 2016년 건강검진정보데이터의 속성 34개를 이용하였다. 속성은 <표 1>에 정리하였다.
실험에 사용한 실험데이터가 공공데이터 개방 정책에 따라 제공된 데이터를 이용하였다. 그래서 타겟 분류를 위한 속성이 부족하였다.
결측치 값을 가진 속성, 단일값을 가진 속성 그리고 흡연 여부 판별에 불필요한 속성을 학습데이터에서 제외하였다. 총 22개 속성을 학습데이터로 이용하였으며 이중 흡연상태를 타겟 속성으로 사용하였다. 또한 실험에는 기계학습 모형인 SVM, Logistic Regression, KNN, Decision tree, 앙상블 모형 RandomForest, GradientBoosting 그리고 퍼셉트론 기반의 모형인 MLP 등 7개의 모형을 실험에 사용하였다.

데이터처리

또한 실험인자로 앙상블 기법 그리고 분류기의 개수를 적용하고 반응변수로는 분류 정확도, 민감도, 그리고 특이도를 값으로 하여 삼원배치법 실험을 실시하였다. 실험한 결과를 분산 분석과 던칸(Duncan) 검정을 이용하여 분석한 결과를 소개하였다[2]. [3]은 심혈관이나 관상 동맥 심장질환이 없는 환자의 위험인자로 부터 위험도를 평가하고, 향후 10년 내 당뇨병 및 심장질환이 발생할 위험도를 예측하였다.
학습데이터 수에 따른 성능 변화 실험에 사용한 7개 모형별 최고치 성능을 비교하였다. 그 결과, 정확도는 최저 61%(KNN)에서 최고 70%(randomforest, gradientboosting)로 9%차이를 보였다.

이론/모형

총 22개 속성을 학습데이터로 이용하였으며 이중 흡연상태를 타겟 속성으로 사용하였다. 또한 실험에는 기계학습 모형인 SVM, Logistic Regression, KNN, Decision tree, 앙상블 모형 RandomForest, GradientBoosting 그리고 퍼셉트론 기반의 모형인 MLP 등 7개의 모형을 실험에 사용하였다.
모형별 성능 평가를 위해 SVM, Logistic Regression,KNN, Decision tree, RandomForest, GradientBoosting, MLP 모형을 이용하였다. 실험은 속성에 따른 모형의 성능과 학습데이터 수에 따른 모형의 성능을 측정하였다.
예측모형으로 Logistic Regression, CART, Neural Network를 사용하였다. 여기에 단일 모형의 성능을 높이기 위해 앙상블 알고리즘을 적용하였다. 또한 실험인자로 앙상블 기법 그리고 분류기의 개수를 적용하고 반응변수로는 분류 정확도, 민감도, 그리고 특이도를 값으로 하여 삼원배치법 실험을 실시하였다.
예측모형으로 Logistic Regression, CART, Neural Network를 사용하였다. 여기에 단일 모형의 성능을 높이기 위해 앙상블 알고리즘을 적용하였다.
[1]은 유전자 발현 정보를 정량적인 수치로 제공하는 마이크로어레이(microarray) 데이터 중, 백혈병에 대한 데이터를 정규화하였다. 이렇게 정규화된 데이터에서 Information Gain, Gini Index, One-dimensional Support Vector Machine, T-statistic 방법을 이용하여 특징을 추출하여 학습데이터로 이용하였다. 준비된 학습데이터를 이용하여 Naive Bayes, KNN, Decision Tree, Support Vector Machine, Neural Network 알고리즘을 적용하여 종양 분류 모델을 구축하고 성능평가를 하였다.

성능/효과

2개 실험의 차이를 재현율 기준으로 보면, ‘속성에 따른 모형의 성능 변화 실험’에서는 최고 36%의 차이를 보이는 것을 확인했다.
속성에 따른 모형별 성능의 최저치와 최대치의 차를 확인하였다. 그 결과 정확도는 최저 1%(Logistic Regression, KNN)에서 최고4%(decision tree) 차이를 보여주고 있다. 정밀도에서는 최저 2%(randomforest, gradientboosting, MLP)에서 최고 4%(SVM ,logistic regression, KNN, decision tree)차이가 나타나고 있다.
속성에 따른 모형의 성능 변화 실험에 사용한 7개 모형별 최고치 성능을 비교하였다. 그 결과 정확도는 최저 61%(KNN)에서 최고 70%(dandomforest, gradientboosting)로 9%차이를 보였다. 정밀도는 최저 39%(KNN)에서 최고 52%(Logistic Regression)로 13%차이를 보여 주었다.
학습데이터 수에 따른 모형별 성능의 최저치와 최대치를 차이를 확인하였다. 그 결과, 정확도는 모형 별 최저 0%(SVM, decision tree, randomforest, gradientboosting)에서 최고1% (Logistic Regression, KNN, MLP) 차이를 보이고 있다. 정밀도는 최저 0%(randomforest)에서 최고 2%(SVM, MLP) 차이를 나타내고 있다.
학습데이터 수에 따른 성능 변화 실험에 사용한 7개 모형별 최고치 성능을 비교하였다. 그 결과, 정확도는 최저 61%(KNN)에서 최고 70%(randomforest, gradientboosting)로 9%차이를 보였다. 정밀도는 최저 39%(KNN)에서 최고 52%(Logistic Regression)로 13%차이를 나타내고 있다.
그리고 모델 중 logisc Regression이 최저 23%에서 최고 36%로 13%의 편차를 보여 데이터 수에 따라 예측결과에 영향을 가장 많이 받는 모형임을 확인하였다.
또한 성별과 연령속성을 제외 한 결과 33%까지 재현율이 하락하여 흡연자를 분류하는데 중요한 속성임을 확인하였다. 그리고 콜레스테롤 수치와 신체조건 속성을 학습데이터에서 제외한 경우 SVM의 재현율이 66%까지 향상되어 해당 속성이 흡연자 예측에 불필요한 속성임을 실험을 통해서 확인하였다.
모형별 성능을 확인했을 때, 재현율의 경우 SVM이 63%로 가장 좋은 성능을 보이는 것을 확인하였다. 또한 성별과 연령속성을 제외 한 결과 33%까지 재현율이 하락하여 흡연자를 분류하는데 중요한 속성임을 확인하였다. 그리고 콜레스테롤 수치와 신체조건 속성을 학습데이터에서 제외한 경우 SVM의 재현율이 66%까지 향상되어 해당 속성이 흡연자 예측에 불필요한 속성임을 실험을 통해서 확인하였다.
속성에 따른 모형의 성능 변화 실험에서 SVM은 63%의 재현율을 보였다. 또한 학습데이터 수에 따른 성능 변화실험에서도 SVM 모형이 68%의 재현율을 보였다. 이 실험 결과를 통해 7개 모형 중 SVM이 실제 흡연자를 판정하는 성능이 가장 좋은 성능을 보이는 것을 확인하였다.
또한 재현율은 최저 0%(decision tree)에서 최고13%(Logistic Regression)차이를 보이고 있다. 마지막으로 조화 평균은 최저 0%(SVM, decision tree, gradientboosting)에서 최고 10%의 차이를 보여주고 있음을 실험을 통해 확인하였다. 관련 내용은 <표 6>, <표 7>그리고 <표 8>에 정리하였다.
또한 재현율은 최저 4%(KNN, decision tree)에서 최고30%(SVM) 차이를 보이고 있다. 마지막으로 조화 평균은 최저 3%(KNN)에서 최고 15%(SVM)의 차이가 나타나는 것을 실험을 통해서 확인하였다.
또한 재현율은 최저 26%(KNN)에서 최고68%(SVM)로 42%차이를 보이고 있다. 마지막으로 조화 평균은 최저 31%(KNN)에서 최고 55%(SVM)로 24%의 차이를 보여주고 있음을 실험을 통해 확인하였다.
또한 재현율은 최저 27%(KNN)에서 최고63%(SVM)로 36% 차이를 보여주고 있다. 마지막으로 조화 평균은 최저 31%(KNN)에서 최고 55%(SVM, gradientboosting)로 24%의 차이를 보여주고 있음을 실험을 통해 확인하였다.
모형별 성능을 확인했을 때, 재현율의 경우 SVM이 63%로 가장 좋은 성능을 보이는 것을 확인하였다. 또한 성별과 연령속성을 제외 한 결과 33%까지 재현율이 하락하여 흡연자를 분류하는데 중요한 속성임을 확인하였다.
속성에 따른 모형의 성능 변화 실험에서 SVM은 63%의 재현율을 보였다. 또한 학습데이터 수에 따른 성능 변화실험에서도 SVM 모형이 68%의 재현율을 보였다.
그리고 ‘학습데이터 수에 따른 성능 변화실험’에서는 최고 42%의 차이를 확인하였다. 이 실험 결과, 타겟을 판정하기 위한 속성도 중요하지만 적합한 모형선택이 더 중요하다는 것을 확인하였다.
또한 학습데이터 수에 따른 성능 변화실험에서도 SVM 모형이 68%의 재현율을 보였다. 이 실험 결과를 통해 7개 모형 중 SVM이 실제 흡연자를 판정하는 성능이 가장 좋은 성능을 보이는 것을 확인하였다.
재현율의 경우 SVM이 68%로 가장 좋은 성능을 보였으나, 학습데이터 수에 따라 각 모델별 성능의 차이는 크지 않은 것으로 이번 실험을 통해 확인하였다.

후속연구

또한 의학에 대한 지식이 없기 때문에 속성 선택에 한계점이 존재하였다. 이런 내용을 보완하여 추가 연구를 진행하다면 외부요인에 영향이 적은 흡연여부 감별 지표 개발 시 활용이 가능할 것으로 예측된다.

핵심어	질문	논문에서 추출한 답변
	흡연 여부 감별을 위한 지표 중 니코틴은 어떤 단점이 있는가?	이러한 지표 중 일산화탄소는 반감기가 4시간으로 짧고 매연, 운동 등이 예측 결과에 영향을 줄 수 있다. 또 다른 지표인 니코틴은 담배에 특징적인 물질로서 가장 적합한 지표이지만, 반감기가 1~2시간으로 일산화탄소보다 더 짧다는 단점이 있다. 그렇기 때문에 흡연여부 감별 시 외부요인에 영향을 덜 받는 지표가 금연사업에 필요하게 되었다.
	흡연 여부 감별을 위한 지표 중 일산화탄소는 어떤 특징이 있는가?	그렇기 때문에 흡연여부 감별을 위한 여러 가지 지표가 개발되었다. 이러한 지표 중 일산화탄소는 반감기가 4시간으로 짧고 매연, 운동 등이 예측 결과에 영향을 줄 수 있다. 또 다른 지표인 니코틴은 담배에 특징적인 물질로서 가장 적합한 지표이지만, 반감기가 1~2시간으로 일산화탄소보다 더 짧다는 단점이 있다.
	흡연 여부 감별하는데 적합한 모형을 찾기 위해 어떤 모형을 이용하였나?	모형별 성능 평가를 위해 SVM, Logistic Regression,KNN, Decision tree, RandomForest, GradientBoosting, MLP 모형을 이용하였다. 실험은 속성에 따른 모형의 성능과 학습데이터 수에 따른 모형의 성능을 측정하였다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

건강검진 데이터 기반 흡연자 분류를 위한 모형별 성능 분석
Performance Evaluation between Models for Smoker Classification Based on Health Examination Data 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

건강검진 데이터 기반 흡연자 분류를 위한 모형별 성능 분석 Performance Evaluation between Models for Smoker Classification Based on Health Examination Data 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

건강검진 데이터 기반 흡연자 분류를 위한 모형별 성능 분석
Performance Evaluation between Models for Smoker Classification Based on Health Examination Data 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper