[논문]머신러닝 기반 신체 계측정보를 이용한 CT 피폭선량 예측모델 비교

홍동희

doi:10.17946/jrst.2020.43.6.503

문제 정의

1과 같이 예측모델을 구성하였다. 구성된 데이터 셋을 기준으로 신체 계측에 따른 피폭선량 예측모델을 개발하고자 하였다. 다음으로 랜덤포레스트, 선형회귀분석, SVM 알고리즘을 통해 예측모델을 생성하여 예측률 및 정확도를 파악하고자 하였다.
구성된 데이터 셋을 기준으로 신체 계측에 따른 피폭선량 예측모델을 개발하고자 하였다. 다음으로 랜덤포레스트, 선형회귀분석, SVM 알고리즘을 통해 예측모델을 생성하여 예측률 및 정확도를 파악하고자 하였다.
대부분 기계학습 알고리즘은 분류와 결과값 추정을 동시에 수행하지만 결과값 추정에 대표적인 알고리즘으로 선형회귀분석(Linear regression), 의사결정 나무(Decision tree analysis), 신경망(Neural network), SVM(Surport vector machine), 랜덤포레스트(Random roest) 등이 있다. 본 연구는 CT 검사 시 쉽게 측정 가능한 신체 계측 자료를 기반으로 환자맞춤 방사선 피폭선량 예측모델을 개발하고 추후 DRL 설정과 방사선량 관리 시스템의 기초 자료로 활용되고자 한다. 또한, 기계학습 알고리즘 중 데이터마이닝에 최적인 선형회귀분석, SVM, 랜덤 포레스트를 사용하여 분석하고 피폭선량 예측에 가장 적합한 모델을 비교 제시하고자 한다.
시도되고 있다[17]. 본 연구는 시간과 고도의 기술이 필요한 영상 생성 머신러닝보다 쉽게 접할 수 있는 데이터마이닝에 기반한 머신러닝 모델을 활용한 것이며 팬텀이 아닌 실제 환자 데이터를 바탕으로 피폭선량을 최소화하는데 노력하였다.
본 연구는 신체계측 자료를 기반으로 CT 검사 시 피폭선량을 예측하여 산출할 수 있는 최적의 머신러닝 알고리즘을 제시하고 기초자료로 사용하고자 하였고, 그 결과는 다음과 같다.
이에 해당하는 알고리즘은 선형회귀분석(linear regression analysis), 의사결정나무(decision tree analysis), 신경망(neural network), SVM(support vector machine), 랜덤포레스트(random forest)가 해당된다. 이에 영상분석보다 데이터마이닝에 많이 쓰이는 선형회귀분석, SVM, 랜덤 포레스트를 대상으로 분석하고자 한다.

제안 방법

SVMe 분류 및 판별, 추정을 할 수 있는 알고리즘으로 커널(kernel)은 시그모이드 커널(sigmoid kernel)을 설정하였고, 회귀정도를 나타내는 엡실론(epsilon)은 0.1로 설정하여 진행하였다. 랜덤 포레스트 알고리즘은 10개의 붓스트랩을 기준으로 진행하였고 선형회귀분석은 정규화를 위해 회귀계수를 Ridge방법을 이용하여 축소 진행하였다.
그러나 현재 임상에서 근거로 제시하는 DRLe 특수성을 반영하지 못한 결과이기에 특수한 경우의 수를 반영한 피폭선량 예측자료가 필요하다. 그러므로 특수한 경우의 수를 반영한 예측 피폭선량 값을 알아보기 위한 다양한 머신러닝 기법을 활용하였고 피폭선량에 가장 적합한 모델링을 제시하고자 하였다.
본 연구는 CT 검사 시 쉽게 측정 가능한 신체 계측 자료를 기반으로 환자맞춤 방사선 피폭선량 예측모델을 개발하고 추후 DRL 설정과 방사선량 관리 시스템의 기초 자료로 활용되고자 한다. 또한, 기계학습 알고리즘 중 데이터마이닝에 최적인 선형회귀분석, SVM, 랜덤 포레스트를 사용하여 분석하고 피폭선량 예측에 가장 적합한 모델을 비교 제시하고자 한다.
추출된 110개 샘플 중 66%는 훈련 셋으로 사용하고, 나머지 44%는 검증을 위한 테스트 셋으로 사용하였다. 변수(feature) 선정 시 피폭선량에 관계되는 신체 계측 자료 즉, 키와 몸무게를 포함한 실제 관전압 (kVp), 관전류(mAs), CTDIvol(CT dose index volume), 조사시간(TI), 절편두께(Slice thickness), 성별, 나이를 독립변수로 DLP(dose length product)를 목표변수로 사용하였다(Table 1).
이러한 랜덤포레스트, 선형회귀분석, SVM의 알고리즘을 활용한 예측변수의 정확도 및 중요도를 살펴보기 위해 5개를 층화시켜 교차타당성을 분석하였다<;Table 2>. 평가모델의 정확도는 평균제곱오차(MSE), 평균제곱근오차(RMSE), 평균절대오차(MAE)가 작을수록 좋은 모델이고, 설명력 지수인 R2가21에 가까울수록 좋은 모델로 평가한다.

대상 데이터

데이터의 전처리와 샘플 선별에 있어, 전체 샘플 수 250개 중 조영제 사용 없이 흉부 CT 검사만 진행된 샘플을 추출하였고 이 중 키와 몸무게 변수가 포함된 샘플 110개를 추출하였다. 추출된 110개 샘플 중 66%는 훈련 셋으로 사용하고, 나머지 44%는 검증을 위한 테스트 셋으로 사용하였다.
본 연구에 사용한 데이터는 서울 소재 종합병원의 흉부 CT 검사 자료로써 환자의 개인정보를 제외하고 신체 계측자료가 포함된 데이터를 기준으로 데이터 셋(data set)을 구성하였다. 데이터의 전처리와 샘플 선별에 있어, 전체 샘플 수 250개 중 조영제 사용 없이 흉부 CT 검사만 진행된 샘플을 추출하였고 이 중 키와 몸무게 변수가 포함된 샘플 110개를 추출하였다.
데이터의 전처리와 샘플 선별에 있어, 전체 샘플 수 250개 중 조영제 사용 없이 흉부 CT 검사만 진행된 샘플을 추출하였고 이 중 키와 몸무게 변수가 포함된 샘플 110개를 추출하였다. 추출된 110개 샘플 중 66%는 훈련 셋으로 사용하고, 나머지 44%는 검증을 위한 테스트 셋으로 사용하였다. 변수(feature) 선정 시 피폭선량에 관계되는 신체 계측 자료 즉, 키와 몸무게를 포함한 실제 관전압 (kVp), 관전류(mAs), CTDIvol(CT dose index volume), 조사시간(TI), 절편두께(Slice thickness), 성별, 나이를 독립변수로 DLP(dose length product)를 목표변수로 사용하였다(Table 1).

데이터처리

1로 설정하여 진행하였다. 랜덤 포레스트 알고리즘은 10개의 붓스트랩을 기준으로 진행하였고 선형회귀분석은 정규화를 위해 회귀계수를 Ridge방법을 이용하여 축소 진행하였다.
Orange는 오픈 소스 Python 기반(Anaconda Mini 버전포함)의 데이터 시각화, 머신러닝 및 데이터 마이닝 툴킷이며 탐색적 데이터 분석 및 대화식 데이터 시각화를 위한 시각적 프로그래밍 프로트 엔드가 특징이다. 머신러닝 알고리즘은 분류 및 판별과 결과값 추정으로 나눌 수 있는데 본 연구는 결과값을 추정하기에 분류와 결과값 추정이 모두 가능한 랜덤포레스트과 SVM을 사용하였고, 범주형 목표 변수에 최적인 선형회귀분석을 사용하여 3가지 알고리즘의 정확도와 예측률을 비교하였다.

이론/모형

본 연구의 예측 모델 개발에 사용되고 있는 머신러닝 알고리즘으로 오픈 소프트웨어인 Orange version 3.26.0을 사용하여[11] 랜덤포레스트, 선형회귀분석, SVM 알고리즘을 통해 피폭선량을 예측하였다. Orange는 오픈 소스 Python 기반(Anaconda Mini 버전포함)의 데이터 시각화, 머신러닝 및 데이터 마이닝 툴킷이며 탐색적 데이터 분석 및 대화식 데이터 시각화를 위한 시각적 프로그래밍 프로트 엔드가 특징이다.
앞서 연구한 체지방 측정 정보를 이용한 고콜레스테롤혈증 예측은 CFS 기반 naive bayes 모델을 이용하였고 변수들을 통합하여 머신러닝 적용함으로써 예측력을 높였다[2]. 본 연구에서 사용된 모델은 연속형 예측 모델이기에 선행연구에서 사용된 분류 모델과 차이는 있지만 가장 변수 중요도가 높게 분석된 몸무게와 관련된 변수를 추가하고 러닝 기법을 달리한다면 충분히 예측력을 높일 수 있을 것이라 예상된다.
연구에 사용된 머신러닝 알고리즘은 랜덤포레스트, 선형 회귀분석, SVM 알고리즘이며 이 중 모형 정확도는 선형 회귀분석이 가장 정확하였고 예측값에 대한 정확도가 가장 높은 알고리즘은 랜덤포레스트였다. 각 모델의 예측에 가장 큰 요인으로 몸무게, 관전류, 키였으며 이는 쉽게 CT 검사 시 획득할 수 있는 자료이므로 임상에 적용 시 활용도가 높을 것으로 예상된다.

성능/효과

748로 선형회귀분석이 가장 낮게 분석되었다. 또한, 랜덤포레스트의 R2는 0.840, 선형 회귀분석의 R2는 0.969, SVM의 R2는 0.189로 선형회귀분석이 가장 높은 것으로 나타나 가장 좋은 모델로 분석되었다.
또한, 임상에서 CT 검사 진행 시 평소보다 많은 선량이 피폭된 것을 종종 확인하게 된다. 이는 환자에게 과잉 노출된 경우이며 투여된 선량이 적정수준인지 여부를 판단할 수 있는 근거가 필요하다.
2와 같다. 랜덤 포레스트는 관전류(0.205), 몸무게(0.192), 나이(0.140), 키 (0.122), 성별(0.024)순으로 나타났고, 선형회귀분석은 몸무게(0.173), 관전류(0.170), 나이(0.153), 키(0.129), 성별 (0.041) 순으로 중요도가 높게 나타났으며 SVMe 관전류 (0.214), 몸무게(0.201), 나이(0.180), 키(0.151), 성별 (0.043)순으로 중요도가 높게 나타났다. 관전압, 조사시간, 절편두께는 0.
본 연구에 사용된 머신러닝 모델 중 랜덤포레스트와 선형 회귀분석은 높은 정확도를 보인 반면 SVMe 굉장히 낮은 정확도를 보였다. 비록 피폭선량의 활용 모델로 SVMe 어려울 것으로 분석되었지만 이는 SVM의 단점인 변수의 민감도가 반영된 결과라고 여겨지며 추후 연구에 독립변수와 데이터 셋의 양을 늘린다면 SVM의 정확도도 올라가 충분히 활용 가치가 있을 것이라 예상된다.
평가모델의 정확도는 평균제곱오차(MSE), 평균제곱근오차(RMSE), 평균절대오차(MAE)가 작을수록 좋은 모델이고, 설명력 지수인 R2가21에 가까울수록 좋은 모델로 평가한다. 분석 결과, 랜덤포레스트의 MSE는 1026.416, RMSE는 32.038,MAE는 15.677, 선형회귀분석의 MSE는 199.107, RMSE는 14.111, MAE는 10.299, SVM의 MSE는 5208.721, RMSE 는 72.171, MAE는 40.748로 선형회귀분석이 가장 낮게 분석되었다. 또한, 랜덤포레스트의 R2는 0.
평가모델의 정확도와 마찬가지로 평균제곱오차(MSE), 평균 제곱근 오차(RMSE), 평균절대오차(MAE)가 작을수록, 설명력 지수인 R2가 1에 가까울수록 예측력에 대한 신뢰도가 높은 것으로 평가한다. 분석결과, 랜덤포레스트의 MSE는 89.433, RMSE 는 9.457, MAE는 6.406, 선형회귀분석의 MSE는 176.220, RMSE는 13.275, MAE는 9.802, SVM의 MSE는 5110.783, RMSE는 71.490, MAE는 39.026으로 랜덤포레스트가 가장 낮게 분석되었다. 또한, 랜덤포레스트의 R2는 0.
평가모델의 정확도는 평균제곱오차(MSE), 평균제곱근오차(RMSE), 평균절대오차(MAE)가 작을수록 좋은 모델이고, 설명력 지수인 R2가21에 가까울수록 좋은 모델로 평가한다. 분석 결과, 랜덤포레스트의 MSE는 1026.

후속연구

랜덤포레스트였다. 각 모델의 예측에 가장 큰 요인으로 몸무게, 관전류, 키였으며 이는 쉽게 CT 검사 시 획득할 수 있는 자료이므로 임상에 적용 시 활용도가 높을 것으로 예상된다. 또한, 랜덤포레스트와 선형회귀분석의 모델 정확도와 예측 정확도 차이가 크지 않아 두 모델의 단점을 보완하여 사용한다면 둘 다 피폭선량을 예측 활용하는데 신뢰도 높은 알고리즘이 될 것으로 판단된다.
제정이 필요하다고 하였다[2, 14-15]. 그러기 위해선 다양한 환자와 장비 특성을 고려하여 각 병원마다 예측된 피폭선량을 기반으로 정립되어야 실제 임상에서 활용할 수 있는 의미 있는 기준이 될 수 있으리라 여겨진다.
각 모델의 예측에 가장 큰 요인으로 몸무게, 관전류, 키였으며 이는 쉽게 CT 검사 시 획득할 수 있는 자료이므로 임상에 적용 시 활용도가 높을 것으로 예상된다. 또한, 랜덤포레스트와 선형회귀분석의 모델 정확도와 예측 정확도 차이가 크지 않아 두 모델의 단점을 보완하여 사용한다면 둘 다 피폭선량을 예측 활용하는데 신뢰도 높은 알고리즘이 될 것으로 판단된다.
높였다[2]. 본 연구에서 사용된 모델은 연속형 예측 모델이기에 선행연구에서 사용된 분류 모델과 차이는 있지만 가장 변수 중요도가 높게 분석된 몸무게와 관련된 변수를 추가하고 러닝 기법을 달리한다면 충분히 예측력을 높일 수 있을 것이라 예상된다.
보였다. 비록 피폭선량의 활용 모델로 SVMe 어려울 것으로 분석되었지만 이는 SVM의 단점인 변수의 민감도가 반영된 결과라고 여겨지며 추후 연구에 독립변수와 데이터 셋의 양을 늘린다면 SVM의 정확도도 올라가 충분히 활용 가치가 있을 것이라 예상된다. 앞으로 본 연구 결과를 토대로 피폭선량 예측에 머신러닝 활용이 활발히 이용될 수 있는 기초자료로 활용될 것이라 기대된다.
비록 피폭선량의 활용 모델로 SVMe 어려울 것으로 분석되었지만 이는 SVM의 단점인 변수의 민감도가 반영된 결과라고 여겨지며 추후 연구에 독립변수와 데이터 셋의 양을 늘린다면 SVM의 정확도도 올라가 충분히 활용 가치가 있을 것이라 예상된다. 앞으로 본 연구 결과를 토대로 피폭선량 예측에 머신러닝 활용이 활발히 이용될 수 있는 기초자료로 활용될 것이라 기대된다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

머신러닝 기반 신체 계측정보를 이용한 CT 피폭선량 예측모델 비교
Comparison of CT Exposure Dose Prediction Models Using Machine Learning-based Body Measurement Information 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (17)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

머신러닝 기반 신체 계측정보를 이용한 CT 피폭선량 예측모델 비교 Comparison of CT Exposure Dose Prediction Models Using Machine Learning-based Body Measurement Information 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (17)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

머신러닝 기반 신체 계측정보를 이용한 CT 피폭선량 예측모델 비교
Comparison of CT Exposure Dose Prediction Models Using Machine Learning-based Body Measurement Information 원문보기

AI 본문요약
AI-Helper