This study aims to develop a patient-specific radiation exposure dose prediction model based on anthropometric data that can be easily measurable during CT examination, and to be used as basic data for DRL setting and radiation dose management system in the future. In addition, among the machine lea...
This study aims to develop a patient-specific radiation exposure dose prediction model based on anthropometric data that can be easily measurable during CT examination, and to be used as basic data for DRL setting and radiation dose management system in the future. In addition, among the machine learning algorithms, the most suitable model for predicting exposure doses is presented. The data used in this study were chest CT scan data, and a data set was constructed based on the data including the patient's anthropometric data. In the pre-processing and sample selection of the data, out of the total number of samples of 250 samples, only chest CT scans were performed without using a contrast agent, and 110 samples including height and weight variables were extracted. Of the 110 samples extracted, 66% was used as a training set, and the remaining 44% were used as a test set for verification. The exposure dose was predicted through random forest, linear regression analysis, and SVM algorithm using Orange version 3.26.0, an open software as a machine learning algorithm. Results Algorithm model prediction accuracy was R^2 0.840 for random forest, R^2 0.969 for linear regression analysis, and R^2 0.189 for SVM. As a result of verifying the prediction rate of the algorithm model, the random forest is the highest with R^2 0.986 of the random forest, R^2 0.973 of the linear regression analysis, and R^2 of 0.204 of the SVM, indicating that the model has the best predictive power.
This study aims to develop a patient-specific radiation exposure dose prediction model based on anthropometric data that can be easily measurable during CT examination, and to be used as basic data for DRL setting and radiation dose management system in the future. In addition, among the machine learning algorithms, the most suitable model for predicting exposure doses is presented. The data used in this study were chest CT scan data, and a data set was constructed based on the data including the patient's anthropometric data. In the pre-processing and sample selection of the data, out of the total number of samples of 250 samples, only chest CT scans were performed without using a contrast agent, and 110 samples including height and weight variables were extracted. Of the 110 samples extracted, 66% was used as a training set, and the remaining 44% were used as a test set for verification. The exposure dose was predicted through random forest, linear regression analysis, and SVM algorithm using Orange version 3.26.0, an open software as a machine learning algorithm. Results Algorithm model prediction accuracy was R^2 0.840 for random forest, R^2 0.969 for linear regression analysis, and R^2 0.189 for SVM. As a result of verifying the prediction rate of the algorithm model, the random forest is the highest with R^2 0.986 of the random forest, R^2 0.973 of the linear regression analysis, and R^2 of 0.204 of the SVM, indicating that the model has the best predictive power.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
1과 같이 예측모델을 구성하였다. 구성된 데이터 셋을 기준으로 신체 계측에 따른 피폭선량 예측모델을 개발하고자 하였다. 다음으로 랜덤포레스트, 선형회귀분석, SVM 알고리즘을 통해 예측모델을 생성하여 예측률 및 정확도를 파악하고자 하였다.
구성된 데이터 셋을 기준으로 신체 계측에 따른 피폭선량 예측모델을 개발하고자 하였다. 다음으로 랜덤포레스트, 선형회귀분석, SVM 알고리즘을 통해 예측모델을 생성하여 예측률 및 정확도를 파악하고자 하였다.
대부분 기계학습 알고리즘은 분류와 결과값 추정을 동시에 수행하지만 결과값 추정에 대표적인 알고리즘으로 선형회귀분석(Linear regression), 의사결정 나무(Decision tree analysis), 신경망(Neural network), SVM(Surport vector machine), 랜덤포레스트(Random roest) 등이 있다. 본 연구는 CT 검사 시 쉽게 측정 가능한 신체 계측 자료를 기반으로 환자맞춤 방사선 피폭선량 예측모델을 개발하고 추후 DRL 설정과 방사선량 관리 시스템의 기초 자료로 활용되고자 한다. 또한, 기계학습 알고리즘 중 데이터마이닝에 최적인 선형회귀분석, SVM, 랜덤 포레스트를 사용하여 분석하고 피폭선량 예측에 가장 적합한 모델을 비교 제시하고자 한다.
시도되고 있다[17]. 본 연구는 시간과 고도의 기술이 필요한 영상 생성 머신러닝보다 쉽게 접할 수 있는 데이터마이닝에 기반한 머신러닝 모델을 활용한 것이며 팬텀이 아닌 실제 환자 데이터를 바탕으로 피폭선량을 최소화하는데 노력하였다.
본 연구는 신체계측 자료를 기반으로 CT 검사 시 피폭선량을 예측하여 산출할 수 있는 최적의 머신러닝 알고리즘을 제시하고 기초자료로 사용하고자 하였고, 그 결과는 다음과 같다.
이에 해당하는 알고리즘은 선형회귀분석(linear regression analysis), 의사결정나무(decision tree analysis), 신경망(neural network), SVM(support vector machine), 랜덤포레스트(random forest)가 해당된다. 이에 영상분석보다 데이터마이닝에 많이 쓰이는 선형회귀분석, SVM, 랜덤 포레스트를 대상으로 분석하고자 한다.
제안 방법
SVMe 분류 및 판별, 추정을 할 수 있는 알고리즘으로 커널(kernel)은 시그모이드 커널(sigmoid kernel)을 설정하였고, 회귀정도를 나타내는 엡실론(epsilon)은 0.1로 설정하여 진행하였다. 랜덤 포레스트 알고리즘은 10개의 붓스트랩을 기준으로 진행하였고 선형회귀분석은 정규화를 위해 회귀계수를 Ridge방법을 이용하여 축소 진행하였다.
그러나 현재 임상에서 근거로 제시하는 DRLe 특수성을 반영하지 못한 결과이기에 특수한 경우의 수를 반영한 피폭선량 예측자료가 필요하다. 그러므로 특수한 경우의 수를 반영한 예측 피폭선량 값을 알아보기 위한 다양한 머신러닝 기법을 활용하였고 피폭선량에 가장 적합한 모델링을 제시하고자 하였다.
본 연구는 CT 검사 시 쉽게 측정 가능한 신체 계측 자료를 기반으로 환자맞춤 방사선 피폭선량 예측모델을 개발하고 추후 DRL 설정과 방사선량 관리 시스템의 기초 자료로 활용되고자 한다. 또한, 기계학습 알고리즘 중 데이터마이닝에 최적인 선형회귀분석, SVM, 랜덤 포레스트를 사용하여 분석하고 피폭선량 예측에 가장 적합한 모델을 비교 제시하고자 한다.
추출된 110개 샘플 중 66%는 훈련 셋으로 사용하고, 나머지 44%는 검증을 위한 테스트 셋으로 사용하였다. 변수(feature) 선정 시 피폭선량에 관계되는 신체 계측 자료 즉, 키와 몸무게를 포함한 실제 관전압 (kVp), 관전류(mAs), CTDIvol(CT dose index volume), 조사시간(TI), 절편두께(Slice thickness), 성별, 나이를 독립변수로 DLP(dose length product)를 목표변수로 사용하였다(Table 1).
이러한 랜덤포레스트, 선형회귀분석, SVM의 알고리즘을 활용한 예측변수의 정확도 및 중요도를 살펴보기 위해 5개를 층화시켜 교차타당성을 분석하였다<Table 2>. 평가모델의 정확도는 평균제곱오차(MSE), 평균제곱근오차(RMSE), 평균절대오차(MAE)가 작을수록 좋은 모델이고, 설명력 지수인 R2가21에 가까울수록 좋은 모델로 평가한다.
대상 데이터
데이터의 전처리와 샘플 선별에 있어, 전체 샘플 수 250개 중 조영제 사용 없이 흉부 CT 검사만 진행된 샘플을 추출하였고 이 중 키와 몸무게 변수가 포함된 샘플 110개를 추출하였다. 추출된 110개 샘플 중 66%는 훈련 셋으로 사용하고, 나머지 44%는 검증을 위한 테스트 셋으로 사용하였다.
본 연구에 사용한 데이터는 서울 소재 종합병원의 흉부 CT 검사 자료로써 환자의 개인정보를 제외하고 신체 계측자료가 포함된 데이터를 기준으로 데이터 셋(data set)을 구성하였다. 데이터의 전처리와 샘플 선별에 있어, 전체 샘플 수 250개 중 조영제 사용 없이 흉부 CT 검사만 진행된 샘플을 추출하였고 이 중 키와 몸무게 변수가 포함된 샘플 110개를 추출하였다.
데이터의 전처리와 샘플 선별에 있어, 전체 샘플 수 250개 중 조영제 사용 없이 흉부 CT 검사만 진행된 샘플을 추출하였고 이 중 키와 몸무게 변수가 포함된 샘플 110개를 추출하였다. 추출된 110개 샘플 중 66%는 훈련 셋으로 사용하고, 나머지 44%는 검증을 위한 테스트 셋으로 사용하였다. 변수(feature) 선정 시 피폭선량에 관계되는 신체 계측 자료 즉, 키와 몸무게를 포함한 실제 관전압 (kVp), 관전류(mAs), CTDIvol(CT dose index volume), 조사시간(TI), 절편두께(Slice thickness), 성별, 나이를 독립변수로 DLP(dose length product)를 목표변수로 사용하였다(Table 1).
데이터처리
1로 설정하여 진행하였다. 랜덤 포레스트 알고리즘은 10개의 붓스트랩을 기준으로 진행하였고 선형회귀분석은 정규화를 위해 회귀계수를 Ridge방법을 이용하여 축소 진행하였다.
Orange는 오픈 소스 Python 기반(Anaconda Mini 버전포함)의 데이터 시각화, 머신러닝 및 데이터 마이닝 툴킷이며 탐색적 데이터 분석 및 대화식 데이터 시각화를 위한 시각적 프로그래밍 프로트 엔드가 특징이다. 머신러닝 알고리즘은 분류 및 판별과 결과값 추정으로 나눌 수 있는데 본 연구는 결과값을 추정하기에 분류와 결과값 추정이 모두 가능한 랜덤포레스트과 SVM을 사용하였고, 범주형 목표 변수에 최적인 선형회귀분석을 사용하여 3가지 알고리즘의 정확도와 예측률을 비교하였다.
이론/모형
본 연구의 예측 모델 개발에 사용되고 있는 머신러닝 알고리즘으로 오픈 소프트웨어인 Orange version 3.26.0을 사용하여[11] 랜덤포레스트, 선형회귀분석, SVM 알고리즘을 통해 피폭선량을 예측하였다. Orange는 오픈 소스 Python 기반(Anaconda Mini 버전포함)의 데이터 시각화, 머신러닝 및 데이터 마이닝 툴킷이며 탐색적 데이터 분석 및 대화식 데이터 시각화를 위한 시각적 프로그래밍 프로트 엔드가 특징이다.
앞서 연구한 체지방 측정 정보를 이용한 고콜레스테롤혈증 예측은 CFS 기반 naive bayes 모델을 이용하였고 변수들을 통합하여 머신러닝 적용함으로써 예측력을 높였다[2]. 본 연구에서 사용된 모델은 연속형 예측 모델이기에 선행연구에서 사용된 분류 모델과 차이는 있지만 가장 변수 중요도가 높게 분석된 몸무게와 관련된 변수를 추가하고 러닝 기법을 달리한다면 충분히 예측력을 높일 수 있을 것이라 예상된다.
연구에 사용된 머신러닝 알고리즘은 랜덤포레스트, 선형 회귀분석, SVM 알고리즘이며 이 중 모형 정확도는 선형 회귀분석이 가장 정확하였고 예측값에 대한 정확도가 가장 높은 알고리즘은 랜덤포레스트였다. 각 모델의 예측에 가장 큰 요인으로 몸무게, 관전류, 키였으며 이는 쉽게 CT 검사 시 획득할 수 있는 자료이므로 임상에 적용 시 활용도가 높을 것으로 예상된다.
성능/효과
748로 선형회귀분석이 가장 낮게 분석되었다. 또한, 랜덤포레스트의 R2는 0.840, 선형 회귀분석의 R2는 0.969, SVM의 R2는 0.189로 선형회귀분석이 가장 높은 것으로 나타나 가장 좋은 모델로 분석되었다.
또한, 임상에서 CT 검사 진행 시 평소보다 많은 선량이 피폭된 것을 종종 확인하게 된다. 이는 환자에게 과잉 노출된 경우이며 투여된 선량이 적정수준인지 여부를 판단할 수 있는 근거가 필요하다.
2와 같다. 랜덤 포레스트는 관전류(0.205), 몸무게(0.192), 나이(0.140), 키 (0.122), 성별(0.024)순으로 나타났고, 선형회귀분석은 몸무게(0.173), 관전류(0.170), 나이(0.153), 키(0.129), 성별 (0.041) 순으로 중요도가 높게 나타났으며 SVMe 관전류 (0.214), 몸무게(0.201), 나이(0.180), 키(0.151), 성별 (0.043)순으로 중요도가 높게 나타났다. 관전압, 조사시간, 절편두께는 0.
본 연구에 사용된 머신러닝 모델 중 랜덤포레스트와 선형 회귀분석은 높은 정확도를 보인 반면 SVMe 굉장히 낮은 정확도를 보였다. 비록 피폭선량의 활용 모델로 SVMe 어려울 것으로 분석되었지만 이는 SVM의 단점인 변수의 민감도가 반영된 결과라고 여겨지며 추후 연구에 독립변수와 데이터 셋의 양을 늘린다면 SVM의 정확도도 올라가 충분히 활용 가치가 있을 것이라 예상된다.
평가모델의 정확도는 평균제곱오차(MSE), 평균제곱근오차(RMSE), 평균절대오차(MAE)가 작을수록 좋은 모델이고, 설명력 지수인 R2가21에 가까울수록 좋은 모델로 평가한다. 분석 결과, 랜덤포레스트의 MSE는 1026.416, RMSE는 32.038,MAE는 15.677, 선형회귀분석의 MSE는 199.107, RMSE는 14.111, MAE는 10.299, SVM의 MSE는 5208.721, RMSE 는 72.171, MAE는 40.748로 선형회귀분석이 가장 낮게 분석되었다. 또한, 랜덤포레스트의 R2는 0.
평가모델의 정확도와 마찬가지로 평균제곱오차(MSE), 평균 제곱근 오차(RMSE), 평균절대오차(MAE)가 작을수록, 설명력 지수인 R2가 1에 가까울수록 예측력에 대한 신뢰도가 높은 것으로 평가한다. 분석결과, 랜덤포레스트의 MSE는 89.433, RMSE 는 9.457, MAE는 6.406, 선형회귀분석의 MSE는 176.220, RMSE는 13.275, MAE는 9.802, SVM의 MSE는 5110.783, RMSE는 71.490, MAE는 39.026으로 랜덤포레스트가 가장 낮게 분석되었다. 또한, 랜덤포레스트의 R2는 0.
평가모델의 정확도는 평균제곱오차(MSE), 평균제곱근오차(RMSE), 평균절대오차(MAE)가 작을수록 좋은 모델이고, 설명력 지수인 R2가21에 가까울수록 좋은 모델로 평가한다. 분석 결과, 랜덤포레스트의 MSE는 1026.
후속연구
랜덤포레스트였다. 각 모델의 예측에 가장 큰 요인으로 몸무게, 관전류, 키였으며 이는 쉽게 CT 검사 시 획득할 수 있는 자료이므로 임상에 적용 시 활용도가 높을 것으로 예상된다. 또한, 랜덤포레스트와 선형회귀분석의 모델 정확도와 예측 정확도 차이가 크지 않아 두 모델의 단점을 보완하여 사용한다면 둘 다 피폭선량을 예측 활용하는데 신뢰도 높은 알고리즘이 될 것으로 판단된다.
제정이 필요하다고 하였다[2, 14-15]. 그러기 위해선 다양한 환자와 장비 특성을 고려하여 각 병원마다 예측된 피폭선량을 기반으로 정립되어야 실제 임상에서 활용할 수 있는 의미 있는 기준이 될 수 있으리라 여겨진다.
각 모델의 예측에 가장 큰 요인으로 몸무게, 관전류, 키였으며 이는 쉽게 CT 검사 시 획득할 수 있는 자료이므로 임상에 적용 시 활용도가 높을 것으로 예상된다. 또한, 랜덤포레스트와 선형회귀분석의 모델 정확도와 예측 정확도 차이가 크지 않아 두 모델의 단점을 보완하여 사용한다면 둘 다 피폭선량을 예측 활용하는데 신뢰도 높은 알고리즘이 될 것으로 판단된다.
높였다[2]. 본 연구에서 사용된 모델은 연속형 예측 모델이기에 선행연구에서 사용된 분류 모델과 차이는 있지만 가장 변수 중요도가 높게 분석된 몸무게와 관련된 변수를 추가하고 러닝 기법을 달리한다면 충분히 예측력을 높일 수 있을 것이라 예상된다.
보였다. 비록 피폭선량의 활용 모델로 SVMe 어려울 것으로 분석되었지만 이는 SVM의 단점인 변수의 민감도가 반영된 결과라고 여겨지며 추후 연구에 독립변수와 데이터 셋의 양을 늘린다면 SVM의 정확도도 올라가 충분히 활용 가치가 있을 것이라 예상된다. 앞으로 본 연구 결과를 토대로 피폭선량 예측에 머신러닝 활용이 활발히 이용될 수 있는 기초자료로 활용될 것이라 기대된다.
비록 피폭선량의 활용 모델로 SVMe 어려울 것으로 분석되었지만 이는 SVM의 단점인 변수의 민감도가 반영된 결과라고 여겨지며 추후 연구에 독립변수와 데이터 셋의 양을 늘린다면 SVM의 정확도도 올라가 충분히 활용 가치가 있을 것이라 예상된다. 앞으로 본 연구 결과를 토대로 피폭선량 예측에 머신러닝 활용이 활발히 이용될 수 있는 기초자료로 활용될 것이라 기대된다.
참고문헌 (17)
UNSCEAR. Sources and effects of ionizing radiation. UNSCEAR 2010 Report, New York, United Nations; 2010.
Lee SY, Kim KL, Ha HK, et al. Evaluation of radiation exposure dose for examination purposes other than the critical organ from computed tomography: A base on the Dose Reference Level (DRL). Journal of the Korean Society of Radiology. 2013;7(2):121-9.
Mo KH. Analysis of exposure dose according to chest and abdomen combine CT exam method [Dept. of Radiology]. Graduate School of Health Science, Eulji University; 2016.
Fukushima Y, Tsushima Y, Takei H, et al, Diagnostic reference level of computed tomography (CT) in Japan. Radiat Prot Dosimetry. 2012;151(1):51-7.
IAEA. International basic safety standards for protection against ionizing radiation and for the safety of radiation sources. IAEA Safety Series No. 115; 1996.
Brenner DJ, Hall EJ. Computed tomography: An increasing source of radiation exposure. N Engl J Med. 2007;357(22):2277-84.
Lee BJ, Kim JY. Identification of the best anthropometric predictors of serum high- and low-density lipoproteins using machine learning. IEEE J Biomed Health Inform. 2015;19(5):1747-56. doi:10.1109/JBHI.2014.2350014.
Lee BJ, Kim JY. Indicators of hypertriglyceridemia from anthropometric measures based on data mining. Comput Biol Med. 2015;57:201-11. doi:10.1016/j.compbiomed.2014.12.005.
Lee BJ, Prediction model of hypercholesterolemia using body fat mass based on machine learning. The Journal of the Convergence on Culture Technology. 2019;5(4):413-20.
Cho YJ. Big Data, New SPSS Analysis Technique; Neural Network, SVM, Random Forest. Hanarae Academic; 2018.
Carlos MR, Hilario ML, Data mining for the study of the Epidemic (SARS-CoV-2) COVID-19: Algorithm for the identification of patients speaking the native language in the Totonacapan area - Mexico. Munich Personal RePEc Archive. 2020;102039:1-14.
Brenner DJ, Hall EJ. Computed tomography: An increasing source of radiation exposure. N Engl J Med. 2007;357(22):2277-84.
Lee CH. Individualized and intelligent radiation dose exposure guide and management system with clinical test operation. Health Technology R&D Project; 2017.
Kalender WA. Computed tomography. John Wiley and Sons, New York; 2000.
Dougeni E, Faulkner K, Panayiotakis G. A review of patient dose and optimisation methods in adult and paediatric CT scanning. Eur J Radiol. 2012; 81(4):e665-83.
Woo SK, Synthesis of contrast CT image using deep learning network. Proceedings of the Korean Society of Computer Information Conference. 2019;465-7.
Hong JY, Jung YJ. Evaluation of deep-learning feature based COVID-19 classifier in various neural network. Journal of the Korean Society of Radiology. 2020;43(5):397-404.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.