In the field of nuclear medicine, errors are sometimes generated because the assessment of the uniformity of gamma cameras relies on the naked eye of the evaluator. To minimize these errors, we created an artificial intelligence model based on CNN algorithm and wanted to assess its usefulness. We pr...
In the field of nuclear medicine, errors are sometimes generated because the assessment of the uniformity of gamma cameras relies on the naked eye of the evaluator. To minimize these errors, we created an artificial intelligence model based on CNN algorithm and wanted to assess its usefulness. We produced 20,000 normal images and partial cold region images using Python, and conducted artificial intelligence training with Resnet18 models. The training results showed that accuracy, specificity and sensitivity were 95.01%, 92.30%, and 97.73%, respectively. According to the results of the evaluation of the confusion matrix of artificial intelligence and expert groups, artificial intelligence was accuracy, specificity and sensitivity of 94.00%, 91.50%, and 96.80%, respectively, and expert groups was accuracy, specificity and sensitivity of 69.00%, 64.00%, and 74.00%, respectively. The results showed that artificial intelligence was better than expert groups. In addition, by checking together with the radiological technologist and AI, errors that may occur during the quality control process can be reduced, providing a better examination environment for patients, providing convenience to radiologists, and improving work efficiency.
In the field of nuclear medicine, errors are sometimes generated because the assessment of the uniformity of gamma cameras relies on the naked eye of the evaluator. To minimize these errors, we created an artificial intelligence model based on CNN algorithm and wanted to assess its usefulness. We produced 20,000 normal images and partial cold region images using Python, and conducted artificial intelligence training with Resnet18 models. The training results showed that accuracy, specificity and sensitivity were 95.01%, 92.30%, and 97.73%, respectively. According to the results of the evaluation of the confusion matrix of artificial intelligence and expert groups, artificial intelligence was accuracy, specificity and sensitivity of 94.00%, 91.50%, and 96.80%, respectively, and expert groups was accuracy, specificity and sensitivity of 69.00%, 64.00%, and 74.00%, respectively. The results showed that artificial intelligence was better than expert groups. In addition, by checking together with the radiological technologist and AI, errors that may occur during the quality control process can be reduced, providing a better examination environment for patients, providing convenience to radiologists, and improving work efficiency.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
따라서 본 연구에서는 인공지능을 이용할 경우, 육안으로 찾기 힘든 국소적 냉소 부분을 발견하는 성능을 확인하여 정도 관리에 적용이 가능성을 평가하는데 목적을 두었다.
본 연구는 도출된 결과를 통해 정도관리에 있어 인공지능에 대한 적용 가능성을 제시하였다. 추후 다양한 연구가 활발하게 진행된다면 정도관리에서 발생할 수 있는 오류를 감소 시켜 진단 가치가 높은 영상을 제공할 수 있을 것이라 사료된다.
본 연구는 인공지능을 이용할 경우, 육안으로 찾기 힘든 국소적 냉소 부분을 발견하는 성능을 확인하여 정도 관리에 적용이 가능성을 평가하는 목적을 두었으나, 제한점으로 프로그램 학습 및 검증 시 사용되었던 영상은 실제 임상 영상이 아닌 파이썬 코드와 브러쉬로 자체 재현한 인위적인 영상을 사용하여 영상의 농도(contrast)만을 기준으로 영상의 적합 또는 부적합 판정을 확인하였다.
본 연구에서는 핵의학 정도관리 평가항목 중 장시야 균일성 평가에서 발생할 수 있는 냉소 부위를 보다 빠르고 쉽게 발견하고 해결하고자 개발한 코드를 인공지능을 통해 학습 시켜 연구를 진행하였다. 그 결과 인공지능은 정확도 94.
제안 방법
영상을 6, 000개의 학습검정으로 평가했다. 6, 000장을 훈련된 인공지능에 입력하여 정확도(accuracy), 특이도 (specificity), 민감도(sensitivity)의 값을 확인하였다.
6), 18개의 계층으로 된 컨볼루션 신경망 모델을 적용하였다[12]. Resnet18 모델의 특징은 최초 7 × 7의 컨볼루션 레이어가 있고, 이후 3 × 3의 컨벌루션레이어를 쌓으며, 2개의 층마다 해당 출력값에서 2개 층의 전 출력값을 제거함으로써 나머지(residual) 를 학습하지만, 본 연구에서는 Resnete 1,000개의 완전연결계층(Fully-Connected Layer)로 되어 해당 부분을 2개로 분류하는 층으로 변경하여 소프트맥스(softmax) 층에서 값이 0.5 이상일 경우는 국소적 냉소 영상, 0.5 미만인 경우는 정상 영상으로 분류하는 모델로 변경하도록 하였다.
적용하였다. 국소적 냉소 부위를 인위적으로 제작하기 위해서 파워포인트(Power Point)를 사용하였으며, 이미지 합성 작업을 위해 파이썬의 필로우(Pillow)모듈을 사용하였다. 인공지능 학습을 위해 구글 플랫폼의 코랩(co laboratory)를 사용했다.
사용했다. 나머지 6, 000개는 인공지능 학습검증(validation set)으로 사용하였고, 50 에폭(epoch)으로 학습을 진행했다.
전문가 집단으로는 방사선 영상전문가 5명을 대상으로 하여 오차 행렬(confusion matrix)값을 구하고, 인공지능과 전문가 집단의 정확도, 특이도, 민감도를 비교하였다. 또한, 인공지능과 전문가 집단의 ROC(Receiver Operating Characteristic)곡선을 활용하여 AUC(Area Under Curve)값으로 인공지능과 전문가 집단의 판단력 차이를 비교하였다.
이 중 50개의 영상을 참고하였으며, 영상 크기 (size)는 238 × 175, 영상의 픽셀(pixel)의 평균값은 98이었다. 또한, 핵의학 영상에서 방사선이 계수되는 부분이 각 픽셀값이 255가 되도록 한 후 1/2 확률로 포아송(poisson) 분포를 따라 각 픽셀값이 감소하도록 진행하였다(Fig. 1). 이와 같은 방식으로 총 20, 000개의 정도관리 영상을 제작하고, 영상을 실제 정도관리 영상과 히스토그램을 비교한 결과 유사한 그래프를 나타내어 유사한 영상임을 확인하였다(Fig.
서로 다른 라인 프로파일(line profile)을 가진 1, 2, 3, 4단계의 원형 영상을 제작하였고(Fig. 3), 4단계의 원형 영상의 투명도와 이미지 크기를 다양하게 설정하여 중앙에 합성하였다. 영상을 확인하여 전문가의 육안으로 판단하기 힘든 지점을 선택하여 따라 투명도(α 값)를 0.
3), 4단계의 원형 영상의 투명도와 이미지 크기를 다양하게 설정하여 중앙에 합성하였다. 영상을 확인하여 전문가의 육안으로 판단하기 힘든 지점을 선택하여 따라 투명도(α 값)를 0.02, 0.04, 0.06, 0.08로 조합하였으며, 원의 크기는 5 × 5, 10 × 10, 15 × 15, 20 × 20, 25 × 25, 30 × 30, 35 × 35, 40 × 40, 45 × 45, 50 × 50, 55 × 55, 60 × 60, 65 × 65, 70 × 70, 75 × 75의 순차적으로 다양한 값들을 조합하였다(Fig. 4). 10, 000개의 정상 영상에 무작위 위치로 합성하여 10, 000개의 국소적 냉소 영상을 제작하였으며, 실제 훈련데이터로 제작된 영상은 알파 값을 조정하여 육안으로 인식하기 어려운 난이도로 진행하였다(Fig.
분석하였다. 전문가 집단으로는 방사선 영상전문가 5명을 대상으로 하여 오차 행렬(confusion matrix)값을 구하고, 인공지능과 전문가 집단의 정확도, 특이도, 민감도를 비교하였다. 또한, 인공지능과 전문가 집단의 ROC(Receiver Operating Characteristic)곡선을 활용하여 AUC(Area Under Curve)값으로 인공지능과 전문가 집단의 판단력 차이를 비교하였다.
정상 정도관리 영상은 실제 핵의학 영상이 아닌 핵의학 정도 관리 영상이 생성되는 과정을 코드로 작성하여 제작하였고, 감마카메라(Siemens E.Cam single head gamma camera) 에서 코발트-60(60Co) 장선원으로 200, 000 카운트(counts) 의 외인성(extrinsic) 정도관리 영상을 기반으로 제작하였다(Fig. 1). 이 중 50개의 영상을 참고하였으며, 영상 크기 (size)는 238 × 175, 영상의 픽셀(pixel)의 평균값은 98이었다.
대상 데이터
4). 10, 000개의 정상 영상에 무작위 위치로 합성하여 10, 000개의 국소적 냉소 영상을 제작하였으며, 실제 훈련데이터로 제작된 영상은 알파 값을 조정하여 육안으로 인식하기 어려운 난이도로 진행하였다(Fig. 5).
1). 이 중 50개의 영상을 참고하였으며, 영상 크기 (size)는 238 × 175, 영상의 픽셀(pixel)의 평균값은 98이었다. 또한, 핵의학 영상에서 방사선이 계수되는 부분이 각 픽셀값이 255가 되도록 한 후 1/2 확률로 포아송(poisson) 분포를 따라 각 픽셀값이 감소하도록 진행하였다(Fig.
인공지능 평가를 위하여 14, 000개의 인공지능 훈련으로 학습한 영상을 6, 000개의 학습검정으로 평가했다. 6, 000장을 훈련된 인공지능에 입력하여 정확도(accuracy), 특이도 (specificity), 민감도(sensitivity)의 값을 확인하였다.
인공지능과 전문가 집단의 영상 평가 결과를 비교하기 위해서 제작한 정상 영상 100개와 국소적 냉소 영상 100개, 총 200개로 분석하였다. 전문가 집단으로는 방사선 영상전문가 5명을 대상으로 하여 오차 행렬(confusion matrix)값을 구하고, 인공지능과 전문가 집단의 정확도, 특이도, 민감도를 비교하였다.
자체 제작한 20, 000개의 정상 정도관리 영상 중, 10, 000 개의 영상에 파워포인트로 제작한 원형의 영상을 필로우 (Pillow)로 합성하여 국소적 냉소 영상을 제작하였다. 서로 다른 라인 프로파일(line profile)을 가진 1, 2, 3, 4단계의 원형 영상을 제작하였고(Fig.
제작한 정상 영상 10, 000개와 국소적 냉소 영상 10, 000개를데이터셋(data set)으로 선정하였고, 총 20, 000개의 영상 중 70%에 해당하는 14, 000개를 인공지능 훈련(training set)으로 사용했다. 나머지 6, 000개는 인공지능 학습검증(validation set)으로 사용하였고, 50 에폭(epoch)으로 학습을 진행했다.
이론/모형
CNN 모델은 Resnet18을 사용하였으며(Fig. 6), 18개의 계층으로 된 컨볼루션 신경망 모델을 적용하였다[12]. Resnet18 모델의 특징은 최초 7 × 7의 컨볼루션 레이어가 있고, 이후 3 × 3의 컨벌루션레이어를 쌓으며, 2개의 층마다 해당 출력값에서 2개 층의 전 출력값을 제거함으로써 나머지(residual) 를 학습하지만, 본 연구에서는 Resnete 1,000개의 완전연결계층(Fully-Connected Layer)로 되어 해당 부분을 2개로 분류하는 층으로 변경하여 소프트맥스(softmax) 층에서 값이 0.
프로그래밍 언어로 파이썬(Python)과 딥러닝 프레임워크로 파이토치(Pytorch)를 사용하였으며, 딥러닝 모델로 Resnet18모델을 적용하였다. 국소적 냉소 부위를 인위적으로 제작하기 위해서 파워포인트(Power Point)를 사용하였으며, 이미지 합성 작업을 위해 파이썬의 필로우(Pillow)모듈을 사용하였다.
성능/효과
200개의 영상을 판단하는데 전문가 집단의 경우 30분 소요되었고, 인공지능의 경우 1초가 소요되었다. 많은 양의 데이터를 판단하는 경우, 인공지능은 같은 기준에서 지속적으로 판단할 수 있지만, 전문가 집단은 판단의 기준에서 개인적인 편차가 발생하였다.
0%로 나타남으로써 인공지능이 더 높은 정확도를 보였다. 200장의 영상을 판단하는데 전문가집단에서는 30분 소요되었지만, 인공지능은 1초에 판단하였고, 전문가 집단보다 정확한 결과를 도출해냈다.
ROC 곡선 확인 결과, 인공지능의 AUC는 0.9863으로 인공지능이 정확히 판단하였고, 정확도와 판단력이 전문가 집단 분포가 인공지능보다 낮았다[Fig. 7].
00%로 인공지능보다 낮은 수치였다 [Table 2]. 결과적으로 인공지능이 육안보다 세밀한 부분까지 판단하여 정상과 비정상을 분별하였다.
연구를 진행하였다. 그 결과 인공지능은 정확도 94.0%, 전문가 집단은 정확도 69.0%로 나타남으로써 인공지능이 더 높은 정확도를 보였다. 200장의 영상을 판단하는데 전문가집단에서는 30분 소요되었지만, 인공지능은 1초에 판단하였고, 전문가 집단보다 정확한 결과를 도출해냈다.
1). 이와 같은 방식으로 총 20, 000개의 정도관리 영상을 제작하고, 영상을 실제 정도관리 영상과 히스토그램을 비교한 결과 유사한 그래프를 나타내어 유사한 영상임을 확인하였다(Fig. 2).
인공지능과 전문가 집단의 비교를 위해 200개의 영상으로 비교한 결과, 인공지능의 정확도, 특이도, 민감도는 94.00%, 91.00%, 97.00%였으며, 전문가 집단 5명의 평균은 각각 69.00%, 64.00%, 74.00%로 인공지능보다 낮은 수치였다 [Table 2]. 결과적으로 인공지능이 육안보다 세밀한 부분까지 판단하여 정상과 비정상을 분별하였다.
후속연구
따라서 추후 유사 연구가 진행될 경우, 균일도 정도 관리에서 국소적 냉소영상 이외에 발생할 수 있는 크리스탈(crystal)의 파손, 국소적 열소을 추가하여 영상을 다양하게 적용한다면 본 연구의 인공지능보다 신뢰성과 판단능력이 향상될 것이다. 핵의학 이외의 다른 진단 영상기기에서도 다양한 정도관리 영상이 학습되어 미세한 이상 부위를 발견하고 사전에 해결할 수 있다면, 임상에서도 인공지능을 이용한 정도관리가 유용하게 사용될 것이라 기대한다.
일반화의 오류가 발생할 수 있다[14]. 본 연구에서 브러쉬의 종류는 4가지만 사용되어 이에 따른 결과의 다양성이 부족하였고, 다양한 형태의 냉소 부위 적용이 어려워 실제 영상 및 다른 모양의 합성 영상에 대해서 다양성의 확보가 필요할 것으로 여겨진다.
대한 적용 가능성을 제시하였다. 추후 다양한 연구가 활발하게 진행된다면 정도관리에서 발생할 수 있는 오류를 감소 시켜 진단 가치가 높은 영상을 제공할 수 있을 것이라 사료된다.
참고문헌 (16)
Choi KT. Real-time artificial neural network for high-dimensional medical image. Journal of the Korean Society of Radiology. 2016;10(8):637-43.
Li J, Mi Y, Li G, Ju Z. CNN-based facial expression recognition from annotated RGB-D images for human-robot interaction. International Journal of Humanoid Robotics. 2019;16(4):1941002.
Choi JG, Lee BI. Research for development of standardized system for quality control of nuclear medicine imaging equipments. The Annual Report of Korea Food & Drug administration (ABSTRACT). 2008;12(11-14700000-000071-10):859-60.
Choe JG, Joh CW. Survey of current status of quality control of gamma cameras in republic of Korea. Nuclear Medicine and Molecular Imaging. 2008; 42(4):314-22.
Choi WC. Actual condition of computerized tomography system in use in Seoul and projection evaluation using AAPM CT Phantom [master's thesis]. Korea University, Korea; 2009.
Lim JJ, Kim HK, Kim JP, Jo SW, Kim JE. Evaluation of radiation exposure to medical staff except nuclear medicine department. The Korean Journal of Nuclear Medicine Technology. 2016;20(2):32-5.
Noh SS, Um HS, Kim HC. Development of automatized quantitative analysis method in CT images evaluation using AAPM phantom. The Institute of Electronics and Information Engineers. 2014;51(12): 163-73.
The International Atomic Energy Agency. Quality control of nuclear medicine instruments. IAEA-TECDOC-317; 1984.
National Physical Laboratory. Protocol for establishing and maintaining the calibration of medical radionuclide calibrators and their quality control. A National Measurement Good Practice Guide; 2006:93.
He K, Zhang X, Ren S, Sun J. Deep residual learning for image recognition. axRiv(Computer Vision and Pattern Rescognition). 2015;1512.03385.
Park HK. Artificial intelligence (AI) health care industry status and trends. Convergence Focus, 2019;148:2-9.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.