심장비대증 환자의 흉부 X선 영상에 대한 Inception V3 알고리즘의 분류 성능평가 Evaluation of Classification Performance of Inception V3 Algorithm for Chest X-ray Images of Patients with Cardiomegaly원문보기
심장비대증은 흉부 X선 영상에서 흔히 보이는 질병 중 하나이지만 조기에 발견을 하지 못하면 심각한 합병증을 유발할 수도 있다. 이러한 점을 고려하여 최근에는 여러 과학기술 분야의 발전으로 인공지능을 이용한 딥러닝 알고리즘을 의료에 접목시키는 영상 분석 연구들이 많이 진행되고 있다. 본 논문에서는 Inception V3 딥러닝 모델을 흉부 X선 영상을 이용하여 심장비대증의 분류에 유용한 모델인지 평가하고자 한다. 사용된 영상의 경우 총 1026장의 경북대학교병원 내 정상 심장 진단을 받은 환자와 심장비대증 진단을 받은 환자의 흉부 X선 영상을 사용하였다. 실험결과 Inception V3 딥러닝 모델의 심장비대증 유무에 따른 분류 정확도와 손실도 결과값은 각각 96.0%, 0.22%의 결과값을 나타내었다. 연구결과를 통해 Inception V3 딥러닝 모델은 흉부 영상 데이터의 특징 추출 및 분류에 있어 우수한 딥러닝 모델인 것을 알 수 있었다. Inception V3 딥러닝 모델의 경우 흉부 질환의 분류에 있어 유용한 딥러닝 모델이 될 것으로 판단되며 조금 더 다양한 의료 영상 데이터를 이용한 연구를 진행하여 이와 같은 우수한 연구결과를 얻게 된다면 향후 임상의의 진단 시 많은 도움을 줄 수 있을 것으로 사료된다.
심장비대증은 흉부 X선 영상에서 흔히 보이는 질병 중 하나이지만 조기에 발견을 하지 못하면 심각한 합병증을 유발할 수도 있다. 이러한 점을 고려하여 최근에는 여러 과학기술 분야의 발전으로 인공지능을 이용한 딥러닝 알고리즘을 의료에 접목시키는 영상 분석 연구들이 많이 진행되고 있다. 본 논문에서는 Inception V3 딥러닝 모델을 흉부 X선 영상을 이용하여 심장비대증의 분류에 유용한 모델인지 평가하고자 한다. 사용된 영상의 경우 총 1026장의 경북대학교병원 내 정상 심장 진단을 받은 환자와 심장비대증 진단을 받은 환자의 흉부 X선 영상을 사용하였다. 실험결과 Inception V3 딥러닝 모델의 심장비대증 유무에 따른 분류 정확도와 손실도 결과값은 각각 96.0%, 0.22%의 결과값을 나타내었다. 연구결과를 통해 Inception V3 딥러닝 모델은 흉부 영상 데이터의 특징 추출 및 분류에 있어 우수한 딥러닝 모델인 것을 알 수 있었다. Inception V3 딥러닝 모델의 경우 흉부 질환의 분류에 있어 유용한 딥러닝 모델이 될 것으로 판단되며 조금 더 다양한 의료 영상 데이터를 이용한 연구를 진행하여 이와 같은 우수한 연구결과를 얻게 된다면 향후 임상의의 진단 시 많은 도움을 줄 수 있을 것으로 사료된다.
Cardiomegaly is one of the most common diseases seen on chest X-rays, but if it is not detected early, it can cause serious complications. In view of this, in recent years, many researches on image analysis in which deep learning algorithms using artificial intelligence are applied to medical care h...
Cardiomegaly is one of the most common diseases seen on chest X-rays, but if it is not detected early, it can cause serious complications. In view of this, in recent years, many researches on image analysis in which deep learning algorithms using artificial intelligence are applied to medical care have been conducted with the development of various science and technology fields. In this paper, we would like to evaluate whether the Inception V3 deep learning model is a useful model for the classification of Cardiomegaly using chest X-ray images. For the images used, a total of 1026 chest X-ray images of patients diagnosed with normal heart and those diagnosed with Cardiomegaly in Kyungpook National University Hospital were used. As a result of the experiment, the classification accuracy and loss of the Inception V3 deep learning model according to the presence or absence of Cardiomegaly were 96.0% and 0.22%, respectively. From the research results, it was found that the Inception V3 deep learning model is an excellent deep learning model for feature extraction and classification of chest image data. The Inception V3 deep learning model is considered to be a useful deep learning model for classification of chest diseases, and if such excellent research results are obtained by conducting research using a little more variety of medical image data, I think it will be great help for doctor's diagnosis in future.
Cardiomegaly is one of the most common diseases seen on chest X-rays, but if it is not detected early, it can cause serious complications. In view of this, in recent years, many researches on image analysis in which deep learning algorithms using artificial intelligence are applied to medical care have been conducted with the development of various science and technology fields. In this paper, we would like to evaluate whether the Inception V3 deep learning model is a useful model for the classification of Cardiomegaly using chest X-ray images. For the images used, a total of 1026 chest X-ray images of patients diagnosed with normal heart and those diagnosed with Cardiomegaly in Kyungpook National University Hospital were used. As a result of the experiment, the classification accuracy and loss of the Inception V3 deep learning model according to the presence or absence of Cardiomegaly were 96.0% and 0.22%, respectively. From the research results, it was found that the Inception V3 deep learning model is an excellent deep learning model for feature extraction and classification of chest image data. The Inception V3 deep learning model is considered to be a useful deep learning model for classification of chest diseases, and if such excellent research results are obtained by conducting research using a little more variety of medical image data, I think it will be great help for doctor's diagnosis in future.
현재 딥러닝 알고리즘을 이용하여 흉부 X선 영상에서 폐 질환에 대한 분류 연구는 많이 있으나 심장 질환에 대한 영상 분류 연구는 많이 없다. 본연구에서는 Inception V3 알고리즘을 이용하여 직접 수집한 흉부 X선 이미지 분류를 진행하였을 때 심장비대증 의료 영상 분류에 적합한 알고리즘인지 알아보고자 한다.
제안 방법
본 논문에서는 인공지능 딥러닝 알고리즘인 Inception V3를 이용하여 직접 수집한 심장비대증 흉부 X선 영상 데이터가 사용된 딥러닝 모델링을 구현하였다. 실험을 통해 딥러닝 모델링을 적용한 정상 심장과 심장비대증의 분류에 있어 정확도와 손실도를 이용한 성능평가를 진행했다.
활성화 함수는 입력받은 데이터를 다음 레이어에 어떤 방식으로 전달을 해주는 가를 의미하며 활성화 함수로 쓰인 Sigmoid는 입력데이터의 값에 따라 0~1의 값을 출력하는 S자형 함수를 의미한다. 본 연구에서는 Relu, Softmax, Tanh 함수를 적용하였을 때 보다 Sigmoid 함수를 적용하였을 때 가장 우수한 성능을 보여 Sigmoid 함수를 적용하였다. 최적화 알고리즘은 손실 함수를 최소화하는 방향으로 가중치를 갱신하는 함수를 의미하며 최적화 알고리즘으로 사용된 RMSProp는 학습하는 속도를 적절하게 수정하며 최적화하는 방식을 의미한다.
본 논문에서는 인공지능 딥러닝 알고리즘인 Inception V3를 이용하여 직접 수집한 심장비대증 흉부 X선 영상 데이터가 사용된 딥러닝 모델링을 구현하였다. 실험을 통해 딥러닝 모델링을 적용한 정상 심장과 심장비대증의 분류에 있어 정확도와 손실도를 이용한 성능평가를 진행했다. 실험결과 Inception V3 딥러닝 모델은 성능평가에서 정상 심장과 심장비대증 분류에 우수한 성능을 나타내었다.
Inception V3 모델을 이용하여 딥러닝 모델링의 학습 에포크마다 출력되는 결과 딥러닝 모델의 성능평가에 사용하였다. 평가하는 항목으로는 학습모델링과 검증 모델링의 정확도(Accuracy), 손실도 (Loss) 그리고 모델의 정상 심장과 심장비대증에 대한 분류 정밀도(Precision), 재현율(Recall), F1 스코어(F1 score)를 평가하였다.
대상 데이터
직접 수집한 흉부 X선 영상을 이용한 심장비대증의 분류에 대한 성능평가를 위하여 Inception V3 모델을 사용하였다. Inception V3 딥러닝 모델링 구현 시 흉부 X선 영상 파일을 데이터 세트로 사용하였다.
데이터 세트는 경북대학교병원의 임상시험심사위원회(IRB; Institutional Review Board, 2020-08-017) 의 승인 후 병원 내 20세 이상에서 95세 미만의 환자들을 대상으로 2010년 1월부터 2020년 12월까지 정상 진단을 받은 환자의 흉부 X선 영상 526장과 심장비대증 진단을 받은 환자의 흉부 X선 영상 500장을 사용하였다. 데이터 세트는 총 1026장의 흉부 X선 영상 TIFF 이미지 파일로 구성되어 있다.
데이터 세트는 경북대학교병원의 임상시험심사위원회(IRB; Institutional Review Board, 2020-08-017) 의 승인 후 병원 내 20세 이상에서 95세 미만의 환자들을 대상으로 2010년 1월부터 2020년 12월까지 정상 진단을 받은 환자의 흉부 X선 영상 526장과 심장비대증 진단을 받은 환자의 흉부 X선 영상 500장을 사용하였다. 데이터 세트는 총 1026장의 흉부 X선 영상 TIFF 이미지 파일로 구성되어 있다.
우선 전체 1026개의 흉부 X선 영상 데이터 중 정상 심장 영상은 526개로 라벨링을 1, 심장비대증 영상은 500개로 라벨링을 0으로 작업을 하였다. 라벨링을 완료한 흉부 X선 영상은 Table 4와 같이 학습 데이터 세트, 검증 데이터 세트, 테스트 데이터 세트로 분류하여 사용하였다. 정상 심장의 경우 흉부 X선 영상 526개 중 학습 데이터 세트는 226개로 딥러닝 모델을 학습시키기 위해서 사용되며, 검증 데이터 세트는 200개로 학습시킨 딥러닝 모델이 제대로 학습되었는지 확인하기 위해 사용되어지며, 테스트 데이터 세트는 100개로 최종적으로 모델을 평가하기 위해 사용된다.
정상 심장의 경우 흉부 X선 영상 526개 중 학습 데이터 세트는 226개로 딥러닝 모델을 학습시키기 위해서 사용되며, 검증 데이터 세트는 200개로 학습시킨 딥러닝 모델이 제대로 학습되었는지 확인하기 위해 사용되어지며, 테스트 데이터 세트는 100개로 최종적으로 모델을 평가하기 위해 사용된다. 심장비대증의 경우 흉부 X선 영상 500개 중 학습 데이터 세트 250개, 검증 데이터 세트 150개, 테스트 데이터 세트 100개로 분류하였다.
직접 수집한 흉부 X선 영상 데이터 세트를 사용하였다. 우선 전체 1026개의 흉부 X선 영상 데이터 중 정상 심장 영상은 526개로 라벨링을 1, 심장비대증 영상은 500개로 라벨링을 0으로 작업을 하였다. 라벨링을 완료한 흉부 X선 영상은 Table 4와 같이 학습 데이터 세트, 검증 데이터 세트, 테스트 데이터 세트로 분류하여 사용하였다.
라벨링을 완료한 흉부 X선 영상은 Table 4와 같이 학습 데이터 세트, 검증 데이터 세트, 테스트 데이터 세트로 분류하여 사용하였다. 정상 심장의 경우 흉부 X선 영상 526개 중 학습 데이터 세트는 226개로 딥러닝 모델을 학습시키기 위해서 사용되며, 검증 데이터 세트는 200개로 학습시킨 딥러닝 모델이 제대로 학습되었는지 확인하기 위해 사용되어지며, 테스트 데이터 세트는 100개로 최종적으로 모델을 평가하기 위해 사용된다. 심장비대증의 경우 흉부 X선 영상 500개 중 학습 데이터 세트 250개, 검증 데이터 세트 150개, 테스트 데이터 세트 100개로 분류하였다.
직접 수집한 흉부 X선 영상 데이터 세트를 사용하였다. 우선 전체 1026개의 흉부 X선 영상 데이터 중 정상 심장 영상은 526개로 라벨링을 1, 심장비대증 영상은 500개로 라벨링을 0으로 작업을 하였다.
데이터처리
Inception V3 딥러닝 모델을 이용한 흉부 X선 영상의 정상 심장과 비정상 심장 분류에 대한 손실도 평가를 진행하였다. Fig.
Inception V3 딥러닝 모델을 이용한 흉부 X선 영상의 정상 심장과 비정상 심장 분류에 대한 정확도 평가를 진행하였다. Fig.
딥러닝 모델의 성능평가를 위하여 학습 모델링과 검증 모델링의 정확도와 손실도, 정밀도, 재현율, F1 스코어 값을 사용하였다. 여기서 정확도는 딥러닝 모델의 검증 모델링의 결과값인 예측값과 실측값을 대조할 때 정확한 정도를 의미하며 전체 데이터 수 중에 예측 결과값과 실제 실측값의 동일한 건수가 차지하는 비율이다.
이론/모형
Inception V3 모델을 이용하여 딥러닝 모델링의 학습 에포크마다 출력되는 결과 딥러닝 모델의 성능평가에 사용하였다. 평가하는 항목으로는 학습모델링과 검증 모델링의 정확도(Accuracy), 손실도 (Loss) 그리고 모델의 정상 심장과 심장비대증에 대한 분류 정밀도(Precision), 재현율(Recall), F1 스코어(F1 score)를 평가하였다.
5) 언어를 사용하였다. 딥러닝 모델링 구현을 위해 프레임 워크로는케라스(Keras, version 2.4.3)를 적용하였다.
딥러닝 모델링은 Inception V3 모델의 기본 구조를 사용하였으며, 활성화 함수는 Sigmoid를 적용하였다. 최적화 알고리즘은 RMSProp를 적용하였으며 배치 사이즈는 32로 설정하였고, 학습 에포크 (Epoch)는 40으로 설정하여 흉부 X선 영상의 정상 심장과 심장비대증 분류에 대한 딥러닝 모델링을 구현하였다.
직접 수집한 흉부 X선 영상을 이용한 심장비대증의 분류에 대한 성능평가를 위하여 Inception V3 모델을 사용하였다. Inception V3 딥러닝 모델링 구현 시 흉부 X선 영상 파일을 데이터 세트로 사용하였다.
딥러닝 모델링은 Inception V3 모델의 기본 구조를 사용하였으며, 활성화 함수는 Sigmoid를 적용하였다. 최적화 알고리즘은 RMSProp를 적용하였으며 배치 사이즈는 32로 설정하였고, 학습 에포크 (Epoch)는 40으로 설정하여 흉부 X선 영상의 정상 심장과 심장비대증 분류에 대한 딥러닝 모델링을 구현하였다. 여기서, 배치 사이즈는 한 번의 반복 (Iteration)에 이용되는 이미지의 수를 얼마만큼 나눠서 넣을지 지정하는 값을 의미하고, 학습 에포크는 전체 학습 셋이 신경망을 통과한 횟수를 의미한다.
성능/효과
실험을 통해 딥러닝 모델링을 적용한 정상 심장과 심장비대증의 분류에 있어 정확도와 손실도를 이용한 성능평가를 진행했다. 실험결과 Inception V3 딥러닝 모델은 성능평가에서 정상 심장과 심장비대증 분류에 우수한 성능을 나타내었다. 다만, 손실도 평가에서 검증 모델링의 손실 도가 크게 증가하는 현상이 있었는데 이는 추후 연구 시데이터의 수를 증대시키거나 모델의 구조를 더 간단하게 바꾼다면 해결이 가능한 부분이라고 생각되며 해당 연구에서 구현한 딥러닝 모델인 Inception V3는 흉부 X선 데이터를 이용한 분류에 있어 유용한 딥러닝 모델이 될 것이라고 사료된다.
후속연구
실험결과 Inception V3 딥러닝 모델은 성능평가에서 정상 심장과 심장비대증 분류에 우수한 성능을 나타내었다. 다만, 손실도 평가에서 검증 모델링의 손실 도가 크게 증가하는 현상이 있었는데 이는 추후 연구 시데이터의 수를 증대시키거나 모델의 구조를 더 간단하게 바꾼다면 해결이 가능한 부분이라고 생각되며 해당 연구에서 구현한 딥러닝 모델인 Inception V3는 흉부 X선 데이터를 이용한 분류에 있어 유용한 딥러닝 모델이 될 것이라고 사료된다. 흉부 X선 영상에 국한되지 않고 신체의 다른 부분 영상이나 CT 또는 MRI 영상처럼 다양한 의료 영상 데이터를 이용한 연구를 진행하여 이와 같은 우수한 연구결과를 얻게 된다면 향후 임상의의 진단 시 많은 도움을 줄 수 있을 것으로 기대된다.
다만, 손실도 평가에서 검증 모델링의 손실 도가 크게 증가하는 현상이 있었는데 이는 추후 연구 시데이터의 수를 증대시키거나 모델의 구조를 더 간단하게 바꾼다면 해결이 가능한 부분이라고 생각되며 해당 연구에서 구현한 딥러닝 모델인 Inception V3는 흉부 X선 데이터를 이용한 분류에 있어 유용한 딥러닝 모델이 될 것이라고 사료된다. 흉부 X선 영상에 국한되지 않고 신체의 다른 부분 영상이나 CT 또는 MRI 영상처럼 다양한 의료 영상 데이터를 이용한 연구를 진행하여 이와 같은 우수한 연구결과를 얻게 된다면 향후 임상의의 진단 시 많은 도움을 줄 수 있을 것으로 기대된다.
참고문헌 (17)
E. F. Philbin, R. Garg, K. Danisa, D. M. Denny, G. Gosselin, C. Hassapoyannes, "The Relationship Between Cardiothoracic Ratio and Left Ventricular Ejection Fraction in Congestive Heart Failure", Archives of Internal Medicine, Vol. 158, No. 5, pp. 501-506, 1998. http://dx.doi.org/10.1001/archinte.158.5.501
J. C. Anderson, H. A. Baltaxe, G. L. Wolf, "Inability to show clot: one limitation of ultrasonography of the abdominal aorta", Radiology, Vol. 132, No. 3, pp. 693-696, 1979. http://dx.doi.org/10.1148/132.3.693
H. J. Moon, E. K. Kim, J. S. Park, J. Y. Kwak, "Thyroid Ultrasound: Change of Inter-observer Variability and Diagnostic Performance after Training", Journal of Korean Society of Ultrasound in Medicine, Vol. 30, No. 1, pp. 23-28, 2011.
E. D. Frohlich, "Left ventricular hypertrophy as a risk factor", Cardiology Clinics, Vol. 4, No. 1, pp. 137-144, 1986.
D. Levy, K. M. Anderson, D. D. Savage, W. B. Kannel, J. C. Christiansen, W. P. Castelli, "Echocardiographically detected left ventricular hypertrophy: prevalence and risk factors: the Framingham Heart Study", Annals of Internal Medicine, Vol. 108, No. 1, pp. 7-13, 1988. https://doi.org/10.7326/0003-4819-108-1-7
S. Lim, M. Lee, "A Computer Aided Diagnosis Algorithm for Classification of Malignant Melanoma Based on Deep Learning", Journal of the Korea Society of Digital Industry and Information Management, Vol. 14, No. 4, pp. 69-77, 2018.
Pranav Rajpurkar, Jeremy Irvin, Kaylie Zhu, "CheXNet: Radiologist-Level Pneumonia Detection on Chest X-Rays with Deep Learning", arXiv:1711.05525, 2017. https://arxiv.org/abs/1711.05225v3
L. Yao, E. Poblenz, D. Dagunts, B. Covington, D. Bernard, K. Lyman, "Learning to diagnose from scratch by exploiting dependencies among labels", arXiv preprint arXiv:1710.10501. 2017. https://arxiv.org/abs/1710.10501
X. Wang, Y. Peng, L. Lu, Z. Lu, M. Bagheri, R. M. Summers, "Chestx-ray8: Hospital-scale chest x-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases", In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 2097-2106, 2017. https://doi.org/10.1109/CVPR.2017.369
J. Y. Kim, S. Y. Ye, "Diagnostic Classification of Chest X-ray Pneumonia using Inception V3 Modeling", Journal of the Korean Society of Radiology, Vol. 14, No. 6, pp. 773-780, 2020. https://doi.org/10.7742/jksr.2020.14.6.773
C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, A. Rabinovich, "Going deeper with convolutions", In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 1-9, 2015. https://arxiv.org/abs/1409.4842
M. S. Ko, B. C. Jeong, D. G. Kim, C. Han, "Deep Learning Under Privileged Information for Pneumonia Detection", The Institute of Electronics and Information Engineers, Vol. 58, No. 3, pp. 67-73, 2021. https://arxiv.org/abs/1805.11614
H. J. Song, E. B. Lee, H. J. Jo, S. Y. Park, S. Y. Kim, H. J. Kim, J. W. Hong, "Evaluation of Classification and Accuracy in Chest X-ray Images using Deep Learning with Convolution Neural Network", Journal of the Korean Society of Radiology, Vol. 14, No. 1, pp. 39-44, 2020. https://doi.org/10.7742/jksr.2019.14.1.39
Google. Advanced Guide to Inception v3 on Cloud TPU. https://cloud.google.com/tpu/docs/inception-v3-advanced?hlen
C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, Z. Wojna, "Rethinking the Inception Architecture for Computer Vision", arXiv preprint arXiv:1512.00567. 2015.
J. K. Lee, S. J. Kim, N. J. Kwak, D. W. Kim, J. H. Ahn, "A Deep Learning Model for Judging Presence or Absence of Lesions in the Chest X-ray Images", The Journal of the Korean Institute of Information and Communication Engineering, Vol. 24, No. 2, pp. 212-218, 2020. https://doi.org/10.6109/jkiice.2020.24.2.212
K. D. Song, M. C. Kim, S. H. Do, "The Latest Trends in the Use of Deep Learning in Radiology Illustrated Through the Stages of Deep Learning Algorithm Development", Korean Journal of Radiology, Vol. 80, No. 2, pp. 202-212, 2019. http://dx.doi.org/10.3348/jksr.2019.80.2.202
※ AI-Helper는 부적절한 답변을 할 수 있습니다.