알약 자동 인식을 위한 딥러닝 모델간 비교 및 검증
Comparison and Verification of Deep Learning Models for Automatic Recognition of Pills

멀티미디어학회논문지 = Journal of Korea Multimedia Society, v.22 no.3, 2019년, pp.349 - 356  

이경윤 (Dept. of Biomedical Eng., Gachon University College of Medicine) ,  김영재 (Dept. of Biomedical Eng., Gachon University College of Medicine) ,  김승태 (Dept. of Pharmacy., Gil Hospital) ,  김효은 (Dept. of Biomedical Eng., Gachon University College of Medicine) ,  김광기 (Dept. of Biomedical Eng., Gachon University College of Medicine)

When a prescription change occurs in the hospital depending on a patient's improvement status, pharmacists directly classify manually returned pills which are not taken by a patient. There are hundreds of kinds of pills to classify. Because it is manual, mistakes can occur and which can lead to medi...


문제 정의

  • 이에 본 논문에서는 별도의 영상처리 기술을 거치지 않고, 검출과 분류를 동시에 수행하는데 특화된 딥러닝 모델을 사용하여 알약을 자동으로 검출 및 분류하고자 하였다. 또한 YOLO, Faster R-CNN, RetinaNet과 같이 다양한 딥러닝 모델들을 통해 알약을 검출 및 분류하고, 알약 분류에 적합한 딥러닝 모델을 찾기 위해 각 모델 간의 성능을 비교 검증해 보고자 하였다.
  • 본 논문에서는 알약을 자동으로 분류하기 위해 딥러닝 모델인 YOLO, Faster R-CNN, RetinaNet의 3가지 모델을 통해 촬영된 알약 영상들을 학습하여 분류 모델을 각각 만들고, 각 모델간 성능을 비교 검증 해보았다. 실험에 사용한 영상의 개수가 많지 않았기 때문에 검증 결과의 신뢰성을 높이기 위해 각 모델별로 10-fold 교차검증을 수행하였다.
  • 이에 본 논문에서는 별도의 영상처리 기술을 거치지 않고, 검출과 분류를 동시에 수행하는데 특화된 딥러닝 모델을 사용하여 알약을 자동으로 검출 및 분류하고자 하였다. 또한 YOLO, Faster R-CNN, RetinaNet과 같이 다양한 딥러닝 모델들을 통해 알약을 검출 및 분류하고, 알약 분류에 적합한 딥러닝 모델을 찾기 위해 각 모델 간의 성능을 비교 검증해 보고자 하였다.
핵심어 질문 논문에서 추출한 답변
RetinaNet은 무엇인가? RetinaNet은 ResNet[13]을 기반으로 한 Backbone network와 2개의 전용 Subnetwork로 구성된 하나의 통합 네트워크 모델이고[14], Fig.2(c)와 같은 구조이다.
Faster R-CNN은 어떤 검출 방식을 사용하는가? Faster R-CNN은 CNN[9,10]을 기반으로 한 객체 검출 알고리즘중 하나로, RPN(Region Proposal Network)과 컨볼루션 맵을 공유하여 객체를 검출한다[11,12]. Faster R-CNN에 대한 구조는 Fig.
10-fold 교차검증의 효과는 무엇인가? 실험에 사용한 영상의 개수가 많지 않았기 때문에 검증 결과의 신뢰성을 높이기 위해 각 모델별로 10-fold 교차검증을 수행하였다. 그 결과, 각 알약에 대해서 100장이라는 적은 학습 데이터에도 불구하고, 뛰어난 성능을 보이는 것을 확인하였다.
참고문헌 (17)

  1. B.K. Lee and S.G. Kwon, "Automatic Classification System of Tablets with Various Colors and Shapes," Journal of Korea Multimedia Society, pp. 659-666, Vol. 21, No. 6, 2018. 

  2. Y.B. Lee, Matching and Retrieval of Drug Pill Images, Master's Thesis of Korea University, 2011. 

  3. A. Krizhevsky, I. Sutskever, and G.E. Hinton, "Imagenet Classification with Deep Convolutional Neural Networks," Advances in Neural Information Processing Systems, pp. 1097-1105, Vol. 60, No. 6, 2012. 

  4. B.Y. Yoo, W.H. Hwang, S.J. Han, S.M. Rhee, J.B. Kim, J.J. Han, et al., "The Trend of Image Recognition Close to The Human Level in Deep Learning," Communications of the Korean Institute of Information Scientists and Engineers, pp. 32-41, Vol. 33, No. 9, 2015. 

  5. D.U. Kim, Shape and Text Imprint Recognition of Pill Image Taken with a Smartphone, Master's Thesis of Seoul National University, 2017. 

  6. R. Joseph, D. Santosh, G. Ross, and F. Ali, "You Only Look Once: Unified, Real-Time Object Detection," Proceeding of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 779-788, 2016. 

  7. YOLO: Real-Time Object Detection, https://pjreddie.com/darknet/yolo/ (accessed May, 21, 2018). 

  8. How to Train YOLOv2 to Detect Custom Objects, https://timebutt.github.io/static/how-to-train-yolov2-to-detect-custom-objects/ (accessed May, 25, 2018). 

  9. Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, "Gradient-Based Learning Applied to Document Recognition," Proceedings of the IEEE, Vol. 86, No. 11, pp. 2278-2324, 1998. 

  10. D.A. Forsyth, J.L. Mundy, V.D. Gesu, R. Cipolla, Shape, Contour and Grouping in Computer Vision, Springer Verlag, Berlin, Heidelberg.., 1999. 

  11. LeCun, Yann, et al. "Object recognition with gradient-based learning." Shape, contour and grouping in computer vision. Springer, Berlin, Heidelberg., 1999. 319-345. 

  12. R. Girshick, "Fast R-CNN," Proceedings of the IEEE International Conference on Computer Vision, pp. 1440-1448, 2015. 

  13. S. Ren, K. He, R. Girshick, and J. Sun "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks," Advances in Neural Information Processing Systems, pp. 91-99, Vol. 39, No. 6, 2015. 

  14. K. He, X. Zhang, S. Ren, and J. Sun, "Deep Residual Learning for Image Recognition," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 770-778, 2016. 

  15. T.Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollar, "Focal Loss for Dense Object Detection," In 2017 IEEE International Conference on Computer Vision (ICCV), pp. 2999-3007, 2017. 

  16. F. Ahmed, D. Tarlow, and D. Batra, "Optimizing Expected Intersection-over-union with Candidate-constrained CRFs," Proceedings of the IEEE International Conference on Computer Vision, pp. 1850-1858, 2015. 

  17. K.S. Song, H.S. Kang, J.G. Im, M.C. Chung, C.W. Kim, J.H. Kim, et al., "Effects of Digital Image Processing on the Detection of Simulated Lesions in Chest Radiographs: An Experimental Study," Journal of Korean Radiological Society, Vol. 28, No. 6, pp. 858-864, 1992. 

