본 논문에서는 산업 시설에서 작업자의 안전을 실시간으로 감시하는 딥러닝 기반 영상 분석 시스템을 구현하는 데 목적을 둔다. 작업자의 복장을 안전모, 안전조끼, 안전벨트 착용 여부에 따라 총 여섯 가지의 클래스로 나누고, 총 5,307개의 영상을 학습데이터로 이용하였다. 실험은 속도와 정확도가 준수한 YOLO v4를 이용하였으며, 총 645장의 영상에 대해 학습 반복 수에 따른 가중치를 적용했을 때의 mAP를 비교함으로써 수행되었다. 학습 반복 수 6,000에서의 mAP가 60.13%로 제일 높았으며, 테스트셋이 가장 많은 클래스의 AP가 가장 높음을 확인하였다. 추후 데이터셋과 객체 검출 모델을 최적화함으로써, 정확도와 속도를 개선할 예정이다.
본 논문에서는 산업 시설에서 작업자의 안전을 실시간으로 감시하는 딥러닝 기반 영상 분석 시스템을 구현하는 데 목적을 둔다. 작업자의 복장을 안전모, 안전조끼, 안전벨트 착용 여부에 따라 총 여섯 가지의 클래스로 나누고, 총 5,307개의 영상을 학습데이터로 이용하였다. 실험은 속도와 정확도가 준수한 YOLO v4를 이용하였으며, 총 645장의 영상에 대해 학습 반복 수에 따른 가중치를 적용했을 때의 mAP를 비교함으로써 수행되었다. 학습 반복 수 6,000에서의 mAP가 60.13%로 제일 높았으며, 테스트셋이 가장 많은 클래스의 AP가 가장 높음을 확인하였다. 추후 데이터셋과 객체 검출 모델을 최적화함으로써, 정확도와 속도를 개선할 예정이다.
The purpose of this paper is to implement a deep learning-based real-time video analysis algorithm that monitors safety of workers in industrial facilities. The worker's clothes were divided into six classes according to whether workers are wearing a helmet, safety vest, and safety belt, and a total...
The purpose of this paper is to implement a deep learning-based real-time video analysis algorithm that monitors safety of workers in industrial facilities. The worker's clothes were divided into six classes according to whether workers are wearing a helmet, safety vest, and safety belt, and a total of 5,307 images were used as learning data. The experiment was performed by comparing the mAP when weight was applied according to the number of learning iterations for 645 images, using YOLO v4. It was confirmed that the mAP was the highest with 60.13% when the number of learning iterations was 6,000, and the AP with the most test sets was the highest. In the future, we plan to improve accuracy and speed by optimizing datasets and object detection model.
The purpose of this paper is to implement a deep learning-based real-time video analysis algorithm that monitors safety of workers in industrial facilities. The worker's clothes were divided into six classes according to whether workers are wearing a helmet, safety vest, and safety belt, and a total of 5,307 images were used as learning data. The experiment was performed by comparing the mAP when weight was applied according to the number of learning iterations for 645 images, using YOLO v4. It was confirmed that the mAP was the highest with 60.13% when the number of learning iterations was 6,000, and the AP with the most test sets was the highest. In the future, we plan to improve accuracy and speed by optimizing datasets and object detection model.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
과도한 학습으로 인해 과적합이 발생하는지를 확인하여 학습데이터에 최적화된 가중치를 확보하고자 하였다. 또한, 구현된 시스템의 성능을 확인하기 위해, 같은 데이터셋으로 학습된 YOLO v3와 비교하였다.
본 논문에서는 실시간 객체 검출 알고리즘을 이용하여 작업자의 안전 장비 착용 여부를 확인하기 위해 클래스 6개에 대한 데이터셋을 구축하였다. 그림 5는 작업자들의 안전 장비에 대한 6가지 유형을 나타낸 것이다.
본 논문에서는 작업자의 안전 장비 착용 여부를 판별하기 위해 데이터셋을 구축하고, 딥러닝 객체 검출 알고리즘을 활용하여 지정한 클래스 별 정확도를 측정하였다. 제안하는 시스템은 관리자와 작업자 간 비대면 업무가 가능해진다는 점에서 강점을 갖는다.
한계가 있다. 이에 본 논문은 관리자가 작업자의 안전을 실시간으로 감시할 수 있는 딥러닝 기반 영상 분석 시스템을 제안한다. 관리자는 시간적, 인적 비용을 최소화하여 작업자의 안전을 더 확실히 관리할 수 있으면서도, 관리자와 작업자 간의 비대면 업무가 가능하다는 장점을 가진다.
가설 설정
그림 5는 작업자들의 안전 장비에 대한 6가지 유형을 나타낸 것이다. 여기에서 안전 조끼와 벨트를 동시에 착용한 작업자는 없다고 가정한다. 표 1은 그림 5에서 표시된 유형에 대해 설명하며, 이 중 ⑤, ⑥이 안전 장비를 착용했다고 본다.
제안 방법
실험은 학습 반복 수 3, 000, 6, 000, 9, 000, 12,000에 따른 가중치를 각각 구하여 정확도를 비교함으로써 수행되었다. 과도한 학습으로 인해 과적합이 발생하는지를 확인하여 학습데이터에 최적화된 가중치를 확보하고자 하였다.
정확도는 각 클래스에 대한 IoU(Intersection of Union)를기준으로 AP(Average Precision)를 구한 뒤 mAP(mean Average Precision)을 산출하여 평가한다. IoU는 두 영역의 교집합을 합집합으로 나눈 값으로, [0, 1]의 범위를 가진다.
대상 데이터
001 로 설정하였다. 5, 307개의 학습데이터를 사용하였고, 학습 반복 수에 따른 가중치의 정확도를 측정하였다. 개발환경은 표 2와 같다.
v4를 활용하였다. 중추 네트워크로는 CSPDarknet-53 을 이용하였으며 입력 영상의 크기는 608x608, 학습률은 0.001 로 설정하였다. 5, 307개의 학습데이터를 사용하였고, 학습 반복 수에 따른 가중치의 정확도를 측정하였다.
총 6, 472개의 영상 중 5, 307개를 학습데이터로, 645개를 테스트 520개의 영상은 검증용(validation)으로 구성하였으며, 학습데이터의 주석(annotation) 영역과 테스트, 검증 데이터의 실제(ground truth) 영역은 사람의 반신, 혹은 전신에 대한 경계 상자로 설정하였다. 그림 6은 데이터셋의 주석에 대한 예시를 보인다.
데이터처리
과도한 학습으로 인해 과적합이 발생하는지를 확인하여 학습데이터에 최적화된 가중치를 확보하고자 하였다. 또한, 구현된 시스템의 성능을 확인하기 위해, 같은 데이터셋으로 학습된 YOLO v3와 비교하였다.
본 논문에서는 실시간 구현을 위해 YOLO 검출기를 사용하였다. YOLO는 영상을 같은 크기의 격자로 나누고, 한 칸마다 경계 상자의 정보, 신뢰도 등을 계산하여 객체를 검출하는 알고리즘으로, 빠른 처리 속도를 가지고 성능 또한 준하다는 장점이 있다 [20].
이론/모형
실험은 테스트셋 645장에 대해 이루어졌으며, 객체 검출 알고리즘으로는 실시간 구동이 가능하면서도 정확도가 준수한 YOLO v4를 활용하였다. 중추 네트워크로는 CSPDarknet-53 을 이용하였으며 입력 영상의 크기는 608x608, 학습률은 0.
성능/효과
지정한 클래스 별 정확도를 측정하였다. 제안하는 시스템은 관리자와 작업자 간 비대면 업무가 가능해진다는 점에서 강점을 갖는다. 또한 실시간 영상 분석을 통해 관리자가 일일이 감시하지 않아도 된다는 점에서 시간적, 인적 비용을 줄일 수 있고, 작업자도 안전 장비 착용 의무를 준수함으로써 산업 현장에서의 사고 피해를 줄일 수 있다.
후속연구
추후 앞서 언급한 두 가지의 개선 방향을 가지고 정확도와 속도를 고도화할 예정이다. 클래스마다 가지는 학습데이터 수가 비슷하도록 데이터셋을 추가로 구축할 것이며, 중추 네트워크로 영상의 특징을 잘 추출할 수 있도록 목(neck) 이나 머리 (head) 부분에 전처리나 후처리 알고리즘을 개발함으로써, 본 연구 목적에 더욱 최적화된 시스템을 구현할 예정이다.
고도화할 예정이다. 클래스마다 가지는 학습데이터 수가 비슷하도록 데이터셋을 추가로 구축할 것이며, 중추 네트워크로 영상의 특징을 잘 추출할 수 있도록 목(neck) 이나 머리 (head) 부분에 전처리나 후처리 알고리즘을 개발함으로써, 본 연구 목적에 더욱 최적화된 시스템을 구현할 예정이다.
참고문헌 (20)
고용노동부, "산업재해 현황분석", 2020
J. Redmon, S. Divvala, R. Girshick, A. Farhadi, "You only look once: Unified, real-time object detection," the IEEE conference on computer vision and pattern recognition(CVPR), pp. 779-788, 2016.
Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander CBerg, "SSD: Single shot multibox detector," the European Conference on Computer Vision(ECCV), pp. 21-37, 2016.
Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollar, "Focal loss for dense object detection," the IEEE International Conference on Computer Vision(ICCV), pp. 2980-2988, 2017.
Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik, "Rich feature hierarchies for accurate object detection and semantic segmentation," the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pp. 580-587, 2014.
Ross Girshick, "Fast R-CNN," the IEEE International Conference on Computer Vision (ICCV), pp. 1440-1448, 2015.
Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun, "Faster R-CNN: Towards real-time object detection with region proposal networks," Advances in Neural Information Processing Systems(NIPS), pp. 91-99, 2015.
A. Krizhevsky, I. Sutskever, G. Hinton, "Imagenet classification with deep convolutional neural networks," Advances in Neural Information Processing Systems(NIPS), 2012.
Karen Simonyan, Andrew Zisserman, "Very deep convolutional networks for large-scale image recognition," arXiv preprint arXiv:1409.1556, 2014.
C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, A. Rabinovich., "Going deeper with convolutions," CoRR, abs/1409.4842, 2014.
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun, "Deep residual learning for image recognition," the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pp. 770-778, 2016.
Gao Huang, Zhuang Liu, Laurens Van Der Maaten, Kilian Q Weinberger, "Densely connected convolutional networks," the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pp. 4700-4708, 2017.
Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam, "MobileNets: Efficient convolutional neural networks for mobile vision applications," arXiv preprint arXiv:1704.04861, 2017.
Xiangyu Zhang, Xinyu Zhou, Mengxiao Lin, and Jian Sun, "ShuffleNet: An extremely efficient convolutional neural network for mobile devices," the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pp. 6848-6856, 2018.
Joseph Redmon, Ali Farhadi, "YOLO9000: better, faster, stronger," the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pp. 7263-7271, 2017.
Joseph Redmon, Ali Farhadi, "YOLOv3: An incremental improvement," arXiv preprint arXiv:1804.02767, 2018.
Alexey Bochkovskiy, Chien-Yao Wang, Hong-Yuan Mark Liao, "YOLOv4: Optimal Speed and Accuracy of Object Detection," arXivpreprint arXiv:2004.10934, 2020.04.
박선,김종원, "오픈 소스 기반의 딥러닝을 이용한 적조생물 이미지 분류," 스마트미디어저널, 제7권, 제2호, 34-39쪽, 2018년 6월
※ AI-Helper는 부적절한 답변을 할 수 있습니다.