최근 IoT 및 딥러닝 관련 기술요소들이 영상보안감시시스템에서도 다양하게 응용되고 있다. 그 중 CCTV를 통해 촬영된 동영상에서 자동으로 특정 객체를 검출, 추적, 분류 하는 감시 기능이 점점 지능화되고 있다. 본 논문에서는 보급형 CPU만 사용하는 PC 환경에서도 실시간 처리가 가능한 알고리즘을 목표로 하였다. GMM(Gaussian Mixture Model)을 이용한 배경 모델링과 헝가리안 알고리즘, 그리고 칼만 필터를 조합한 추적 알고리즘은 전통적이며 복잡도가 비교적 적지만 검출 오류가 높다. 이를 보강하기 위해 대용량 데이터 학습에 적합한 딥러닝을 기술을 적용하였다. 특히 움직임이 있는 사람의 특징을 강조하기 위해 추적된 객체에 대해 SRGB-3 Layer CNN을 사용하였다. 성능 평가를 위해 기존의 HOG와 SVM을 이용한 시스템과 비교했을 때 Move-in은 7.6%, Move-out은 9.0%의 오류율 감소가 있었다.
최근 IoT 및 딥러닝 관련 기술요소들이 영상보안감시시스템에서도 다양하게 응용되고 있다. 그 중 CCTV를 통해 촬영된 동영상에서 자동으로 특정 객체를 검출, 추적, 분류 하는 감시 기능이 점점 지능화되고 있다. 본 논문에서는 보급형 CPU만 사용하는 PC 환경에서도 실시간 처리가 가능한 알고리즘을 목표로 하였다. GMM(Gaussian Mixture Model)을 이용한 배경 모델링과 헝가리안 알고리즘, 그리고 칼만 필터를 조합한 추적 알고리즘은 전통적이며 복잡도가 비교적 적지만 검출 오류가 높다. 이를 보강하기 위해 대용량 데이터 학습에 적합한 딥러닝을 기술을 적용하였다. 특히 움직임이 있는 사람의 특징을 강조하기 위해 추적된 객체에 대해 SRGB-3 Layer CNN을 사용하였다. 성능 평가를 위해 기존의 HOG와 SVM을 이용한 시스템과 비교했을 때 Move-in은 7.6%, Move-out은 9.0%의 오류율 감소가 있었다.
Recently, Internet of Things (IoT) and deep learning techniques have affected video surveillance systems in various ways. The surveillance features that perform detection, tracking, and classification of specific objects in Closed Circuit Television (CCTV) video are becoming more intelligent. This p...
Recently, Internet of Things (IoT) and deep learning techniques have affected video surveillance systems in various ways. The surveillance features that perform detection, tracking, and classification of specific objects in Closed Circuit Television (CCTV) video are becoming more intelligent. This paper presents real-time algorithm that can run in a PC environment using only a low power CPU. Traditional tracking algorithms combine background modeling using the Gaussian Mixture Model (GMM), Hungarian algorithm, and a Kalman filter; they have relatively low complexity but high detection errors. To supplement this, deep learning technology was used, which can be trained from a large amounts of data. In particular, an SRGB(Sequential RGB)-3 Layer CNN was used on tracked objects to emphasize the features of moving people. Performance evaluation comparing the proposed algorithm with existing ones using HOG and SVM showed move-in and move-out error rate reductions by 7.6 % and 9.0 %, respectively.
Recently, Internet of Things (IoT) and deep learning techniques have affected video surveillance systems in various ways. The surveillance features that perform detection, tracking, and classification of specific objects in Closed Circuit Television (CCTV) video are becoming more intelligent. This paper presents real-time algorithm that can run in a PC environment using only a low power CPU. Traditional tracking algorithms combine background modeling using the Gaussian Mixture Model (GMM), Hungarian algorithm, and a Kalman filter; they have relatively low complexity but high detection errors. To supplement this, deep learning technology was used, which can be trained from a large amounts of data. In particular, an SRGB(Sequential RGB)-3 Layer CNN was used on tracked objects to emphasize the features of moving people. Performance evaluation comparing the proposed algorithm with existing ones using HOG and SVM showed move-in and move-out error rate reductions by 7.6 % and 9.0 %, respectively.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
현재의 화소가 k개의 가우시안 모델 중 어떤 분포에 가장 근접한지 확인한다. 만약 k개 가우시안 모델의 분포 범위 내에서 현재 화소가 포함되지 않는다면, 가장 확률이 적은 분포는 현재의 화소를 평균으로 갖고 분산은 매우 큰 초기값을 갖는 가우시안 분포로 대체되며, 가중치는 식 (3)과 같이 500 프레임마다 한번씩 업데이트 된다.
제안 방법
그 후 검출 된 객체를 대상으로 헝가리안 알고리즘(Hungarian Algorithm)[12∼13]과 칼만 필터(Kalman filter)[14]를 사용하여 다중 객체를 추적한다.
배경 모델링의 후처리 방법으로 미디언 필터와 모폴 로지를 사용하여 노이즈 화소들을 제거한다.
추적 알고리즘을 통해 같은 추적 ID를 갖는 객체 바운드 박스의 중앙점이 누적되어 궤적이 생성된다. 이동한 궤적을 사용하여 입구 영역과의 그레디언트(gradient) 를 계산한다. 그리고 식 (11)을 이용하여 객체의 Move-in 과 Move-out을 판단한다.
제안된 알고리즘을 적용하기 위해서 건물 입구 상단에 CCTV 감시 시스템을 설치하였다. 이 시스템은 입구에 출입하는 객체를 검출하고 실시간으로 이를 분석한다.
영상에서 사람과 배경을 구분하기 위해서 CCTV 감시 시스템을 통해 획득된 각 DB를 훈련하였다. 사람 영상은 사람의 전체 모습이 드러난 영상을 대상으로 훈련하였으며 배경 영상은 바닥, 박스, 문, 오토바이 등 특정한 객체가 아닌 다양한 크기와 모양의 변형이 존재하는 영상을 사용하였다.
각 알고리즘은 사람이 가상의 선을 지나 건물 안으로 들어가는 Move-in과 건물에서 가상의 선을 지나 밖으로 나가는 Move-out으로 구분된다. 오류 카운트를 위해서 각 DB 영상에서 GT(Ground Truth)와 각알고리즘을 통해 나온 결과를 비교한다.
본 논문에서는 GMM을 이용한 배경 모델링을 통해 객체를 검출하고 헝가리안 알고리즘과 칼만 필터를 통해 객체를 추적한 후, SRGB-3 Layer CNN으로 사람배경을 구분하는 실시간 피플 카운팅 시스템을 제안하였다. 실시간 시스템에 적용하기 위해 복잡도를 줄일 수 있는 방법을 객체 검출과 추적에 사용하였다.
본 논문에서는 GMM을 이용한 배경 모델링을 통해 객체를 검출하고 헝가리안 알고리즘과 칼만 필터를 통해 객체를 추적한 후, SRGB-3 Layer CNN으로 사람배경을 구분하는 실시간 피플 카운팅 시스템을 제안하였다. 실시간 시스템에 적용하기 위해 복잡도를 줄일 수 있는 방법을 객체 검출과 추적에 사용하였다. 그림 10 에서 확인할 수 있듯이 제안된 알고리즘을 통해서 Move-in 의 경우는 SVM+HOG 보다 7.
대상 데이터
제안된 알고리즘을 적용하기 위해서 건물 입구 상단에 CCTV 감시 시스템을 설치하였다. 이 시스템은 입구에 출입하는 객체를 검출하고 실시간으로 이를 분석한다.
학습 DB는 그림 8과 같이 64 × 48 × 3 크기의 SRGB 영상을 사용했으며 실제 입구를 지나는 사람을 카운트하여 시스템의 성능 평가를 하였다.
영상에서 사람과 배경을 구분하기 위해서 CCTV 감시 시스템을 통해 획득된 각 DB를 훈련하였다. 사람 영상은 사람의 전체 모습이 드러난 영상을 대상으로 훈련하였으며 배경 영상은 바닥, 박스, 문, 오토바이 등 특정한 객체가 아닌 다양한 크기와 모양의 변형이 존재하는 영상을 사용하였다. 학습 DB는 그림 8과 같이 64 × 48 × 3 크기의 SRGB 영상을 사용했으며 실제 입구를 지나는 사람을 카운트하여 시스템의 성능 평가를 하였다.
데이터처리
성능 비교를 위하여 기존의 널리 사용되는 HOG를 이용하여 특징을 추출하고 SVM으로 분류하는 방법, LeNet을 이용한 분류 방법과 제안된 알고리즘을 비교하였다. 각 알고리즘은 사람이 가상의 선을 지나 건물 안으로 들어가는 Move-in과 건물에서 가상의 선을 지나 밖으로 나가는 Move-out으로 구분된다.
이론/모형
본 논문에서는 외부 환경 변화를 고려한 객체 검출을 위해 Stauffer가 제안한 GMM (Gaussian Mixture Model)[2]을 사용한다. GMM 모델링을 통해 검출된 객체를 추적하여 특정 위치를 지나는 사건이 발생할 경우 CNN (Convolutional Neural Network)를 이용하여 사람과 배경을 구분한다.
GMM 모델링을 통해 검출된 객체를 추적하여 특정 위치를 지나는 사건이 발생할 경우 CNN (Convolutional Neural Network)를 이용하여 사람과 배경을 구분한다. 이를 위해 CCTV 영상에 대한 사람, 배경 DB를 구성하고 훈련하여 피플 카운팅을 위한 모델로 사용하였다.
CCTV와 같이 고정된 카메라 입력에 대한 객체 검출을 위해서는 배경과 전경을 분리하는 방법이 사용되는데 배경 차분 방법과 GMM 방법이 있다. 본 논문에서는 외부 환경의 변화를 고려한 객체 검출을 위하여 Stauffer의 GMM 배경 모델링을 사용하였다. 만약 배경이 전체적으로 일정한 밝기를 가질 경우에는 배경을 하나의 가우시안 분포만으로도 표현 할 수 있다.
예를 들어 가려짐(occlusion)이나 그림자로 인한 문제점, 사람이 이동하면서 생기는 모양의 변화 등이다. 이를 해결하기 위해 칼만 필터를 사용한다. 객체 추적은 각 프레임 단위로 칼만 추적 보정 및 예측을 수행하여 보다 정확하게 움직임을 감지한다.
다수의 객체를 추적하기 위해 헝가리안 알고리즘을 사용한다. 완전 탐색(brute force search) 방법이 O(n!)의 수행 시간을 갖는 반면에 헝가리안 알고리즘은 O(n3)을 갖는다.
객체 추적을 이용하여 입구를 지나가는 객체가 존재한다고 판단되면 그 객체의 패치(patch)를 가져온다. 그리고 패치에 슬라이딩 윈도우(sliding window) 방법을 사용한다. 이 방법은 배경 모델링을 통해 얻은 블롭에 대해서 윈도우를 일정한 간격으로 이동시키면서 해당 윈도우 내에 우리가 원하는 객체가 있는지 확인하는 방법이다.
사람과 배경을 분리하기 위한 분류 알고리즘으로 SRGB (Sequential RGB)와 3 Layer CNN을 사용한다. SRGB 영상은 (t) 프레임의 R채널, (t – 1) 프레임의 G채널, (t – 2)의 B채널을 합쳐서 만들어진다.
그 결과를 완전 연결 레이어에 연결하여 fc4, fc5로 구성한다. 모든 레이어의 활성 함수(activation function)로 ReLU(Rectified Linear Unit)을 사용한다.
성능/효과
SRGB 영상은 움직이는 객체의 시간적인 특징을 얻기 위해 사용된다. 영상에서 배경은 움직임이 거의 없기 때문에 (t), (t – 1), (t – 2) 프레임에서 RGB 성분의 변화가 거의 없으나 움직이는 객체의 경우 프레임마다 RGB 성분이 변한다. SRGB 영상의 크기는64 × 48 × 3이다.
실시간 시스템에 적용하기 위해 복잡도를 줄일 수 있는 방법을 객체 검출과 추적에 사용하였다. 그림 10 에서 확인할 수 있듯이 제안된 알고리즘을 통해서 Move-in 의 경우는 SVM+HOG 보다 7.6%, LeNet보다 3.2%의 성능 향상이 있었다. 그리고 Move-out의 경우는 SVM+HOG 보다 9.
2%의 성능 향상이 있었다. 그리고 Move-out의 경우는 SVM+HOG 보다 9.0%, LeNet보다 0.9%의 성능 향상이 있었다.
후속연구
오류 내용을 확인해보면 입구에서 배회하는 객체가 있을 경우 GT보다 더 많이 카운트 되는 경우가 있다. 이를 방지하기 위해서 배회 감지 알고리즘을 추가하여 오류율을 줄이는 방법이 연구되어야 할 것으로 보인다.
질의응답
핵심어
질문
논문에서 추출한 답변
사람과 배경을 분리하기 위한 분류 알고리즘은 무엇을 사용하는가?
사람과 배경을 분리하기 위한 분류 알고리즘으로 SRGB (Sequential RGB)와 3 Layer CNN을 사용한다. SRGB 영상은 (t) 프레임의 R채널, (t – 1) 프레임의 G채널, (t – 2)의 B채널을 합쳐서 만들어진다.
슬라이딩 윈도우(sliding window) 방법의 특징은?
그리고 패치에 슬라이딩 윈도우(sliding window) 방법을 사용한다. 이 방법은 배경 모델링을 통해 얻은 블롭에 대해서 윈도우를 일정한 간격으로 이동시키면서 해당 윈도우 내에 우리가 원하는 객체가 있는지 확인하는 방법이다. 이 때, 카메라가 고정된 위치에 설치되어 있기 때문에 영상 안의 객체 크기의 변화가 적다. 그러므로 고정된 윈도우의 크기로 슬라이딩하여 불필요한 반복 검사를 제거하여 복잡도를 줄인다.
통합관제 시스템은 어떻게 나뉘는가?
기존 아날로그 CCTV 에서 최근 네트워크 기반의 지능형 CCTV로 발전하고 있으며 많은 카메라를 통합 관리할 수 있도록 그림 1과 같이 통합 관제 시스템이 등장하였다. 통합관제 시스템은 크게 저장서버, 영상분석 서버, 이벤트 서버, DB 서버로 나눌 수 있다. 이러한 서버들은 클라이언트가 라이브 영상, 분석 이벤트 등을 실시간으로 조회 할 수 있게 해주며, 과거의 영상을 리플레이 할 수 있게 한다.
참고문헌 (14)
K. Shvachko, H. Kuang, S. Radia, and R. Chansler, "The Hadoop Distributed File System," IEEE 26th Symposium on Mass Storage Systems and Technologies(MSST), pp. 1-10, 3-7 May 2010.
C. Stauffer and W. Grimson, "Learning Patterns of Activity Using Real-Time Tracking," IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 22, pp. 747-757, 2000.
N. Dalal and B. Triggs, "Histograms of oriented gradients for human detection," In CVPR, pp. 886-893, 2005.
X. Wang, T.X. Han, S. Yan, "An HOG-LBP human detector with partial occlusion handling," ICCV, pp. 32-39, 2009.
P. Dollar, Z. Tu, P. Perona, and S. Belongie, "Integral channel features," In BMVC, pp. 1-11, 2009.
P.F. Felzenszwalb, R.B. Girshick, D. McAllester, and D. Ramanan, "Object detection with discriminatively trained part-based models," TPAMI, vol. 32, pp. 1627-1645, 2010.
Y. Lecun, L. Bottou, Y. Bengio, and P. Haffner, "Gradient-based learning applied to document recognition," Proceedings of the IEEE, vol. 86, pp. 2278-2324, 1998.
A. Krizhevsky, I. Sutskever, and G.E. Hinton, "Imagenet classification with deep convolutional neural networks," NIPS 2012, pp. 1097-1105, 2012.
C. Szegedy et al, "Going deeper with convolutions," CoRR, vol. abs/1409.4842, 2014.
K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," arXiv preprint arXiv:1512.03385, 2015.
J. Munkres, "Algorithms for the Assignment and Transportation Problems," Journal of the Society for Industrial and Applied Mathematics, vol. 5, no. 1, pp. 32-38, 1957.
F. Lutteke, X. Zhang, and J. Franke, "Implementation of the Hungarian Method for object tracking on a camera monitored transportation system," ROBOTIK 2012, pp. 1-6, 2012.
R. Rad and M. Jamzad, "Real-time classification and tracking of multiple vehicles in highways," Pattern Recognition Letters, vol. 26, pp. 1597-1607, 2005.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.