지능형 비디오 감시 시스템의 이상탐지는 중요하고 지속적인 과제이다. 이상 탐지 모델은 연속적 비디오 프레임 내에서 개별 객체들의 정상적인 패턴에서 벗어나는 이벤트를 탐지해야 한다. 그러나 2D conv 연산으로 구성된 생성적 적대 네트워크(GAN)을 사용한 미래 프레임 예측 방법은 입력의 채널을 연결하여 입력으로 사용하고, 2D conv 연산은 각 채널을 더하게 되므로 연속적인 비디오 프레임에서 순차적 정보를 학습하기 어렵다. 이 문제를 해결하기 위해 연속된 비디오 내에서 각 객체를 감지하고, ...
지능형 비디오 감시 시스템의 이상탐지는 중요하고 지속적인 과제이다. 이상 탐지 모델은 연속적 비디오 프레임 내에서 개별 객체들의 정상적인 패턴에서 벗어나는 이벤트를 탐지해야 한다. 그러나 2D conv 연산으로 구성된 생성적 적대 네트워크(GAN)을 사용한 미래 프레임 예측 방법은 입력의 채널을 연결하여 입력으로 사용하고, 2D conv 연산은 각 채널을 더하게 되므로 연속적인 비디오 프레임에서 순차적 정보를 학습하기 어렵다. 이 문제를 해결하기 위해 연속된 비디오 내에서 각 객체를 감지하고, attention알고리즘과 3D conv 연산으로 각 객체의 시공간 정보를 포착하고 비디오의 순차적인 정보를 학습하여 미래 프레임을 예측하는 U-Net 모델을 제안한다. 우리는 YOLOv5를 사용하여 비디오 프레임 내의 객체를 탐지하여 불필요한 배경에 대한 훈련을 최소화하고, 탐지된 객체의 bounding box 영역을 스케일링하여 각 객체의 정보를 최대화하여 모델을 훈련시킨다. 우리는 개체에 대한 스케일링의 중요성을 보여주기 위해 ablation study를 수행한다. 또한, 우리는 포착된 객체의 bounding box 크기가 다르기 때문에 모델 훈련을 위해 동일한 크기로 변환하면서 작은 이미지를 흐리게 하는 문제를 해결하기 위해 가중 피크 신호 대 잡음비(PSNR)를 제안한다. 우리의 모델은 세 가지 벤치마크(USCD Ped2, Avenue, Shanghai Tech)에서 최첨단 방법과 비교하여 우수한 결과를 달성한다.
지능형 비디오 감시 시스템의 이상탐지는 중요하고 지속적인 과제이다. 이상 탐지 모델은 연속적 비디오 프레임 내에서 개별 객체들의 정상적인 패턴에서 벗어나는 이벤트를 탐지해야 한다. 그러나 2D conv 연산으로 구성된 생성적 적대 네트워크(GAN)을 사용한 미래 프레임 예측 방법은 입력의 채널을 연결하여 입력으로 사용하고, 2D conv 연산은 각 채널을 더하게 되므로 연속적인 비디오 프레임에서 순차적 정보를 학습하기 어렵다. 이 문제를 해결하기 위해 연속된 비디오 내에서 각 객체를 감지하고, attention 알고리즘과 3D conv 연산으로 각 객체의 시공간 정보를 포착하고 비디오의 순차적인 정보를 학습하여 미래 프레임을 예측하는 U-Net 모델을 제안한다. 우리는 YOLOv5를 사용하여 비디오 프레임 내의 객체를 탐지하여 불필요한 배경에 대한 훈련을 최소화하고, 탐지된 객체의 bounding box 영역을 스케일링하여 각 객체의 정보를 최대화하여 모델을 훈련시킨다. 우리는 개체에 대한 스케일링의 중요성을 보여주기 위해 ablation study를 수행한다. 또한, 우리는 포착된 객체의 bounding box 크기가 다르기 때문에 모델 훈련을 위해 동일한 크기로 변환하면서 작은 이미지를 흐리게 하는 문제를 해결하기 위해 가중 피크 신호 대 잡음비(PSNR)를 제안한다. 우리의 모델은 세 가지 벤치마크(USCD Ped2, Avenue, Shanghai Tech)에서 최첨단 방법과 비교하여 우수한 결과를 달성한다.
Anomaly detection in intelligent video surveillance systems is an important and ongoing task. An anomaly detection model should identify events that deviate from the normal pattern of individual objects within sequential video frames. But existing prediction methods of future frames, such as generat...
Anomaly detection in intelligent video surveillance systems is an important and ongoing task. An anomaly detection model should identify events that deviate from the normal pattern of individual objects within sequential video frames. But existing prediction methods of future frames, such as generative adversarial networks (GANs) using 2D convolution, use channels as inputs by concatenating them, and 2D convolution adds up them, making it difficult to learn sequential information in successive video frames. To address this problem, we propose a model to predict future frames by learning sequential information from previous video sequences by detecting each object within the video sequence and capturing spatio-temporal information of each object with attention and 3D convolution in U-Net. We use YOLOv5 to detect objects within a video frame to minimize training on unnecessary backgrounds, and train the model by maximizing the information of each object by scaling the bounding box area of the detected object. We conduct an ablation study to show the importance of scaling on objects. Additionally, we propose a weighted peak signal-to-noise ratios (PSNR) to solve the problem of blurring small images while converting to the same size for model training because the captured objects have different bounding box sizes. To the best of our knowledge in concerning predictive models, our model achieves superior results compared with state-of-the-art methods on three benchmarks (USCD Ped2, Avenue, and Shanghai Tech).
Anomaly detection in intelligent video surveillance systems is an important and ongoing task. An anomaly detection model should identify events that deviate from the normal pattern of individual objects within sequential video frames. But existing prediction methods of future frames, such as generative adversarial networks (GANs) using 2D convolution, use channels as inputs by concatenating them, and 2D convolution adds up them, making it difficult to learn sequential information in successive video frames. To address this problem, we propose a model to predict future frames by learning sequential information from previous video sequences by detecting each object within the video sequence and capturing spatio-temporal information of each object with attention and 3D convolution in U-Net. We use YOLOv5 to detect objects within a video frame to minimize training on unnecessary backgrounds, and train the model by maximizing the information of each object by scaling the bounding box area of the detected object. We conduct an ablation study to show the importance of scaling on objects. Additionally, we propose a weighted peak signal-to-noise ratios (PSNR) to solve the problem of blurring small images while converting to the same size for model training because the captured objects have different bounding box sizes. To the best of our knowledge in concerning predictive models, our model achieves superior results compared with state-of-the-art methods on three benchmarks (USCD Ped2, Avenue, and Shanghai Tech).
※ AI-Helper는 부적절한 답변을 할 수 있습니다.