본 논문에서는 비교사학습법을 통해 영상의 방대한 정보를 효율적으로 모델링 하는 방법을 제안하고자 한다. 여기서 이동궤적들은 자연어 처리에 사용되는 알고리즘인 잠재 디리클레 할당 모형(Latent Dirichlet Allocation)에 의해 직진, 좌회전, 우회전등 각 상황 별로 주제에 따라 그 영역을 효과적으로 분류할 수 있다. LDA를 이용해 주제별로 의미 있는 영역을 분류한 후, 각 주제별로 분류된 궤적을 관측열로 보고 은닉 마르코프 모델(Hidden Markov Model)의 바움-웰치 알고리즘을 사용하여 학습한다. 전향 알고리즘을 사용하여 입력된 행동과 학습된 행동을 비교함으로써 영상내의 행동이 정상인지 비정상인지를 효과적으로 판단할 수 있다. 실험결과 다양한 영상에 대해 의미있는 주제별로 영역이 잘 분류되며 추적에러로 인한 궤적의 노이즈에도 강인하게 물체의 무단횡단, 신호위반과 같은 상황을 효과적으로 탐지하는 것을 확인할 수 있다.
본 논문에서는 비교사학습법을 통해 영상의 방대한 정보를 효율적으로 모델링 하는 방법을 제안하고자 한다. 여기서 이동궤적들은 자연어 처리에 사용되는 알고리즘인 잠재 디리클레 할당 모형(Latent Dirichlet Allocation)에 의해 직진, 좌회전, 우회전등 각 상황 별로 주제에 따라 그 영역을 효과적으로 분류할 수 있다. LDA를 이용해 주제별로 의미 있는 영역을 분류한 후, 각 주제별로 분류된 궤적을 관측열로 보고 은닉 마르코프 모델(Hidden Markov Model)의 바움-웰치 알고리즘을 사용하여 학습한다. 전향 알고리즘을 사용하여 입력된 행동과 학습된 행동을 비교함으로써 영상내의 행동이 정상인지 비정상인지를 효과적으로 판단할 수 있다. 실험결과 다양한 영상에 대해 의미있는 주제별로 영역이 잘 분류되며 추적에러로 인한 궤적의 노이즈에도 강인하게 물체의 무단횡단, 신호위반과 같은 상황을 효과적으로 탐지하는 것을 확인할 수 있다.
In this paper, we propose an unsupervised learning method for modeling motion trajectory patterns effectively. In our approach, observations of an object on a trajectory are treated as words in a document for latent dirichlet allocation algorithm which is used for clustering words on the topic in na...
In this paper, we propose an unsupervised learning method for modeling motion trajectory patterns effectively. In our approach, observations of an object on a trajectory are treated as words in a document for latent dirichlet allocation algorithm which is used for clustering words on the topic in natural language process. This allows clustering topics (e.g. go straight, turn left, turn right) effectively in complex scenes, such as crossroads. After this procedure, we learn patterns of word sequences in each cluster using Baum-Welch algorithm used to find the unknown parameters in a hidden markov model. Evaluation of abnormality can be done using forward algorithm by comparing learned sequence and input sequence. Results of experiments show that modeling of semantic region is robust against noise in various scene.
In this paper, we propose an unsupervised learning method for modeling motion trajectory patterns effectively. In our approach, observations of an object on a trajectory are treated as words in a document for latent dirichlet allocation algorithm which is used for clustering words on the topic in natural language process. This allows clustering topics (e.g. go straight, turn left, turn right) effectively in complex scenes, such as crossroads. After this procedure, we learn patterns of word sequences in each cluster using Baum-Welch algorithm used to find the unknown parameters in a hidden markov model. Evaluation of abnormality can be done using forward algorithm by comparing learned sequence and input sequence. Results of experiments show that modeling of semantic region is robust against noise in various scene.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 비교사적 방법으로 아무런 사전정보 없이 영상감시시스템에서 방대한양의 탐지․추적결과를 효율적으로 모델링하고 그것을 토대로 신뢰할만한 비정상 행동 탐지 결과를 얻었다. 이동궤적 데이터를 양자화(Quantized)해서 문서(Document), 단어(word)화한 후, 단계잠재 디리클레 할당 모형(Latent Dirichlet Allocation)을 이용해 효율적으로 감시영상에서 의미 영역(Semantic Region)을 찾아냈고, HMM을 이용해 의미 영역 내에서 이동 물체가 지나갈 시간적인 순서도 모델링하여 역주행과 같은 이상행동도 효과적으로 탐지 할 수 있도록 하였다.
가설 설정
제안한 알고리즘에서는 10개의 상태(state)를 가진 HMM으로 학습을 했으며 초기 상태전이행렬(State Transition Matrix) A를 각 행(Row)의 합이 1인 임의의 10×10 행렬로 초기화하였다. 관측 심볼 확률 분포(Observation Symbol Probability Distribution) B는 각 클러스터에서 유일한 단어 개수를 심볼의 수로 정했으며 처음에는 동일한 분포를 가진다고 가정하고 초기화 하였다. 학습 결과로부터 물체가 진행하는 방향으로의 상태 천이 확률은 높지만 상태에 따라 나뉜 영역에서 물체의 진행 반대방향으로는 상태 천이 확률이 낮게 모델링 되므로 역주행과 같은 비정상행동도 탐지할 수 있다.
제안한 알고리즘에서 각 주제는 32×24개의 항을 가지는 다항 확률분포(Multinomial Probability Distribution)를 이루며, 각 문서는 이러한 주제의 혼합으로 만들어졌다고 가정한다.
제안 방법
Stauffer의 가우시안 혼합 모델(Gaussian Mixture Model)[13]이 대표적이다. C. Stauffer는 변화하는 배경에 대한 강인성을 높이기 위해 가우시안 혼합 모델을 이용하여 배경 모델링하는 방법을 제안하였다. 이는 각 픽셀에 대해 3~5개의 가우시안 분포로 배경을 표현하고, 지속적으로 이 가우시안들을 갱신하는데, 간략화한 EM 과정(Expectation Maximization)을 통해 실시간성을 확보한 것이 특징이다.
은닉 마르코프 모델(Hidden Markov Model)을 학습하기 위해서는 각 의미영역별로 그에 맞는 관측열(Observation Sequence)의 집합이 필요하다. 따라서 LDA의 결과를 이용해 각 문장을 T개의 주제 중에서 가장 가까운 곳에 할당함으로써 문장을 문서로부터 분리해 T개의 작은 집합으로 나눈다. 예를 들어 n개의 단어로 구성된 어떤 문장
하지만 LDA는 문서내의 단어들은 얼마든지 순서가 뒤바뀔 수 있다는 가정에서 모델링을 했다는 단점을 가지고 있다. 따라서 앞서 구한 T개의 의미영역별로 은닉 마르코프 모델을 이용해 시간적 순서를 모델링 하고자 한다. 은닉 마르코프 모델(Hidden Markov Model)을 학습하기 위해서는 각 의미영역별로 그에 맞는 관측열(Observation Sequence)의 집합이 필요하다.
왼쪽 그림에서는 이동물체가 지나간 궤적을 보여주며 오른쪽 그림에서는 32×24 크기의 어휘목록(Vocabulary)에서 궤적이 지나간 셀(Cell)을 진한색으로 처리해 보여주고 있다. 이 셀 하나가 토픽모델에서 하나의 단어로 취급되며 하나의 궤적에서 나온 셀들의 집합을 하나의 문장으로 보고, 본 알고리즘에서는 10개의 문장을 하나의 문서로 모아서 LDA[6,7]의 입력으로 사용하였다.
Basharat[4]에서 실험영상으로 사용한 UCF dataset이다. 이 영상의 경우에는 학습데이터는 제공하는 궤적의 텍스트 파일을 이용했고, 테스트의 경우에만 동영상을 이용해서 탐지․추적 알고리즘으로 궤적을 추출하여 비정상행동을 탐지하는데 사용하였다. 연산 속도면에서 살펴봤을때, 사거리 영상의 학습데이터에서 추출된 궤적은 3066개, UCF dataset에서 학습을 위해 사용된 궤적은 2060개였고, 이것을 학습하는데 HMM의 상태개수와 초기 파라미터의 값에 따라 다르지만 대체로 1시간~1시간 30분정도가 소요되었다.
본 논문에서는 비교사적 방법으로 아무런 사전정보 없이 영상감시시스템에서 방대한양의 탐지․추적결과를 효율적으로 모델링하고 그것을 토대로 신뢰할만한 비정상 행동 탐지 결과를 얻었다. 이동궤적 데이터를 양자화(Quantized)해서 문서(Document), 단어(word)화한 후, 단계잠재 디리클레 할당 모형(Latent Dirichlet Allocation)을 이용해 효율적으로 감시영상에서 의미 영역(Semantic Region)을 찾아냈고, HMM을 이용해 의미 영역 내에서 이동 물체가 지나갈 시간적인 순서도 모델링하여 역주행과 같은 이상행동도 효과적으로 탐지 할 수 있도록 하였다. 테스트 과정에서는 학습한 HMM에 대해 새로운 이동물체의 궤적이 나타날 확률을 전향 알고리즘(Forward Algorithm)을 사용하여 구했으며, 이 확률이 낮을 경우 비정상 행동으로 판단하였다.
제안한 알고리즘에서는 10개의 상태(state)를 가진 HMM으로 학습을 했으며 초기 상태전이행렬(State Transition Matrix) A를 각 행(Row)의 합이 1인 임의의 10×10 행렬로 초기화하였다.
제안한 알고리즘에서 각 주제는 32×24개의 항을 가지는 다항 확률분포(Multinomial Probability Distribution)를 이루며, 각 문서는 이러한 주제의 혼합으로 만들어졌다고 가정한다. 제안한 알고리즘에서는 1개의 궤적을 문장(Sentence)로 생각하고 수개의 궤적을 모아 하나의 문서(Document)로 만든다. 또한 궤적내의 각 관측값(Observation)을 단어(Word)로 취급한다.
테스트 영상에서 물체의 이동 궤적을 단어와 문장으로 맵핑 한 후 그 문장이 학습한 HMM에 대해 일어날 확률을 계산한다. Ⅱ.
대상 데이터
Ⅲ. 실험
실험에서 제안한 알고리즘은 MATLAB으로 구현하였고, 실험에 사용한 영상중 사거리 영상은 실제 교통 상황에서 사용되고 있는 CCTV 영상을 인터넷에서 동영상 캡쳐 프로그램을 이용하거나 디지털카메라로 녹화한 영상이다. 또 다른 영상은 A.
이 영상의 경우에는 학습데이터는 제공하는 궤적의 텍스트 파일을 이용했고, 테스트의 경우에만 동영상을 이용해서 탐지․추적 알고리즘으로 궤적을 추출하여 비정상행동을 탐지하는데 사용하였다. 연산 속도면에서 살펴봤을때, 사거리 영상의 학습데이터에서 추출된 궤적은 3066개, UCF dataset에서 학습을 위해 사용된 궤적은 2060개였고, 이것을 학습하는데 HMM의 상태개수와 초기 파라미터의 값에 따라 다르지만 대체로 1시간~1시간 30분정도가 소요되었다. 테스트 과정에서는 각 프레임에서 탐지물체의 ID와 위치정보를 미리 받아온다고 가정했을때 비정상 행동탐지에만 걸린 시간은 약 30~50ms로 MATLAB에서도 실시간성을 보장했다.
이론/모형
Wang[3]에서 제안한 디리클레 할당 모형(Latent Dirichlet Allocation)을 이용해 궤적을 효율적으로 감시영상에서 의미 영역(Semantic Region)을 클러스터링(Clustering)한다. 또한 각 주제별로 분류한 궤적을 관측열(Observation Sequence)로 보고 은닉 마르코프 모델(Hidden Markov Model)[8]을 학습한다. 학습한 HMM에 대해 새로운 이동물체의 궤적이 나타났을 때 그것이 정상일 확률을 구할 수 있으며, 이 확률이 낮을 경우 비정상 행동으로 판단함으로써 행동인식 성능을 높일 수 있다.
이러한 문제점들을 해결하기 위하여 본 연구에서는 이동궤적을 X.Wang[3]에서 제안한 디리클레 할당 모형(Latent Dirichlet Allocation)을 이용해 궤적을 효율적으로 감시영상에서 의미 영역(Semantic Region)을 클러스터링(Clustering)한다. 또한 각 주제별로 분류한 궤적을 관측열(Observation Sequence)로 보고 은닉 마르코프 모델(Hidden Markov Model)[8]을 학습한다.
이렇게 구한 각 클러스터의 관측열(Observation Sequences)을 학습 데이터로 이용해서 우도(Likelihood)를 최대화 하는 은닉 마르코프 모델 파라미터 λ = (A,B,π)를 바움-웰치 알고리즘으로 추정한다[9].
이동궤적 데이터를 양자화(Quantized)해서 문서(Document), 단어(word)화한 후, 단계잠재 디리클레 할당 모형(Latent Dirichlet Allocation)을 이용해 효율적으로 감시영상에서 의미 영역(Semantic Region)을 찾아냈고, HMM을 이용해 의미 영역 내에서 이동 물체가 지나갈 시간적인 순서도 모델링하여 역주행과 같은 이상행동도 효과적으로 탐지 할 수 있도록 하였다. 테스트 과정에서는 학습한 HMM에 대해 새로운 이동물체의 궤적이 나타날 확률을 전향 알고리즘(Forward Algorithm)을 사용하여 구했으며, 이 확률이 낮을 경우 비정상 행동으로 판단하였다. 실험 결과에서 확인 하였듯이, 다양한 상황에서 정확하게 알고리즘이 동작하는 것을 확인할 수 있었지만 추적실패에 따른 노이즈와 고정적인 셀 크기와 양자화(Quantization)의 에러에 따른 문제로 오탐지가 일어나는 경우도 찾아볼 수 있었다.
P(wi|zi = j )는 j번째 주제에서 단어 wi가 생성될 확률이며, P(zi = j )는 주어진 문서에서 주제 j가 선택될 확률이다. 하지만 이 확률분포에 대한 직접적인 추론은 불가능하기 때문에 근사적인 MCMC(Markov Chain Monte Carlo)방법[7]을 이용해 추론한다.
성능/효과
(f)에서는 사람이 의도적으로 지그재그로 걷는 상황을 보여주며 이 행동도 일반적으로 자주 일어나지 않는 상황이므로 비정상으로 판단하게 된다. 결과에서 확인할 수 있듯이, 다양한 영상에서 확률적으로 낮게 일어나는 행동들을 효과적으로 탐지하는 것을 볼 수 있으며, 주변에서 일어나는 정상적인 행동들은 검정색으로 표시되어 정상과 비정상을 잘 구분하고 있음을 보여준다. 표 1에서는 사거리 동영상에서 테스트한 63개의 궤적(정상궤적 57개, 이상 궤적 6개)과 UCF 동영상에서 추출한 52개의 궤적(정상궤적 42개, 이상 궤적 10개)에서 비정상 결과를 탐지한 정량적 결과를 보여준다.
테스트 과정에서는 학습한 HMM에 대해 새로운 이동물체의 궤적이 나타날 확률을 전향 알고리즘(Forward Algorithm)을 사용하여 구했으며, 이 확률이 낮을 경우 비정상 행동으로 판단하였다. 실험 결과에서 확인 하였듯이, 다양한 상황에서 정확하게 알고리즘이 동작하는 것을 확인할 수 있었지만 추적실패에 따른 노이즈와 고정적인 셀 크기와 양자화(Quantization)의 에러에 따른 문제로 오탐지가 일어나는 경우도 찾아볼 수 있었다.
연산 속도면에서 살펴봤을때, 사거리 영상의 학습데이터에서 추출된 궤적은 3066개, UCF dataset에서 학습을 위해 사용된 궤적은 2060개였고, 이것을 학습하는데 HMM의 상태개수와 초기 파라미터의 값에 따라 다르지만 대체로 1시간~1시간 30분정도가 소요되었다. 테스트 과정에서는 각 프레임에서 탐지물체의 ID와 위치정보를 미리 받아온다고 가정했을때 비정상 행동탐지에만 걸린 시간은 약 30~50ms로 MATLAB에서도 실시간성을 보장했다.
표 1에서는 사거리 동영상에서 테스트한 63개의 궤적(정상궤적 57개, 이상 궤적 6개)과 UCF 동영상에서 추출한 52개의 궤적(정상궤적 42개, 이상 궤적 10개)에서 비정상 결과를 탐지한 정량적 결과를 보여준다. 표에서 확인할 수 있듯이 두가지 경우 모두 비정상 궤적은 80%이상, 정상궤적은 90% 이상의 높은 탐지율을 보여주었다.
후속연구
즉 T개의 의미영역에 대응하는 HMM을 결과로 얻을 수 있다. 각각의 HMM은 관측열에서의 단어의 순서에 따라 영역이 나누어져 상태(state)가 모델링될 것을 기대한다. 제안한 알고리즘에서는 10개의 상태(state)를 가진 HMM으로 학습을 했으며 초기 상태전이행렬(State Transition Matrix) A를 각 행(Row)의 합이 1인 임의의 10×10 행렬로 초기화하였다.
또한 움직이는 객체에서 궤적을 추출하기 위해서는 움직임이 탐지되는 물체의 라벨을 지속적으로 유지하는 추적 기술 또한 필요하다. 본 연구에서 사용한 시스템[14]에서는 기본적으로 이전의 추적 결과와 현재의 탐지 결과를 매칭 테이블에서 상호 비교하여 올바르게 라벨을 유지 한다.
추후 연구에서는 이러한 단점을 극복할 수 있도록 양자화를 하지 않고 의미영역을 만들어내는 방법에 대해 연구가 수행되어야 할 것이다. 또한 의미영역 사이의 연관관계를 함께 모델링한다면 2개 이상의 의미영역에서 일어나는 움직임들이 동시에 일어날 수 있는지 없는지를 판단함으로써 좀 더 심층적인 장면의 이해가 가능할 것이다. 그리고 고정형 카메라에서 장면을 학습하는 것이 아니라 Pan-Tilt 이동이 카메라에서의 장면을 모델링하고 비정상 행위를 탐지하는 방법에 대해서도 연구를 진행할 필요가 있다.
추후 연구에서는 이러한 단점을 극복할 수 있도록 양자화를 하지 않고 의미영역을 만들어내는 방법에 대해 연구가 수행되어야 할 것이다. 또한 의미영역 사이의 연관관계를 함께 모델링한다면 2개 이상의 의미영역에서 일어나는 움직임들이 동시에 일어날 수 있는지 없는지를 판단함으로써 좀 더 심층적인 장면의 이해가 가능할 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
움직임 패턴을 학습하고 모델링하는 방법 중 옵티컬 플로우를 활용한 방법들의 단점은?
첫 번째는 물체가 탐지되고, 추적되면서 생긴 궤적(Trajectory)을 모델링하는 방법이고, 두 번째 방법은 탐지추적과 같은 과정을 생략하고 옵티컬 플로우(Optical Flow)와 같은 낮은 수준의 움직임 패턴을 추출하여 이 패턴을 학습하는 방법[15~16]이다. 하지만 옵티컬 플로우를 활용한 방법들은 학습과정에서 추출된 움직임 벡터들의 시간적 순서는 고려하지 않아 노이즈에 민감하며 비정상 행동을 하는 물체를 지속적으로 탐지하고 관찰하기에 어려움이 있다.
영상감시알고리즘은 어떤 문제를 자동화하기 위한 것인가?
하지만 이런 영상 감시 시스템의 대부분은 여러 대의 감시 카메라에서 입력된 영상을 여러 대의 모니터에 전시하고 녹화하는 기능만 수행하고, 이렇게 입력된 영상을 통해 이상 여부를 감시하는 것은 사람이 그 역할을 하고 있다. 하지만 사람이 여러 개의 모니터를 동시에 관찰하면서 비정상적인 행동을 탐지하는 것은 매우 힘든 일이며, 모든 상황을 녹화하는 것은 다시 찾아보기도 힘들뿐더러 엄청난 메모리의 낭비이다. 따라서 이를 자동화하기 위한 영상감시알고리즘의 연구가 활발히 진행되고 있다.
움직임 패턴을 학습하고 모델링 하는 방법 두 가지는?
움직임 패턴을 학습하고 모델링 하는 방법은 크게 두 가지로 분류된다. 첫 번째는 물체가 탐지되고, 추적되면서 생긴 궤적(Trajectory)을 모델링하는 방법이고, 두 번째 방법은 탐지추적과 같은 과정을 생략하고 옵티컬 플로우(Optical Flow)와 같은 낮은 수준의 움직임 패턴을 추출하여 이 패턴을 학습하는 방법[15~16]이다. 하지만 옵티컬 플로우를 활용한 방법들은 학습과정에서 추출된 움직임 벡터들의 시간적 순서는 고려하지 않아 노이즈에 민감하며 비정상 행동을 하는 물체를 지속적으로 탐지하고 관찰하기에 어려움이 있다.
참고문헌 (16)
W Hu, X Xiao, Z Fu, D Xie, T Tan, and S Maybank, "A system for learning statistical motion patterns," IEEE Trans. Pattern Analysis and Machine Intelligence, Vol.28, pp.1450-1464, 2006.
Imran Saleemi, Khurram Shafique and Mubarak Shah, "Probabilistic Modeling of Scene Dynamics for Applications in Visual Surveillances," IEEE Trans. Pattern Analysis and Machine Intelligence, Vol.31, pp.1472-1485, 2009.
Xiaogang Wang, Keng Teck Ma, Gee-Wah Ng, at al., "Trajectory analysis and semantic region modeling using a nonparametric Bayesian model", IEEE Conf. Computer Vision and Pattern Recognition, 2008.
A. Basharat, A. Gritai, Mubarak Shah, "Learning object motion patterns for anomaly detection and improved object detection," IEEE Conf. Computer Vision and Pattern Recognition, 2008.
X. Wang, K. Tieu and E. Grimson, "Learning Semantic Scene Models by Trajectory Analysis," in Proceedings of European Conference on Computer Vision (ECCV), 2006.
DM Blei, AY Ng, and MI Jordan, "Latent dirichlet allocation," The Journal of Machine Learning Research, 3, pp.993-1022, 2003.
T. L. Griffiths, and M. Steyvers, "Finding scientific topics," Proceedings of the National Academy of Sciences, 101 (suppl. 1), pp. 5228-5235, 2004.
Lawrence R. Rabiner, "A tutorial on hidden Markov models and selected applications in speech recognition," Proceedings of IEEE, Vol. 77, NO.2, pp257-286, Feb. 1989.
한학용, 패턴인식개론. 서울:한빛미디어, 456-460쪽, 2009.
I. Haritaoglu, D. Harwood, and L. S. Davis, "W4 : Real-time surveillance of people and their activities," IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 22, pp. 809.830, Aug. 2000.
R. T. Collins, A. J. Lipton, T. Kanade, et al., "A system for video surveillance and monitoring," Carnegie Mellon Univ., Pittsburgh, PA, Tech. Rep., CMU-RI-TR-00-12, 2000.
Brendan Tran Morris and Mohan Manubhai Trivedi, "A survey Of vision-based trajectory learning and analysis for surveillance," IEEE Trans. Circuits and Systems for Video Technology, vol. 18, no. 8, Aug., 2008.
E. Grimson and C. Stauffer, "Adaptive Background Mixture Models for Real Time Tracking," Proc. CVPR Conf., 1999.
장형진, 이광무, 김수완, 윤석민, 최진영, 지능형 영상감시 알고리즘 개발을 위한 통합 시스템, 대한전기학회, CICS 2010 정보 및 제어 학술대회 논문집 2010.10, page(s): 109-110
T Hospedales, S Gong, and T Xiang, "A Markov Clustering Topic Model for Mining Behaviour in Video," Proc. IEEE Int'l Conf. Computer Vision, 2009.
Xiaogang Wang, Keng Teck Ma, Gee-Wah Ng, at al., "Trajectory analysis and semantic region modeling using a nonparametric Bayesian model", IEEE Conf. Computer Vision and Pattern Recognition, 2008.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.