[논문]빠른 영역-합성곱 신경망을 이용한 다중 스케일 보행자 검출 방법

잔꾸억후이; 김응태

문제 정의

본 논문에서는 다중 스케일 보행자 검출에서 성능이 저하되는 기존의 Faster R-CNN 구조의 단점을 보완하는 MS-FRCNN구조에 대해 연구하고자 한다. 그림 2는 제안된 MS-FRCNN구조이다.
하지만 많은 특징 레이어를 합치면 오히려 특징 맵이 복잡해지고 검출기의 성능이 떨어질 수도 있다. 본 연구에서는 CONV4의 CONV4_3 특징 레이어와 CONV5의 CONV5_3의 특징 레이어를 뽑아내서 다중 특징 맵을 만드는 방법을 제안한다. CONV4_3 레이어(stride=8픽셀)의 크기가 CONV5_3(stride=16픽셀)의 크기보다 두 배 크고, 각 레이어의 특징 표준도 다르기 때문에 두 레이어를 직접적으로 융합시키면 큰 특징이 작은 특징을 지배하게 되고, 특징들을 서로 섞어버린다.
본 연구에서는 MS-FRCNN의 다중 스케일 보행자 검출 성능을 평가 하기 위하여 보행자의 높이별로 분류된 조건(Reasonable,M edium, All) 으로 실험한다. Reasonable은 50픽셀이상의 높이와 65%이상 가려지지 않는 보행자이고, All는 20픽셀이상의 높이와 20%이상 가려지지 않는 보행자, 나머지 Medium은 30픽셀부터 80픽셀까지의 높이를 갖는 보행 자이다.
본 연구에서는 기존 R-CNN 방식이 가지는 저해상도에서 다중 스케일 보행자를 검출하지 못하는 단점을 개선하기 위해 Faster R-CNN 구조기반 새로운 MS-FRCNN 구조를 제안하였다. MS-FRCNN 구조에서 설계한 다중 특징 융합 레이어가 다중 스케일 보행자 특징 정보를 많이 유지할 수 있으며, 새로운 앵커 박스와 upscaling기법을 통해 보행자 검출에 어울리지 않는 기존 앵커 박스의 문제점을 보완하였다.
기존에 많이 사용하고 있는 Faster R-CNN 방식[1]는 지역 제안 네트워크(RPN; Region Proposal Network)가 추정된 검출 영역 R-CNN(Regionw ith Convolutional Neural Network)와 공유해서 학습하기 때문에 객체 검출에 좋은 성능을 얻는 장점이 있지만, DCNN의 계층이 높을수록 추출되는 특징이 점차로 없어져버리는 문제로 인해 작은 스케일 보행자(Small-scaleP edestrian)를 검출할 때 성능이 떨어 진다. 본 연구에서는 다중 스케일 특징 레이어 추출, 융합 과정을 통해 수용 필드(receptive field)를 더 풍부하게 만들고 보행자 크기와 맞추는 다중 앵커 박스를 제안함으로 Faster R-CNN 구조상의 제한점을 개선하고자 한다.

제안 방법

Caltech 보행자 데이터세트 [13]로 MS-FRCNN의 개선된 부분의 성능을 평가하고, 기존의 다른 방법들과의 성능을 비교한다.
본 연구에서는 기존 R-CNN 방식이 가지는 저해상도에서 다중 스케일 보행자를 검출하지 못하는 단점을 개선하기 위해 Faster R-CNN 구조기반 새로운 MS-FRCNN 구조를 제안하였다. MS-FRCNN 구조에서 설계한 다중 특징 융합 레이어가 다중 스케일 보행자 특징 정보를 많이 유지할 수 있으며, 새로운 앵커 박스와 upscaling기법을 통해 보행자 검출에 어울리지 않는 기존 앵커 박스의 문제점을 보완하였다. Caltech 데이터세트로 실험한 결과에서 MS-FRCNN는 다중 스케일 보행자 검출을 할 때 기존의 다른 방법보다 medium 조건하에 5%, all 조건하에 3.
MS-FRCNN에서는 특징 맵의 수용 필드(receptive field)가 특징을 많이 가질 수 있도록 다중 특징 레이어를 융합하는 방식을 제안한다. 이 방식은 물체의 의미론적인(semantic)특징을 갖는 높은 계층 특징 레이어와 지역 특징을 많이 갖는 낮은 계층 특징 레이어를 융합시켜서 글로벌 특징과 로컬 특징이 합쳐지는 하나의 특징 맵을 만든다.
MS-FRCNN의 성능 검증을 위하여 Caltech 테스트 데이터세트에서 기존의 HOG, ConvNet, RandForest, SpatialPooling+,SCF+AlexNet, MS-CNN,R PN+BF, SA-FastRCNN및 Faster R-CNN 방법과의 검출 성능을 비교하였다. 표 3에서 나오는 것과 같이 MS-CNN, RPN-BF와 SA-FastRCNN는 reasonable세트에서 제일 높은 성능을 얻었지만 다중 스케일로 분포된 보행자(medium과 all 세트)인 경우 검출 성능이 뚝떨어졌다.
다중 스케일 앵커 박스가 보행자 검출에 어떤 영향을 미치는지 살펴보기 위해 다음 표 2에서 앵커 박스의 성능 검증을 실험하였다. Faster R-CNN와 MS-RCNN에 적용된 새로운 앵커(15개)가 기존 앵커(9개)보다 훨씬 낮은 miss rate(MR)가 나왔으며, 또한 입력 영상을 upscaling하는 기법을 같이 이용할 때 다중 스케일 앵커 박스의 성능을 최적화하게 되고 뛰어난 성능을 보여주었다.
보행자의 인스턴스들은 일반적으로 scale이 다양하지만 보행자 인스턴스 높이와 넓이의 비율인 aspect ratio가 거의 변하지 않기 때문에 기존의 앵커 박스를 이용하면 보행자 검출에 적합하지 않는다. 따라서 본 연구에서는 Caltech 데이터세트 보행자 타깃으로 앵커 박스를 다시 조정하였다. Aspect ratio인 경우 Caltech 보행자의 평균 aspect ratio와 같은 0.
Caltech 보행자 데이터세트는 실제 도로 주행하는 차량에서 10시간 동안 촬영하는 영상(640×480픽셀 크기)으로 만들어진다. 이 데이터세트는 42,782개의 이미지를 학습 데이터, 4024개의 이지미를 테스트 데이터로 구성되어있으며, 본 실험에서는 Caltech 학습 데이터로 MS-FRCNN를 학습시킨 후 Caltech 테스트 데이터로 성능 평가를 실시 하였다.
Caltech 데이터세트에서 16픽셀부터 128픽셀까지의 범위에 나타나는 보행자의 높이 분포 확률을 분석해봤을 때 43% 정도로 50픽셀 높이이하인 보행자가 분포된다[13].이 작은 스케일 보행자를 검출할 수 있도록 입력 영상을 1.5배로 upscale하고 학습시키는 방법을 제안한다. 그래서 그림 3b와 같이 본 연구에서 Scale인 경우 30 픽셀 높이에서 시작하여 1.
MS-FRCNN구조는 특징 맵(feature map) 추출 네트워크, 지역 제안 네트워크(RPN)와 검출 네트워크로 구성되어있다. 특징 맵 추출 네트워크는 ImageNet 데이터세트로 이미 학습된 VGG-16 [12]네트워크를 이용하여 각 계층의 특징 맵을 추출한다. MS-FRCNN는 CONV4_3 특징 레이어와 CONV5_3 특징 레이어를 따로 뽑아내고 하나의 특징 맵으로 융합시킨다.

데이터처리

또한 모든 실험의 검출 결과는 log-space에서 균등하게 이격된 9개의 FPPI(False Positive Per Image) 비율에서 10-2에서 100 범위의 miss rate를 평균하여 계산된 log-averagem iss rate (MR)값을 이용하여 검출 성능을 평가한다.

이론/모형

Hand-Crafted특징을 기반에 하는 모델은 객체 검출에 널리 사용된다. Viola와 Jones는 Haar 특징을 추출하여 AdaBoost방법으로 특징들을 분류하는 VJ 알고리즘 [2]를 사용하였다. HOG(Histogram of Gradients)특징의 도입으로 보행자 검출에 적용하여 VJ보다 확연히 좋은 성능을 얻는 기법들이 많이 나온다.
Pierre Sermanet [8]는 처음 CNN 모델을 컴퓨터 비전영역에 성공적으로 적용하여 모든 주요 데이터세트에 최첨단(state-of-art)성능을 보여주었다. 이 모델은 다단계 특징(multi-stagef eatures) 모델이며, 전체 윤곽(global shape) 정보를 local distinctive motif 정보와 통합하기 위해 layer skip connection과 같은 방법이 사용되었다. Joint Deep Learning 모델 [9]는 특징 추출, 변형 처리, 교합 처리 모델 및 분류기를 통합하는 모델이며, HOG의 특징 추출을 컨볼루션 특징 추출로 변환하고, DPM(Deformable Part Model) 방식을 적용해서 크기가 서로 다른 영역 필터로 각 영역을 나눠서 학습한다.

성능/효과

MS-FRCNN 구조에서 설계한 다중 특징 융합 레이어가 다중 스케일 보행자 특징 정보를 많이 유지할 수 있으며, 새로운 앵커 박스와 upscaling기법을 통해 보행자 검출에 어울리지 않는 기존 앵커 박스의 문제점을 보완하였다. Caltech 데이터세트로 실험한 결과에서 MS-FRCNN는 다중 스케일 보행자 검출을 할 때 기존의 다른 방법보다 medium 조건하에 5%, all 조건하에 3.9% 나아짐을 알 수 있었다.
다중 스케일 앵커 박스가 보행자 검출에 어떤 영향을 미치는지 살펴보기 위해 다음 표 2에서 앵커 박스의 성능 검증을 실험하였다. Faster R-CNN와 MS-RCNN에 적용된 새로운 앵커(15개)가 기존 앵커(9개)보다 훨씬 낮은 miss rate(MR)가 나왔으며, 또한 입력 영상을 upscaling하는 기법을 같이 이용할 때 다중 스케일 앵커 박스의 성능을 최적화하게 되고 뛰어난 성능을 보여주었다.
이러한 방법들이 다중 스케일 보행자 검출을 제대로 처리하는 부분이 없고 Caltech 데이터세트의 어떤 특정한 스케일 보행자(resonable) 조건으로 설계되어 있기 때문이다. MS-FRCNN는 reasonable 세트에서 MS-CNN, RPN-BF와 SA-FastRCNN보다 miss rate가 높지만 작은 스케일 보행자와 다중 스케일로 분포된 보행자들을 잘 검출하고 우수한 성능을 보여주었다.
CONV3_3/CONV4_3가 세부적인 특징을 많이 갖고 있어서 작은 스케일 보행자 검출에 적합하지만 두 레이어가 같이 결합되면 특징 맵이 복잡해지고 특징 분류도 안 되는 문제가 생긴다. 그래서 검출 성능 측면을 고려하였을 때 CONV4_3와 CONV5_3의 조합이 miss rate가 가장 낮고 검출시간도 적절하였다.
이 실험결과를 통해 본 연구에서 제안된 다중 앵커 박스와 다중 특징 융합 레이어의 도입으로 MS-FRCNN가 매우 높은 성능향상을 확인할 수 있었다. 그림 4처럼 Caltech 데이터세트에서 MS-FRCNN는 Faster R-CNN이 미검출된 작은 스케일 보행자를 거의 검출할 수 있으며, 다중 스케일 보행자를 검출하는데 우월성을 보여주었다.
4%,그리고 all miss rate가 8%의 감소가 나타난다. 본 실험 결과를 통해 입력 영상 upscaling비율과 다중 스케일 앵커 박스 갯수가 다중 스케일 보행자 검출 성능을 개선함에 결정적인 요인을 보여주었다.
실험 결과, CONV5_3 레이어만 있는 경우와 CONV4_3-CONV5_3 조합인 경우에는 낮은 miss rate(MR)가 나타나며, CONV4_3-CONV5_3 조합이 CONV3_3와 합쳐졌을 때 miss rate가 오히려 높아진다. CONV3_3/CONV4_3가 세부적인 특징을 많이 갖고 있어서 작은 스케일 보행자 검출에 적합하지만 두 레이어가 같이 결합되면 특징 맵이 복잡해지고 특징 분류도 안 되는 문제가 생긴다.
이 실험결과를 통해 본 연구에서 제안된 다중 앵커 박스와 다중 특징 융합 레이어의 도입으로 MS-FRCNN가 매우 높은 성능향상을 확인할 수 있었다. 그림 4처럼 Caltech 데이터세트에서 MS-FRCNN는 Faster R-CNN이 미검출된 작은 스케일 보행자를 거의 검출할 수 있으며, 다중 스케일 보행자를 검출하는데 우월성을 보여주었다.
25 의 배율 보폭으로 15 가지 scales를 사용한다. 제안된 다중 스케일 앵커 박스는 다양한 보행자 스케일에서 맞출 수 있기 때문에 다중 스케일 보행자 검출에 적합하다.
표 2에서 보는 것과 같이 새로운 앵커 박스와 upscaling기법을 이용한 MS-FRCNN는 기존 Faster R-CNN(original)보다 miss rate가 대폭 내렸으며, reasonablemissrate가 9.9%,mediummissrate가 11.4%,그리고 all miss rate가 8%의 감소가 나타난다. 본 실험 결과를 통해 입력 영상 upscaling비율과 다중 스케일 앵커 박스 갯수가 다중 스케일 보행자 검출 성능을 개선함에 결정적인 요인을 보여주었다.
MS-FRCNN의 성능 검증을 위하여 Caltech 테스트 데이터세트에서 기존의 HOG, ConvNet, RandForest, SpatialPooling+,SCF+AlexNet, MS-CNN,R PN+BF, SA-FastRCNN및 Faster R-CNN 방법과의 검출 성능을 비교하였다. 표 3에서 나오는 것과 같이 MS-CNN, RPN-BF와 SA-FastRCNN는 reasonable세트에서 제일 높은 성능을 얻었지만 다중 스케일로 분포된 보행자(medium과 all 세트)인 경우 검출 성능이 뚝떨어졌다. 이러한 방법들이 다중 스케일 보행자 검출을 제대로 처리하는 부분이 없고 Caltech 데이터세트의 어떤 특정한 스케일 보행자(resonable) 조건으로 설계되어 있기 때문이다.

후속연구

Reasonable은 50픽셀이상의 높이와 65%이상 가려지지 않는 보행자이고, All는 20픽셀이상의 높이와 20%이상 가려지지 않는 보행자, 나머지 Medium은 30픽셀부터 80픽셀까지의 높이를 갖는 보행 자이다. 본 실험에서는 Medium 세트를 MS-FRCNN의 작은 스케일 보행자 검출 성능을 평가하는 세트로 사용할 것이다.
향후 다중 특징 융합 레이어를 이용하여 다양한 보행자 특성에 맞추어 적응적으로 검출할 수 있는 방법을 연구하여 오차율을 더 많이 낮출 수 있으리라 기대된다.

핵심어	질문	논문에서 추출한 답변
	보행자 검출은 어떤 기술인가?	보행자 검출은 컴퓨터 비전기반으로 한 객체 인식 기술들 중 하나의 핵심기술이며, 영상에 속한 모든 보행자 인스턴스들(instances)을 인식할 뿐만 아니라 보행자의 위치까지도 표시한다. 검출된 보행자의 정보들은 다양한 응용 분야에서 사용되고 있다.
	딥러닝 네트워크를 이용하여 보행자 오검출율을 낮추는 방법에 대한 선행 연구들의 어려움은 무엇이었는가?	연구자들은 딥러닝 네트워크를 이용하여 보행자 오검출율을 낮추는 방법에 대해 지속적으로 연구하여 성능을 꾸준히 상승시켰다. 그러나 대부분의 연구는 다중 스케일 보행자가 분포되는 저해상도 영상에서 보행자를 제대로 검출하지 못하는 어려움이 존재한다. 따라서 본 연구에서는 기존의 Faster R-CNN구조를 기반으로 하여 새로운 다중 특징 융합 레이어와 다중 스케일 앵커 박스를 적용하여 보행자 오검출율을 줄이는 MS-FRCNN(Multi-scaleFaster R-CNN)구조를 제안한다.
	보행자 검출과 관련된 기술은 어떤 방식으로 나눌 수 있는가?	보행자 검출과 관련 기술은 크게 두 가지로 Hand-Crafted특징 방식과 딥러닝 방식으로 나눌 수 있다. 전통적인 Hand-Crafted특징 방식은 특징의 정보가 많을수록 검출 성능이 좋아지기 때문에 특징의 정보가 부족할 경우에는 오히려 검출 성능이 떨어진다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

빠른 영역-합성곱 신경망을 이용한 다중 스케일 보행자 검출 방법
Multi-scale Pedestrian Detection Method using Faster Region-Convolutional Neural Network 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

빠른 영역-합성곱 신경망을 이용한 다중 스케일 보행자 검출 방법 Multi-scale Pedestrian Detection Method using Faster Region-Convolutional Neural Network 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

빠른 영역-합성곱 신경망을 이용한 다중 스케일 보행자 검출 방법
Multi-scale Pedestrian Detection Method using Faster Region-Convolutional Neural Network 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper