[논문]DNN 기반 컬러와 열 영상을 이용한 다중 스펙트럼 보행자 검출 기법

이용우; 신지태

doi:10.5909/jbe.2018.23.3.361

초록
AI-Helper

자율주행 자동차의 연구가 빠르게 발전하는 가운데 보행자 검출에 대한 연구 또한 성공적으로 진행되고 있다. 그러나 대부분의 연구에서 사용되는 데이터셋이 컬러영상을 기반하고 있고 또한 보행자의 인식이 상대적으로 쉬운 영상이 많다. 컬러 영상의 경우 보행자가 빛에 노출되는 정도에 따라 영상에 제대로 포착이 되지 않을 수 있고 이로 인해 기존 방식들로는 이러한 보행자를 제대로 검출하지 못하는 상황이 발생한다. 따라서 본 논문에서는 DNN (deep neural network) 기반 컬러 영상과 열 영상을 이용한 다중 스펙트럼 보행자 검출 기법을 제안하고자 한다. 기존의 SSD (single shot multibox detector) 기법을 기반으로 하여 컬러 영상과 열 영상을 동시에 활용하는 퓨전 네트워크 구조를 제안한다. 실험은 KAIST의 데이터셋을 이용하여 실시하였고 제안한 기법인 SSD-H (SSD-Halfway fusion)의 방식이 KAIST 보행자 검출기준의 기준치보다 18.18% 낮은 miss rate를 획득하였고 또한 기존 halfway fusion 기법에 비해 최소 2.1% 낮은 miss rate를 획득하였다.

Abstract ▼ AI-Helper

As autonomous driving research is rapidly developing, pedestrian detection study is also successfully investigated. However, most of the study utilizes color image datasets and those are relatively easy to detect the pedestrian. In case of color images, the scene should be exposed by enough light in...

As autonomous driving research is rapidly developing, pedestrian detection study is also successfully investigated. However, most of the study utilizes color image datasets and those are relatively easy to detect the pedestrian. In case of color images, the scene should be exposed by enough light in order to capture the pedestrian and it is not easy for the conventional methods to detect the pedestrian if it is the other case. Therefore, in this paper, we propose deep neural network (DNN)-based multi-spectrum pedestrian detection method using color and thermal images. Based on single-shot multibox detector (SSD), we propose fusion network structures which simultaneously employ color and thermal images. In the experiment, we used KAIST dataset. We showed that proposed SSD-H (SSD-Halfway fusion) technique shows 18.18% lower miss rate compared to the KAIST pedestrian detection baseline. In addition, the proposed method shows at least 2.1% lower miss rate compared to the conventional halfway fusion method.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서 본 연구에서는 [7]의 네트워크 퓨전 구조를 기반으로 한 보행자 검출 기법을 제안하고자 한다. Faster R-CNN의 단점을 보완하기 위해 본 논문에서는 SSD[8]을 기본 DNN 구조로 삼고 [7]에서 제안한 퓨전 방식을 사용하고자 한다. 실험은 KAIST의 데이터셋^[9]을 사용하고 SSD를 각각 컬러 영상과 열 영상만으로 트레이닝한 방식과 비교하고자 한다.
따라서 본 연구에서는 [7]의 네트워크 퓨전 구조를 기반으로 한 보행자 검출 기법을 제안하고자 한다. Faster R-CNN의 단점을 보완하기 위해 본 논문에서는 SSD[8]을 기본 DNN 구조로 삼고 [7]에서 제안한 퓨전 방식을 사용하고자 한다.
본 논문에서는 컬러 영상과 열 영상을 이용한 다중 스펙트럼 보행자 검출 기법에 대해 제안하였다. 기존의 보행자 검출 기법의 경우 컬러 영상만을 사용하기 때문에 보행자 검출의 정확도가 떨어지는 단점이 존재하지만 제안 방법에서는 컬러 영상과 열 영상의 정보를 같이 이용하기 때문에 낮과 밤 영상 모두 보행자를 정확하게 검출하는 것을 확인할 수 있었다.
본 장에서는 [7]의 논문에서 소개하는 네트워크 퓨전 구조와 SSD의 네트워크 구조에 대해 알아본다.
본 장에서는 기존 컬러 영상만을 이용한 보행자 검출의 문제점을 보완하기 위해 열 영상을 함께 사용한 보행자 검출 기법을 제안한다. 기본 네트워크 구조로는 SSD 기법을 사용하며 VGG-16을 기본 네트워크로 사용한다.
후속 연구로는 네트워크 퓨전 방법에 대해 좀 더 세밀하게 연구하고 보행자 검출 정확도를 더욱 향상하는 방향으로 진행하고자 한다. 이를 위해 기본 네트워크 구조를 새롭게 제안하고 새로운 네트워크 퓨전 방식을 제시하고자 한다.

제안 방법

기본 네트워크 구조로는 SSD 기법을 사용하며 VGG-16을 기본 네트워크로 사용한다. 네트워크 퓨전 방식으로는 SSD-E, SSD-H, SSD-L을 적용해 어떤 구조가 최적의 구조인지를 파악한다. 그림 3에서는 각각 제안한 네트워크의 구조를 보여주고 있다.
실험은 KAIST의 데이터셋^[9]을 사용하고 SSD를 각각 컬러 영상과 열 영상만으로 트레이닝한 방식과 비교하고자 한다. 또한 KAIST의 보행자 검출 기준의 기준치방법인 ACF+T+THOG (aggregated channel features with thermal and thermal histogram of oriented gradients)[9]와 [7]의 퓨전구조인 early fusion, halfway fusion 그리고 late fusion 방식을 적용한 SSD-E (SSD-early fusion), SSD-H(SSD-halfway fusion), SSD-L (SSD-late fusion)과 함께 비교한다. 검출 지표로는 FPPI (false positive per image) – miss rate를 사용한다.
Faster R-CNN의 단점을 보완하기 위해 본 논문에서는 SSD[8]을 기본 DNN 구조로 삼고 [7]에서 제안한 퓨전 방식을 사용하고자 한다. 실험은 KAIST의 데이터셋^[9]을 사용하고 SSD를 각각 컬러 영상과 열 영상만으로 트레이닝한 방식과 비교하고자 한다. 또한 KAIST의 보행자 검출 기준의 기준치방법인 ACF+T+THOG (aggregated channel features with thermal and thermal histogram of oriented gradients)[9]와 [7]의 퓨전구조인 early fusion, halfway fusion 그리고 late fusion 방식을 적용한 SSD-E (SSD-early fusion), SSD-H(SSD-halfway fusion), SSD-L (SSD-late fusion)과 함께 비교한다.
검출 지표로는 FPPI (false positive per image) – miss rate를 사용한다. 제안 방법인 SSD-H는 ACF+T+THOG에 비해 18.18% 낮은 miss rate를 획득하였고 [7]의 halfway fusion에 비해 2.1% 낮은 miss rate를 획득하였다.
기존 [7]의 논문에서는 Faster R-CNN 기반의 보행자검출 기법으로 물체가 위치한 영역을 예측하는 네트워크가 따로 존재하기 때문에 속도가 느린 단점이 존재한다. 제안하는 방식의 경우 SSD를 기반으로 하여 다양한 스케일과 종횡비를 가진 기본영역박스를 이용해 빠르고 정확하게 물체를 탐지하는 차이가 존재한다. SSD-E의 경우 먼저 컬러 영상을 입력으로 받는 네트워크와 열 영상을 입력으로 받는 네트워크를 구성한다.
결과 지표로는 FPPI-miss rate를 사용하였다. 총 일곱 가지의 방법을 비교 하였는데 각각 ACF+T+THOG^[9], SSD-C, SSD-T, halfway fusion^[7], SSD-E, SSD-H, SSD-L이다. ACF+T+THOG는 [9]의 데이터셋의 보행자 검출 기준의 기준치 방법으로 기본 ACF^[13]의 10개의 채널을 가진 특징에 열영상의 특징과 열영상에서 획득한 HOG (histogram of gradients)^[14] 특징을 합쳐서 사용하는 물체탐지 기법이다.

대상 데이터

을 이용해 실시하였다. KAIST의 데이터셋은 총 95,328개의 컬러 영상, 열 영상 쌍이 존재하며 총 1,182명의 보행자가 103,128개의 주석으로 표기되어 있다. 트레이닝은 보행자가 가려지거나 잘려있는 경우 (occlusion), 높이가 50 픽셀 미만의 작은 보행자를 제외한 영상을 사용하였다.
트레이닝은 보행자가 가려지거나 잘려있는 경우 (occlusion), 높이가 50 픽셀 미만의 작은 보행자를 제외한 영상을 사용하였다. 또한 매 두 번째 프레임을 추출하여 총 3,357쌍의 영상을 이용해 트레이닝을 실시하였다. 테스트셋의 경우 위와 동일한 기준을 적용하고 매 세 번째 프레임을 추출하여 총 2,094쌍의 영상을 이용하였다.
실험은 KAIST의 multispectral pedestrian dataset^[9]을 이용해 실시하였다. KAIST의 데이터셋은 총 95,328개의 컬러 영상, 열 영상 쌍이 존재하며 총 1,182명의 보행자가 103,128개의 주석으로 표기되어 있다.
또한 매 두 번째 프레임을 추출하여 총 3,357쌍의 영상을 이용해 트레이닝을 실시하였다. 테스트셋의 경우 위와 동일한 기준을 적용하고 매 세 번째 프레임을 추출하여 총 2,094쌍의 영상을 이용하였다. 트레이닝 시 사용된 파라메터의 경우[8]에서 사용된 것과 동일하게 설정하였으며 트레이닝은 pre-training 없이 총 120,000번 반복되었다.
KAIST의 데이터셋은 총 95,328개의 컬러 영상, 열 영상 쌍이 존재하며 총 1,182명의 보행자가 103,128개의 주석으로 표기되어 있다. 트레이닝은 보행자가 가려지거나 잘려있는 경우 (occlusion), 높이가 50 픽셀 미만의 작은 보행자를 제외한 영상을 사용하였다. 또한 매 두 번째 프레임을 추출하여 총 3,357쌍의 영상을 이용해 트레이닝을 실시하였다.

데이터처리

제안한 네트워크 퓨전 구조 (SSD-H)가 컬러 영상만을 이용했을 때 (SSD-C)보다 성능이 향상되는 것을 확인하기 위해 실제 보행자 탐지 영상을 확인해 조명 환경이 좋은 낮 영상과 조명이 거의 없는 밤 영상에 테스트를 해서 결과를 비교하였다. 그림 5는 SSD-C와 SSD-H의 보행자 검출 결과를 보여준다.

이론/모형

검출 지표로는 FPPI (false positive per image) – miss rate를 사용한다.
트레이닝 시 사용된 파라메터의 경우[8]에서 사용된 것과 동일하게 설정하였으며 트레이닝은 pre-training 없이 총 120,000번 반복되었다. 결과 지표로는 FPPI-miss rate를 사용하였다. 총 일곱 가지의 방법을 비교 하였는데 각각 ACF+T+THOG^[9], SSD-C, SSD-T, halfway fusion^[7], SSD-E, SSD-H, SSD-L이다.
본 장에서는 기존 컬러 영상만을 이용한 보행자 검출의 문제점을 보완하기 위해 열 영상을 함께 사용한 보행자 검출 기법을 제안한다. 기본 네트워크 구조로는 SSD 기법을 사용하며 VGG-16을 기본 네트워크로 사용한다. 네트워크 퓨전 방식으로는 SSD-E, SSD-H, SSD-L을 적용해 어떤 구조가 최적의 구조인지를 파악한다.

성능/효과

기존의 보행자 검출 기법의 경우 컬러 영상만을 사용하기 때문에 보행자 검출의 정확도가 떨어지는 단점이 존재하지만 제안 방법에서는 컬러 영상과 열 영상의 정보를 같이 이용하기 때문에 낮과 밤 영상 모두 보행자를 정확하게 검출하는 것을 확인할 수 있었다. FPPI-miss rate 지표에서는 SSD-H가 ACF+T+THOG에 비해 18.18% 낮은 miss rate를 획득하였고 halfway fusion 대비 2.1% 낮은 miss rate를 획득해 높은 정확도를 확인하였다.
제안 방법인 SSD-E, SSD-H, SSD-L 모두 기존 KAIST 기준치 기법인 ACF+T+THOG에 비해 높은 결과를 획득하였다. 그 중 SSD-H가 가장 좋은 성능을 보여주었으며 18.18% 낮은 miss rate를 획득하였다. SSD-E와 SSD-L 모두 단일 영상으로만 트레이닝했던 SSD-C와 SSD-T보다 성능이 높게 나왔지만 [7]의 halfway fusion보다는 좋지 않은 성능을 보여주었다.
(d))가 발생한다. 그러나 SSD-H의 결과에서는 열 영상에서 보행자의 위치를 쉽게 판별할 수 있기 때문에 보행자의 위치를 정확히 검출하는 동시에 영역박스의 크기가 더 정확하게 예측되는 것을 확인할 수 있다.
SSD-E와 SSD-L 모두 단일 영상으로만 트레이닝했던 SSD-C와 SSD-T보다 성능이 높게 나왔지만 [7]의 halfway fusion보다는 좋지 않은 성능을 보여주었다. 그러나 SSD-H의 경우 2.1% 낮은 miss rate를 획득해 SSD가 Faster R-CNN에 비해 정확도가 높은 방법인 것을 확인할 수 있었다. SSD-C와 SSD-T의 경우 miss rate의 결과 차이는 미미한 수준이었다.
본 논문에서는 컬러 영상과 열 영상을 이용한 다중 스펙트럼 보행자 검출 기법에 대해 제안하였다. 기존의 보행자 검출 기법의 경우 컬러 영상만을 사용하기 때문에 보행자 검출의 정확도가 떨어지는 단점이 존재하지만 제안 방법에서는 컬러 영상과 열 영상의 정보를 같이 이용하기 때문에 낮과 밤 영상 모두 보행자를 정확하게 검출하는 것을 확인할 수 있었다. FPPI-miss rate 지표에서는 SSD-H가 ACF+T+THOG에 비해 18.
제안 방법인 SSD-E, SSD-H, SSD-L 모두 기존 KAIST 기준치 기법인 ACF+T+THOG에 비해 높은 결과를 획득하였다. 그 중 SSD-H가 가장 좋은 성능을 보여주었으며 18.
테스트셋의 경우 위와 동일한 기준을 적용하고 매 세 번째 프레임을 추출하여 총 2,094쌍의 영상을 이용하였다. 트레이닝 시 사용된 파라메터의 경우[8]에서 사용된 것과 동일하게 설정하였으며 트레이닝은 pre-training 없이 총 120,000번 반복되었다. 결과 지표로는 FPPI-miss rate를 사용하였다.

후속연구

후속 연구로는 네트워크 퓨전 방법에 대해 좀 더 세밀하게 연구하고 보행자 검출 정확도를 더욱 향상하는 방향으로 진행하고자 한다. 이를 위해 기본 네트워크 구조를 새롭게 제안하고 새로운 네트워크 퓨전 방식을 제시하고자 한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	SSD가 물체의 영역을 예측할 때 사용하는 박스는 어떻게 적용되나?	SSD는 물체의 영역을 예측할 때 기본 영역 박스들과 카테고리 점수를 사용한다. 이 기본 영역 박스는 Conv.를 통과하면서 생기는 다양한 스케일의 특징맵에 적용되어 검출 영역을 예측하게 된다. 또한 기본 영역 박스는 다양한 종횡비로 구성되어 있어 검출하고자 하는 물체의 영역을 좀 더 정확하게 제안할 수 있다. 정확도를 위한 손실 함수에는 지역 손실과 신뢰 손실로 나누어져 있다.
	SSD란 무엇인가?	SSD는 [8]에서 제안된 DNN 기반 물체 검출기이다. 그림 2에서는 [8]에서 제안된 SSD의 네트워크 구조를 보여주고 있는데 기존의 VGG-16[10]의 FC6과 FC7를 Conv.
	SSD의 장점은 무엇인가?	로 교체하고 추가로 4개의 특징 layer를 연결하는 구조를 가진다. SSD는 기존 Faster R-CNN에서 사용하는 RPN과 같이 검출 영역을 제안하는 네트워크가 따로 존재하지 않기 때문에 속도 측면에서 매우 뛰어난 장점을 가진다. SSD는 물체의 영역을 예측할 때 기본 영역 박스들과 카테고리 점수를 사용한다.

참고문헌 (14)

S. Zhang, R. Benenson, M. Omran, J. Hosang, and B. Schiele, "How far are we from solving pedestrian detection?," IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, pp.1259-1267, 2016.
J. Wagner, V. Fischer, M. Herman, and S. Behnke, "Multispectral pedestrian detection using deep fusion convolutional neural networks," European Symposium on Artificial Neural Networks, Bruges, Belgium, pp. 509-514, 2016.
R. Girshick, J. Donahue, T. Darrell, and J. Malik, "Rich feature hierarchies for accurate object detection and semantic segmentation," IEEE Conference on Computer Vision and Pattern Recognition, Columbus, USA, pp. 580-587, 2014.
R. Girshick, "Fast r-cnn," arXiv preprint arXive:1504.08083, 2015.
S. Ren, K. He, R. Girshick, and J. Sun, "Faster R-CNN: Towards real- time object detection with region proposal networks," Neural Information Processing Systems, Montreal, Canada, pp. 91-99, 2015.
K. He, G. Gkioxari, P. Dollar, R. Girshick, "Mask R-CNN," IEEE International Conference on Computer Vision, Venice, Italy, pp. 2980-2988, 2017.
J. Liu, S. Zhang, S. Wang, D. N. Metaxas, "Multispectral deep neural networks for pedestrian detection," arXiv preprint arXiv:1611.02644, 2016.
W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C. -Y. Fu, and A. C. Berg, "SSD: Single Shot MultiBox Detector," European Conference on Computer Vision, Amsterdam, the Netherlands, pp. 21-37, 2016.
S. Hwang, J. Park, N. Kim, Y. Choi, and I. S. Kweon, "Multispectral pedestrian detection: benchmark dataset and baseline," IEEE Conference on Computer Vision and Pattern Recognition, Boston, USA, pp. 1037-1045, 2015.
K. Simonyan, A. Zisserman, "Very deep convolutional networks for large-scale image recognition," arXiv preprint arXiv:1409.1556, 2014.
M. Lin, Q. Chen, S. Yan, "Network in Network," arXiv preprint arXive:1312.4400, 2013.
P. Dollar, C. Wojek, B. Schiele, and P. Perona, "Pedestrian detection: A benchmark," IEEE Conference on Computer Vision and Pattern Recognition, Miami, USA, pp. 304-311, 2009.
P. Dollar, R. Appel, S. Belongie, and P. Perona, “Fast feature pyramids for object detection,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, No. 8, pp. 1532-1545, Jan. 2014.

상세보기
N. Dalal and B. Triggs, "Histograms of oriented gradients for human detection," IEEE Conference on Computer Vision and Pattern Recognition, San Diego, USA, pp. 886-893, 2005.

이 논문을 인용한 문헌

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

DNN 기반 컬러와 열 영상을 이용한 다중 스펙트럼 보행자 검출 기법
DNN Based Multi-spectrum Pedestrian Detection Method Using Color and Thermal Image 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

DNN 기반 컬러와 열 영상을 이용한 다중 스펙트럼 보행자 검출 기법 DNN Based Multi-spectrum Pedestrian Detection Method Using Color and Thermal Image 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

이용우 (3) 신지태 (25)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

DNN 기반 컬러와 열 영상을 이용한 다중 스펙트럼 보행자 검출 기법
DNN Based Multi-spectrum Pedestrian Detection Method Using Color and Thermal Image 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper