[논문]Pix2Pix 모델을 활용한 단일 영상의 깊이맵 추출

강수명; 이준재

doi:10.9717/kmms.2019.22.5.547

Pix2Pix 모델을 활용한 단일 영상의 깊이맵 추출
Depth Map Extraction from the Single Image Using Pix2Pix Model 원문보기

멀티미디어학회논문지 = Journal of Korea Multimedia Society, v.22 no.5, 2019년, pp.547 - 557

강수명 (Faculty of Computer Engineering, Graduate School, Keimyung University) , 이준재 (Dept of Computer Engineering, Keimyung University)

Abstract ▼ AI-Helper

To extract the depth map from a single image, a number of CNN-based deep learning methods have been performed in recent research. In this study, the GAN structure of Pix2Pix is maintained. this model allows to converge well, because it has the structure of the generator and the discriminator. But the convolution in this model takes a long time to compute. So we change the convolution form in the generator to a depthwise convolution to improve the speed while preserving the result. Thus, the seven down-sizing convolutional hidden layers in the generator U-Net are changed to depthwise convolution. This type of convolution decreases the number of parameters, and also speeds up computation time. The proposed model shows similar depth map prediction results as in the case of the existing structure, and the computation time in case of a inference is decreased by 64%.

주제어

표/그림 (16)

그림 Fig. 1. The proposed deep learning model of [1].
그림 Fig. 2. [4] proposed algorithm and results (left : source image, ground truth, prediction map).
그림 Fig. 3. The depth map prediction method of [5].
그림 Fig. 4. Generator and discriminator structure for Pix2Pix.
그림 Fig. 5. NYU Dataset.
표 Table 1. Down-sampling section of proposed Pix2Pix generator structure and proposed model
그림 Fig. 6. The original Pix2Pix structure(right) and proposed model (left).
표 Table 2. Development and Experimental Environment
표 Table 3. Data division methods used for learning
표 Table 4. PSNR Evaluation by Model
표 Table 5. Evaluation of computation time by models
그림 Fig. 7. Inference results extracted from the original Pix2Pix structure (RGB, Prediction, GT).
그림 Fig. 8. Inference results extracted from the proposed model (RGB, Prediction, GT).
그림 Fig. 9. The learning result of existing model (RGB, Prediction, GT).
그림 Fig. 10. The learning result of proposed model (RGB, Prediction, GT).
그림 Fig. 11. Result of data used during learning extracted by FCRN model (RGB, Prediction, GT).

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

즉, 이를 학습시키기 위해서는 입력으로 들어갈 데이터세트와 그 영상이 Pix2Pix를 거쳐서 나올 정답 영상이 필요하다. 따라서 본 연구에서는 불확실성이 높은 GAN보다는, 불확실성이 낮은 Pix2Pix 방법으로 연구를 수행하였다. 이 모델은 영상의 형태를 변형시키는 알고리즘, image translation이라고도 한다[8, 17].
원형의 영상은 640×480으로 되어있다. 본 연구에서는 NYU 데이터세트를 사용하여 결과를 도출하고자 한다. 이때 NYU 데이터세트는 1449개로 구성되어 있다[16].
본 연구에서는 Pix2Pix의 생성자 구조를 일부 변경하여 결과는 거의 비슷하면서도 연산 파라미터를 줄여 속도를 개선하고자 한다. 딥러닝의 가장 큰 한계는 실용화 시 저사양 환경에서 실시간 연산이 불가능하다.
본 연구에서는 기존 Pix2Pix[9]의 모델 가중치의 수렴속도 및 수렴 방향에 큰 역할을 하는 생성자-구별자의 GAN[10] 구조는 그대로 유지하면서, 생성자의 구조 내의 컨볼루션 형태를 depthwise convolution[11]으로 변경하여 결과는 유지하면서 속도를 개선하고자 한다. 따라서 기존 생성자 구조의 형태인 U-Net[12]에서 입력층 및 deconvolution되기 직전까지의 down-sizing 되는 7개의 은닉층을 Depthwise로 변경하여 기존 구조보다 파라미터를 줄인다.
본 연구에서는 단안식 영상에 딥러닝을 적용하여 3차원 깊이맵을 추출하는 연구로서, 기존 딥러닝 기술 중 영상 간 변환에 효과적일 뿐 아니라, 오토인코더와 같이 압축 및 복원의 기능이 있는 Pix2Pix(image to image translation) 모델[9]을 개선하여 속도 측면에서 효과적인 결과를 제시하여 임베디드 환경 등에 적용 가능한 방법을 제안한다.
[4]의 연구를 보면, 역시 깊이 영상을 추출하기 위하여 딥러닝을 활용하는 것을 알 수 있는데, 해당 연구에서는 연속 조건부 랜덤 필드를 연계 하여 깊은 컨볼루션 뉴럴 필드 모델을 제안하였다. 즉, CNN 모델과 연속 CRF 간의 용량을 공동으로 탐색이 가능한 모델을 제시하여 연구를 수행하였다. 특히 해당 연구에서는 앞서 언급한 슈퍼 픽셀(super-pixel) 개념을 도입하여, 비록 인근에 있는 픽셀이라고 하더라도 깊이 위치가 달라질 수 있음을 통해 슈퍼 픽셀 단위로 업샘플링(up sampling)을 수행하여 오차를 낮추었다.

제안 방법

Laina et al.[13]에 의해 제안된 FCRN의 경우 Fully Convolutional Network를 발전시킨 형태의 모델인 Fully Convolutinal Residual Network를 사용 하는 연구를 수행하였다. 일반적으로 딥러닝 모델이 깊어질수록 중복성이 커지고 앞선 은닉계층에서 뽑은 특징맵(Feature Map)을 잃는다는 한계를 보이는 것과 달리 ResNet[14]등의 모델은 이의 한계를 개선하고 있는데, 이러한 모델 구조를 차용하여 깊이맵을 생성하였다.
Fayao et al.[4]의 연구를 보면, 역시 깊이 영상을 추출하기 위하여 딥러닝을 활용하는 것을 알 수 있는데, 해당 연구에서는 연속 조건부 랜덤 필드를 연계 하여 깊은 컨볼루션 뉴럴 필드 모델을 제안하였다. 즉, CNN 모델과 연속 CRF 간의 용량을 공동으로 탐색이 가능한 모델을 제시하여 연구를 수행하였다.
또한 깊이맵 추정에 대해 객관적인 평가를 위하여 PSNR(Peak Signal to Noise Ratio)[21]를 사용한다. 또한 각 모델마다 총 300번의 epoch를 수행하여 결과를 도출한다. Table 3는 학습에 활용한 데이터와 학습 및 결과 테스트를 위하여 분류한 상세 내용이다.
특히 해당 연구에서는 앞서 언급한 슈퍼 픽셀(super-pixel) 개념을 도입하여, 비록 인근에 있는 픽셀이라고 하더라도 깊이 위치가 달라질 수 있음을 통해 슈퍼 픽셀 단위로 업샘플링(up sampling)을 수행하여 오차를 낮추었다. 또한 영상을 다운 샘플링 할 때도 슈퍼 픽셀을 단위로 이미지 패치를 잘라 파라미터 (parameter)값으로 넣음으로써 오차를 줄이고자 하는 시도를 하였다 Fig. 2는 [4]에서 제안한 슈퍼 픽셀 기반의 업샘플링 방법이며 그 결과이다[4].
본 연구에서 제안하는 변형된 모델의 경우 컨볼루션 연산이 수행되는 과정에서 depthwise convolution을 적용하여 전체적으로 파라미터를 줄이고자 한다. 똑같이 5번째 레이어에서의 파라미터를 계산해보면 약 7천개 정도의 파라미터 값을 가지며 역시 앞선 방법과 똑같이 생성자의 전체 파라미터를 모두 더하여 계산할 시 12백만 개 정도의 파라미터를 가진다.
최근 이 계산을 효율적으로 수행하기 위하여 depthwise convolution이나 seperable depthwise convolution 등의 방법이 제시되고 있다[11]. 본 연구에서는 Pix2Pix의 생성자 부분의 down-sizing 부분을 depthwise convolution으로 교체하여 기존 약 39백만개의 파라미터를 12백만 정도로 줄인 모델을 제안한다. Table 1는 기존 Pix2Pix 모델의 생성자 구조 중 다운샘플링 부를 보여주며, 본 연구에서 제안한 Depthwise 형태의 모델을 비교하고 있다.
본 연구에서는 딥러닝 모델의 중복성 및 계산복잡 도의 문제는 컨볼루션에 있다는 것을 확인하였으며, 컨볼루션 연산의 변경을 통해 추론 결과는 유지하면서 연산 속도는 빠른 depthwise convolution 기반 Pix2Pix 모델을 제안하였다. 추론 결과면에서는 개선점이 아직까지 많기 때문에 향후 손실함수로서의 구별자 역할을 중심적으로 재구성하여 추측(predic-tion)결과와 실측(GT)결과를 잘 비교할 수 있는 모델의 제안이 필요하다.
7과 8은 각각 기존모델과 제안된 모델로 추출한 추론 결과이다. 앞서 데이터베이스를 약 7:3정도로 분배하였으며 학습 시 사용하지 않았던 데이터 중 하나의 이미지를 각 다른 모델에 입력하여 추출하였다. 그림에서 보는 것처럼 두 모델 모두 가장 오른 쪽에 위치한 실측값에 비교할 때 만족스럽지 않은 결과를 보인다.
즉, CNN 모델과 연속 CRF 간의 용량을 공동으로 탐색이 가능한 모델을 제시하여 연구를 수행하였다. 특히 해당 연구에서는 앞서 언급한 슈퍼 픽셀(super-pixel) 개념을 도입하여, 비록 인근에 있는 픽셀이라고 하더라도 깊이 위치가 달라질 수 있음을 통해 슈퍼 픽셀 단위로 업샘플링(up sampling)을 수행하여 오차를 낮추었다. 또한 영상을 다운 샘플링 할 때도 슈퍼 픽셀을 단위로 이미지 패치를 잘라 파라미터 (parameter)값으로 넣음으로써 오차를 줄이고자 하는 시도를 하였다 Fig.
[1]의 연구가 제시되었다. 해당 연구에서는 두 단계 스케일 구조(two-scale structure)의 CNN을 사용하였고 이 방법에서는 처음 스케일 단계에서 해상도가 낮은 대략적인 깊이 추정을 하고 다음 스케일 단계에서 이를 조정하여 높아진 해상도에서 깊이 값을 추정하였다. 또한 이들은 스케일 불변의 손실함수 (scale invariant loss function)를 사용함으로써 정확도를 높일 방법도 제안하였다.

데이터처리

상세 실험 환경은 Table 2와 같다. 또한 최종적으로 추론된 결과는 Tensroflow 학습 후 생성되는 checkpoint를 통해 각 추론용 영상을 각 1회씩 시간을 내어 시간 결과를 평균한다. 또한 깊이맵 추정에 대해 객관적인 평가를 위하여 PSNR(Peak Signal to Noise Ratio)[21]를 사용한다.

이론/모형

또한 최종적으로 추론된 결과는 Tensroflow 학습 후 생성되는 checkpoint를 통해 각 추론용 영상을 각 1회씩 시간을 내어 시간 결과를 평균한다. 또한 깊이맵 추정에 대해 객관적인 평가를 위하여 PSNR(Peak Signal to Noise Ratio)[21]를 사용한다. 또한 각 모델마다 총 300번의 epoch를 수행하여 결과를 도출한다.
또한 deconvolution시 특수한 보간 방법을 활용하여 앞선 연구보다 좋은 결과를 보여주었다. 해당 연구에서는 ResNet50의 모델 구조를 활용하였다[13,14].

성능/효과

본 연구에서는 기존 Pix2Pix[9]의 모델 가중치의 수렴속도 및 수렴 방향에 큰 역할을 하는 생성자-구별자의 GAN[10] 구조는 그대로 유지하면서, 생성자의 구조 내의 컨볼루션 형태를 depthwise convolution[11]으로 변경하여 결과는 유지하면서 속도를 개선하고자 한다. 따라서 기존 생성자 구조의 형태인 U-Net[12]에서 입력층 및 deconvolution되기 직전까지의 down-sizing 되는 7개의 은닉층을 Depthwise로 변경하여 기존 구조보다 파라미터를 줄인다. 실제 GAN 구조에서 추론(inference)단계에 활용되는 것은 생성자 부분이므로, 손실함수의 역할을 하는 구별자의 구조는 그대로 두고 생성자만 연산을 가볍게 하도록 한다[9-12].
일반적으로 딥러닝 모델이 깊어질수록 중복성이 커지고 앞선 은닉계층에서 뽑은 특징맵(Feature Map)을 잃는다는 한계를 보이는 것과 달리 ResNet[14]등의 모델은 이의 한계를 개선하고 있는데, 이러한 모델 구조를 차용하여 깊이맵을 생성하였다. 또한 deconvolution시 특수한 보간 방법을 활용하여 앞선 연구보다 좋은 결과를 보여주었다. 해당 연구에서는 ResNet50의 모델 구조를 활용하였다[13,14].
이러한 성능으로 영상처리 및 컴퓨터 비전의 다방면 세세 분야에서 높은 정확도로 주목받고 있다. 실제로 대다수의 컴퓨터 비전 기술에서 기존 특징 추출 기술 기반 영상처리보다 딥러닝을 적용할 때 더욱더 좋은 결과를 얻고 있으며, 본 연구 분야에서도 딥러닝 중 영상에 주로 적용하는 CNN을 활용하여 더욱 좋은 결과를 획득한 사례를 볼 수 있다. 하지만 그 추출된 깊이맵의 크기가 만족스럽지 않으며 깊이 정보에서 가장 중요한 에지 부분에서 약간의 흐릿한 결과를 도출한다는 한계를 가지고 있다[1-8].
시간 결과적으로는 Table 5의 결과를 보였다. 제 안된 모델의 파라미터 수가 1/3수준으로 줄어듦에 따라 연산 속도는 기존 모델의 64%수준 정도로 감소한 것을 볼 수 있다. 이는 앞서 유사 수준의 결과를 도출하면서도 결과적으로 빠른 모델이 된 것이므로 해당 속도 변화는 유의미한 결과라고 볼 수 있다.

후속연구

따라서 앞선 연구 결과를 볼 때 최종 결과로 영상을 추출하면서 인코더-디코더의 구조로 구성된 UNet[12]등의 딥러닝 구조를 차용하여 깊이맵을 추정 가능 할 것으로 예측 되며, GAN 등의 연구 방법으로 확장 가능할 것으로 보인다[9-10, 12]. 이를 응용한 Pix2Pix의 연구에서는 서론에서 ‘영상을 번역하는 것과 같이 다른 형태로 짝지어진 영상이 변형되는 연구에서는 모두 활용 가능할 것’임을 밝혔다.
추론 결과면에서는 개선점이 아직까지 많기 때문에 향후 손실함수로서의 구별자 역할을 중심적으로 재구성하여 추측(predic-tion)결과와 실측(GT)결과를 잘 비교할 수 있는 모델의 제안이 필요하다. 또한 딥러닝 연구에서 데이터베이스의 양과 구성은 매우 중요하므로 이번 연구에서 활용한 NYU 데이터와는 달리 고정적인 공간에서 여러 장을 획득할 수 있는 상황에서의 제안된 Pix2Pix 모델 활용성을 실험해볼 필요가 있다.
11은 사전학습모델(pretrained model)을사용하지 않은 FCRN[13]을 활용하여 이미 학습된 영상에 대해 결과를 출력하였다. 즉, GAN 구조를 가진 모델이 에지 등의 부분에서 더욱 효과적임을 알 수 있을 뿐 아니라, 고정된 공간에 대해 내부에 있는 사물을 치우거나 추가하는 등의 충분한 데이터베이스를 확보하여 학습을 수행 할 때 우수한 결과를 도출 할 수 있을 것으로 예상된다.
본 연구에서는 딥러닝 모델의 중복성 및 계산복잡 도의 문제는 컨볼루션에 있다는 것을 확인하였으며, 컨볼루션 연산의 변경을 통해 추론 결과는 유지하면서 연산 속도는 빠른 depthwise convolution 기반 Pix2Pix 모델을 제안하였다. 추론 결과면에서는 개선점이 아직까지 많기 때문에 향후 손실함수로서의 구별자 역할을 중심적으로 재구성하여 추측(predic-tion)결과와 실측(GT)결과를 잘 비교할 수 있는 모델의 제안이 필요하다. 또한 딥러닝 연구에서 데이터베이스의 양과 구성은 매우 중요하므로 이번 연구에서 활용한 NYU 데이터와는 달리 고정적인 공간에서 여러 장을 획득할 수 있는 상황에서의 제안된 Pix2Pix 모델 활용성을 실험해볼 필요가 있다.
단안식 영상을 통한 깊이맵 생성이 가능하다면, 환경적, 계산 비용적, 금전적 제한이 있는 상황에서 많은 렌즈 및 기타 센서를 쓰지 않고 효율적인 3차원 정보를 획득 가능하다. 특히, VR, AR 등에 사용할 수 있는 3차원 콘텐츠의 다방면 활용으로 인해 해당 콘텐츠에 대한 수요가 폭발적으로 증가하고 있기 때문에 본 기술은 2차원-3차원 간 컨버팅 분야에 적극 적으로 활용될 기술로 볼 수 있다. 또한, 신규 차량이 아닌 기 구매 차량의 물체인식 기능을 대체할 블랙박스 등에 탑재될 시 저가형 단안 렌즈로도 물체인식 및 회피를 위한 알림기능을 활성화 시킬 수 있어 산업적으로도 관심 있는 분야이다.
향후 연구에서는 컨볼루션의 연산과정에서 중복성을 가지는 부분을 개선하기 위해 더욱 더 효과적이 라고 알려진 depthwise separable convolution 등을 통해 파라미터의 개수를 수십배 이상 줄이고, 연산속도를 획기적으로 줄일 수 있을 것으로 기대된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	Pix2Pix는 무엇인가?	GAN[10]은 랜덤한 노이즈가 입력이므로 최종적으로 모델이 수렴하였을 때, 원하는 데이터를 얻지 못할 가능성도 있으며 어떤 데이터가 나올지 예측하는 일이 어렵다.Pix2Pix는 GAN에서처럼 랜덤벡터인 노이즈를 입력으로 받는 것이 아니라 영상을 입력으로 받아서 다른 형식의의 영상을 출력하는 알고리즘이기 때문에 일종의 지도학습 방법이다. 즉, 이를학습시키기 위해서는 입력으로 들어갈 데이터세트와 그 영상이 Pix2Pix를 거쳐서 나올 정답 영상이 필요하다.
	Pix2Pix를 학습시키기 위해서 무엇이 필요한가?	Pix2Pix는 GAN에서처럼 랜덤벡터인 노이즈를 입력으로 받는 것이 아니라 영상을 입력으로 받아서 다른 형식의의 영상을 출력하는 알고리즘이기 때문에 일종의 지도학습 방법이다. 즉, 이를학습시키기 위해서는 입력으로 들어갈 데이터세트와 그 영상이 Pix2Pix를 거쳐서 나올 정답 영상이 필요하다. 따라서 본 연구에서는 불확실성이 높은 GAN보다는, 불확실성이 낮은 Pix2Pix 방법으로 연구를 수행하였다.
	딥러닝 중 영상에 주로 적용하는 CNN을 활용한 방법의 한계점은 무엇인가?	실제로 대다수의 컴퓨터 비전 기술에서 기존 특징 추출 기술 기반 영상처리보다 딥러닝을 적용할 때 더욱더 좋은 결과를 얻고 있으며, 본 연구 분야에서도 딥러닝 중 영상에 주로 적용하는 CNN을 활용하여 더욱 좋은 결과를 획득한 사례를 볼 수 있다. 하지만 그 추출된 깊이맵의 크기가 만족스럽지 않으며 깊이 정보에서 가장 중요한 에지 부분에서 약간의 흐릿한 결과를 도출한다는 한계를 가지고 있다[1-8].

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증