[논문]비디오 압축을 위한 딥러닝 기반 화면 간 예측 부호화 기법

이정경; 김나영; 강제원

doi:10.5909/jbe.2018.23.5.718

비디오 압축을 위한 딥러닝 기반 화면 간 예측 부호화 기법
Deep Learning based Inter Prediction Technique for Video Coding 원문보기

방송공학회논문지 = Journal of broadcast engineering, v.23 no.5, 2018년, pp.718 - 721

이정경 (이화여자대학교 엘텍공과대학 전자전기공학과) , 김나영 (이화여자대학교 엘텍공과대학 전자전기공학과) , 강제원 (이화여자대학교 엘텍공과대학 전자전기공학과)

초록
AI-Helper

최근 차세대 국제 비디오 압축 표준 제정에 딥러닝을 이용하여 비디오 부호화 효율을 향상시키기 위한 다양한 시도가 이루어지고 있다. 본 논문에서는 참조프레임 리스트에 포함된 복원 프레임을 이용하여 현재 프레임의 가상 참조프레임을 딥러닝으로 생성하여 화면 간 예측 부호화에 이용하는 알고리즘을 제안한다. 실험에 따르면 제안 알고리즘은 HEVC 참조 소프트웨어 대비 Random Access 실험 환경에서 평균 1.9%의 BD-rate 감소 효율을 제공한다.

Abstract ▼ AI-Helper

This paper presents an inter-prediction technique using deep learning, where a virtual reference frame of the current frame is synthesized by using the reconstructed frames to improve coding efficiency. Experimental results demonstrate that the proposed algorithm provides 1.9% BD-rate reduction on a...

주제어

표/그림 (5)

그림 그림 1. CNN을 이용한 단기 비디오 보간법 Fig. 1. Short-term video interpolation using CNN [7]
그림 그림 2. 제안 알고리즘 블록 다이어그램 Fig. 2. Block diagram of the proposed algorithm
그림 그림 3. 가상 참조프레임을 사용하는 경우 움직임 벡터 예측 기법 변경 Fig. 3. Modified AMVP when using the virtual reference frame
그림 그림 4. (a) Blowing Bubble 비디오와 (b) Johnny 비디오의 현재프레임 대비 가상참조프레임, 전방참조프레임, 후방참조프레임 간 비교 Fig. 4. Comparisons between the current frame (CF) and virtual reference (VR) frame, forward reference (FR) frame, and backward reference (BR) frame on (A) Blowing Bubbles video and (B) Johnny video [5]
표 표 1. HM-16.9 대비 제안 기법의 부호화 성능 Table 1. Coding gain of the proposed algorithm VS HM-16.9

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

. 본 논문에서는 딥러닝 비디오 프레임 생성 기법에 기반을 둔 화면 간 예측 부호화 알고리즘을 제안한다. 제안 알고리즘은 비디오 코덱의 참조 프레임 리스트에 포함된 복원 프레임을 이용하여 현재 프레임의 가상 참조 프레임을 생성하고, 기존의 참조 프레임을 새로운 가상 프레임으로 대체하며 화면 간 예측에 이용한다.
본 논문에서는 효율적인 비디오 부호화를 위한 딥 러닝 기반 화면 간 예측 기법을 제안하였다. 제안 기법은 과거 및 미래 비디오 신호로부터 현재 비디오 신호를 생성하여 가상의 참조 프레임으로 사용하고 예측 부호화를 수행한다.

제안 방법

참조프레임리스트의 구성은, 참조프레임리스트 0과 참조프레임리스트 1에 채워진 첫 번째 인덱스 (Idx0)에 위치한 참조 프레임은 기존과 동일하게 유지하되, 두 번째 인덱스 (Idx1)에 위치한 참조 프레임은 가상 참조프레임을 기존 참조프레임을 대체한다. 가상참조프레임을 생성하는 경우 POC 차이가 가까울수록 비디오 보간이 용이하므로 임의접근구조 (Random Access)의 마지막 시간 계층 (temporal layer)에 한하여 적용하였다.
표 1에서와 같이 다양한 해상도를 가지는 테스트 비디오를 사용하였으며, 비디오 프레임 생성에 사용한 딥러닝 모델은 “Tom Scott”, “Casey Neistat”, “Linus Tech Tips” 그리고 “Austin Evans” 같은 Youtube 채널에서 취득한 비디오 데이터로 학습하여 테스트 비디오와 학습 비디오가 중복되지 않는다. 가상참조프레임의 생성은 Pytorch를 이용하여 구현하였고 실험은 CUDA를 이용하여 GPU 환경에서 수행하였다.
이때, 출력된 영상과 정답으로 사용하는 현재 시점의 이미지 간의 L₁ 손실 값을 손실함수로 설정한다. 부호기와 복호기 모두 동일한 학습 파라메터를 갖는 비디오 프레임 생성기를 갖도록 설정하여 별도의 부가정보전송이 필요 없도록 하였다. 복호 프레임의 저장 버퍼에서 P_F와 P_B의 선택은 현재 프레임의 POC와 전방향 및 역방향 참조프레임과의 POC 차이가 가장 작으면서 그 차이가 같도록 HEVC의 참조프레임리스트 0 (RefPicList0)과 참조프레임리스트 1 (RefPicList1)에서 각각 한 장씩 사용한다.
9 코덱을 이용하여 구현하였다. 실험은 공통 실험 조건(Common Test Condition)을 참고하여 화면 간 압축의 Random Access 환경에서 수행하였고 HM16.9와 대비하여 부호화 성능을 측정하였다. 제안 알고리즘의 효율성을 검증하기 위해 참조 프레임 수를 최대 두 장으로 제한하여 실험하였다.
본 논문에서는 효율적인 비디오 부호화를 위한 딥 러닝 기반 화면 간 예측 기법을 제안하였다. 제안 기법은 과거 및 미래 비디오 신호로부터 현재 비디오 신호를 생성하여 가상의 참조 프레임으로 사용하고 예측 부호화를 수행한다. 향후 연구로는 고효율 저복잡도의 비디오 생성기를 개발하여 부호화 효율 및 복잡도를 개선하는 것이다.
제안 알고리즘에서는 딥러닝을 이용하여 가상 참조프레임을 생성하여 화면 간 예측 부호화에 이용한다. 그림2는 제안 알고리즘의 개요를 보인다.
본 논문에서는 딥러닝 비디오 프레임 생성 기법에 기반을 둔 화면 간 예측 부호화 알고리즘을 제안한다. 제안 알고리즘은 비디오 코덱의 참조 프레임 리스트에 포함된 복원 프레임을 이용하여 현재 프레임의 가상 참조 프레임을 생성하고, 기존의 참조 프레임을 새로운 가상 프레임으로 대체하며 화면 간 예측에 이용한다. 추가적으로 제안 알고리즘에서는 HEVC의 움직임 벡터 예측 모드를 가상 참조프레임의 이용에 적합하게 개선하였다.
9와 대비하여 부호화 성능을 측정하였다. 제안 알고리즘의 효율성을 검증하기 위해 참조 프레임 수를 최대 두 장으로 제한하여 실험하였다. 표 1에서와 같이 다양한 해상도를 가지는 테스트 비디오를 사용하였으며, 비디오 프레임 생성에 사용한 딥러닝 모델은 “Tom Scott”, “Casey Neistat”, “Linus Tech Tips” 그리고 “Austin Evans” 같은 Youtube 채널에서 취득한 비디오 데이터로 학습하여 테스트 비디오와 학습 비디오가 중복되지 않는다.

대상 데이터

의 딥러닝 기반 비디오 보간법^[7]을 이용하였다. 이용된 딥러닝 기반 보간법 모델은 총 30여개의 합성곱 계층으로 이루어져 있으며 과거 시점의 영상과 미래 시점의 영상을 입력으로 받아 두 시점의 중간에 위치한 영상을 출력한다. 이때, 출력된 영상과 정답으로 사용하는 현재 시점의 이미지 간의 L₁ 손실 값을 손실함수로 설정한다.
표 1에서와 같이 다양한 해상도를 가지는 테스트 비디오를 사용하였으며, 비디오 프레임 생성에 사용한 딥러닝 모델은 “Tom Scott”, “Casey Neistat”, “Linus Tech Tips” 그리고 “Austin Evans” 같은 Youtube 채널에서 취득한 비디오 데이터로 학습하여 테스트 비디오와 학습 비디오가 중복되지 않는다.

이론/모형

그림 2의 제안 알고리즘 개요에서 가상 참조프레임을 생성하는 비디오 프레임 생성기 (SYN)는 Niklaus et al.의 딥러닝 기반 비디오 보간법^[7]을 이용하였다. 이용된 딥러닝 기반 보간법 모델은 총 30여개의 합성곱 계층으로 이루어져 있으며 과거 시점의 영상과 미래 시점의 영상을 입력으로 받아 두 시점의 중간에 위치한 영상을 출력한다.

성능/효과

9% BD-rate 감소의 우수한 부호화 효율을 보인다. 가상 참조프레임 생성시간을 모두 고려한 결과, 부호기 및 복호기의 복잡도는 각각 103%, 218%로 늘어났다. GPU 환경에서 연산하여 비디오 생성은 부호기 복잡도에 큰 영향을 미치지 않는다.
각 비디오 시퀀스 별 결과를 분석해보면, “BasketballPass” 및 “BQSquare” 등과 같이 작고 움직임이 빠른 오브젝트를 포함한 비디오에서 우수한 부호화 효율을 보였고, “Johnny” 등과 같이 움직임이 비교적 적어 과거 및 미래 비디오 프레임과 현재 프레임 사이 시간적 연관성이 큰 비디오는 상대적으로 부호화 효율이 적었다.
각 비디오 시퀀스 별 결과를 분석해보면, “BasketballPass” 및 “BQSquare” 등과 같이 작고 움직임이 빠른 오브젝트를 포함한 비디오에서 우수한 부호화 효율을 보였고, “Johnny” 등과 같이 움직임이 비교적 적어 과거 및 미래 비디오 프레임과 현재 프레임 사이 시간적 연관성이 큰 비디오는 상대적으로 부호화 효율이 적었다. 위 비교를 통해 가상 참조프레임은 전방향 및 역방향 참조프레임과 현재 비디오 프레임의 시간적 연관성이 적을수록 시간 간 예측 부호화에서 보다 효율적으로 사용되었음을 알 수 있다. 그림 4는 “Blowing Bubble” 시퀀스의 현재프레임과 가상 참조프레임의 차분치와 전방향/역방향 참조프레임 간 차분치를 비교하여 보인 결과로 중앙에 위치한 사람의 움직임이 가상참조 프레임에서 보다 정확히 추정됨을 확인할 수 있다.
제안 알고리즘은 비디오 코덱의 참조 프레임 리스트에 포함된 복원 프레임을 이용하여 현재 프레임의 가상 참조 프레임을 생성하고, 기존의 참조 프레임을 새로운 가상 프레임으로 대체하며 화면 간 예측에 이용한다. 추가적으로 제안 알고리즘에서는 HEVC의 움직임 벡터 예측 모드를 가상 참조프레임의 이용에 적합하게 개선하였다.
표 1은 제안 기법의 부호화 성능을 보이며 비디오 압축에서 HM16.9 대비 평균적으로 1.9% BD-rate 감소의 우수한 부호화 효율을 보인다. 가상 참조프레임 생성시간을 모두 고려한 결과, 부호기 및 복호기의 복잡도는 각각 103%, 218%로 늘어났다.

후속연구

제안 기법은 과거 및 미래 비디오 신호로부터 현재 비디오 신호를 생성하여 가상의 참조 프레임으로 사용하고 예측 부호화를 수행한다. 향후 연구로는 고효율 저복잡도의 비디오 생성기를 개발하여 부호화 효율 및 복잡도를 개선하는 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	비디오 프레임 생성 기법이란 무엇인가?	비디오 프레임 생성 기법은 과거 비디오 프레임을 이용하여 아직 관측되지 않은 새로운 비디오 프레임을 예측하는 알고리즘이다. 최근에는 비디오 프레임 간 시간상의 연관성을 이용하는 순환신경망 구조 (RNN)에 기반을 두고 장기간의 비디오를 예측 생성하는 연구가 활발하게 진행이 되고 있으나, RNN의 학습에 오차 역전파 과정에서의 기울기 소실 문제를 완전히 극복하기 어려울 뿐 아니라 입력 영상을 은닉벡터로 변환하고 다시 복원하는 과정에서 많은 블러링이 발생하는 등의 문제가 있어 여전히 많은 연구가 필요하다[6].
	딥러닝 기반의 압축 기술 연구에는 무엇이 있는가?	최근의 딥러닝 기반의 압축 기술 연구는 크게 두 가지 방향으로 요약이 가능하다. 첫째, 오토엔코더 기반의 코덱을 이용하여 입력 영상을 인코더 신경망의 종단에서 은닉벡터로 변환하고 엔트로피 부호화를 수행하는 종단 간 압축 방식이다. 현 시점에서 오토엔코더 기반 코덱은 정지영상 압축에서 HEVC 화면 내 압축 성능에 근접하는 연구결과가 보고되고 있다[2]. 둘째, 딥러닝 기반 영상처리 기법을 기존 비디오 부호화 요소 기술에 적용하는 방식이다. 대표적인 응용 예로 콘볼루셔널 뉴럴 네트워크 (CNN) 기반 초해상도 기법 및 디노이징 기법을 인루프필터에 이용하여 복원 프레임의 화질을 개선하고 압축 효율을 증대시키는 알고리즘이 제안되었다[3,4].
	RNN의 학습에서 나타나는 문제점은 무엇인가?	비디오 프레임 생성 기법은 과거 비디오 프레임을 이용하여 아직 관측되지 않은 새로운 비디오 프레임을 예측하는 알고리즘이다. 최근에는 비디오 프레임 간 시간상의 연관성을 이용하는 순환신경망 구조 (RNN)에 기반을 두고 장기간의 비디오를 예측 생성하는 연구가 활발하게 진행이 되고 있으나, RNN의 학습에 오차 역전파 과정에서의 기울기 소실 문제를 완전히 극복하기 어려울 뿐 아니라 입력 영상을 은닉벡터로 변환하고 다시 복원하는 과정에서 많은 블러링이 발생하는 등의 문제가 있어 여전히 많은 연구가 필요하다[6]. 반대로 비교적 짧은 시간 거리에 있는 비디오 생성을 위해 RNN을 생략하고 CNN 구조를 이용하여 입력 비디오를 합성하고 출력하는 연구가 비디오 보간에 적용되어 우수한 보간 성능을 제공하고 있다[7].

참고문헌 (9)

S. Liu, L. Wang, P. Wu, and H. Yang, "JVET AHG report 9: Neural Networks in Video Coding (AHG9)" in ISO/IEC/JTC1/SC29/ WG11 and ITU-T SG16 Q.6, Apr. 2018.
S.H Cho, Y. H. Kim, W. Lim, H.W. Kim, and C.S. Choi, "A Technical Analysis on Deep Learning based Image and Video Compression", Journal of Broadcast Engineering, Vol. 23, No. 3, 383-394, May 2018
W. Park and M. Kim, "CNN-based in-loop filtering for coding efficiency improvement," IEEE Image, Video, and Multidimensional Signal Processing Workshop, 2016.
J. Kang, S. Kim, and K. M. Lee, "Multi-modal Multi-scale Convolutional Neural Network based In-loop Filter Design for Next Generation Video Codec," IEEE International Conference on Image Processing, 2017.
J.K. Lee and J.-W. Kang, "Video coding technique based on deep learning", 2018 KIBME Summer Conference.
B. D. Brabandere, X. Jia, T. Tuytelaars, and L. V. Gool, "Dynamic filter networks," Neural Information Processing Systems (NIPS). 2016.
S. Niklaus, L. Mai, and F. Liu. "Video frame interpolation via adaptive separable convolution," International Conference on Computer Vision, 2017.
HM16.9 software, available at: https://hevc.hhi.fraunhofer.de/svn/svn_HEVCSoftware/tags/HM-16.9
F. Bossen, "JCTVC-L1100: Common test conditions and software reference configurations" in ISO/IEC/JTC1/SC29/WG11 and ITU-T SG16 Q.6, Jan.2013.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증