[논문]딥 러닝 기반의 이미지와 비디오 압축 기술 분석

조승현; 김연희; 임웅; 김휘용; 최진수

doi:10.5909/jbe.2018.23.3.383

딥 러닝 기반의 이미지와 비디오 압축 기술 분석
A Technical Analysis on Deep Learning based Image and Video Compression 원문보기

방송공학회논문지 = Journal of broadcast engineering, v.23 no.3, 2018년, pp.383 - 394

조승현 (한국전자통신연구원 실감AV연구그룹) , 김연희 (한국전자통신연구원 실감AV연구그룹) , 임웅 (한국전자통신연구원 실감AV연구그룹) , 김휘용 (한국전자통신연구원 실감AV연구그룹) , 최진수 (한국전자통신연구원 실감AV연구그룹)

초록
AI-Helper

본 논문에서는 최근 활발히 연구되고 있는 딥 러닝 기반의 이미지와 비디오 압축 기술에 대해 살펴본다. 딥 러닝 기반의 이미지 압축 기술은 심층 신경망에 압축 대상 이미지를 입력하고 반복적 또는 일괄적 방식으로 은닉 벡터를 추출하여 부호화한다. 이미지 압축 효율을 높이기 위해 심층 신경망은 복원 이미지의 화질은 높이면서 부호화된 은닉 벡터가 보다 적은 비트로 표현될 수 있도록 학습된다. 이러한 기술들은 특히 저 비트율에서 기존의 이미지 압축 기술에 비해 뛰어난 화질의 이미지를 생성할 수 있다. 한편, 딥 러닝 기반의 비디오 압축 기술은 압축 대상 비디오를 직접 입력하여 처리하기 보다는 기존 비디오 코덱의 압축 툴 성능을 개선하는 접근법을 취하고 있다. 본 논문에서 소개하는 심층 신경망 기술들은 최신 비디오 코덱의 인루프 필터를 대체하거나 추가적인 후처리 필터로 사용되어 복원 영상의 화질 개선을 통해 압축 효율을 향상시킨다. 마찬가지로, 화면 내 예측 및 부호화에 적용된 심층 신경망 기술들은 기존 화면 내 예측 툴과 함께 사용되어 예측 정확도를 높이거나 새로운 화면 내 부호화 과정을 추가함으로써 압축 효율을 향상 시킨다.

Abstract ▼ AI-Helper

In this paper, we investigate image and video compression techniques based on deep learning which are actively studied recently. The deep learning based image compression technique inputs an image to be compressed in the deep neural network and extracts the latent vector recurrently or all at once and encodes it. In order to increase the image compression efficiency, the neural network is learned so that the encoded latent vector can be expressed with fewer bits while the quality of the reconstructed image is enhanced. These techniques can produce images of superior quality, especially at low bit rates compared to conventional image compression techniques. On the other hand, deep learning based video compression technology takes an approach to improve performance of the coding tools employed for existing video codecs rather than directly input and process the video to be compressed. The deep neural network technologies introduced in this paper replace the in-loop filter of the latest video codec or are used as an additional post-processing filter to improve the compression efficiency by improving the quality of the reconstructed image. Likewise, deep neural network techniques applied to intra prediction and encoding are used together with the existing intra prediction tool to improve the compression efficiency by increasing the prediction accuracy or adding a new intra coding process.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

한편, IPCNN은 네트워크의 각 층이 합성곱에 기반하여 연결된 일반적인 CNN 구조이며, 32x32, 16x16, 8x8 블록 크기를 지원한다. 또한 IPCNN은 판별자 네트워크를 추가하여 예측 블록의 영상 품질을 높이고자 하였다. IPFCN과 IPCNN은 각각 HEVC AI 조건에서 전체 실험 영상(class A ~ E)에 대해 각각 0.
본 논문에서는 딥 러닝 기반의 이미지와 비디오 압축 최신 기술을 소개하고 기술 간의 공통점과 차이점을 설명하였다. 먼저, 딥 러닝 기반의 이미지 압축 기술은 합성곱 오토인코더의 은닉 벡터를 부호화하며, 비트스트림을 반복적으로 생성하는 경우 RNN 잔차 오토인코더가 활용되었다.
이는, 기계 학습 중에서도 딥 러닝(deep learning) 기술의 발전에 따른 것으로, 심층 신경망(deep neural network)에서의 학습과 관련된 난제들이 해결되었을 뿐만 아니라 학습 효율성을 높이기 위한 다양한 방법론들이 제시되고 있으며, 이와 함께 기술 구현을 위한 하드웨어 및 소프트웨어 환경이 비약적으로 발전하고 있기 때문이다. 본 논문에서는 딥 러닝에 기반하여 이미지와 비디오의 압축 효율을 개선하고자 하는 최신 연구들에 대해 분석하고 발전방향에 대해 전망해보고자 한다.
따라서, 은닉벡터의 효율적인 양자화(quantization)와 엔트로피 부호화(entropy encoding)를 위한 방법이 필요하며 이를 통해 최종 비트스트림(bitstream)을 생성하게 된다. 본 논문에서는 최신 딥 러닝 기반 이미지 압축 기술들을 비트스트림 생성방식에 따라 반복 생성 방식과 일괄 생성 방식으로 구분하여 소개한다.
이번 장에서는 딥 러닝 기술을 적용하여 기존 비디오 코덱 압축 툴의 성능 개선을 시도한 연구들을 살펴본다. 이러한 접근 방법들은 비디오 코덱의 구조를 유지한 채, 기존의 특정 압축 툴을 대체하거나 기존 모드에 새로운 모드를 추가하기 위해 학습된 심층 신경망을 사용한다.

제안 방법

1990년대 또는 그 이전에도, 이미지 압축의 효율성을 높이기 위해 기계 학습을 적용하고자 했던 시도들이 있었으며, 이러한 시도들을 체계적으로 분석한 연구 논문^[1]에서 가능한 접근 방법을 세가지 범주로 분류하였다. 첫째, 이미지 압축을 위해 신경망(neural network)을 직접 이용하는 방법은 신경망에 압축 대상 이미지를 입력하고 이를 통해 획득한 은닉 층(hidden layer)의 뉴런 값을 부호화한다.
MMS-net은 VRCNN의 잔여학습을 위해 사용된 네트워크 연결 — global skip con-nection — 뿐만 아니라 신경망 내부에 지역적인 skip con-nection을 갖는 잔여 블록(residual block)을 사용하여 네트워크를 구성하였으며 잔여 블록 내에서 convolution 연산에앞서 배치 정규화를 수행하였다.
47 AUC db 성능 향상을 얻었다. 두 번째, 학습 최적화에 적용하는 오차(loss)에 인지 화질 측정 단위를 반영하였다. 이는 성능 평가에 사용하는 지표와 유사한 지표를 최적화에 적용한 방법으로 MS-SSIM 기준 약0.
CNNF는 복잡도를 줄이기 위해 7개의 합성곱 층을 포함한 총 10층으로 구성되었으며, 앞서 살펴본 VRCNN, MMS-net과 동일한 방식의 잔여 학습을 사용하고 배치 정규화는 사용하지 않는다. 또한, CNNF는 CPU, GPU 등과 같은 이종의 디바이스에 대한 범용성을 고려하여, 부동 소수점(floating point) 연산을사용하는 대신 신경망 내 모든 층의 출력은 16, 가중치(weight)와 바이어스(bias)는 각각 8, 32의 비트 폭(bit width)을 사용하여 고정 소수점(fixed point) 연산을 구현하였다. CNNF는 HEVC 적용 기술들과는 달리 luma와 chro-ma 각각에 대한 학습 데이터를 사용하여 신경망을 학습시켰다.
36 AUC db 성능 향상을 얻었다. 세 번째, 잔차 오토인코더 반복 횟수를 입력 영상에 따라 적응적으로 달리하여 비트량을 최적화하였다. 세 가지 기술을 추가한 합성곱 RNN 잔차 오토인코더를 이용한 이미지 압축 기술^[3]은MS-SSIM 화질 기준 JPEG 대비 약 40%, BPG 420 대비약 10% 비트량 감축 성능을 얻었다.
앞서 살펴본 VRCNN, MMS-net, DCAD의 성능 비교를 위해, 표 1에 HEVC와 비교한 BD-rate(Y) 결과를 나타내었으며, 기존의 CNN 기반 부호화 왜곡 제거기술 (AR- CNN^[19])과 초해상도 기술(VDSR^[22])과도 함께 비교하였다. HEVC AI(all intra) 조건에서, VRCNN은 전체 실험 영상에 대해 평균 4.
입력 영상의 다운 샘플링에는 기존의 초 해상도 기술^[27]을 개선한 CNNIF(CNN based interpolation filter)^_[26]와 HEVC 화면 간 예측에 사용되는 DCTIF(discrete cosine transform interpolation filter)^_[11]가 선택적으로 사용되었다. 영상의 다운/업 샘플링이 CTU 단위로 수행되기 때문에, CNNIF의 zero padding과 DCTIF의 참조 샘플 부족으로 인해 복원 영상의 CTU 경계에 인접한 샘플에서 화질 열화가 발생하며, 이를 보완하기 위해 주변 CTU 상의 샘플을 활용한 추가적인 업 샘플링(그림 9의 second stage up-sampling)을 수행한다. 발표에 따르면, 제안된 방식을 적용하였을때 HEVC AI 조건에서 전체 실험 영상에 대해 평균 5.
그림 4에서 은닉 벡터는 양자화 과정을 거쳐 비트 평면 공간에서 적응적 산술 부호화되어 비트스트림을 생성한다. 이에 추가적으로 적응적 산술 부호화의 성능을 향상시키기 위하여 양자화된 특징추출 결과의 각 요소별 값의 크기와 현재 위치를 기준으로 공간적으로 이웃한 주변 값 간의 차를 이용하여 발생될 비트 열의 길이를 정규화(그림4의 adaptive codelength regu-larization)한다. 그림 4에 판별자 손실(discriminator loss)로나타낸 것처럼, 실시간 적응적 이미지 압축의 또 다른 특징은 복호화된 이미지가 입력 이미지와 같이 현실적인 특징을 갖도록 네트워크를 훈련시키기 위해 GAN(generative adversarial network)^[9]의 일부 요소인 판별자 네트워크를 차용했다는 것이다.
제안된 기술은 그림 9처럼입력 영상에 대한 다운/업 샘플링 기반 화면 내 부호화 —다운 샘플링하여 부호화하고 복호화 과정에서 복원 영상을 업샘플링 — 수행 여부를 CTU(coding tree unit) 단위로 결정한다.
학습된 심층 신경망으로 HEVC(high efficiency video coding)^[11]의 인루프 필터, 즉 디블록(deblock)^[13]과 SAO (sample adaptive offset)^[14]를 대체한 연구들^[15]~[17]의 특징을 살펴본다. 이 연구들은 HEVC 인루프 필터 대신 사용되지만 화면 내 부호화(intra-frame coding)에만 적용하였기 때문에 사실상 후처리 필터로 간주 될 수 있다.

대상 데이터

DCAD는 각 QP별 신경망을 학습시키기 위해, 높은 QP에서 학습한 네트워크 파라미터를 낮은 QP를 위한 네트워크의 파라미터 초기값으로 사용하는 방식의 전이 학습(transfer learning)을 사용하였다. DCAD 뿐만 아니라, VRCNN, MMS-net도 마찬가지로 신경망 학습에 휘도(luminance) 신호만을 사용하였으며 색차(chrominance) 신호의 처리에는 동일한 네트워크 파라미터를 사용하였다.
DCAD는 잔여 학습을 위해 VRCNN과 같은 방식으로 global skip connection을 구성하였으며 배치 정규화는 사용하지 않았다. DCAD는 3x3 con-volution 커널을 사용하였으며 입출력 층을 제외하고 총 10층의 깊이로 디자인 되었다. DCAD는 각 QP별 신경망을 학습시키기 위해, 높은 QP에서 학습한 네트워크 파라미터를 낮은 QP를 위한 네트워크의 파라미터 초기값으로 사용하는 방식의 전이 학습(transfer learning)을 사용하였다.

이론/모형

DCAD는 3x3 con-volution 커널을 사용하였으며 입출력 층을 제외하고 총 10층의 깊이로 디자인 되었다. DCAD는 각 QP별 신경망을 학습시키기 위해, 높은 QP에서 학습한 네트워크 파라미터를 낮은 QP를 위한 네트워크의 파라미터 초기값으로 사용하는 방식의 전이 학습(transfer learning)을 사용하였다. DCAD 뿐만 아니라, VRCNN, MMS-net도 마찬가지로 신경망 학습에 휘도(luminance) 신호만을 사용하였으며 색차(chrominance) 신호의 처리에는 동일한 네트워크 파라미터를 사용하였다.
이 연구들은 HEVC 인루프 필터 대신 사용되지만 화면 내 부호화(intra-frame coding)에만 적용하였기 때문에 사실상 후처리 필터로 간주 될 수 있다. 먼저, VRCNN(variable-filter-size residual learning convolutional neural network)^[15]은 HEVC의 다양한 크기의 변환(trans-form) 및 양자화에 의한 왜곡을 효과적으로 제거하기 위해서로 다른 크기의 CNN 커널(kernel)을 사용하였다. 또한, VRCNN에서는 신경망의 출력에 입력 영상을 더하여 복원영상을 얻고, 복원 영상과 원본 영상 간의 L2 손실(loss)을최소화하도록 신경망을 학습 즉, 잔여 학습시키며 배치 정규화는 사용하지 않았다.
이러한 훈련 과정 중 입력 이미지의 부호화, 은닉 벡터의 양자화, 복호화 과정으로 구성되는 전방향 패스(forward pass)에는 미분 불가능한 반올림 함수를 이용하여 양자화를 수행하고, 네트워크의 파라미터들을 업데이트하는 역방향 패스(backward pass)에는 미분 가능한 형태로 근사화된 양자화 함수를 사용한다. 이러한 과정에서 은닉 벡터 계수들의 분포를 Gaussian scale mix-ture(GSM)를 사용하여 모델링하고, 그 확률 모델을 기반으로 산술 부호화(arithmetic coding)를 적용했을 때 발생될 부호화 비트율(bitrate)을 추정한다.
제안된 기술은 그림 9처럼입력 영상에 대한 다운/업 샘플링 기반 화면 내 부호화 —다운 샘플링하여 부호화하고 복호화 과정에서 복원 영상을 업샘플링 — 수행 여부를 CTU(coding tree unit) 단위로 결정한다. 입력 영상의 다운 샘플링에는 기존의 초 해상도 기술^[27]을 개선한 CNNIF(CNN based interpolation filter)^_[26]와 HEVC 화면 간 예측에 사용되는 DCTIF(discrete cosine transform interpolation filter)^_[11]가 선택적으로 사용되었다. 영상의 다운/업 샘플링이 CTU 단위로 수행되기 때문에, CNNIF의 zero padding과 DCTIF의 참조 샘플 부족으로 인해 복원 영상의 CTU 경계에 인접한 샘플에서 화질 열화가 발생하며, 이를 보완하기 위해 주변 CTU 상의 샘플을 활용한 추가적인 업 샘플링(그림 9의 second stage up-sampling)을 수행한다.
B는 비트량과 왜곡 간의 트레이드오프(tradeoff)를 조절하는 값이다. 제안된 방법을 이용하여 네트워크를 훈련시키기 위해서는 미분 가능한 손실함수를 사용하여 역전파법(back propagation)을 사용한다. 그러나, 반올림 함수로 정의되는 양자화 함수는 이산 영역에서 표현되는 미분 불가능한 함수이므로 정수로 표현되는 각양자화 심볼 값에 균등 가산 잡음(uniform additive noise)을 그림 3과 같이 더해주고, 이를 근사화하여 미분 가능한 형태로 바꾸어 사용한다.

성능/효과

CNNF는 HEVC 적용 기술들과는 달리 luma와 chro-ma 각각에 대한 학습 데이터를 사용하여 신경망을 학습시켰다. CNNF는 AI 조건에서 전체 실험 영상에 대해 평균3.57%(Y), 6.17%(U), 7.06%(V)의 BD-rate 이득이 있는 것으로 발표되었으며, 일부 실험 영상만 평가된 RA, LDB, LDP조건에서는 BD-rate 이득이 크게 감소하는 것으로 발표되었다. 한편, AI 조건에서 CNNF를 CPU+GPU 환경에 구동할 경우, 복호화 시간을 기준으로 한 복잡도 증가는 약1.
)과도 함께 비교하였다. HEVC AI(all intra) 조건에서, VRCNN은 전체 실험 영상에 대해 평균 4.6%, MMS-net은 class C, D 시퀀스에 대해평균 8.5%, DCAD는 class A를 제외한 시퀀스에 대해 평균 5.0%의 BD-rate(Y) 이득이 있었다. 유일하게 후처리— HEVC 인루프 필터의 대체가 아닌 — 기술로 명시한DCAD는 HEVC LP(low-delay P), LB(low-delay B), RA (random access) 조건에서 class A를 제외한 시퀀스에 대해각각 평균 6.
또한 IPCNN은 판별자 네트워크를 추가하여 예측 블록의 영상 품질을 높이고자 하였다. IPFCN과 IPCNN은 각각 HEVC AI 조건에서 전체 실험 영상(class A ~ E)에 대해 각각 0.92%(Y), 1.33%(U), 1.42%(V)와1.02%(Y), 0.65%(U), 0.56%(V)의 BD-rate 이득을 보였다.
첫째, 이미지 압축을 위해 신경망(neural network)을 직접 이용하는 방법은 신경망에 압축 대상 이미지를 입력하고 이를 통해 획득한 은닉 층(hidden layer)의 뉴런 값을 부호화한다. 둘째, 이미지 압축 요소 기술을 신경망으로 구현하는 방법은 이미 존재하여 이미지 압축에 활용되고 있는 기술을 신경망으로 대체한다. 셋째, 신경망을 기반으로 하는 새로운 이미지 압축 방법은 하나 이상의 신경망과 함께 연동되는 기능 블록들로 구성된 이미지 압축 코덱을 제공한다.
영상의 다운/업 샘플링이 CTU 단위로 수행되기 때문에, CNNIF의 zero padding과 DCTIF의 참조 샘플 부족으로 인해 복원 영상의 CTU 경계에 인접한 샘플에서 화질 열화가 발생하며, 이를 보완하기 위해 주변 CTU 상의 샘플을 활용한 추가적인 업 샘플링(그림 9의 second stage up-sampling)을 수행한다. 발표에 따르면, 제안된 방식을 적용하였을때 HEVC AI 조건에서 전체 실험 영상에 대해 평균 5.5%(Y), 6.0%(U), 2.2%(V), UHD 영상에 대해서는 이보다 큰 9.0%(Y), 1.6%(U), 3.2%(V)의 BD-rate 이득이 측정되었다.
세 번째, 잔차 오토인코더 반복 횟수를 입력 영상에 따라 적응적으로 달리하여 비트량을 최적화하였다. 세 가지 기술을 추가한 합성곱 RNN 잔차 오토인코더를 이용한 이미지 압축 기술^[3]은MS-SSIM 화질 기준 JPEG 대비 약 40%, BPG 420 대비약 10% 비트량 감축 성능을 얻었다.
둘째, 이미지 압축 요소 기술을 신경망으로 구현하는 방법은 이미 존재하여 이미지 압축에 활용되고 있는 기술을 신경망으로 대체한다. 셋째, 신경망을 기반으로 하는 새로운 이미지 압축 방법은 하나 이상의 신경망과 함께 연동되는 기능 블록들로 구성된 이미지 압축 코덱을 제공한다. 이러한 분류가 상당히 오래 전에 이뤄졌으며 이미지 압축에 국한된 것일 지라도, 딥 러닝을 이용하여 높은 이미지 및 비디오압축 효율을 달성하고자 하는 최근의 많은 연구들의 분류에도 여전히 유효하다.
이는 제안한 부/복호화 네트워크의 출력과 입력 이미지 간의 부호화 왜곡 측면뿐만 아니라, 현실감의 측면 또한 고려하는 것으로 이해할 수 있다. 실시간 적응적 이미지 압축은JPEG과 JPEG 2000에 비해서는 약2.5배, WebP^[7]에 비해서는 약 2배, 그리고 HEVC 화면 내부호화 기술에 기반한 BPG^[8]에 비해서는 약 1.7배의 압축률 향상을 얻었다고 발표되었다.
잔차 오토인코더의 은닉 층(hidden layer)을 완전 연결(fully-connected) 방식으로 구성하는 것 보다 합성곱(con- volution)으로 구성하였을 때 우수한 성능을 보인다. 완전연결 RNN 잔차 오토인코더 방법은 JPEG과 거의 같은 수준의 압축 성능을 보이고, 합성곱 RNN 잔차 오토인코더방법은 JPEG보다 약 10% 이상의 비트 감축 성능을 보인다^[2]. 압축 성능뿐만 아니라 복원 영상의 인지 화질도 우수한 것으로 발표되었다.
두 번째, 학습 최적화에 적용하는 오차(loss)에 인지 화질 측정 단위를 반영하였다. 이는 성능 평가에 사용하는 지표와 유사한 지표를 최적화에 적용한 방법으로 MS-SSIM 기준 약0.36 AUC db 성능 향상을 얻었다. 세 번째, 잔차 오토인코더 반복 횟수를 입력 영상에 따라 적응적으로 달리하여 비트량을 최적화하였다.
다음으로, 딥 러닝 기반의 비디오 압축 기술은 기존 코덱압축 툴을 대체하거나 수정하여 압축 효율을 개선한다. 인루프 및 후처리 필터 심층 신경망을 HEVC 또는 FVC에 적용하면 복원 영상의 화질 개선으로 상당한 BD-rate 이득이 있었다. 현재까지의 연구는 대부분 결과 영상이 참조되지 않는 형태였으며, 향후 참조 영상의 화질 개선을 위한연구가 필요할 것으로 생각된다.
첫 번째, 과거의 학습 정보가 현재의 학습에 영향을 미치는 RNN의 성능을 개선하기 위해 1회 차 오토인코더를 반복 수행하여 RNN 파라미터를 안정화하는 기술이다. 즉 1회 차의 인코더와 디코더를 동일 입력에 대해 반복 수행하여 높은 화질의 복원 영상을 얻은 후 그 이후의 잔차 오토인코더를 수행하여 MS-SSIM(multi-scale structural sim-ilarity)_[10]기준 약 0.47 AUC db 성능 향상을 얻었다. 두 번째, 학습 최적화에 적용하는 오차(loss)에 인지 화질 측정 단위를 반영하였다.
에 따르면, RNN 잔차 오토인코더 압축 성능을 추가로 개선하기 위해 세 가지 기술이 고안되었다. 첫 번째, 과거의 학습 정보가 현재의 학습에 영향을 미치는 RNN의 성능을 개선하기 위해 1회 차 오토인코더를 반복 수행하여 RNN 파라미터를 안정화하는 기술이다. 즉 1회 차의 인코더와 디코더를 동일 입력에 대해 반복 수행하여 높은 화질의 복원 영상을 얻은 후 그 이후의 잔차 오토인코더를 수행하여 MS-SSIM(multi-scale structural sim-ilarity)_[10]기준 약 0.
현재까지의 연구는 대부분 결과 영상이 참조되지 않는 형태였으며, 향후 참조 영상의 화질 개선을 위한연구가 필요할 것으로 생각된다. 화면 내 예측 심층 신경망은 새로운 예측 모드로 추가하여 사용할 수 있으며 예측정확도 개선으로 비교적 소폭의 BD-rate 이득을 얻을 수 있다. 심층 신경망 및 HEVC DCTIF 기반다운/업샘플링을 활용한 화면 내 부호화는 초 해상도 기술을 선택적으로 사용하여 BD-rate 이득을 달성했다.

후속연구

이런 새로운 방식들을 기존의 JPEG, WebP 등과 비교하면 저 비트율에서의 복원 이미지 화질이 크게 개선되는 장점이 있다. 이미지압축 성능을 더욱 개선시키기 위해서는 은닉 벡터 분포 모델링의 정확도 개선, 또는 입력 영상의 특징에 따른 적응적 은닉 벡터 분포 모델링의 연구가 필요할 것으로 관측된다.
인루프 및 후처리 필터 심층 신경망을 HEVC 또는 FVC에 적용하면 복원 영상의 화질 개선으로 상당한 BD-rate 이득이 있었다. 현재까지의 연구는 대부분 결과 영상이 참조되지 않는 형태였으며, 향후 참조 영상의 화질 개선을 위한연구가 필요할 것으로 생각된다. 화면 내 예측 심층 신경망은 새로운 예측 모드로 추가하여 사용할 수 있으며 예측정확도 개선으로 비교적 소폭의 BD-rate 이득을 얻을 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	비트스트림 반복 생성 방식의 장단점은?	이렇게 반복적으로 부호화를 수행할 때마다 매회 동일한 비트량이 누적되며 복원 영상의 화질은 점차 높아진다. 이러한 특징으로 인해, 비트스트림 반복 생성 방식은 화질에 따른 가변 비트율코덱 설계가 가능한 장점과 함께 연산의 반복 수행으로 인해 부/복호화 복잡도가 필연적으로 증가하는 단점을 갖는다.
	비트스트림 일괄생성 방식이란 무엇인가?	딥 러닝 기반의 이미지 압축 방법들 중 비트스트림 일괄생성 방식[5][6]은 이미지 부호화의 결과로 출력되는 은닉 벡터를 표현하는 데에 필요한 비트량과 복호화의 결과로 출력되는 복원 영상의 왜곡을 동시에 최적화하는 방향으로네트워크를 학습시키는 것이다. 본 절에서 소개할 두 기술[5][6]은 CNN 기반 오토인코더의 형태를 갖는 것들로써, 기본적인 구조는 서로 유사하지만 비트량의 조절을 위해 적용되는 양자화 방법 및 손실 함수(loss function)의 정의 등에서 구별된다.
	인코더 신경망의 단점은?	인코더 신경망은 입력된 압축 대상 이미지로부터 특징을 추출하여 차원이 축소된은닉 벡터(latent vector)를 생성하고, 디코더 신경망은 다시 은닉 벡터로부터 이미지를 복원한다. 그러나, 일반적으로 은닉 벡터의 차원 축소만으로는 정보의 감소량이크지 않아 그대로 압축에 활용할 수 없다. 따라서, 은닉벡터의 효율적인 양자화(quantization)와 엔트로피 부호화(entropy encoding)를 위한 방법이 필요하며 이를 통해 최종 비트스트림(bitstream)을 생성하게 된다.

참고문헌 (26)

J. Jiang, "Image compression with neural networks," Signal Processing: Image Communication Vol. 14, No.9, pp. 737-760, July 1999.
G. Toderici, S. M. O'Malley, S. J. Hwang, D. Vincent, D. Minnen, S. Baluja, M. Covell, and R. Sukthankar, "Variable rate image compression with recurrent neural networks," Proceeding of International Conference on Learning Representations, San Juan, Puerto Rico, May 2016.
G. Toderici, D. Vincent, N. Johnston, S. J. Hwang, D. Minnen, J. Shor, and M. Covell, "Full Resolution Image Compression with Recurrent Neural Networks," Proceeding of IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, pp. 5435-5443, July 2017.
N. Johnston, D. Vincent, D. Minnen, M. Covell, S. Singh, T. Chinen, S. J. Hwang, J. Shor, and G. Toderici, "Improved Lossy Image Compression with Priming and Spatially Adaptive Bit Rates for Recurrent Networks," https://arxiv.org/abs/1703.10114 (Submitted on Mar 29, 2017)
L. Theis, W. Shi, A. Cunningham, and F. Huszar, "Lossy Image Compression with Compressive Autoencoders," Proceeding of International Conference on Learning Representations, Toulon, France, April 2017.
O. Rippel and L. Bourdev, "Real-Time Adaptive Image Compression," Proceedings of the 34th International Conference on Machine Learning, Sydney, Australia, PMLR 70:2922-2930, Aug. 2017.
WebP - A new image format for the Web, https://developers.google.com/speed/webp/BPG image format, http://bellard.org/bpg
I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, "Generative adversarial nets", Proceeding of Neural Information Processing Systems, Montreal, Canada, Dec. 2014.
Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli, "Image quality assessment: from error visibility to structural similarity," IEEE Transactions on Image Processing, Vol. 13, No.4, pp. 600-612, April 2004.

상세보기
ITU-T and ISO/IEC JTC 1, "High Efficiency video coding," ITU-T Recommendation H.265 and ISO/IEC 23008-2 (MPEG-H Part 2), Third edition: April 2015.
J. Lainema, F. Bossen, W.-J. Han, J. Min, and K. Ugur, "Intra coding of the HEVC standard," IEEE Trans. on Circuits and Systems for Video Technology, vol. 22, no. 12, pp. 1792-1801, 2012.

상세보기
A. Norkin, G. Bjontegaard, A. Fuldseth, M. Narroschke, M. Ikeda, K. Andersson, M. Zhou, and G. V. der Auwera, "HEVC Deblocking Filter," IEEE Trans. on Circuits and Systems for Video Technology, vol. 22, no. 12, pp. 1746-1754, 2012.

상세보기
C.-M. Fu, E. Alshina, A. Alshin, Y.-W. Huang, C.-Y. Chen, and C.-Y. Tsai, C.-W. Hsu, S.-M. Lei, J.-H. Park, and W.-J. Han, "Sample Adaptive Offset in the HEVC Standard," IEEE Trans. on Circuits and Systems for Video Technology, vol. 22, no. 12, pp. 1755-1764, 2012.

상세보기
Y. Dai, D. Liu, and F. Wu, "A Convolutional Neural Network Approach for Post-Processing in HEVC Intra Coding," Proceeding of the 23rd International Conference on Multimedia Modeling, Reykjavik, Iceland, pp. 28-39, Jan. 2017.
J. Kang, S. Kim, and K. M. Lee, "Multi-modal Multi-scale Convolutional Neural Network based In-loop Filter Design for Next Generation Video Codec," Proceeding of IEEE International Conference on Image Processing, Beijing, China, pp. 16-30, Sept. 2017.
T. Wang, M. Chen, and H. Chao, "A Novel Deep Learning-Based Method of Improving Coding Efficiency from the Decoder-end for HEVC," Proceeding of Data Compression Conference, Snowbird, USA pp. 410-419, April 2017.
L. Zhou, X. Song, J. Yao, L. Wang, and F. Chen, "Convolution Neural Network Filter (CNNF) for Intra Frame," JVET-I0022, Joint Video Exploration Team of ISO/IEC and ITU-T, Gwangju, Korea, Jan. 2018.
C. Dong, Y. Deng, C. C. Loy, and X. Tan, "Compression Artifacts Reduction by a Deep Convolutional Network," Proceeding of IEEE International Conference on Computer Vision, Santiago, Chile, pp. 576-584, Dec. 2015.
P. Svoboda, M.Hradis, D.Barina, and P.Zemcik, "Compression Artifacts Removal Using Convolutional Neural Networks," Journal of WSCG, Vol. 24, No.2, pp. 63-72, 2016.
K. Zhang, W. Zuo, Y. Chen, D. Meng, and L. Zhang, "Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising," IEEE Transactions on Image Processing, Vol. 26, No.7, pp. 3142-3155, 2017.

상세보기
J. Kim, J. K. Lee, and K. M. Lee, "Accurate image super-resolution using very deep convolutional networks," Proceeding of IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, pp. 1646-1654, June 2016.
JEM7.0, https://jvet.hhi.fraunhofer.de/svn/svn_HMJEMSoftware/branches/HM-16.6-JEM-7.0-dev/.
J. Li, B. Li, J. Xu, and R. Xiong, "Intra Prediction Using Fully Connected Network for Video Coding," Proceeding of IEEE International Conference on Image Processing, Beijing, China, pp. 1-5, Sept. 2017.
S. Cho, J. Lee, W. Lim, Y. Kim, J. Seok, H. Y. Kim, and J. Choi, "HEVC Intra Prediction through Convolutional Neural Network," 30th Workshop on Image Processing and Image Understanding, Jeju, Korea, Feb. 2018.
Y. Li, D. Liu, H. Li, L. Li, F. Wu, H. Zhang, and H. Yang, "Convolutional Neural Network-Based Block Up-sampling for Intra Frame Coding," IEEE Transactions on Circuits and Systems for Video Technology, (Early Access), July 2017.
C. Dong, C. C. Loy, K. He, and X. Tang, "Learning a deep convolutional network for image super-resolution," in European Conference on Computer Vision, pp. 184-199, Springer, 2014.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증