무선 네트워크 기술이 발전함에 따라, 모바일 환경을 통한 멀티미디어 컨텐츠 공급이 증가하고 있는 추세이지만, 공급자가 시시각각 변화하는 네트워크 상황과 다양한 사용자의 단말기 종류를 모두 고려하여 적당한 컨텐츠를 공급하는 것은 매우 어렵다. 이러한 문제를 해결하기 위해 트랜스코딩 기술이 제안되었지만 계산 복잡도가 크다. 본 논문에서는 다양한 트랜스코딩 기술 중 하나인 공간해상도 트랜스코딩 기술에서 2:1 화면 축소를 대상으로 H.264에서 매크로블록의 모드 결정 과정 중에 필연적으로 발생하는 계산 복잡도를 줄이기 위해 입력 비트스트림에서 얻은 매크로블록의 모드, 움직임 벡터, 그리고 차-영상 에너지 정보를 이용한 고속 모드 결정 방법을 제안한다. 제안한 고속 모드 결정 방법은 입력 정보들을 비교하여 재-부호화할 매크로블록의 가능한 모드 종류를 제한하여, 모드 결정 과정에서 소모되는 시간을 단축시키는 방법이다. 실험 결과는 영상에 따라 약간의 차이는 있으나 제안한 방법이 일반 부호화 과정에 비해 평균적으로 PSNR은 약 0.04dB 손실이 발생하고 비트율은 약 1.6% 증가하나, 부호화 속도에서는 약 2.66배 빨라짐을 보여준다.
무선 네트워크 기술이 발전함에 따라, 모바일 환경을 통한 멀티미디어 컨텐츠 공급이 증가하고 있는 추세이지만, 공급자가 시시각각 변화하는 네트워크 상황과 다양한 사용자의 단말기 종류를 모두 고려하여 적당한 컨텐츠를 공급하는 것은 매우 어렵다. 이러한 문제를 해결하기 위해 트랜스코딩 기술이 제안되었지만 계산 복잡도가 크다. 본 논문에서는 다양한 트랜스코딩 기술 중 하나인 공간해상도 트랜스코딩 기술에서 2:1 화면 축소를 대상으로 H.264에서 매크로블록의 모드 결정 과정 중에 필연적으로 발생하는 계산 복잡도를 줄이기 위해 입력 비트스트림에서 얻은 매크로블록의 모드, 움직임 벡터, 그리고 차-영상 에너지 정보를 이용한 고속 모드 결정 방법을 제안한다. 제안한 고속 모드 결정 방법은 입력 정보들을 비교하여 재-부호화할 매크로블록의 가능한 모드 종류를 제한하여, 모드 결정 과정에서 소모되는 시간을 단축시키는 방법이다. 실험 결과는 영상에 따라 약간의 차이는 있으나 제안한 방법이 일반 부호화 과정에 비해 평균적으로 PSNR은 약 0.04dB 손실이 발생하고 비트율은 약 1.6% 증가하나, 부호화 속도에서는 약 2.66배 빨라짐을 보여준다.
As wireless network technology has advanced, demands for multimedia contents through mobile environment have tendered to upward. Since network situation is changing every moment and types of user terminals are diverse, it is difficult for a content provider to consider network situation and type of ...
As wireless network technology has advanced, demands for multimedia contents through mobile environment have tendered to upward. Since network situation is changing every moment and types of user terminals are diverse, it is difficult for a content provider to consider network situation and type of user terminal to provide multimedia contents. As one solution, transcoding techniques have been proposed, but those have much complexity. In this paper, in order to reduce computational complexity, we propose a fast mode decision using input modes, motion vectors, and residual energies which are obtained from input bitstream for 2:1 down-scaling spatial transcoding application. The proposed method reduces processing time in mode decision by restricting possible mode types based on input information. Experimental results show that the proposed method achieves about 2.66 times improvement in encoding time compared to the normal encoding process while the PSNR is degraded by about 0.04dB, and bit-rate is increased by 1.6%.
As wireless network technology has advanced, demands for multimedia contents through mobile environment have tendered to upward. Since network situation is changing every moment and types of user terminals are diverse, it is difficult for a content provider to consider network situation and type of user terminal to provide multimedia contents. As one solution, transcoding techniques have been proposed, but those have much complexity. In this paper, in order to reduce computational complexity, we propose a fast mode decision using input modes, motion vectors, and residual energies which are obtained from input bitstream for 2:1 down-scaling spatial transcoding application. The proposed method reduces processing time in mode decision by restricting possible mode types based on input information. Experimental results show that the proposed method achieves about 2.66 times improvement in encoding time compared to the normal encoding process while the PSNR is degraded by about 0.04dB, and bit-rate is increased by 1.6%.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
264/AVC 공간해상도 축소 트랜스코딩을 위한 고속 모드 결정 방법을 제안하였다. 고속모드 결정 방법은 입력된 매크로블록의 모드, 움직임 벡터, 그리고 차-영상 에너지 정보를 이용하여 재-부호화할 매크로블록의 모드 결정에 필요한 계산상의 복잡도를 감소시키는데 그 목적이 있다. 제안된 고속 모드 결정법은 일반적인 부호화 방법에 비교하여 영상의 화질이나 압축률의 저하가 크게 없이 재-부호화하는 과정에서 2.
일반적으로 차-영상의 에너지는 화소 단위 영역이나 DCT 영역에서 power spectral density로 구하게 되지만, 이런 경우 많은 계산량이 필요하게 되고 또한 차- 영 상 에너지가 광범위하게 분포하여 분석하는데 어려움이 따르게 된다. 따라서 간단한 계산을 통하여 적절한 에너지 범위를 알기 위해 매크로블록의 차-영상에서 Non-zero DCT 계수 값들의 수로 차-영상의 에너지를 나타내고자 한다. Non-zero DCT 계수가 존재한다는 것은 그 영역에서 에너지가 발생한다는 것을 의미하기때문에서 Non-zero DCT 계수로 에너지를 표현하였다.
따라서 본 논문에서는 H.264/AVC 비트스트림의 2:1 공간해상도 변환 트랜스코딩 기술에서 계산량을 감소시키기 위해 입력된 4개의 매크로블록의 모드, 움직임 벡터, 그리고 차-영상 에너지 정보들을 통해 도출된 최적 매크로 블록 모드의 확률적 분포를 기반으로, 매크로 블록의 모드 결정시 최적 모드 하나를 선택하거나 발생가능한 모드 형태를 제한하여 모드 결정에 필요한 계산량을 줄이는 고속 매크로블록 모드 결정법을 제안한다. 일반적으로 차-영상의 에너지는 화소 단위 영역이나 DCT 영역에서 power spectral density로 구하게 되지만, 이런 경우 많은 계산량이 필요하게 되고 또한 차- 영 상 에너지가 광범위하게 분포하여 분석하는데 어려움이 따르게 된다.
마지막으로 입력된 매크로블록 중 인트라 매크로 블록이 존재하지 않을 경우, 입력된 영상과 재-부호화할 영상의 확률적 상관성을 관찰해 본 결과에 대해 살펴본다. 이 경우에는 재-부호화할 매크로블록의 모드가 P16X16인 경우가 많이 발생하고, 그 다음으로 P16x8과, P8xl6이 많이 발생함을 알 수 있다.
본 논문에서는 H.264/AVC 공간해상도 축소 트랜스코딩을 위한 고속 모드 결정 방법을 제안하였다. 고속모드 결정 방법은 입력된 매크로블록의 모드, 움직임 벡터, 그리고 차-영상 에너지 정보를 이용하여 재-부호화할 매크로블록의 모드 결정에 필요한 계산상의 복잡도를 감소시키는데 그 목적이 있다.
본 논문에서는 입력 비트스트림의 정보를 이용하여 단지 재-부호화할 매크로블록의 모드 결정에 대해서만 알아보았다. 제안된 고속 모드 결정 방법과 더불어 입력된 정보를 이용하여 움직임 벡터를 찾는데 드는 시간을 단축하는 기존의 방법과 병행하여 사용한다면, 더 많은 속도의 개선이 있을 것으로 예상된다.
본 논문은, 제안된 고속 모드 결정법에 대해 자세히 설명하기 전에 II장에서 공간해상도 트랜스코딩 기술과 H.264/AVC 표준에서의 부호화 모드 기술에 대해 간략하게 설명한 후, m장에서 입력된 정보에 대한 분석 및 출력 매크로블록의 최적 모드에 대한 확률적 상관성을 알아본다. IV장에서는 HI장에서 도출해낸 확률적 상관성을 토대로 제안한 고속 모드 결정 방법을 살펴본 후, V장에서는 제안된 방법에 대한 모의실험결과를 설명하고, 마지막 장에서는 제안 방법에 대한 결론으로 마친다.
제안 방법
움직임 보상이 없다는 단점이 있다. Zhange 복호화기에서 얻은 모드 정보만을 이용하는 방법과 추가적으로 움직임 벡터를 이용하여 첫 번째 방법을 개선한 모드 결정 방법을 제안하였다回 Zhang의 첫 번째 방법은 입력된 4개의 매크로블록 모드 정보를 종류별로 분류한 후 조건에 따라 재-부호화할 매크로블록의 모드를 결정한다. 그리고 Zhang의 두 번째 방법은 첫 번째 방법을 보완하기 위한 것으로, 첫 번째 방법에서 재-부호화할 매크로블록의 모드로 P8×8 모드가 선택되었을 경우에 한하여, 입력된 움직임 벡터의 분포를 고려하여 모드를 P16xl6, P16x8, P8xl6, P8×8, 또는 하위 모드로 할지 결정 한다.
Li는 단지 입력된 움직임 벡터 정보만을 고려하여 가능한 매크로블록의 모두를 결정하는 방법을 제안하였다®. 이 방법은 입력된 4개 매크로블록의 움직임 벡터들의 분포 범위에 따라 P16xl6, P16x8, P8xl6 등으로 재-부호화할 매크로 블록 모드를 결정 한다. 예를 들면, 입력된 4개 매크로 블록 움직임 벡터들 간의 차이가 최대 첫 번째 경계치 값 이내에 있을 경우에는 P16xl。을 재-부호화 매크로 블록의 모드로 선택하고, 첫 번째 경계치 값보다는 크고 두 번째 경계치 값 이내에 있을 경우에는 매크로 블록의 모드를 P16x8, P8xl6으로 제한한다.
이번 장에서는 m장에서 얻어진 입력정보와 출력된 매크로 블록 모드의 확률적 상관성을 바탕으로 트랜스코딩을 위한 고속 모드 결정 방법을 제안한다. 전체적인 구조는 그림 5와 같이 크게 슬라이스 종류에 따라 2종류로 나누고, 인터 슬라이스에서는 인트라 매크로 블록의 존재 여부에 따라 다시 2가지 경우로 세분화한다.
입력 인터 슬라이스 내에 인트라 모드가 존재할 때의 결정 방법을 다음과 같이 P16xl6 매크로블록의 수에 따라 크게 3가지로 세분화 하였다.
대상 데이터
본 논문에서 제안된 방법의 성능을 평가하기 위해 H.264/AVC JM (Joint Model) 9.3 참조 소프트웨어를 기반으로 하는 직렬형 (cascade) 트랜스코딩 시뮬레이터를 구성하였다. 실험용 영상으로는 'Foreman, , 'Mobile', 'Mother and Daughter', 'Paris, 등 4개의 영상을 이용하였으며, 자세한 실험 조건은 표 4와 같다.
3 참조 소프트웨어를 기반으로 하는 직렬형 (cascade) 트랜스코딩 시뮬레이터를 구성하였다. 실험용 영상으로는 'Foreman, , 'Mobile', 'Mother and Daughter', 'Paris, 등 4개의 영상을 이용하였으며, 자세한 실험 조건은 표 4와 같다.
데이터처리
제안 방법의 성능 평가를 위해 제안한 고속 모드 결정법과 기존 방법 [9]과의 PSNR, 비트율, 그리고 소요되는 속도를 비교하였다. 여기에서 속도는 재-부호화에 소요되는 속도만을 고려하였는데, 이는 복호화에 소요되는 시간은 모두 동일하기 때문이다.
이론/모형
그림 8은 각각의 영상에 대한 비트율 대비 PSNR 값을 도표화 한 것으로, 실험 군으로는 본 논문에서 제안한 방법 (Proposed FMD), 비교 군으로는 Zhang이 제안한 간단한 모드 결정법 (Simple Mode Mapping)191, 그리고 일반적인 JM 9.3 참조 소프트웨어에서의 모드 결정 방법이 (Full with RDO) 있다.
성능/효과
Proposed FMD의 성능은 전체적으로 PSNRe 약 0.04dB 감소하고, 비트율은 약 1.6%로 약간 증가하지만, 재-부호화 속도는 2.66배 증가한다. Simple Mode Mapping의 성능은 전체적으로 PSNRe 약 0.
66배 증가한다. Simple Mode Mapping의 성능은 전체적으로 PSNRe 약 0.09dB 향상 되었고 속도는 약 3배 증가하였으나, 비트율은 오히려 40%정도 중가하여, 전체적인 성능 면에서는 Proposed FMD가 보다 효율적임을 알 수 있다.
그리고 직렬형 (cascade) 트랜스코더의 성능에 대비하여 ePSf®은 PSNR 값의 증가치를, bit-rate(%)는 비트율의 증가치를, Computational improvement는 재-부호화 속도의 증가치를 의미한다. △PSNR의 값이 +이면 성능이 향상되었고, △bit-rate 경우는 값이 -이면 성능이 향상되었음을 의미한다.
또한 P16xl6 모드의 수가 3인 경우에는 움직임 벡터와 차-영상 에너지 특성에 의해서도 영향을 받는다. 그리고 입력 매크로블록 중, P16xl6 모드의 수가 감소함에 따라, 출력 매크로블록 모드에서 P16xl6 모드가 차지하는 비중은 감소하고, 그 외의 인 터와 인트라 모드의 비중은 증가함을 관찰할 수 있다. 또한 입력된 4개 매크로블록이 모두 인트라 모드 일지라도, 대부분의 경우에는 인트라 모드로 재-부호화할 확률이 높지만, 경우에 따라서는 P16xl6 모드로 재-부호화할 확률도 있음을 알 수 있다.
그리고 입력 매크로블록 중, P16xl6 모드의 수가 감소함에 따라, 출력 매크로블록 모드에서 P16xl6 모드가 차지하는 비중은 감소하고, 그 외의 인 터와 인트라 모드의 비중은 증가함을 관찰할 수 있다. 또한 입력된 4개 매크로블록이 모두 인트라 모드 일지라도, 대부분의 경우에는 인트라 모드로 재-부호화할 확률이 높지만, 경우에 따라서는 P16xl6 모드로 재-부호화할 확률도 있음을 알 수 있다.
먼저 인트라 슬라이스인 경우를 알아보면, 표 1에서 볼 수 있듯이, 인트라 슬라이스에서 매크로블록이 가질 수 있는 모드는 Intra4x4와 Intral6xl6인데, 입력된 4개 매크로 블록의 모드가 모두 Intral6xl6인 경우에는 재- 부호화 매크로블록의 모드가 Intral6xl6이 될 가능성이 매우 높음을 알 수 있다.
인터 슬라이스 안에 인트라 매크로블록이 존재할 경우의 확률적 상관성을 알아보면, 표 2에서 관찰할 수 있듯이, 우선 입력된 매크로블록 내에 인트라 매크로 블록이 존재하더라도, 아주 많은 부분이 인터 매크로 블록으로 재-부호화되며, 입력 매크로블록 중, P16xl6 모드의 수가 많을수록 재-부호화된 매크로블록의 모드가 P16xl6일 확률이 높다. 또한 P16xl6 모드의 수가 3인 경우에는 움직임 벡터와 차-영상 에너지 특성에 의해서도 영향을 받는다.
고속모드 결정 방법은 입력된 매크로블록의 모드, 움직임 벡터, 그리고 차-영상 에너지 정보를 이용하여 재-부호화할 매크로블록의 모드 결정에 필요한 계산상의 복잡도를 감소시키는데 그 목적이 있다. 제안된 고속 모드 결정법은 일반적인 부호화 방법에 비교하여 영상의 화질이나 압축률의 저하가 크게 없이 재-부호화하는 과정에서 2.16~3.12배 속도의 개선이 있음을 실험을 통해 확인하였다.
표 2에서 재-부호화 매크로블록은 P16xl6, P16x8, P8xl6, 그리고 Intral6xl6 모드로 되고, 그 중 P16xl6이 발생할 확률이 높게 나타났다. 그래서 모드 결정 과정을 좀 더 세분화하여, 식 (2), (4)에서 얻은 必/ 侃厂와 Residual V时.
하지만 입력 모드의 조건은 같을지라도 움직임 벡터와 차-영상 에너지의 경계치 조건의 만족 여부에 따라 재-부호화활 매크로블록의 최적 모드의 확률적 상관성이 변하게 된다. 표 3에서 보여주듯이, 입력된 P16xl6 모드 수가 4이더라도 움직임 벡터와 차- 영상 에너지의 경계치 조건 중 하나라도 만족할 경우에는 재-부호화할 매크로블록 모드로 P16xl6이 나올 확률이 95%이지만, 두 개의 경계치 조건을 모두 만족 못 할 시에는 P16x8이나 P8xl6이 나올 확률이 25%로 높아짐이 관찰된다.
후속연구
하지만 입력된 차-영상의 에너지 또한 매크로블록 모드 결정 시 아주 중요한 요소이다. 따라서 입력된 매크로블록의 모드 정보와 움직임 벡터만을 고려한 것보다 차-영상의 에너지를 추가하여 구한 재-부호화 매크로블록의 모드가 최적에 더 근접할 것이다.
제안된 고속 모드 결정 방법과 더불어 입력된 정보를 이용하여 움직임 벡터를 찾는데 드는 시간을 단축하는 기존의 방법과 병행하여 사용한다면, 더 많은 속도의 개선이 있을 것으로 예상된다.
참고문헌 (12)
J. Xin, C. W. Lin, and M. T. Sun, 'Digital Video Transcoding', Proceedings of the IEEE, Vol. 93, Issue 1, pp. 84-97, January 2005
B. Shen, I. K. Sethi, and V. Bhaskaran, 'Adaptive Motion Vector Resampling for Compressed Video Down-Sampling,' IEEE Transactions on Circuits and Systems for Video Technology, vol. 9, pp. 929-936, September 1999
Y. Tan, H. Sun, and Y. Liang, 'On the Methods And Applications of Arbitrarily Downsizing Video Coding,' Proceedings of 2002 IEEE International Conference on Multimedia and Expo, vol. 1, pp. 609-612, August 2002
J. Xin, M. Sun, B. Choi, and K. Chun, 'An HDTV -to-SDTV Spatial Transcoder,' IEEE Transactions on Circuits and Systems for video Technology, vol. 12, no. 11, pp. 998-1008, November 2002
S. H, Jang and N. jayant, 'An Adaptive Non-linear Motion Vector Resampling Algorithm For Down-scaling Video Transcoding,' Proceedings of 2003 International Conference on Multimedia and Expo, vol. 2, pp. 229-232, July 2003
Y. P. Tan and H. Sun, 'Fast Motion Re- Estimation for Arbitrary Downsizing Video Transcoding using H.264/ AVC Standard,' IEEE Transactions on Consumer Electronics, vol. 50, pp 887-894, August 2004
Zhang, Y. Lu, Q. Huang, and W. Gao, 'Mode Mapping Method For H.264/AVC Spatial Dwonscaling Transcoding,' Proceedings of 2004 IEEE International Conference on Image Processing, vol. 4, pp 2781-2784, October 2004
C. Li, C. Wang, and T. Chiang, 'A Fast Downsizing Video Transcoder Based on H.264/AVC Standard,' Lecture Notes in Computer Science, vol. 3333, pp. 215 - 223, November 2004
Joint Video Team (JVT) of ISO/IEC MPEG & ITU-T VCEG, 'Draft ITU-T Recommendation and Final Draft International Standard of Joint Video Specification (ITU-T Rec. H.264 & ISO/IEC 14496-10 AVC), Doc. JVT-G050rl, March 2003
이제윤, 전병우, 'H.264 동영상 압축을 위한 고속부호화 모드 결정 방법,' 전자공학회 논문지 제 41권 SP편 제6호, 165-173쪽, 2004년 11월
※ AI-Helper는 부적절한 답변을 할 수 있습니다.