통합 음성/오디오 부호화기 (Unified Speech and Audio Coding, USAC)는 2011년 MPEG에서 FDIS (Final Draft International Standard)를 승인받은 최고 성능의 통합 음성/오디오 부호화기이다. 전통적으로 MPEG에서는 복호화기 기술만 표준화하므로 인코더 기술에 대한 고찰이 쉽지 않을 뿐 아니라, 예제로 공개하는 인코더 (Reference Model, RM)의 경우에도 기본 아이디어만을 포함하고 있기 때문에 이를 사용할 경우 성능 저하가 매우 심각하다. 성능 열화는 매우 심각하다. 이러한 문제를 최소화하기 위해 오픈 소스 기반으로 진행되고 있는 프로젝트 JAME에서는 USAC에 적용된 핵심 인코더 기술의 성능을 최대화 할 수 있는 방법을 제안하고 있다. 본 논문에서는 입력 신호에 따라 두 코더가 선택적으로 동작되게 하는 신호 분류기와 심리 음향 모델을 기반으로 하는 주파수 부호화 기술, 그리고 전이 윈도우 기술 등의 주요 인코더 기술들에 대하여 소개한다. 또한 FDIS를 위한 verification test 결과와 Common Encoder의 성능 평가를 덧붙인다.
통합 음성/오디오 부호화기 (Unified Speech and Audio Coding, USAC)는 2011년 MPEG에서 FDIS (Final Draft International Standard)를 승인받은 최고 성능의 통합 음성/오디오 부호화기이다. 전통적으로 MPEG에서는 복호화기 기술만 표준화하므로 인코더 기술에 대한 고찰이 쉽지 않을 뿐 아니라, 예제로 공개하는 인코더 (Reference Model, RM)의 경우에도 기본 아이디어만을 포함하고 있기 때문에 이를 사용할 경우 성능 저하가 매우 심각하다. 성능 열화는 매우 심각하다. 이러한 문제를 최소화하기 위해 오픈 소스 기반으로 진행되고 있는 프로젝트 JAME에서는 USAC에 적용된 핵심 인코더 기술의 성능을 최대화 할 수 있는 방법을 제안하고 있다. 본 논문에서는 입력 신호에 따라 두 코더가 선택적으로 동작되게 하는 신호 분류기와 심리 음향 모델을 기반으로 하는 주파수 부호화 기술, 그리고 전이 윈도우 기술 등의 주요 인코더 기술들에 대하여 소개한다. 또한 FDIS를 위한 verification test 결과와 Common Encoder의 성능 평가를 덧붙인다.
Unified Speech and Audio Coding (USAC) is the speech/audio codec with the best quality, approved on Final Draft International Standard (FDIS) at MPEG meeting in 2011. Since MPEG conventionally standardizes only the decoder, it is not easy to study on the encoder technologies. Furthermore, Reference ...
Unified Speech and Audio Coding (USAC) is the speech/audio codec with the best quality, approved on Final Draft International Standard (FDIS) at MPEG meeting in 2011. Since MPEG conventionally standardizes only the decoder, it is not easy to study on the encoder technologies. Furthermore, Reference Model(RM) shows extremely poor performance. To solve these problems, the open source project(JAME) proposes the methods to make the improved performance of main encoder technologies in USAC. Especially, this paper introduces the encoder modules: the signal classifier for selective operation between two coders, the psychoacoustic model in frequency domain, and window transition technology. Finally, the results of verification test for FDIS and the performance of Common Encoder are appended.
Unified Speech and Audio Coding (USAC) is the speech/audio codec with the best quality, approved on Final Draft International Standard (FDIS) at MPEG meeting in 2011. Since MPEG conventionally standardizes only the decoder, it is not easy to study on the encoder technologies. Furthermore, Reference Model(RM) shows extremely poor performance. To solve these problems, the open source project(JAME) proposes the methods to make the improved performance of main encoder technologies in USAC. Especially, this paper introduces the encoder modules: the signal classifier for selective operation between two coders, the psychoacoustic model in frequency domain, and window transition technology. Finally, the results of verification test for FDIS and the performance of Common Encoder are appended.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
JAME은 본 기관을 중심으로 하여 설계된 소스 코덱이며, 본 논문에서는 USAC 표준화 과정에서 사용된 인코더의 주요 핵심 기술인 신호 분류기(Signal classifier), 윈도우 천이 기술 (Window transition technology), 주파수 영역 부호화 기술, 그리고 무손실 양자화 기술 (Lossless coding)등에 대해 자세히 고찰하고자 한다.
모드 변환에 따른 경계영역 설정과 갱신, 그리고 모드 smoothing과정은 급격한 모드 전환으로 인한 음질 저하와 비트 낭비를 막기 위해 설계되었다. 본 논문에서는 모드를 결정하기 위한 특성 파라미터의 추출 과정과이 파라미터들을 사용하여 초기 모드 설정을 하는 과정에 대하여 살펴본다.
제안 방법
2007년 CfP이후, 8개의 기관에서 USAC표준화를 위한 후보 시스템을 제안하였으며, 그 중 최고의 성능을 보여주었던 코더를 RM (Reference Model)으로 선정하였다[6]. 이후 수많은 기술이 추가로 제안되었고, 그 중 21개의 CE(Core Experiment)들이 표준안에 채택되었다.
현재 가장 성능이 뛰어나며, Verification test에 사용된 RQE는 공개되지 않아 현재 최고의 성능을 가진 인코더에 포함된 기술들을 설명하는 것에는 어려움이 있다. 3GPP의 EAAC와 JAME project에서 진행 중인 여러 인코더 기술들을 바탕으로 신호분류기, 심리 음향 모델에 기반한 주파수 부호화 기술, 윈도우 천이 기술, 그리고 무손실 부호화 기술에 대하여 살펴보았다. 또한 현재 RQE의 verification test결과와 JAME의 성능 평가를 통하여 차세대 음성/오디오 코더 미래를 확인할 수 있었다.
매 프레임마다 부호화 모드가 결정되며, 신호 분류기의 구조는 그림 2와 같다. Tonal 파라미터와 기울기(tilt) 파라미터를 추출한 다음, 음악과 음성의 경계를 찾아 초기 경계를 설정한다. 이것을 바탕으로 초기 모드를 결정하고, 신호 분류 결과에 따라 경계 범위를 갱신한다.
2-tuples란 인접한 두 개의 스펙트럼 값을 하나로 연결하여 붙인 값을 말한다. 과거 프레임의 인접한 3개의 2-tuples와 현재 프레임에서 인접한 2-tuples를 이용하여 각각의 상위 4비트를 조합하여 코드북 인덱스를 만든다. 코드북 인덱스에 해당하는 값과 현재 스펙트럼 값의 차이가 복호화기에 전송이 된다.
신호 분류기의 경우에 입력 신호의 특성에 상관없이, 반복적으로 시간 영역 부호화기와 주파수 영역 부호화기가 선택되었다. 또한 주파수 영역 부호화 기는 심리 음향 모델 없이, 입력신호의 에너지에 비례하여 양자화 비트를 할당하도록 설계되었다. 이 같은 중요 모듈의 부재는 심각한 음질 저하로 이어졌다.
ACELP로 동작될 때는 기존의 AMR-WB+와 동일한 방식으로 전송 비트율에 따라 코드북 인덱스를 전송하지만, wLPT 는 기존의 TCX 에서 DFT(Discrete Fourier Transform)를 사용했던 것과는 달리, MDCT(Modified Discrete Cosine Transform)를 사용하여 압축률을 향상시키고 있다. 또한 주파수 영역 부호화기 방식으로 전환할 때 생기는 문제를 해결하기 위하여 FAC (Forward Aliasing Cancelation) 기술과 FDNS (Frequency Domain Noise Shaping) 기술을 추가하여 보완하였다[11].
끝으로 에너지, 갱신된 경계범위, 신호 분류 결과를 통해 결정된 모드를 최종적으로 smoothing하는 과정을 거친다. 모드 변환에 따른 경계영역 설정과 갱신, 그리고 모드 smoothing과정은 급격한 모드 전환으로 인한 음질 저하와 비트 낭비를 막기 위해 설계되었다. 본 논문에서는 모드를 결정하기 위한 특성 파라미터의 추출 과정과이 파라미터들을 사용하여 초기 모드 설정을 하는 과정에 대하여 살펴본다.
USAC에 적용된 주파수 영역 부호화기는 심리 음향 모델을 기반으로 한 전형적인 AAC의 구조를 따르고 있다. 입력된 신호를 MDCT영역으로 전환하여, 스펙트럼의 에너지를 바탕으로 마스킹 문턱치 (Masking threshold)를 구한다. 마스킹 문턱치는 저주파로 갈수록 조밀한 형태의 스케일 팩터 밴드 (Scale factor band) 단위로 얻어지며, 스프레딩(Spreading)과 Pre-echo를 방지하는 과정을 거치며, 초기 마스킹 문턱치 값을 얻는다.
대상 데이터
MUSHRA (MUltiple Stimulus Hidden Reference and Anchor) 테스트[15]를 이용한 주관적 음질 평가는 15개 기관이 참여하여 수행하였다. 모노 저 비트율(Test 1 : 8, 12, 16, 24kbps), 스테레오 저 비트율(Test 2 : 16, 20, 24kbps), 스테레오고 비트율(Test 3 : 32, 48, 64, 96kbps)로 나누어서 진행된 청취 평가에서 총 24개의 아이템이 사용되었다[16]. 그림 11은 Test 1,2,3에 대한 결과이며, VC(virtual codec)는 USAC 표준화가 시작되면서 만든 기본 요구 사항의 성능을 나타내는 코더이다.
이론/모형
그림 6은 12kbps에서 USAC의 RQE와 Common Encoder (JAME)에서 각각 사용된 심리 음향 모델을 이용하여 부호화된 스펙트럼을 나타낸 것이다. Common Encoder 는 3GPP-EAAC의 심리음향 모델을 기반으로 재설계되었다. JAME의 심리음향 모델이 RQE만큼 정교하게 설계되었기 때문에, 그림 6.
음성신호는 신호 분류기의 결정에 따라 시간 영역 부호화기에 의해 주로 부호화 되는데, 주요 프로세싱 과정은 기존의 AMR-WB+와 유사하다. LPC(Linear prediction coding)을 통하여 음성 신호의 포먼트 (formant)를 추출하며, 잔여신호의 특성에 따라, ACELP (Algebric Code Excitation Linear Prediction) 방식 또는 wLPT (Weighted Linear Prediction Transform Coding)방식으로 부호화 한다[10]. ACELP로 동작될 때는 기존의 AMR-WB+와 동일한 방식으로 전송 비트율에 따라 코드북 인덱스를 전송하지만, wLPT 는 기존의 TCX 에서 DFT(Discrete Fourier Transform)를 사용했던 것과는 달리, MDCT(Modified Discrete Cosine Transform)를 사용하여 압축률을 향상시키고 있다.
지난해 7월 FDIS 승인을 위한 USAC의 RQE에 대한 Verification test가 있었다. MUSHRA (MUltiple Stimulus Hidden Reference and Anchor) 테스트[15]를 이용한 주관적 음질 평가는 15개 기관이 참여하여 수행하였다. 모노 저 비트율(Test 1 : 8, 12, 16, 24kbps), 스테레오 저 비트율(Test 2 : 16, 20, 24kbps), 스테레오고 비트율(Test 3 : 32, 48, 64, 96kbps)로 나누어서 진행된 청취 평가에서 총 24개의 아이템이 사용되었다[16].
성능/효과
3GPP의 EAAC와 JAME project에서 진행 중인 여러 인코더 기술들을 바탕으로 신호분류기, 심리 음향 모델에 기반한 주파수 부호화 기술, 윈도우 천이 기술, 그리고 무손실 부호화 기술에 대하여 살펴보았다. 또한 현재 RQE의 verification test결과와 JAME의 성능 평가를 통하여 차세대 음성/오디오 코더 미래를 확인할 수 있었다.
RM은 표준화 과정에서 디코더의 비트열 생성을 위하여 설계되었기 때문에, 대부분의 핵심 기술들이 포함되지 않았다. 신호 분류기의 경우에 입력 신호의 특성에 상관없이, 반복적으로 시간 영역 부호화기와 주파수 영역 부호화기가 선택되었다. 또한 주파수 영역 부호화 기는 심리 음향 모델 없이, 입력신호의 에너지에 비례하여 양자화 비트를 할당하도록 설계되었다.
신호 분류기의 smoothing 과정으로 인하여 모드 변경할 때 지연이 있으며, 혼음 신호의 경우에 오디오 성분이 강한 신호는 오디오로 음성 신호 성분이 강한 신호는 음성 신호로 결정하고 있다. 전체적으로 신호분류기의 모드 결정이 실제 모드를 잘따라가고 있어, 주파수 영역 부호화기와 시간 영역 부호화기의 성능을 극대화 할 수 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
통합 음성/오디오 부호화기란 무엇인가?
통합 음성/오디오 부호화기(USAC, Unified Speechand Audio Coding)는 2011년 7월 FDIS를 승인[1]을 받았으며, 현존하는 오디오와 음성 코덱 가운데 최고의 성능을 가진 통합 표준 코덱이다. 이는 급변하는 멀티미디어 시장의 수요에 대응하기 위해 시작된 표준화 과정으로서 발의된 CfP[2](Call for Proposal)를 시작으로 지난 5년간 지속적인 성능 향상을 통해 얻어진 결과물이다.
USAC의 표준화로 인하여 무엇을 설계할 수 있는가?
USAC의 표준화는 복호화기에 한정하고 있기 때문에 표준화된 복호화기의 비트열(bit-stream) 규격에 맞는 다양한 형태의 인코더를 설계할 수 있다. 현재 USAC 표준화 과정의 Verification test에서 사용한 RQE (Reference Qualiay Encoder)는 공개가 되지 않고 있으며, 공개된 RM 인코더의 음질은 매우 저조하다.
통합 음성/오디오 부호화기의 표준화를 위한 후보 시스템으로 무엇이 선정되었는가?
2007년 CfP이후, 8개의 기관에서 USAC표준화를 위한 후보 시스템을 제안하였으며, 그 중 최고의 성능을 보여주었던 코더를 RM (Reference Model)으로 선정하였다[6]. 이후 수많은 기술이 추가로 제안되었고, 그 중 21개의 CE(Core Experiment)들이 표준안에 채택되었다.
ISO/IEC SC29 WG11 N9519, "Call for Proposals on Unified Speech and Audio Coding", 82nd MPEG Meeting, October, 2007.
J. Makinen, B. Bessette, S. Bruhn, P. Ojala, R. Salami, and A. Taleb, "AMR-WB+: a new audio coding standard for 3RD generation mobile audio services," in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP '05), vol. 2, pp. II1109-II1112, March 2005.
K. Brandenburg and M. Bosi, "Overview of MPEG audio: current and future standards for low-bit-rate audio coding," Journal of the Audio Engineering Society, vol. 45, no. 1-2, pp.4-21, 1997.
M. Wolters et al, "A closer look into MPEG-4 High Efficiency AAC," 115th AES Convention, New York, USA, October 2003
M. Neuendorf, et al., "A novel scheme for low bitrate unified speech and audio coding-MPEG RM0," in Proceedings of the 126th AES Convention, Munich, Germany, May 2009.
ISO/IEC SC29 WG11 M17571, "Yonsei-LG Contribution to USAC Reference Software", 92nd MPEG Meeting, Dresden, Germany, April 2010
ISO/IEC SC29 WG11 M23882, "Report on the intermediate verification tests for USAC Common Encoder", 99th MPEG Meeting, Sanhose, USA, Feb. 2012.
Guillaume Fuchs, et al., "Mdct-based coder for highly adaptive speech and audio coding", 17th European Signal Processing Conference (EUSIPCO 2009), Glasgow, Scotland, August, 2009.
ISO/IEC SC29 WG11 M17020, "Proposal for unification of USAC windowing and frame transitions", 90th MPEG Meeting, Xian, China, Oct. 2009.
ISO/IEC SC29 WG11 M18470, "A new signal classifier for USAC reference encoder", 94th MPEG Meeting, Guangzhou, China, Oct. 2010.
ISO/IEC 11172-3:1993, Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s, Part 3: Audio.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.