[논문]MPEG 통합 음성/오디오 코덱을 위한 오픈 소스 부호화 기술에 관한 연구

송정욱; 이준일; 강홍구

doi:10.5573/ieek.2013.50.1.086

MPEG 통합 음성/오디오 코덱을 위한 오픈 소스 부호화 기술에 관한 연구
Research on Open Source Encoding Technology for MPEG Unified Speech and Audio Coding 원문보기

Journal of the Institute of Electronics Engineers of Korea = 전자공학회논문지, v.50 no.1, 2013년, pp.86 - 96

송정욱 (연세대학교 전기전자공학과) , 이준일 (LG 전자) , 강홍구 (연세대학교 전기전자공학과)

초록
AI-Helper

통합 음성/오디오 부호화기 (Unified Speech and Audio Coding, USAC)는 2011년 MPEG에서 FDIS (Final Draft International Standard)를 승인받은 최고 성능의 통합 음성/오디오 부호화기이다. 전통적으로 MPEG에서는 복호화기 기술만 표준화하므로 인코더 기술에 대한 고찰이 쉽지 않을 뿐 아니라, 예제로 공개하는 인코더 (Reference Model, RM)의 경우에도 기본 아이디어만을 포함하고 있기 때문에 이를 사용할 경우 성능 저하가 매우 심각하다. 성능 열화는 매우 심각하다. 이러한 문제를 최소화하기 위해 오픈 소스 기반으로 진행되고 있는 프로젝트 JAME에서는 USAC에 적용된 핵심 인코더 기술의 성능을 최대화 할 수 있는 방법을 제안하고 있다. 본 논문에서는 입력 신호에 따라 두 코더가 선택적으로 동작되게 하는 신호 분류기와 심리 음향 모델을 기반으로 하는 주파수 부호화 기술, 그리고 전이 윈도우 기술 등의 주요 인코더 기술들에 대하여 소개한다. 또한 FDIS를 위한 verification test 결과와 Common Encoder의 성능 평가를 덧붙인다.

Abstract ▼ AI-Helper

Unified Speech and Audio Coding (USAC) is the speech/audio codec with the best quality, approved on Final Draft International Standard (FDIS) at MPEG meeting in 2011. Since MPEG conventionally standardizes only the decoder, it is not easy to study on the encoder technologies. Furthermore, Reference Model(RM) shows extremely poor performance. To solve these problems, the open source project(JAME) proposes the methods to make the improved performance of main encoder technologies in USAC. Especially, this paper introduces the encoder modules: the signal classifier for selective operation between two coders, the psychoacoustic model in frequency domain, and window transition technology. Finally, the results of verification test for FDIS and the performance of Common Encoder are appended.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

JAME은 본 기관을 중심으로 하여 설계된 소스 코덱이며, 본 논문에서는 USAC 표준화 과정에서 사용된 인코더의 주요 핵심 기술인 신호 분류기(Signal classifier), 윈도우 천이 기술 (Window transition technology), 주파수 영역 부호화 기술, 그리고 무손실 양자화 기술 (Lossless coding)등에 대해 자세히 고찰하고자 한다.
모드 변환에 따른 경계영역 설정과 갱신, 그리고 모드 smoothing과정은 급격한 모드 전환으로 인한 음질 저하와 비트 낭비를 막기 위해 설계되었다. 본 논문에서는 모드를 결정하기 위한 특성 파라미터의 추출 과정과이 파라미터들을 사용하여 초기 모드 설정을 하는 과정에 대하여 살펴본다.

제안 방법

2007년 CfP이후, 8개의 기관에서 USAC표준화를 위한 후보 시스템을 제안하였으며, 그 중 최고의 성능을 보여주었던 코더를 RM (Reference Model)으로 선정하였다^[6]. 이후 수많은 기술이 추가로 제안되었고, 그 중 21개의 CE(Core Experiment)들이 표준안에 채택되었다.
현재 가장 성능이 뛰어나며, Verification test에 사용된 RQE는 공개되지 않아 현재 최고의 성능을 가진 인코더에 포함된 기술들을 설명하는 것에는 어려움이 있다. 3GPP의 EAAC와 JAME project에서 진행 중인 여러 인코더 기술들을 바탕으로 신호분류기, 심리 음향 모델에 기반한 주파수 부호화 기술, 윈도우 천이 기술, 그리고 무손실 부호화 기술에 대하여 살펴보았다. 또한 현재 RQE의 verification test결과와 JAME의 성능 평가를 통하여 차세대 음성/오디오 코더 미래를 확인할 수 있었다.
매 프레임마다 부호화 모드가 결정되며, 신호 분류기의 구조는 그림 2와 같다. Tonal 파라미터와 기울기(tilt) 파라미터를 추출한 다음, 음악과 음성의 경계를 찾아 초기 경계를 설정한다. 이것을 바탕으로 초기 모드를 결정하고, 신호 분류 결과에 따라 경계 범위를 갱신한다.
2-tuples란 인접한 두 개의 스펙트럼 값을 하나로 연결하여 붙인 값을 말한다. 과거 프레임의 인접한 3개의 2-tuples와 현재 프레임에서 인접한 2-tuples를 이용하여 각각의 상위 4비트를 조합하여 코드북 인덱스를 만든다. 코드북 인덱스에 해당하는 값과 현재 스펙트럼 값의 차이가 복호화기에 전송이 된다.
신호 분류기의 경우에 입력 신호의 특성에 상관없이, 반복적으로 시간 영역 부호화기와 주파수 영역 부호화기가 선택되었다. 또한 주파수 영역 부호화 기는 심리 음향 모델 없이, 입력신호의 에너지에 비례하여 양자화 비트를 할당하도록 설계되었다. 이 같은 중요 모듈의 부재는 심각한 음질 저하로 이어졌다.
ACELP로 동작될 때는 기존의 AMR-WB+와 동일한 방식으로 전송 비트율에 따라 코드북 인덱스를 전송하지만, wLPT 는 기존의 TCX 에서 DFT(Discrete Fourier Transform)를 사용했던 것과는 달리, MDCT(Modified Discrete Cosine Transform)를 사용하여 압축률을 향상시키고 있다. 또한 주파수 영역 부호화기 방식으로 전환할 때 생기는 문제를 해결하기 위하여 FAC (Forward Aliasing Cancelation) 기술과 FDNS (Frequency Domain Noise Shaping) 기술을 추가하여 보완하였다^[11].
끝으로 에너지, 갱신된 경계범위, 신호 분류 결과를 통해 결정된 모드를 최종적으로 smoothing하는 과정을 거친다. 모드 변환에 따른 경계영역 설정과 갱신, 그리고 모드 smoothing과정은 급격한 모드 전환으로 인한 음질 저하와 비트 낭비를 막기 위해 설계되었다. 본 논문에서는 모드를 결정하기 위한 특성 파라미터의 추출 과정과이 파라미터들을 사용하여 초기 모드 설정을 하는 과정에 대하여 살펴본다.
USAC에 적용된 주파수 영역 부호화기는 심리 음향 모델을 기반으로 한 전형적인 AAC의 구조를 따르고 있다. 입력된 신호를 MDCT영역으로 전환하여, 스펙트럼의 에너지를 바탕으로 마스킹 문턱치 (Masking threshold)를 구한다. 마스킹 문턱치는 저주파로 갈수록 조밀한 형태의 스케일 팩터 밴드 (Scale factor band) 단위로 얻어지며, 스프레딩(Spreading)과 Pre-echo를 방지하는 과정을 거치며, 초기 마스킹 문턱치 값을 얻는다.

대상 데이터

MUSHRA (MUltiple Stimulus Hidden Reference and Anchor) 테스트^[15]를 이용한 주관적 음질 평가는 15개 기관이 참여하여 수행하였다. 모노 저 비트율(Test 1 : 8, 12, 16, 24kbps), 스테레오 저 비트율(Test 2 : 16, 20, 24kbps), 스테레오고 비트율(Test 3 : 32, 48, 64, 96kbps)로 나누어서 진행된 청취 평가에서 총 24개의 아이템이 사용되었다^[16]. 그림 11은 Test 1,2,3에 대한 결과이며, VC(virtual codec)는 USAC 표준화가 시작되면서 만든 기본 요구 사항의 성능을 나타내는 코더이다.

이론/모형

그림 6은 12kbps에서 USAC의 RQE와 Common Encoder (JAME)에서 각각 사용된 심리 음향 모델을 이용하여 부호화된 스펙트럼을 나타낸 것이다. Common Encoder 는 3GPP-EAAC의 심리음향 모델을 기반으로 재설계되었다. JAME의 심리음향 모델이 RQE만큼 정교하게 설계되었기 때문에, 그림 6.
음성신호는 신호 분류기의 결정에 따라 시간 영역 부호화기에 의해 주로 부호화 되는데, 주요 프로세싱 과정은 기존의 AMR-WB+와 유사하다. LPC(Linear prediction coding)을 통하여 음성 신호의 포먼트 (formant)를 추출하며, 잔여신호의 특성에 따라, ACELP (Algebric Code Excitation Linear Prediction) 방식 또는 wLPT (Weighted Linear Prediction Transform Coding)방식으로 부호화 한다^[10]. ACELP로 동작될 때는 기존의 AMR-WB+와 동일한 방식으로 전송 비트율에 따라 코드북 인덱스를 전송하지만, wLPT 는 기존의 TCX 에서 DFT(Discrete Fourier Transform)를 사용했던 것과는 달리, MDCT(Modified Discrete Cosine Transform)를 사용하여 압축률을 향상시키고 있다.
지난해 7월 FDIS 승인을 위한 USAC의 RQE에 대한 Verification test가 있었다. MUSHRA (MUltiple Stimulus Hidden Reference and Anchor) 테스트^[15]를 이용한 주관적 음질 평가는 15개 기관이 참여하여 수행하였다. 모노 저 비트율(Test 1 : 8, 12, 16, 24kbps), 스테레오 저 비트율(Test 2 : 16, 20, 24kbps), 스테레오고 비트율(Test 3 : 32, 48, 64, 96kbps)로 나누어서 진행된 청취 평가에서 총 24개의 아이템이 사용되었다^[16].

성능/효과

3GPP의 EAAC와 JAME project에서 진행 중인 여러 인코더 기술들을 바탕으로 신호분류기, 심리 음향 모델에 기반한 주파수 부호화 기술, 윈도우 천이 기술, 그리고 무손실 부호화 기술에 대하여 살펴보았다. 또한 현재 RQE의 verification test결과와 JAME의 성능 평가를 통하여 차세대 음성/오디오 코더 미래를 확인할 수 있었다.
RM은 표준화 과정에서 디코더의 비트열 생성을 위하여 설계되었기 때문에, 대부분의 핵심 기술들이 포함되지 않았다. 신호 분류기의 경우에 입력 신호의 특성에 상관없이, 반복적으로 시간 영역 부호화기와 주파수 영역 부호화기가 선택되었다. 또한 주파수 영역 부호화 기는 심리 음향 모델 없이, 입력신호의 에너지에 비례하여 양자화 비트를 할당하도록 설계되었다.
신호 분류기의 smoothing 과정으로 인하여 모드 변경할 때 지연이 있으며, 혼음 신호의 경우에 오디오 성분이 강한 신호는 오디오로 음성 신호 성분이 강한 신호는 음성 신호로 결정하고 있다. 전체적으로 신호분류기의 모드 결정이 실제 모드를 잘따라가고 있어, 주파수 영역 부호화기와 시간 영역 부호화기의 성능을 극대화 할 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	통합 음성/오디오 부호화기란 무엇인가?	통합 음성/오디오 부호화기(USAC, Unified Speechand Audio Coding)는 2011년 7월 FDIS를 승인[1]을 받았으며, 현존하는 오디오와 음성 코덱 가운데 최고의 성능을 가진 통합 표준 코덱이다. 이는 급변하는 멀티미디어 시장의 수요에 대응하기 위해 시작된 표준화 과정으로서 발의된 CfP[2](Call for Proposal)를 시작으로 지난 5년간 지속적인 성능 향상을 통해 얻어진 결과물이다.
	USAC의 표준화로 인하여 무엇을 설계할 수 있는가?	USAC의 표준화는 복호화기에 한정하고 있기 때문에 표준화된 복호화기의 비트열(bit-stream) 규격에 맞는 다양한 형태의 인코더를 설계할 수 있다. 현재 USAC 표준화 과정의 Verification test에서 사용한 RQE (Reference Qualiay Encoder)는 공개가 되지 않고 있으며, 공개된 RM 인코더의 음질은 매우 저조하다.
	통합 음성/오디오 부호화기의 표준화를 위한 후보 시스템으로 무엇이 선정되었는가?	2007년 CfP이후, 8개의 기관에서 USAC표준화를 위한 후보 시스템을 제안하였으며, 그 중 최고의 성능을 보여주었던 코더를 RM (Reference Model)으로 선정하였다[6]. 이후 수많은 기술이 추가로 제안되었고, 그 중 21개의 CE(Core Experiment)들이 표준안에 채택되었다.

참고문헌 (16)

ISO/IEC SC29 WG11 N12231, "ISO/IEC 23003-3/ FDIS, Unified Speech and Audio Coding", 97th MPEG Meeting, July, 2011.
ISO/IEC SC29 WG11 N9519, "Call for Proposals on Unified Speech and Audio Coding", 82nd MPEG Meeting, October, 2007.
J. Makinen, B. Bessette, S. Bruhn, P. Ojala, R. Salami, and A. Taleb, "AMR-WB+: a new audio coding standard for 3RD generation mobile audio services," in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP '05), vol. 2, pp. II1109-II1112, March 2005.
K. Brandenburg and M. Bosi, "Overview of MPEG audio: current and future standards for low-bit-rate audio coding," Journal of the Audio Engineering Society, vol. 45, no. 1-2, pp.4-21, 1997.
M. Wolters et al, "A closer look into MPEG-4 High Efficiency AAC," 115th AES Convention, New York, USA, October 2003
M. Neuendorf, et al., "A novel scheme for low bitrate unified speech and audio coding-MPEG RM0," in Proceedings of the 126th AES Convention, Munich, Germany, May 2009.
ISO/IEC SC29 WG11 N12232, "USAC Verification Test Report", 97th MPEG Meeting, July, 2011.
ISO/IEC SC29 WG11 M17571, "Yonsei-LG Contribution to USAC Reference Software", 92nd MPEG Meeting, Dresden, Germany, April 2010
ISO/IEC SC29 WG11 M23882, "Report on the intermediate verification tests for USAC Common Encoder", 99th MPEG Meeting, Sanhose, USA, Feb. 2012.
Guillaume Fuchs, et al., "Mdct-based coder for highly adaptive speech and audio coding", 17th European Signal Processing Conference (EUSIPCO 2009), Glasgow, Scotland, August, 2009.
ISO/IEC SC29 WG11 M17020, "Proposal for unification of USAC windowing and frame transitions", 90th MPEG Meeting, Xian, China, Oct. 2009.
ISO/IEC SC29 WG11 M18470, "A new signal classifier for USAC reference encoder", 94th MPEG Meeting, Guangzhou, China, Oct. 2010.
ISO/IEC 11172-3:1993, Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s, Part 3: Audio.
3GPP, "General audio codec audio processing functions; Enhanced aacPlus general audio codec; Encoder specification; Advanced Audio Coding (AAC) part", 2004, 3GPP TS 26.403.
RECOMMENDATION ITU-R BS.1534-1, "Method for the subjective assessment of intermediate quality level of coding systems," 2001-2003.
ISO/IEC SC29 WG11 N12027, "Workplan for Verification Testing of USAC", 96th MPEG Meeting, Geneva, Switzerland, March, 2011.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

MPEG 통합 음성/오디오 코덱을 위한 오픈 소스 부호화 기술에 관한 연구
Research on Open Source Encoding Technology for MPEG Unified Speech and Audio Coding 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

참고문헌 (16)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

MPEG 통합 음성/오디오 코덱을 위한 오픈 소스 부호화 기술에 관한 연구 Research on Open Source Encoding Technology for MPEG Unified Speech and Audio Coding 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

참고문헌 (16)

이 논문을 인용한 문헌

저자의 다른 논문 :

송정욱 (1) 강홍구 (29)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

MPEG 통합 음성/오디오 코덱을 위한 오픈 소스 부호화 기술에 관한 연구
Research on Open Source Encoding Technology for MPEG Unified Speech and Audio Coding 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper