[논문]음악 및 음성 신호의 융합 압축 기술

오은미

초록
AI-Helper

오디오와 음성 압축 기술적 근간은 서로 다르지만, 최근의 모바일 멀티미디어 기기 시장의 컨버전스 현상에 따라 압축하고자 하는 신호가 혼용되고 있으며, 비슷한 목표 전송률과 음질로 수렴하고 있다. 현재는 동일 기기에서 서로 다른 압축 기술을 적용하고 있으나, 음성과 음악이 동시에 서비스 되는 멀티미디어 기기에서는 단일 압축 방식으로 처리하고자 하는 이슈가 부각되고 있다. 특히, 스마트 폰 및 음악 콘텐츠 포탈 서비스의 대중화를 고려할 때, 음성 및 음악 신호 모두를 효율적으로 압축하는 음악 및 음성 신호의 융합 압축 기술이 더욱 필요해 보인다. 본 고에서는 MPEG 오디오 그룹에서 가장 최근 진행한 Unified Speech and Audio Coding(USAC)의 탄생 배경 및 표준화 현황을 소개한다. USAC는 64kbps 이하에서 기술적으로 최고 성능을 지닌 AMR-WB+ 및 HE-AAC v2보다도 우월한 음질을 보이며, 높은 비트율에서도 동등한 음질을 보장한다. 이런 우수한 음질에 기여한 USAC의 스위칭 구조와 더불어 기술적으로 향상된 주요 모듈인 파라미터 기반 스테레오 및 고주파 압축, 그리고 엔트로피 코딩 방식에 대해서 살펴 본다. 향후, 다양한 오디오 신호를 효율적으로 압축하는 USAC는 디지털 라디오, 모바일 TV, 그리고 오디오 북과 같은 사용자 시나리오에서 사용될 확률이 높아 보인다. 또한, USAC는 배경 잡음이나 배경 음악이 있는 경우에도 성능이 우수하기 때문에 YouTube 및 podcast 등과 같이 사용자가 콘텐츠를 생성할 때도 유용하게 사용 될 수 있다.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

주관적 음질 평가 방법으로 MUSHRA가 사용 되었으며 [8], USAC의 음질 수준은 가상 코덱 성능보다 같거나 좋아야 한다. 따라서, 다양한 입력 신호에도 항상 일정하게 좋은 음질을 제공하는 코덱을 표준화하는 것을 목표로 한 것이다. 2011년 7월에 검증 실험(veri-fication test)을 통해 기술적 요구사항을 모두 충족시켰음을 확인하여, FDIS(Final Draft Inter-national Standard)가 승인 되었다[9].
본 고에서는 MPEG 오디오 그룹에서 가장 최근 진행한 Unified Speech and Audio Coding (USAC)의 표준화 현황을 소개하고, USAC의 기본 구조, 및 핵심 기술을 기술하고자 한다[2][3].
기존 MPEG 기술과 비교했을 때, USAC의 스위칭 구조로 인한 음성 신호에 대한 음질 향상이 가장 중요한 특징이다. 본 고에서는 스위칭 구조 이외에 기술적으로 향상된 주요 모듈인 파라미터 기반 스테레오 및 고주파 압축, 그리고 엔트로피 코딩 방식에 대해서 자세히 보기로 한다.
맥락 기반 산술 부호화는 USAC의 주파수 영역 모드와 MDCT 기반 TCX에서 공통적으로 사용된다. 압축 효율을 높이면서도 복잡도 및 메모리 사용량을 늘리지 않기 위해 최적화 되었다. USAC 엔트로피 코딩은 2개의 인접 스펙트럼 계수로 이루어진 2-tuple에 기반하여 처리된다.

가설 설정

첫째, 기존 SBR의 1:2 업샘플링 뿐만 아니라 1:4 업샘플링이 가능하다. 1:4 업샘플링은 코어 압축이 협대역만 지원할 때 적합하다. 둘째, SBR 파라미터에 사용되는 시간/주파수 격자(grid)가 훨씬 유동적이라서 급변하는 음성 신호 압축에 필요한 세밀한 시간축 표현이 가능하다.

제안 방법

2004년에 3GPP 산업 표준화 단체에서 실시한 기존 음성 및 오디오 압축 기술에 대한 성능 평가 결과로 인하여 단일 압축 방식에 대한 이슈가 부각되었다. 3GPP 표준 단체에서 PSS(Packet-switched Streaming Service), MMS (Multimedia Messaging Service), 및 MBMS (Broadcast/Multicast Service)에 적합한 코덱을 선정하기 위해 기존 압축 기술에 대한 성능 평가를 실시하였다. <그림 3>은 3GPP에서 실시한 멀티미디어 서비스를 위한 코덱의 주관적 청취 실험 결과를 보여준다[1].
AAC는 양자화된 MDCT스펙트럼 계수을 엔트로피 코딩을 할 때, 호프만 코딩(Huffman coding)을 사용하지만, USAC에서는 맥락 기반 산술 부호화 (context-based Arithmetic coding)를 사용하여 압축 효율을 높였다. 맥락 기반 산술 부호화는 USAC의 주파수 영역 모드와 MDCT 기반 TCX에서 공통적으로 사용된다.
USAC는 다양한 비트율(8kbps 모노부터 96kbps 스테레오)과 다양한 입력 신호(유형별로 8개씩 총 24개)를 사용하여 USAC의 음질을 검증하는 청취 평가를 실시 하였다[12]. <그림 5>는 8-24kbps 모노 조건에서 오디오 신호 유형에 따른 MUSHRA 점수를 나타낸다.
입력 신호는 음성, 음악, 그리고 음성과 음악의 혼합 콘텐츠 등 세가지 유형으로 분류 되었다. 주요 목표 비트율은 32kbps이하였으며, 12kbps 모노, 16/20/24kbps 모노/스테레오, 32/64kbps 등 9개 조건에서 성능 평가를 실시하였다. 마지막으로, 목표 음질 수준을 설정하기 위해 가상 코덱(Virtual Codec)을 정의하였다.

대상 데이터

<그림 3>은 3GPP에서 실시한 멀티미디어 서비스를 위한 코덱의 주관적 청취 실험 결과를 보여준다[1]. 실험에 사용된 코덱은 EAAC+(Enhanced aacPlus)와 AMR-WB+(Extended AMR-WB)이다. 그림에서 보여지듯이, 음악 신호에는 오디오 압축 기술인 EAAC+의 음질이 우수하며, 음성 신호에는 음성 압축 기술인 AMR-WB+의 음질이 우세하다.

이론/모형

<그림 1>에 표현되어 있듯이, 두 압축 기술의 모델링 방식의 차이가 있다. 음성 압축 기술은 음원인 성대를 모델링하는 음원 모형(sound source model)에 기반하여, 분석에 의한 합성(analysis by synthesis)을 통해 음성 신호를 압축한다. 한편, 오디오 압축 기술은 인간의 청각 처리 능력을 모델링 하는 지각 모형(perceptual model)에 기반하여, 오디오의 신호의 차폐(making) 정도에 따라 양자화 정도를 결정하여 음악 신호를 압축한다.
<그림 4>는 USAC 부호화기의 블록 다이어그램을 나타낸다. 주파수 및 선형 예측 영역 압축에서 공통적으로 파라미터 기반의 스테레오 압축 방식인 MPEG Surround[10]와 파라미터 기반의 고주파 복원 방식인 SBR이 사용된다. 입력 신호는 프레임 단위로 신호 분류기(signal classifier)에서 신호 특성에 따라 주파수 또는 시간 영역 부호화가 될 지 결정된다.

성능/효과

1:4 업샘플링은 코어 압축이 협대역만 지원할 때 적합하다. 둘째, SBR 파라미터에 사용되는 시간/주파수 격자(grid)가 훨씬 유동적이라서 급변하는 음성 신호 압축에 필요한 세밀한 시간축 표현이 가능하다. 마지막으로, USAC에서는 하모닉 주파수 전위(harmonic frequency transposition)가 가능하다.
USAC의 파라미터 기반 고주파 생성 방식인 eSBR(Enhanced Spectral Band Replication)은 HE-AAC의 SBR과 비교했을 때 세 가지 점에서 향상 되었다. 첫째, 기존 SBR의 1:2 업샘플링 뿐만 아니라 1:4 업샘플링이 가능하다. 1:4 업샘플링은 코어 압축이 협대역만 지원할 때 적합하다.

질의응답

핵심어	질문	논문에서 추출한 답변
	USAC 어떤 구조로 이루어져 있나?	USAC는 음악 압축이 유리한 주파수 영역 (frequency domain) 압축 기술과 음성 신호의 압축이 유리한 선형 예측 영역(linear prediction domain) 압축 기술이 결합된 스위칭 구조로 이루어져 있다. <그림 4>는 USAC 부호화기의 블록 다이어그램을 나타낸다.
	USAC는 어떤 방식인가?	기본적으로, USAC는 MPEG Surround 2-1-2 (MPS 212) 모드를 기반으로 한다[10]. 하나의 채널과 공간 파라미터에 대한 부가 정보를 사용하여 스테레오 신호로 업믹스하는 방식이다. 공간 파라미터에는 채널간의 에너지 차이를 표현하는 CLD (Channel Level Difference), 채널간의 상관 정도를 나타내는 ICC(Inter Channel Correlation), 그리고 위상(Phase) 파라미터가 있다.
	USAC는 어떤 모드를 기반으로 하는가?	기본적으로, USAC는 MPEG Surround 2-1-2 (MPS 212) 모드를 기반으로 한다[10]. 하나의 채널과 공간 파라미터에 대한 부가 정보를 사용하여 스테레오 신호로 업믹스하는 방식이다.

참고문헌 (17)

3GPP Tdoc S4-050407, "Global analysis laboratory report for phase-1 of the 3GPP audio codec characterization test for PSS-MMS-MBMS"
Max. Neuendorf, "A novel scheme for low bitrate unified speech and audio coding - MPEG RM0," 126th Audio Engineering Society Convention, Convention Paper 7713 (2009)
S. Quackenbush, "MPEG unified speech and audio coding," AES 43rd International Conference (2011 Sep.)
ISO/IEC JTC1/SC29/WG11, "Call for proposals on unified speech and audio coding," N9519 (2007 Oct.)
Jari Makinen, Bruno Bessette, Stefan Bruhn, Pasi Ojala, Redwan Salami, & Anisse Taleb, "AMR-WB+: A new coding standard for 3rd generation mobile audio services", IEEE ICASSP '05, vol.2, pp.1109-1112, (2005 Mar.)
ETSI TS 126 290 V10.0.0 (2011-04), Digital cellular telecommunications system (Phase 2+); Universal Mobile Telecommunications System (UMTS); LTE; Audio codec processing functions; Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec; Transcoding functions (3GPP TS 26.290 version 10.0.0 Release 10)
ISO/IEC 14496-3:2009, Information technology - Coding of audio-visual objects - Part 3: Audio, Edition: 4
International Telecommunication Union, "Method for the subjective assessment of intermediate sound quality (MUSHRA)," ITU-R Recommendation BS. 1543-1, Geneva, Switzerland (2001)
ISO/IEC 23003-3:2011/FDIS, Information technology - MPEG audio technologies - Part 3: Unified speech and audio coding, N12231 (2011)
ISO/IEC?23003-1:2007, Information technology - MPEG audio technologies - Part 1: MPEG Surround
ISO/IEC 13818-7:2006, Information technology - Generic coding of moving pictures and associated audio information - Part 7: Advanced Audio Coding (AAC), Edition: 4
ISO/IEC JTC1/SC29/WG11, "USAC Verification Test Report," N12232 (2011 July)
ISO/IEC 14496-3:2001/Amd 2:2004, "Parametric coding for high-quality audio."
Eunmi Oh and M. Kim, "Enhanced stereo algorithms in the unified speech and audio coding," AES 43rd International Conference (2011 Sep.)
J. Kim, E. Oh, & Julien Robilliard, "Enhanced stereo coding with phase parameters for MPEG Unified Speech and Audio Coding," 127th Audio Engineering Society Convention, Convention Paper 7875 (2009 Oct.)
M. Kim, E. Oh, & H. Shim, "Stereo audio coding improved by phase parameters," 129th Audio Engineering Society Convention, Convention Paper 8289 (2010 Nov.)
C. Cheng, "Method for estimating magnitude and phase in the MDCT domain," 116th Audio Engineering Society Convention, Convention Paper 6091 (2004 May)

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

음악 및 음성 신호의 융합 압축 기술
Unified coding scheme of speech and music 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

참고문헌 (17)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

음악 및 음성 신호의 융합 압축 기술 Unified coding scheme of speech and music 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

참고문헌 (17)

이 논문을 인용한 문헌

저자의 다른 논문 :

오은미 (3)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

음악 및 음성 신호의 융합 압축 기술
Unified coding scheme of speech and music 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper