$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

음악 및 음성 신호의 융합 압축 기술
Unified coding scheme of speech and music 원문보기

방송공학회지 = Korea society broadcast engineers magazine, v.16 no.4, 2011년, pp.59 - 71  

오은미 (삼성전자)

초록
AI-Helper 아이콘AI-Helper

오디오와 음성 압축 기술적 근간은 서로 다르지만, 최근의 모바일 멀티미디어 기기 시장의 컨버전스 현상에 따라 압축하고자 하는 신호가 혼용되고 있으며, 비슷한 목표 전송률과 음질로 수렴하고 있다. 현재는 동일 기기에서 서로 다른 압축 기술을 적용하고 있으나, 음성과 음악이 동시에 서비스 되는 멀티미디어 기기에서는 단일 압축 방식으로 처리하고자 하는 이슈가 부각되고 있다. 특히, 스마트 폰 및 음악 콘텐츠 포탈 서비스의 대중화를 고려할 때, 음성 및 음악 신호 모두를 효율적으로 압축하는 음악 및 음성 신호의 융합 압축 기술이 더욱 필요해 보인다. 본 고에서는 MPEG 오디오 그룹에서 가장 최근 진행한 Unified Speech and Audio Coding(USAC)의 탄생 배경 및 표준화 현황을 소개한다. USAC는 64kbps 이하에서 기술적으로 최고 성능을 지닌 AMR-WB+ 및 HE-AAC v2보다도 우월한 음질을 보이며, 높은 비트율에서도 동등한 음질을 보장한다. 이런 우수한 음질에 기여한 USAC의 스위칭 구조와 더불어 기술적으로 향상된 주요 모듈인 파라미터 기반 스테레오 및 고주파 압축, 그리고 엔트로피 코딩 방식에 대해서 살펴 본다. 향후, 다양한 오디오 신호를 효율적으로 압축하는 USAC는 디지털 라디오, 모바일 TV, 그리고 오디오 북과 같은 사용자 시나리오에서 사용될 확률이 높아 보인다. 또한, USAC는 배경 잡음이나 배경 음악이 있는 경우에도 성능이 우수하기 때문에 YouTube 및 podcast 등과 같이 사용자가 콘텐츠를 생성할 때도 유용하게 사용 될 수 있다.

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 주관적 음질 평가 방법으로 MUSHRA가 사용 되었으며 [8], USAC의 음질 수준은 가상 코덱 성능보다 같거나 좋아야 한다. 따라서, 다양한 입력 신호에도 항상 일정하게 좋은 음질을 제공하는 코덱을 표준화하는 것을 목표로 한 것이다. 2011년 7월에 검증 실험(veri-fication test)을 통해 기술적 요구사항을 모두 충족시켰음을 확인하여, FDIS(Final Draft Inter-national Standard)가 승인 되었다[9].
  • 본 고에서는 MPEG 오디오 그룹에서 가장 최근 진행한 Unified Speech and Audio Coding (USAC)의 표준화 현황을 소개하고, USAC의 기본 구조, 및 핵심 기술을 기술하고자 한다[2][3].
  • 기존 MPEG 기술과 비교했을 때, USAC의 스위칭 구조로 인한 음성 신호에 대한 음질 향상이 가장 중요한 특징이다. 본 고에서는 스위칭 구조 이외에 기술적으로 향상된 주요 모듈인 파라미터 기반 스테레오 및 고주파 압축, 그리고 엔트로피 코딩 방식에 대해서 자세히 보기로 한다.
  • 맥락 기반 산술 부호화는 USAC의 주파수 영역 모드와 MDCT 기반 TCX에서 공통적으로 사용된다. 압축 효율을 높이면서도 복잡도 및 메모리 사용량을 늘리지 않기 위해 최적화 되었다. USAC 엔트로피 코딩은 2개의 인접 스펙트럼 계수로 이루어진 2-tuple에 기반하여 처리된다.

가설 설정

  • 첫째, 기존 SBR의 1:2 업샘플링 뿐만 아니라 1:4 업샘플링이 가능하다. 1:4 업샘플링은 코어 압축이 협대역만 지원할 때 적합하다. 둘째, SBR 파라미터에 사용되는 시간/주파수 격자(grid)가 훨씬 유동적이라서 급변하는 음성 신호 압축에 필요한 세밀한 시간축 표현이 가능하다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
USAC 어떤 구조로 이루어져 있나? USAC는 음악 압축이 유리한 주파수 영역 (frequency domain) 압축 기술과 음성 신호의 압축이 유리한 선형 예측 영역(linear prediction domain) 압축 기술이 결합된 스위칭 구조로 이루어져 있다. <그림 4>는 USAC 부호화기의 블록 다이어그램을 나타낸다.
USAC는 어떤 방식인가? 기본적으로, USAC는 MPEG Surround 2-1-2 (MPS 212) 모드를 기반으로 한다[10]. 하나의 채널과 공간 파라미터에 대한 부가 정보를 사용하여 스테레오 신호로 업믹스하는 방식이다. 공간 파라미터에는 채널간의 에너지 차이를 표현하는 CLD (Channel Level Difference), 채널간의 상관 정도를 나타내는 ICC(Inter Channel Correlation), 그리고 위상(Phase) 파라미터가 있다.
USAC는 어떤 모드를 기반으로 하는가? 기본적으로, USAC는 MPEG Surround 2-1-2 (MPS 212) 모드를 기반으로 한다[10]. 하나의 채널과 공간 파라미터에 대한 부가 정보를 사용하여 스테레오 신호로 업믹스하는 방식이다.
질의응답 정보가 도움이 되었나요?

참고문헌 (17)

  1. 3GPP Tdoc S4-050407, "Global analysis laboratory report for phase-1 of the 3GPP audio codec characterization test for PSS-MMS-MBMS" 

  2. Max. Neuendorf, "A novel scheme for low bitrate unified speech and audio coding - MPEG RM0," 126th Audio Engineering Society Convention, Convention Paper 7713 (2009) 

  3. S. Quackenbush, "MPEG unified speech and audio coding," AES 43rd International Conference (2011 Sep.) 

  4. ISO/IEC JTC1/SC29/WG11, "Call for proposals on unified speech and audio coding," N9519 (2007 Oct.) 

  5. Jari Makinen, Bruno Bessette, Stefan Bruhn, Pasi Ojala, Redwan Salami, & Anisse Taleb, "AMR-WB+: A new coding standard for 3rd generation mobile audio services", IEEE ICASSP '05, vol.2, pp.1109-1112, (2005 Mar.) 

  6. ETSI TS 126 290 V10.0.0 (2011-04), Digital cellular telecommunications system (Phase 2+); Universal Mobile Telecommunications System (UMTS); LTE; Audio codec processing functions; Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec; Transcoding functions (3GPP TS 26.290 version 10.0.0 Release 10) 

  7. ISO/IEC 14496-3:2009, Information technology - Coding of audio-visual objects - Part 3: Audio, Edition: 4 

  8. International Telecommunication Union, "Method for the subjective assessment of intermediate sound quality (MUSHRA)," ITU-R Recommendation BS. 1543-1, Geneva, Switzerland (2001) 

  9. ISO/IEC 23003-3:2011/FDIS, Information technology - MPEG audio technologies - Part 3: Unified speech and audio coding, N12231 (2011) 

  10. ISO/IEC?23003-1:2007, Information technology - MPEG audio technologies - Part 1: MPEG Surround 

  11. ISO/IEC 13818-7:2006, Information technology - Generic coding of moving pictures and associated audio information - Part 7: Advanced Audio Coding (AAC), Edition: 4 

  12. ISO/IEC JTC1/SC29/WG11, "USAC Verification Test Report," N12232 (2011 July) 

  13. ISO/IEC 14496-3:2001/Amd 2:2004, "Parametric coding for high-quality audio." 

  14. Eunmi Oh and M. Kim, "Enhanced stereo algorithms in the unified speech and audio coding," AES 43rd International Conference (2011 Sep.) 

  15. J. Kim, E. Oh, & Julien Robilliard, "Enhanced stereo coding with phase parameters for MPEG Unified Speech and Audio Coding," 127th Audio Engineering Society Convention, Convention Paper 7875 (2009 Oct.) 

  16. M. Kim, E. Oh, & H. Shim, "Stereo audio coding improved by phase parameters," 129th Audio Engineering Society Convention, Convention Paper 8289 (2010 Nov.) 

  17. C. Cheng, "Method for estimating magnitude and phase in the MDCT domain," 116th Audio Engineering Society Convention, Convention Paper 6091 (2004 May) 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로