음성 및 오디오 코덱은 각 신호의 특성 및 응용 분야가 다르기 때문에 오랜 기간 동안 각기 다른 부호화 방법을 기반으로 개발되고 발전되어 왔다. 최근 방송 및 통신 시스템이 융합되는 흐름에 발맞추어 3GPP 및 ISO/IEC MPEG 등의 표준화 기관에서는 두 신호를 하나의 통합 코덱을 이용하여 압축 전송하기 위한 노력을 지속해 왔다. 그 일환으로 MPEG에서는 그 간의 표준화된 기술들을 통합하고, 다양한 주관적 음질 평가 결과를 기반으로 USAC (Unified speech and audio coding)이라고 불리는 코덱의 표준화를 진행 중이다. 그러나 USAC RM (Reference model) 소프트웨어의 구조적인 복잡성, 사용되지 않는 수많은 모듈로 인한 용량의 비대함, 그리고 부호화기의 열악한 성능 등으로 인하여 기존 RM을 개선하고자 하는 필요성이 지속적으로 제기되었다. 본 논문에서는 USAC에 포함된 주요 기술을 설명하고, 이러한 문제를 최소화하기 위해 오픈 소스 기반으로 새롭게 설계된 RM 소프트웨어를 제안한다. 이는 2010년 4월 MPEG 회의에서 발표되었으며, 6월 모든 참여 기관을 위해 소스코드가 공개되었다.
음성 및 오디오 코덱은 각 신호의 특성 및 응용 분야가 다르기 때문에 오랜 기간 동안 각기 다른 부호화 방법을 기반으로 개발되고 발전되어 왔다. 최근 방송 및 통신 시스템이 융합되는 흐름에 발맞추어 3GPP 및 ISO/IEC MPEG 등의 표준화 기관에서는 두 신호를 하나의 통합 코덱을 이용하여 압축 전송하기 위한 노력을 지속해 왔다. 그 일환으로 MPEG에서는 그 간의 표준화된 기술들을 통합하고, 다양한 주관적 음질 평가 결과를 기반으로 USAC (Unified speech and audio coding)이라고 불리는 코덱의 표준화를 진행 중이다. 그러나 USAC RM (Reference model) 소프트웨어의 구조적인 복잡성, 사용되지 않는 수많은 모듈로 인한 용량의 비대함, 그리고 부호화기의 열악한 성능 등으로 인하여 기존 RM을 개선하고자 하는 필요성이 지속적으로 제기되었다. 본 논문에서는 USAC에 포함된 주요 기술을 설명하고, 이러한 문제를 최소화하기 위해 오픈 소스 기반으로 새롭게 설계된 RM 소프트웨어를 제안한다. 이는 2010년 4월 MPEG 회의에서 발표되었으며, 6월 모든 참여 기관을 위해 소스코드가 공개되었다.
Speech and audio codecs have been developed based on different type of coding technologies since they have different characteristics of signal and applications. In harmony with a convergence between broadcasting and telecommunication system, international organizations for standardization such as 3G...
Speech and audio codecs have been developed based on different type of coding technologies since they have different characteristics of signal and applications. In harmony with a convergence between broadcasting and telecommunication system, international organizations for standardization such as 3GPP and ISO/IEC MPEG have tried to compress and transmit multimedia signals using unified codecs. MPEG recently initiated an activity to standardize the USAC (Unified speech and audio coding). However, USAC RM (Reference model) software has been problematic since it has a complex hierarchy, many useless source codes and poor quality of the encoder. To solve these problems, this paper introduces a new RM software designed with an open source paradigm. It was presented at the MPEG meeting in April, 2010 and the source code was released in June.
Speech and audio codecs have been developed based on different type of coding technologies since they have different characteristics of signal and applications. In harmony with a convergence between broadcasting and telecommunication system, international organizations for standardization such as 3GPP and ISO/IEC MPEG have tried to compress and transmit multimedia signals using unified codecs. MPEG recently initiated an activity to standardize the USAC (Unified speech and audio coding). However, USAC RM (Reference model) software has been problematic since it has a complex hierarchy, many useless source codes and poor quality of the encoder. To solve these problems, this paper introduces a new RM software designed with an open source paradigm. It was presented at the MPEG meeting in April, 2010 and the source code was released in June.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이로 인하여 현재의 부호화기는 성능 열화로가 매우 심해졌으며, 이를 해결하기 위하여 기존 RM 부호화기에 대한 성능 개선 프로젝트가 진행 중이다1® 이 프로젝트의 일환으로 지난 92번째 MPEG 미팅에서 오픈 소스 기반의 새로운 RM 소프트웨어인 JAM匝이 소개 되었다 [91. 본 논문에서는 USAC에 포함된 주요 기술과 오픈소스 기반으로 새롭게 설계된 JAME에 대하여 상세히 설명한다.
[Ⅲ. 이 프로젝트의 일안으로 연세대학교와 LG전자에서는 RM을 분석하여 성능을 향상하고자 두 가지 주요한 연구 방향을 찾아 진행 중이다. 그 첫 번째로 불필요하고 중복된 파일과 모듈을 제거하여 코덱 구조를 간단하고 체계적으로 만드는 것이고 다른 하나는 다양한 모듈을 적절히 연동하여 성능 향상을 하는 것이다.
본 논문에서는 최근에 제정된 MPEG 표준인 Unified Speech and Audio Coding고} 그 오픈 소스 프로그램에 대하여 소개 하였다. USACe 음성, 음악, 혼음(Mixed signal) 등의 신호에 대하여 우수한 음질을 가지는 새로운 표준 코덱을 완성하기 위해 노력하고 있다.
제안 방법
HE-AAC를 표준화한 ISO/MPEG 또한 새로운 통합 코덱을 표준화하기 위하여 2007년 10월부터 논의를 시작하여 USAC(Unified speech and audio coding)“'이라는 이름의 코덱을 설계하였다. 이는 입력 신호의 특성을 구분하여 음성과 오디오 코덱을 선택적으로 동작하는 방식으로서 기존 기술들에 대한 개선작업을 통하여 표준 모델인 RM (Reference model)으로 발표하였다.
표 1에서 언급한 간략화 작업과 대응하여 전체 소프트웨어 플랫폼을 구조적으로 변경하였다. JAMEe Linux 시스템의 GCC와 Windows 시스템의 MSVC 6.
제안된 JAME의 소스 구조는 2개의 계층으로 재개편되었으며, 기존 RM과의 호완성을 위하여 그림에서 회색으로 칠해진 최하위 계층의 디렉토리 이름은 기존의 RM 이름과 동일하게 두었다. 152개나 되는 복잡한 RM 의 디렉토리 구조와는 달리 첫 번째 계층은 부호화기 (폴더 이름 : enc), 복호화기(폴더 이름 : dec), 공통 라이브러리(폴더 이름 : com), 그리고 윈도우 계열 지원 폴더(폴더 이름 : Win32)로 나누었다.
이름과 동일하게 두었다. 152개나 되는 복잡한 RM 의 디렉토리 구조와는 달리 첫 번째 계층은 부호화기 (폴더 이름 : enc), 복호화기(폴더 이름 : dec), 공통 라이브러리(폴더 이름 : com), 그리고 윈도우 계열 지원 폴더(폴더 이름 : Win32)로 나누었다. 또한 두 번째 계층에서 부호화기와 복호화기 폴더는 각각 TD 코더를포함한 USAC 관련 폴더(폴더 이름 : src_usac, src_usac_enc), FD 코더 (폴더 이름 : src_tf, src_tf_enc) 프레임 관련 입출력 폴더(폴더명, src_ frame, src_frame_enc)등으로 나누어 전체 소프트웨어플랫폼을 대칭적이며 일관적으로 만들었다.
152개나 되는 복잡한 RM 의 디렉토리 구조와는 달리 첫 번째 계층은 부호화기 (폴더 이름 : enc), 복호화기(폴더 이름 : dec), 공통 라이브러리(폴더 이름 : com), 그리고 윈도우 계열 지원 폴더(폴더 이름 : Win32)로 나누었다. 또한 두 번째 계층에서 부호화기와 복호화기 폴더는 각각 TD 코더를포함한 USAC 관련 폴더(폴더 이름 : src_usac, src_usac_enc), FD 코더 (폴더 이름 : src_tf, src_tf_enc) 프레임 관련 입출력 폴더(폴더명, src_ frame, src_frame_enc)등으로 나누어 전체 소프트웨어플랫폼을 대칭적이며 일관적으로 만들었다. 간략화 작업을 통하여 생기는 예상치 못한 문제들을 방지하기 위하여, JAME 0.
MUSHRA (Multiple StimuE with Hidden Reference and Anchor) 와 유사한 형태의 테스트가 시행되었으며, eSBR과 MPS를 사용하지 않은 FD코더와 TD 코더에 의해 복호화된 신호를 사용하였다. 또한 숨겨진 참조신호(hidden reference)로 FD코더나 TD코더에 의해 복원되는 대역폭까지 필터링 시킨 음원을 사용하였으며, 3.5kHz 저대역 통과 신호인 앵커 (anchor)없이 시행되었다. 95%의 신뢰구간을 가지며, RE 는 RM 부호화기로 만들어진 음원을, RQE 는 Reference bitstream에서 만들어진 음원을 의미한다.
FD코더의 대역폭이 비트 레이트가 상승함에 따라 커져야함에도 불구하고, 제한되어 있으며, 또한 모노 신호의 경우 eSBR의 시작 주파수(Start frequency)와 정지 주파수(Stop frequency) 모드와 상관없이 고정되어 있다. 따라서 RQE의 대역 폭설 정에 맞추어 JAME의 eSBR의 시작 주파수와 정지주파수 그리고 FD 코더의 대역폭을 표2와 같이 모드별로 변경하였다.
각각의 기술들은 더 효과적이고 혁신적인 방법으로 보완되어, 다양한 방식으로 결합되고 있다. 또한 USAC RM 소프트웨어의 성능을 향상시키기 위한 활동으로 오픈 소스 기반의 USAC 참조 소프트웨어인 JAME을 소개하였다. 현재 MPEG SVR을 통하여 배포되고 있는 JAMEe 간결하고 체계적인 구조를 가지고 있으며, 부호화기의 성능이 향상되고 있어 표준화 과정에서 사용하기 용이하다.
대상 데이터
성능을 보여준다. MUSHRA (Multiple StimuE with Hidden Reference and Anchor) 와 유사한 형태의 테스트가 시행되었으며, eSBR과 MPS를 사용하지 않은 FD코더와 TD 코더에 의해 복호화된 신호를 사용하였다. 또한 숨겨진 참조신호(hidden reference)로 FD코더나 TD코더에 의해 복원되는 대역폭까지 필터링 시킨 음원을 사용하였으며, 3.
95%의 신뢰구간을 가지며, RE 는 RM 부호화기로 만들어진 음원을, RQE 는 Reference bitstream에서 만들어진 음원을 의미한다. 테스트 음원으로는 USAC 테스트 샘플 가운데 3개의 음악 샘플 (Music_3, MusicJ, phi7)과 하나의 음성 샘플 (esOl)이 사용되었다. 그림에서 볼 수 있듯이 4개의 컨텐츠에 대하여 JAME Lx의 성능이 RQE에 비해 떨어지지 않으며, WD 보다 훨씬 뛰어난 성능을 나타내는 것을 알 수 있다.
이론/모형
이름의 코덱을 설계하였다. 이는 입력 신호의 특성을 구분하여 음성과 오디오 코덱을 선택적으로 동작하는 방식으로서 기존 기술들에 대한 개선작업을 통하여 표준 모델인 RM (Reference model)으로 발표하였다. 또한 이 RMe MPEG 회의에서 다루어지는 다양한 기술 기고를 포함하여, 지속적인 성능 향상 과정에 있다.
성능/효과
JAMEe Linux 시스템의 GCC와 Windows 시스템의 MSVC 6.0 을 지원하며, 제거된 폴더 및 파일에 대한 프로젝트 관리 파일을 변경하여 일관성 있고 체계적인 구조를 가지게 되었다.
그 결과 그림 5와 같이 9.5kHz에서 대역이 제한된 신호가 그림 6과 같이 13.5kHz에서 대역이 제한된 신호를 얻을 수 있었으며, 확연히 음질 향상 효과를 얻을 수 있었다.
후속연구
알* 고리즘 그리고 소스 등을 포함하고 있으며, 이는 앞으로도 지속적으로 확장될 것이다. 현재 3GPP와 같은 다른 표준화 기관에 의해 배포되는 소프트웨어 모듈 및 USAC의 부호화 관련 기고문들® 을 포함하고 있으며, 앞으로 성능 향상에 도움이 되는 다양한 학술 논문과 기술적 보고서, 접근 가능한 오픈소스들을 받아들여 성능 개선을 할 것이다.
ISO/IEC 14496-3:2009, "Coding of Audio-Visual Objects, Part 3: Audio," 2009.
ISO/IEC JTC1/SC29/WG11, "Call for Proposals on Unified Speech and Audio Coding," Shenzhen, China, Oct. 2007, MPEG2007/N9519.
ISO/IEC JTC1/SC29/WG11, "WD7 of USAC," Max Neuendorf, 2010.
Max Neuendorf et al., "A Novel Scheme for Low Bitrate Unified Speech and Audio Coding - MPEG RM0," in 126th AES Convention, Munchen, Germany, May 2009.
M. Schroeder and B. Atal, "Code-excited linear prediction(celp):High-quality speech at very low bit rates," in Proceedings IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 937n940, 1984.
ISO/IEC JTC1/SC29/WG11 (MPEG), Document N11042, "Workplan on MPEG USAC Reference Encoder", 90th MPEG Meeting, Xi'an, China, October 2009
ISO/IEC JTC1/SC29/WG11 (MPEG), Document M17571, "Yonsei-LG Contribution to USAC Reference Software ", 92th MPEG Meeting, Dresden, Germany, April 2010
Bernd Edler, Sascha Disch, Stefan Bayer, GuillaumeFuchs, and Ralf Geiger, "A Time-Warped MDCT Approach to Speech Transform Coding," in 126th AES Convention, Munchen, Germany, May 2009.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.