IAS는 대게 사용자가 자신의 취향에 맞는 음악을 직접 제작 및 편집 가능한 기능을 제공하는 서비스이다. SAOC는 낮은 전송률로 IAS가 가능한 다객체 오디오 코딩 기술이다. 하지만 SAOC 기법은 특정 객체를 제거하는 경우, 특히 보컬 객체를 제거하는 경우 배경음악에 보컬 객체의 하모닉이 남아있는 문제점이 있다. 그래서 본 논문은 하모닉 추출과 제거를 사용한 보컬 객체 제거 기법을 제안한다. 제안 하는 기법은 부호화기에서 추출한 하모닉 정보를 이용하여 복호화기에서 보컬 객체 신호를 다운믹스 신호에서 제거하는 기법이다. 하모닉 정보로써, 기본 주파수, MVF, 하모닉 크기를 사용한다. 성능평가로 객관적, 주관적 실험을 수행하였으며 모든 실험 결과를 통해 SAOC 기법보다 제안하는 기법이 우수함을 확인한다.
IAS는 대게 사용자가 자신의 취향에 맞는 음악을 직접 제작 및 편집 가능한 기능을 제공하는 서비스이다. SAOC는 낮은 전송률로 IAS가 가능한 다객체 오디오 코딩 기술이다. 하지만 SAOC 기법은 특정 객체를 제거하는 경우, 특히 보컬 객체를 제거하는 경우 배경음악에 보컬 객체의 하모닉이 남아있는 문제점이 있다. 그래서 본 논문은 하모닉 추출과 제거를 사용한 보컬 객체 제거 기법을 제안한다. 제안 하는 기법은 부호화기에서 추출한 하모닉 정보를 이용하여 복호화기에서 보컬 객체 신호를 다운믹스 신호에서 제거하는 기법이다. 하모닉 정보로써, 기본 주파수, MVF, 하모닉 크기를 사용한다. 성능평가로 객관적, 주관적 실험을 수행하였으며 모든 실험 결과를 통해 SAOC 기법보다 제안하는 기법이 우수함을 확인한다.
Interactive audio service provide with audio generating and editing functionality according to user's preference. A spatial audio object coding (SAOC) scheme is audio coding technology that can support the interactive audio service with relatively low bit-rate. However, when the SAOC scheme remove t...
Interactive audio service provide with audio generating and editing functionality according to user's preference. A spatial audio object coding (SAOC) scheme is audio coding technology that can support the interactive audio service with relatively low bit-rate. However, when the SAOC scheme remove the specific one object such as vocal object signal for Karaoke mode, the scheme support poor quality because the removed vocal object remain in the SAOC-decoded background music. Thus, we propose a new SAOC vocal harmonic extranction and elimination technique to improve the background music quality in the Karaoke service. Namely, utilizing the harmonic information of the vocal object, we removed the harmonics of the vocal object remaining in the background music. As harmonic parameters, we utilize the pitch, MVF(maximum voiced frequency), and harmonic amplitude. To evaluate the performance of the proposed scheme, we perform the objective and subjective evaluation. As our experimental results, we can confirm that the background music quality is improved by the proposed scheme comparing with the SAOC scheme.
Interactive audio service provide with audio generating and editing functionality according to user's preference. A spatial audio object coding (SAOC) scheme is audio coding technology that can support the interactive audio service with relatively low bit-rate. However, when the SAOC scheme remove the specific one object such as vocal object signal for Karaoke mode, the scheme support poor quality because the removed vocal object remain in the SAOC-decoded background music. Thus, we propose a new SAOC vocal harmonic extranction and elimination technique to improve the background music quality in the Karaoke service. Namely, utilizing the harmonic information of the vocal object, we removed the harmonics of the vocal object remaining in the background music. As harmonic parameters, we utilize the pitch, MVF(maximum voiced frequency), and harmonic amplitude. To evaluate the performance of the proposed scheme, we perform the objective and subjective evaluation. As our experimental results, we can confirm that the background music quality is improved by the proposed scheme comparing with the SAOC scheme.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
SAOC 기법으로 보컬 신호가 제거된 배경음악의 음질을 향상시키기 위해 본 논문에서는 하모닉 성분을 추출하는 방법과 하모닉 성분 제거 방법을 포함한 S-VHC (SAOC vocal harmonic coding) 기법을 제안한다. 보컬 객체의 성공적인 제거를 위하여 부호화 단에서는 하모닉 정보로써 하모닉의 간격, 하모닉의 크기, 하모닉의 범위를 추출하고 전송한다.
특히 보컬(vocal) 객체 신호를 제거하는 노래방 모드에서 제거한 보컬 객체의 하모닉(harmonic) 성분이 배경음악에 남아 있어 음질이 저하된다. 그래서 본 논문에서는 특정 객체가 제거된 음악을 많이 듣는 시나리오를 가정하여 사용자가 가장 많이 사용하는 노래방 모드 즉, 보컬 객체를 제거하는 경우 음질을 향시키는 방법을 제안한다.
하모닉 정보를 추출하기 위해 먼저 하모닉 정보를 구성하는 파라미터들을 정의할 필요가 있다. 본 논문 에서는 하모닉의 간격을 나타내는 신호의 주기 (pitch), 하모닉의 크기(harmonic amplitude), 하모닉의 범위(maximum voiced frequency)를 하모닉을 구성하는 파라미터로써 정의한다. 제안하는 하모닉 정보 추출 블록의 구성도는 다음 그림 5와 같다.
제안 방법
그래서 본 논문에서는 SAOC 코더의 노래방 모드에서 보컬 객체 신호를 제거하는 방법에 대해서 다루고, 보컬 신호의 하모닉 정보를 함께 이용하여 보컬 객체 제거하는 기법을 제안했다.
비교 방법인 SAOC는 OLD 파라미터만을 사용하여 보컬 객체를 제거하고, S-VHC는 제안하는 방법으로 보컬 객체를 제거한다.
기존의 OLD 파라미터만을 사용하여 객체를 제거 했던 SAOC 기법은 보컬객체 제거시 음질 열화가 발생한다. 그래서 본 논문에서는 다음 그림 4와 같은 보컬 객체의 하모닉 정보를 이용한 보컬객체 제거 기법인 SAOC 보컬 하모닉 코딩 (SAOC vocal harmonic coding: S-VHC) 기법을 제안한다. 제안하는 기법은 상대적으로 낮은 비트율만 증가하면서도 노래방모드로 사용가능할 정도의 배경음악을 제공한다.
제안하는 보컬 하모닉 코딩 기법 부호화기는 먼저 기존 SAOC 부호화기와 동일하게 다객체 입력 신호로부터 다운믹스 신호와 공간 파라미터인 OLD 파라미터를 계산한다. 다음으로 하모닉 추출(harmonic extraction) 블록에서 보컬 객체로부터 하모닉 파라미터들을 추출하여 복호화기단으로 전송한다. SAOC 복호화기에서는 전송된 다운믹스 신호와 공간 파라미터를 이용하여 각 객체 신호를 복원하고 렌더러에서 사용자의 취향에 따라 각 객체 신호를 조절한다.
본래 표준의 SAOC에서는 객체신호의 주파수 변환을 위하여 QMF(quadrature mirror filter)를 사용하지만, 본 논문에서는 제안하는 하모닉 파라미터 추출을 위하여 DFT(discrete Fourier transform)을 사용하여 주파수 변환을 수행하였다. 따라서 파라미터 QMF와 동일한 서브밴드의 대역폭을 계산하여 다음 표 1과 같이 파라미터 서브밴드의 경계를 정리하였다.
렌더러에서는 복원된 객체 신호들을 사용자의 취향에 따라 리믹스(remix)하고 렌더링하고 최종적으로 IDFT(inverse DFT)를 통해 출력 신호를 생헝한다. 본 논문에서는 복호화기와 렌더러를 전체 복호화기 한 과정으로 가정하고 SAOC 구조를 크게 부호화기와 복호화기로 분류하여 연구를 진행한다.
는 b번째 서브밴드의 구분 경계 인덱스 (index)이다. 본래 표준의 SAOC에서는 객체신호의 주파수 변환을 위하여 QMF(quadrature mirror filter)를 사용하지만, 본 논문에서는 제안하는 하모닉 파라미터 추출을 위하여 DFT(discrete Fourier transform)을 사용하여 주파수 변환을 수행하였다. 따라서 파라미터 QMF와 동일한 서브밴드의 대역폭을 계산하여 다음 표 1과 같이 파라미터 서브밴드의 경계를 정리하였다.
그래서 본 논문에서는 다음 그림 4와 같은 보컬 객체의 하모닉 정보를 이용한 보컬객체 제거 기법인 SAOC 보컬 하모닉 코딩 (SAOC vocal harmonic coding: S-VHC) 기법을 제안한다. 제안하는 기법은 상대적으로 낮은 비트율만 증가하면서도 노래방모드로 사용가능할 정도의 배경음악을 제공한다. 제안하는 기법을 위해서 시간-주파수 변환은 QMF 대신에 DFT를 사용하며, 파라미터 서브밴드 경계는 위의 표 1의 값들을 사용한다.
제안하는 기법은 상대적으로 낮은 비트율만 증가하면서도 노래방모드로 사용가능할 정도의 배경음악을 제공한다. 제안하는 기법을 위해서 시간-주파수 변환은 QMF 대신에 DFT를 사용하며, 파라미터 서브밴드 경계는 위의 표 1의 값들을 사용한다.
제안하는 보컬 하모닉 코딩 기법 부호화기는 먼저 기존 SAOC 부호화기와 동일하게 다객체 입력 신호로부터 다운믹스 신호와 공간 파라미터인 OLD 파라미터를 계산한다. 다음으로 하모닉 추출(harmonic extraction) 블록에서 보컬 객체로부터 하모닉 파라미터들을 추출하여 복호화기단으로 전송한다.
제안하는 S-VHC 기법의 부호화기에서는 하모닉 정보를 추출하는 블록을 제안하였다.
주관적 성능 평가로는 10명의 청취자가 5개의 콘텐츠에 관하여 MUSHRA(multiple stiuli with hid- den reference and anchor) 실험을 수행했다[18].
하모닉 제거 필터를 설계하기 위해서 다운믹스 신호와 공간 파라미터를 사용하여 주파수 서브밴드의 파워를 계산한다. 그리고 식 (7)과 식(8)로 구해진 신호들의 파워 스펙트럼을 구하고, 하모닉 제거 필터 게인 GE(k)를 다음 식과 같이 설계한다.
대상 데이터
성능 평가를 위하여 5곡의 한국 가요를 실험 콘텐츠로 사용하였다.
이론/모형
신호의 주파수 변환을 위해 2048-FFT(fast Fourier transform)을 수행하였고, 파라미터 서브밴드의 경계는 표 1을 사용하였다.
변환된 객체신호는 사람 청각특성을 반영한 대역폭이 ERB(equivalent rectangular band-width)가 되는 파라미터 서브밴드(sub-band) 로 나누어져 각 서브밴드마다 공간파라미터를 계산하게 된다. 공간파라미터로는 OLD(object level difference)를 사용한다. b번째 서브밴드의 i번째 객체의 OLD는 서브밴드에서 가장 큰 파워를 갖는 객체의 파워로 정규화(normalization)로 정의되며 다음 식과 같이 계산할 수 있다.
신호의 주기 성분을 추출하는 연구는 이미 오래전부터 다양하게 연구 되어 왔다[6-12], [19]. 본 논문에서는 다양한 신호 주기 추출 알고리즘 중에서 돌출 함수(salience function) 알고리즘을 사용하였다[11]. 이 알고리즘은 일정 간격의 하모닉 크기들의 합으로 신호주기를 계산하는 함수이다.
성능/효과
제안하는 기법은 기존의 SAOC 기법의 전송률에 비해 6 kbps의 추가 전송률만 사용하면서도, SEGSNR과 SKLD에서 각각 2.4 dB, 7.2 dB의 이득을 얻었으며, 주관적 성능평가인 MUSHRA 실험에서도 30점 이상이 향상된 우수한 성능을 확인하였다.
MUSHRA 결과에서 보이듯이 모든 콘텐츠에서 제안하는 S-VHC 방법으로 보컬 객체를 제거한 배경음악이 기존의 SAOC 기법으로 보컬 객체를 제거한 배경음악보다 우수한 음질을 들려주는 것을 확인가능하다.
표 2에 보이듯이 기존 SAOC 기법의 성능이 SEGSNR은 실험 결과는 20.91 dB, SKLD는 33.81 dB일 때, 제안하는 방법은 6 kbps의 정보를 더 사용하면서 SEGSNR이 23.22 dB, SKLD는 26.63 dB로 모두 성능이 향상되었다.
후속연구
향후 연구로써, 보컬 객체가 아닌 다른 악기 객체를 제거할 때 성능을 향상시킬 수 있는 연구가 필요하다.
질의응답
핵심어
질문
논문에서 추출한 답변
IAS란 무엇인가?
IAS는 대게 사용자가 자신의 취향에 맞는 음악을 직접 제작 및 편집 가능한 기능을 제공하는 서비스이다. SAOC는 낮은 전송률로 IAS가 가능한 다객체 오디오 코딩 기술이다.
하모닉 추출과 제거를 사용한 보컬 객체 제거 기법에서 하모닉 정보로 무엇을 사용하는가?
제안 하는 기법은 부호화기 에서 추출한 하모닉 정보를 이용하여 복호화기에서 보컬 객체 신호를 다운믹스 신호에서 제거하는 기법이다. 하모닉 정보로써, 기본 주파수, MVF, 하모닉 크기를 사용한다. 성능평가로 객관적, 주관적 실험을 수행하였으 며 모든 실험 결과를 통해 SAOC 기법보다 제안하는 기법이 우수함을 확인한다.
SAOC 기법이 가지는 한계는 무엇인가?
SAOC는 낮은 전송률로 IAS가 가능한 다객체 오디오 코딩 기술이다. 하지만 SAOC 기법은 특정 객체를 제거하는 경우, 특히 보컬 객체를 제거하는 경우 배경음악에 보컬 객체의 하모닉이 남아있는 문제점이 있다. 그래서 본 논문은 하모닉 추출과 제거를 사용한 보컬 객체 제거 기법을 제안한다.
참고문헌 (19)
D. Jang, T. Lee, Y. Lee, and J. Yoo, "A Personalized Preset-based Audio System for Interactive Service," 121st AES Convention, 2006.
Consideration of Interactive Music Service, ISO/IEC JTC1/SC29/WG11 (MPEG), Archamps, Document M15390, 2008.
J. Herre and S. Disch, "New Concepts in Parametric Coding of Spatial Audio: From SAC to SAOC," 2007 International Conference on Multimedia and Expo, pp. 1894-1897, 2007.
J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hoelzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers, and W. Oomen, "Spatial Audio Object Coding (SAOC) -The Upcoming MPEG Standard on Parametric Object Based Audio Coding," 124th AES Convention, 2008.
O. Hellmuth, H. Purnhagen, J. Koppens, J. Herre, J. Engdegard, J. Hilpert, L. Villemoes, L. Terentiv, C. Falch, A. Holzer, M.L. Valero, B. Resch, H. Mundt, and H. Oh, "MPEG Spatial Audio Object Coding - the ISO/MPEG Standard for Efficient Coding of Interactive Audio Scenes," 129th AES Convention, 2010.
L.R. Rabiner, M.J. Cheng, A. Rosenberg, and C.A. McGonegal, "A Comparative Performance Study of Several Pitch Detection Algorithms," IEEE Trans. on ASSP , vol. ASSP-24, No. 5, pp. 399-418, 1976.
M. Goto, "A Predominant-F0 Estimation Method for CD Recordings: MAP Estimation using an EM Algorithm for Adaptive Tone Models," Proc. Int. Conf. on Acoustics, Speech and Signal Processing, Vol. 5, pp. 3365 -3368, 2001.
A. de Cheveigne and H. Kawahara, "YIN, a Fundamental Frequency Estimator for Speech and Music." The Journal of the Acoust. Soc. Am., Vol. 111, No. 4, pp. 1917-1930, 2002.
M. Wu, D. Wang, and G.J. Brown, "A Multipitch Tracking Algorithm for Noisy Speech," Proc. IEEE Trans. Speech and Audio, Vol. 11, No. 3, pp. 229-241, 2003.
M. Goto, "A Real-Time Music-Scene- Description System: Predominant -F0 Estimation for Detecting Melody and Bass Lines in Real-World Audio Signals," Speech Com., Vol. 43, No. 4, pp. 311-329, 2004.
A. Klapuri, "Multiple Fundamental Frequency Estimation by Summing Harmonic Amplitudes," Proc. International Conference on Music Information Retrieval, pp. 216-212, 2006.
H. Fujihara, M. Goto, J. Ogata, K. Komatani, T. Ogata, and H.G. Okuno, "Automatic Synchronization Between Lyrics and Music CD Recordings Based on Viterbi Alignment of Segregated Vocal Signals," IEEE International Symposium on Multimedia, pp. 257-264, 2006.
S. Kim, J. Kim, and M. Hahn, "HMM-Based Korean Speech Synthesis System for Hand- Held Devices," IEEE Trans. Consumer Electronics, Vol. 52, No. 4, pp. 1384-1390, 2006.
S. Kim, J. Kim, and M. Hahn, "Implementation and Evaluation of an HMM-based Korean Speech Synthesis System," IEICE Transactions on Information and Systems, Vol. E89- D, No. 3, pp. 1116-1119, 2006.
S. Kim, J. Kim, and M. Hahn, "Two-band Excitation for HMM-based Speech Synthesis," IEICE Trans. Information and Systems, Vol. E90-D, No. 1, pp. 378-381, 2007.
S. Han, S. Jeong, and M. Hahn, "Optimum MVF Estimation-Based Two-Band Excitation for HMM-Based Speech Synthesis," ETRI J ournal, Vol. 31, No. 4, pp. 457-459, 2009.
P.C. Loizou, Speech Enhancement: Theory and Practice, Talor & Francis, New York, 2009.
ITU-R Recommendation, Method for the Subjective Assessment of Intermediate Sound Quality (MUSHRA), ITU, BS. 1543-1, 2001.
T. Kim and J. Chang " A Study on Speech Period and Pitch Detection for Continuous Speech Recognition," Journal of Korea Multimedia Society, Vol. 8, no. 1, pp. 55-61, 2005.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.