$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

하모닉 정보를 이용한 SAOC의 보컬 신호 제거 방법에 관한 연구
A Study on Vocal Removal Scheme of SAOC Using Harmonic Information 원문보기

멀티미디어학회논문지 = Journal of Korea Multimedia Society, v.16 no.10, 2013년, pp.1171 - 1179  

박지훈 (스마트 IT 융합 시스템 연구단) ,  장대근 (한국과학기술원 전기및전자공학과) ,  한민수 (한국과학기술원 전기및전자공학과)

초록
AI-Helper 아이콘AI-Helper

IAS는 대게 사용자가 자신의 취향에 맞는 음악을 직접 제작 및 편집 가능한 기능을 제공하는 서비스이다. SAOC는 낮은 전송률로 IAS가 가능한 다객체 오디오 코딩 기술이다. 하지만 SAOC 기법은 특정 객체를 제거하는 경우, 특히 보컬 객체를 제거하는 경우 배경음악에 보컬 객체의 하모닉이 남아있는 문제점이 있다. 그래서 본 논문은 하모닉 추출과 제거를 사용한 보컬 객체 제거 기법을 제안한다. 제안 하는 기법은 부호화기에서 추출한 하모닉 정보를 이용하여 복호화기에서 보컬 객체 신호를 다운믹스 신호에서 제거하는 기법이다. 하모닉 정보로써, 기본 주파수, MVF, 하모닉 크기를 사용한다. 성능평가로 객관적, 주관적 실험을 수행하였으며 모든 실험 결과를 통해 SAOC 기법보다 제안하는 기법이 우수함을 확인한다.

Abstract AI-Helper 아이콘AI-Helper

Interactive audio service provide with audio generating and editing functionality according to user's preference. A spatial audio object coding (SAOC) scheme is audio coding technology that can support the interactive audio service with relatively low bit-rate. However, when the SAOC scheme remove t...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • SAOC 기법으로 보컬 신호가 제거된 배경음악의 음질을 향상시키기 위해 본 논문에서는 하모닉 성분을 추출하는 방법과 하모닉 성분 제거 방법을 포함한 S-VHC (SAOC vocal harmonic coding) 기법을 제안한다. 보컬 객체의 성공적인 제거를 위하여 부호화 단에서는 하모닉 정보로써 하모닉의 간격, 하모닉의 크기, 하모닉의 범위를 추출하고 전송한다.
  • 특히 보컬(vocal) 객체 신호를 제거하는 노래방 모드에서 제거한 보컬 객체의 하모닉(harmonic) 성분이 배경음악에 남아 있어 음질이 저하된다. 그래서 본 논문에서는 특정 객체가 제거된 음악을 많이 듣는 시나리오를 가정하여 사용자가 가장 많이 사용하는 노래방 모드 즉, 보컬 객체를 제거하는 경우 음질을 향시키는 방법을 제안한다
  • 하모닉 정보를 추출하기 위해 먼저 하모닉 정보를 구성하는 파라미터들을 정의할 필요가 있다. 본 논문 에서는 하모닉의 간격을 나타내는 신호의 주기 (pitch), 하모닉의 크기(harmonic amplitude), 하모닉의 범위(maximum voiced frequency)를 하모닉을 구성하는 파라미터로써 정의한다. 제안하는 하모닉 정보 추출 블록의 구성도는 다음 그림 5와 같다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
IAS란 무엇인가? IAS는 대게 사용자가 자신의 취향에 맞는 음악을 직접 제작 및 편집 가능한 기능을 제공하는 서비스이다. SAOC는 낮은 전송률로 IAS가 가능한 다객체 오디오 코딩 기술이다.
하모닉 추출과 제거를 사용한 보컬 객체 제거 기법에서 하모닉 정보로 무엇을 사용하는가? 제안 하는 기법은 부호화기 에서 추출한 하모닉 정보를 이용하여 복호화기에서 보컬 객체 신호를 다운믹스 신호에서 제거하는 기법이다. 하모닉 정보로써, 기본 주파수, MVF, 하모닉 크기를 사용한다. 성능평가로 객관적, 주관적 실험을 수행하였으 며 모든 실험 결과를 통해 SAOC 기법보다 제안하는 기법이 우수함을 확인한다.
SAOC 기법이 가지는 한계는 무엇인가? SAOC는 낮은 전송률로 IAS가 가능한 다객체 오디오 코딩 기술이다. 하지만 SAOC 기법은 특정 객체를 제거하는 경우, 특히 보컬 객체를 제거하는 경우 배경음악에 보컬 객체의 하모닉이 남아있는 문제점이 있다. 그래서 본 논문은 하모닉 추출과 제거를 사용한 보컬 객체 제거 기법을 제안한다.
질의응답 정보가 도움이 되었나요?

참고문헌 (19)

  1. D. Jang, T. Lee, Y. Lee, and J. Yoo, "A Personalized Preset-based Audio System for Interactive Service," 121st AES Convention, 2006. 

  2. Consideration of Interactive Music Service, ISO/IEC JTC1/SC29/WG11 (MPEG), Archamps, Document M15390, 2008. 

  3. J. Herre and S. Disch, "New Concepts in Parametric Coding of Spatial Audio: From SAC to SAOC," 2007 International Conference on Multimedia and Expo, pp. 1894-1897, 2007. 

  4. J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hoelzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers, and W. Oomen, "Spatial Audio Object Coding (SAOC) -The Upcoming MPEG Standard on Parametric Object Based Audio Coding," 124th AES Convention, 2008. 

  5. O. Hellmuth, H. Purnhagen, J. Koppens, J. Herre, J. Engdegard, J. Hilpert, L. Villemoes, L. Terentiv, C. Falch, A. Holzer, M.L. Valero, B. Resch, H. Mundt, and H. Oh, "MPEG Spatial Audio Object Coding - the ISO/MPEG Standard for Efficient Coding of Interactive Audio Scenes," 129th AES Convention, 2010. 

  6. L.R. Rabiner, M.J. Cheng, A. Rosenberg, and C.A. McGonegal, "A Comparative Performance Study of Several Pitch Detection Algorithms," IEEE Trans. on ASSP , vol. ASSP-24, No. 5, pp. 399-418, 1976. 

  7. M. Goto, "A Predominant-F0 Estimation Method for CD Recordings: MAP Estimation using an EM Algorithm for Adaptive Tone Models," Proc. Int. Conf. on Acoustics, Speech and Signal Processing, Vol. 5, pp. 3365 -3368, 2001. 

  8. A. de Cheveigne and H. Kawahara, "YIN, a Fundamental Frequency Estimator for Speech and Music." The Journal of the Acoust. Soc. Am., Vol. 111, No. 4, pp. 1917-1930, 2002. 

  9. M. Wu, D. Wang, and G.J. Brown, "A Multipitch Tracking Algorithm for Noisy Speech," Proc. IEEE Trans. Speech and Audio, Vol. 11, No. 3, pp. 229-241, 2003. 

  10. M. Goto, "A Real-Time Music-Scene- Description System: Predominant -F0 Estimation for Detecting Melody and Bass Lines in Real-World Audio Signals," Speech Com., Vol. 43, No. 4, pp. 311-329, 2004. 

  11. A. Klapuri, "Multiple Fundamental Frequency Estimation by Summing Harmonic Amplitudes," Proc. International Conference on Music Information Retrieval, pp. 216-212, 2006. 

  12. H. Fujihara, M. Goto, J. Ogata, K. Komatani, T. Ogata, and H.G. Okuno, "Automatic Synchronization Between Lyrics and Music CD Recordings Based on Viterbi Alignment of Segregated Vocal Signals," IEEE International Symposium on Multimedia, pp. 257-264, 2006. 

  13. S. Kim, J. Kim, and M. Hahn, "HMM-Based Korean Speech Synthesis System for Hand- Held Devices," IEEE Trans. Consumer Electronics, Vol. 52, No. 4, pp. 1384-1390, 2006. 

  14. S. Kim, J. Kim, and M. Hahn, "Implementation and Evaluation of an HMM-based Korean Speech Synthesis System," IEICE Transactions on Information and Systems, Vol. E89- D, No. 3, pp. 1116-1119, 2006. 

  15. S. Kim, J. Kim, and M. Hahn, "Two-band Excitation for HMM-based Speech Synthesis," IEICE Trans. Information and Systems, Vol. E90-D, No. 1, pp. 378-381, 2007. 

  16. S. Han, S. Jeong, and M. Hahn, "Optimum MVF Estimation-Based Two-Band Excitation for HMM-Based Speech Synthesis," ETRI J ournal, Vol. 31, No. 4, pp. 457-459, 2009. 

  17. P.C. Loizou, Speech Enhancement: Theory and Practice, Talor & Francis, New York, 2009. 

  18. ITU-R Recommendation, Method for the Subjective Assessment of Intermediate Sound Quality (MUSHRA), ITU, BS. 1543-1, 2001. 

  19. T. Kim and J. Chang " A Study on Speech Period and Pitch Detection for Continuous Speech Recognition," Journal of Korea Multimedia Society, Vol. 8, no. 1, pp. 55-61, 2005. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

유발과제정보 저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로