[논문]SVM과 선택적 주파수 차감법을 이용한 음악에서의 보컬 분리

김현태

doi:10.13067/jkiecs.2015.10.1.1

초록
AI-Helper

최근 원음 반주기에 대한 관심이 증가됨에 따라 고가의 스튜디오 직접 녹음 방법 대신 보다 저렴한 방법을 시도하고 있다. 그 구체적인 방법으로는 가수의 음악 앨범에서 가수의 목소리만 제거하여 원음 반주 음원을 만드는 것이다. 본 논문에서는 스테레오로 녹음된 반주음악에서 보컬을 분리하는 시스템을 제안한다. 제안하는 시스템은 두 단계로 구성된다. 첫 단계는 보컬을 검출하는 단계이다. 이 단계에서는 MFCC를 가지고 SVM 방법을 이용하여 입력 신호를 보컬 부분과 비보컬 부분으로 분리한다. 두 번째 단계에서는 보컬 부분에 대해 각 주파수 빈별로 선택적 주파수 차감을 수행한다. 제안하는 방법으로 보컬을 제거한 음악에 대한 청취실험에서 상대적으로 높은 만족도를 보여준다.

Abstract ▼ AI-Helper

Recently, According to increasing interest to original sound Karaoke instrument, MIDI type karaoke manufacturer attempt to make more cheap method instead of original recoding method. The specific method is to make the original sound accompaniment to remove only the voice of the singer in the singer ...

Recently, According to increasing interest to original sound Karaoke instrument, MIDI type karaoke manufacturer attempt to make more cheap method instead of original recoding method. The specific method is to make the original sound accompaniment to remove only the voice of the singer in the singer music album. In this paper, a system to separate vocal components from music accompaniment for stereo recordings were proposed. Proposed system consists of two stages. The first stage is a vocal detection. This stage classifies an input into vocal and non vocal portions by using SVM with MFCC. In the second stage, selective frequency subtractions were performed at each frequency bin in vocal portions. Listening test with removed vocal music from proposed system show relatively high satisfactory level.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 인간의 청각 특성을 고려한 MFCC (Mel-Frequency Cepstral Coefficients) 관련 특징 값 들에 대한 보컬 영역과 비보컬 영역의 차이를 SVM(Support Vector Machine) 방법을 통해 훈련하고 판별하는 보컬 검출 부분과 스테레오 음악 신호에서 보컬의 음상이 주로 센터에 위치한다는 사실에 기반한 주파수빈별 에너지 차감법을 적용한 보컬 분리 방법을 제안하였다. 보컬 검출 성능은 직접 청취하여 세그먼트별 판별한 내용과 비교한 결과 76.
본 논문에서는 인간의 청각 특성을 고려한 MFCC (Mel-Frequency Cepstral Coefficients) 관련 특징 값들에 대한 보컬 영역과 비보컬 영역의 차이를 SVM (Support Vector Machine) 방법을 통해 훈련하고 판별하는 보컬 검출 부분과 스테레오 음악 신호에서 보컬의 음상이 주로 센터에 위치한다는 사실에 기반한 주파수빈별 에너지 차감법을 적용한 보컬 분리방법을 제안한다.

제안 방법

다양한 장르의 대중 음악을 모두 동일한 조건으로 실험하기위해 샘플주파수를 16000 ㎐로 고정하여 그보다 상위의 샘플주파수를 가진 데이터는 이에 맞게 리샘플링하여 적용하였다. 또한 한 프레임 당 샘플 수는 400으로 두었고, 한 프레임당 MFCC 계수는 정규화에너지 파라미터 한 개를 포함하여 모두 13개를 가진다.
두 번째 단계는 보컬을 제거하고 남은 배경 음악에 대한 음질 열화에 대한 평가이다. 평가는 MOS(mean opinion score) 테스트로 하였으며 한 곡 당 5점 만점으로 5단계로 나누어 평가하며, 다섯 가지 장르의 10개 음원에 대한 처리 결과를 가지고 10명의 청취자를 선정하여 테스트 전에 사전 교육을 통해 미리 단계별 음질 열화 정도를 비교 청취 후 실시하였다. 표 3은 청취 테스트에 사용한 음원을 나타낸다.

이론/모형

그러나 선형 분리가 불가능한 경우, 고차원 매핑을 통해 해결할 수 있으나 계산량의 증가와 같은 부작용이 발생한다. 이러한 부작용을 해결하기 위해 제안된 방법이 커널 함수를 이용한 SVM 방법이다[10]. SVM 방법을 통해 학습과 분류를 수행하는 구체적인 절차는 아래와 같다.

성능/효과

18% 일치 하여 검출 기준으로 비교적 좋은 성능을 보이나 고려할 특징 수를 늘려 일치율을 보다 높일 필요가 있다. 또한 보컬 분리 성능은 청취 테스트 결과 전체 평균 3.527 점을 보이나 주로 록과 팝 음악에서 분리 성능이 다소 줄어드는 경향이 있어 상대적으로 보컬과 반주 음악간 에너지 차이가 적은 경우 분리 성능이 저하되는 것으로 판단된다.
본 논문에서는 인간의 청각 특성을 고려한 MFCC (Mel-Frequency Cepstral Coefficients) 관련 특징 값 들에 대한 보컬 영역과 비보컬 영역의 차이를 SVM(Support Vector Machine) 방법을 통해 훈련하고 판별하는 보컬 검출 부분과 스테레오 음악 신호에서 보컬의 음상이 주로 센터에 위치한다는 사실에 기반한 주파수빈별 에너지 차감법을 적용한 보컬 분리 방법을 제안하였다. 보컬 검출 성능은 직접 청취하여 세그먼트별 판별한 내용과 비교한 결과 76.18% 일치 하여 검출 기준으로 비교적 좋은 성능을 보이나 고려할 특징 수를 늘려 일치율을 보다 높일 필요가 있다. 또한 보컬 분리 성능은 청취 테스트 결과 전체 평균 3.
표 3은 청취 테스트에 사용한 음원을 나타낸다. 보컬 분리 성능은 표 4에 나타내었으며, 10명의 청취자에 대한 청취 테스트 결과 전체 평균 3.527 점으로 나타났다

질의응답

핵심어	질문	논문에서 추출한 답변
	전통적인 통계적인 접근법에는 어떤 것들이 있는가?	보컬이 포함된 노래에서 목소리 영역을 찾는 문제는 음성 특징으로 널리 사용되어진 전통적인 통계적인 접근법이 적용되어져 왔다. 예를 들면, GMM(Gaussian Mixture Model)[3-5], 신경망, 그리고 SVM 또는 HMM(Hidden Markov Model)이 사용되어져 왔다[6-7]
	스테레오로 녹음된 반주음악에서 보컬을 분리하는 시스템은 어떻게 구성되는가?	제안하는 시스템은 두 단계로 구성된다. 첫 단계는 보컬을 검출하는 단계이다. 이 단계에서는 MFCC를 가지고 SVM 방법을 이용하여 입력 신호를 보컬 부분과 비보컬 부분으로 분리한다. 두 번째 단계에서는 보컬 부분에 대해 각 주파수 빈별로 선택적 주파수 차감을 수행한다. 제안하는 방법으로 보컬을 제거한 음악에 대한 청취실험에서 상대적으로 높은 만족도를 보여준다.
	저비용으로 원음 반주음악을 제작하는 방법이 요구되고 있는 이유는 무엇인가?	최근 원음노래반주기 수요가 증가함에 따라 노래반주기 시장에 미디기반 노래반주기 대신 원음노래반주기가 보급되고 있다. 그러나 원음 노래 반주음악을 제작하는 데 많은 비용이 소요되는 문제로 보급이 지연 되고 있어 보다 저비용으로 원음 반주음악을 제작하는 방법이 요구되고 있다. 그 중 한 방법으로 제시되는 것은 가수의 원음 음반에서 가수의 보컬만 제거하여 원음 반주음악으로 사용하는 것이다.

참고문헌 (10)

W. Tsai and H. Wang, "Automatic singer recognition of popular music recordings via estimation and modeling of solo vocal signals," IEEE Trans. Audio, Speech, and Language Processing, vol. 14, issue 1, 2006, pp. 330-341.

상세보기
S. Vembu and S. Baumann, "Separation of vocals from polyphonic audio recordings," In Proc. Int. Society for Music Information Retrieval, London, UK, Sept., 2005.
H. Kim, G. Lee, J. park, and Y. Yu, "Vehicle Detection in Tunnel using Gaussian Mixture Model and Mathematical Morphological Processing," J. of the Korea Institute of Electronic Communication Science, vol. 7, no. 5, 2012, pp. 967-974.
K. Park and H. Kim, "A Study for Video-based Vehicle Surveillance on Outdoor Road," J. of the Korea Institute of Electronic Communication Science, vol. 8, no. 11, 2013, pp. 1647-1653.

원문보기 상세보기
H. Kim and J. Park, "Smoke Detection in Outdoor Using Its Statistical Characteristics," J. of the Korea Institute of Electronic Communication Science, vol. 9, no. 2, 2014, pp. 149-154.

원문보기 상세보기
T. Leung, C. Ngo, and R. W. H. Lau, "Ica-fx features for classification of singing voice and instrumental sound," In Proc. Int. Conf. on Pattern Recognition, Cambridge, UK, vol. 2, Aug. 2004.
A. Berenzweig and D. P. W. Ellis, "Locating singing voice segments within music signals," In Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA' 2001), New York, NY, Oct. 2001.
T. Virtanen, A. Mesaros, and M. Ryynanen, "Combining Pitch-Based Inference and Non-Negative Spectrogram Factorization in Separating Vocals from Polyphonic Music," In Proc. Statistical and Perceptual Audition, Brisbane, Australia, Sept. 2008.
J.-L. Durrieu, A. Ozerov, C. Fevotte, G. Richard, and B. David, "Main instrument separation from stereophonic audio signals using a source/filter model," 17th European Signal Processing Conf. (EUSIPCO 2009) Glasgow, Scotland, Aug. 2009.
H. Park and K. Lee, "Pattern and Machine Learning from Fundamental to Applications, Goyang, Korea : Ihan Press, 2011.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

SVM과 선택적 주파수 차감법을 이용한 음악에서의 보컬 분리
Vocal Separation in Music Using SVM and Selective Frequency Subtraction 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

이론/모형

성능/효과

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

SVM과 선택적 주파수 차감법을 이용한 음악에서의 보컬 분리 Vocal Separation in Music Using SVM and Selective Frequency Subtraction 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

이론/모형

성능/효과

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

김현태 (28)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

SVM과 선택적 주파수 차감법을 이용한 음악에서의 보컬 분리
Vocal Separation in Music Using SVM and Selective Frequency Subtraction 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper