[논문]커널 스펙트럼 모델 backfitting 기반의 로그 스펙트럼 진폭 추정을 적용한 배경음과 보컬음 분리

이준용; 김형국

doi:10.7776/ask.2015.34.3.227

초록
AI-Helper

본 논문은 커널 스펙트럼 모델 backfitting 기반의 로그 스펙트럼 진폭 추정부를 적용한 배경음과 보컬음 분리를 제안한다. 기존의 커널 스펙트럼 모델 기반의 배경음과 보컬음 분리는 추출하고자하는 객체의 모델을 기반으로 위너형태의 평균 제곱의 오차의 이득값을 학습함으로써 배경음과 보컬음을 분리하는 기술이다. 본 논문은 기존의 커널 스펙트럴 모델 기반의 배경음과 보컬음 분리 방식에서 위너형태의 이득값 대신 로그 스펙트럼 진폭 추정을 적용하여 기존 방식 보다 명료한 배경음과 보컬음을 추출한다. 실험결과는 본 논문에서 제안한 방식이 기존의 방식들보다 더 우수하다는 것을 보인다.

Abstract ▼ AI-Helper

In this paper, we propose music and voice separation using kernel sptectrogram models backfitting based on log-spectral amplitude estimator. The existing method separates sources based on the estimate of a desired objects by training MSE (Mean Square Error) designed Winer filter. We introduce rather...

In this paper, we propose music and voice separation using kernel sptectrogram models backfitting based on log-spectral amplitude estimator. The existing method separates sources based on the estimate of a desired objects by training MSE (Mean Square Error) designed Winer filter. We introduce rather clear music and voice signals with application of log-spectral amplitude estimator, instead of adaptation of MSE which has been treated as an existing method. Experimental results reveal that the proposed method shows higher performance than the existing methods.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문은 커널 스펙트럼 모델 backfitting 기반의 로그 스펙트럼 진폭 추정을적용한 배경음과 보컬음 분리를 제안하였다. 실험결과 커널 스펙트럼 모델 기반의 배경음과 보컬음 분리 방식이 REPET 방식보다 더 명료한 보컬음을 추출한다는 것을 확인했으며 특히, 논문에서 제안한 방식이 배경음과 보컬음 모두 기존의 REPET 방식, 위너형태의 커널 모델 기반 분리 기법보다 레퍼런스 신호에 더 유사하게 분리된다는 것을 확인했다.

제안 방법

[5]의 방식과 동일한 조건으로 실험을 하기 위해 50개의 트랙을 30 s 구간으로 세그먼트 하여 보컬음에 대한 ΔSDR을 측정하였으며 각 방식의 파라미터 값들은 최적화되었다.
따라서 본 논문에서는 기존에 적용된 위너 필터 방식 대신, 로그 스펙트럼 진폭(log-spectral amplitude) 추정^[6]을 적용함으로써 위상과 진폭에 대한 이득값을 갱신하고 기존 방식보다 명료한 배경음과 보컬음을 분리 하는 방식을 제안한다.
본 논문에서 제안한 방식의 성능을 측정 및 비교하기 위해 REPET Adaptive 방식(RM), 위너형태의 이득 값을 적용한 커널모델 기반의 분리방식(WM), 본 논문에서 제안한 로그 스펙트럼 진폭 추정부 기반의 방식(PM), 3가지 방식을 이용했다. Fig.

대상 데이터

기반의 로그 스펙트럼 진폭 추정을 적용한 배경음과 보컬음 분리커널 스펙트럼 모델 backfitting 기반의 로그 스펙트럼 진폭 추정을 적용한 배경음과 보컬음 분리는 Fig. 1과 같이 STFT(Short Time Fourier Transform),　커널 스펙트럼 backfitting 기반의 로그 스펙트럼 진폭 추정부, ISTFT(Inverse Short Time Fourier Transform), 배경음 믹싱부, 4개의 모듈로 구성되어 있다.
실험에 사용된 음원은 44.1 kHz의 샘플링레이트, 16 비트의 깊이의 50개 트랙의 ccMixter 데이터를 사용했다. Liutkus et al.

데이터처리

추정된 객체 스펙트럼이 신호 출력 판단부에 입력되면, 입력된 객체 스펙트럼에 대한 평균값 계산한다. 계산된 평균값을 기반으로 이전에 입력된 객체 스펙트럼과 현재 입력된 스펙트럼간의 비율을 계산한다. 이 비율을 오차 판정 문턱값 T와 비교하여 T보다 작다면 현재 스펙트럼과 이전 스펙트럼간의 변화가 거의 없다는 것으로 판단하여 최종적으로 객체에 대한 추정 스펙트럼을 출력한다.
본 논문에서 제안한 방식에 대한 객관적인 지표의 성능을 나타내기 위해 BSS_Oracle 툴박스의[9] Δ SDR(Source-to-Distortion Ratio)을 측정하였다.
추정된 객체 스펙트럼이 신호 출력 판단부에 입력되면, 입력된 객체 스펙트럼에 대한 평균값 계산한다. 계산된 평균값을 기반으로 이전에 입력된 객체 스펙트럼과 현재 입력된 스펙트럼간의 비율을 계산한다.

성능/효과

5의 제일 상단에 있는 스펙트럼은 배경음과 보컬음이 혼합된 원음에 대한 스펙트럼 그리고 두번째는 클린한 보컬음만 존재하는 스펙트럼을 나타낸다. Fig. 5에서 박스로 표시 한 부분은 퍼커시브한성분의 배경음이 보컬음과 혼합된 영역을 나타내는데 그림에서 보이는 바와 같이 본 논문에서 제안한 방식인 PM이 WM과 RM 보다 더 많은 퍼커시브한 성분을 제거하여 클린한 보컬음에 유사하게 출력되는 것을 확인할 수 있다.
또한본 논문에서 제안한 PM방식은 기존의 WM 보다 Δ SDR 측정결과가 평균 0.7이 상승한 결과를 보인다.
실험결과 WM 방식과 PM방식이 RM 방식보다 확연히 높은 SDR 측정결과가 나왔으며 이는 커널 스펙트럼 모델 기반의 배경음과 보컬음 분리 방식이 RM 방식보다 우수한 방식이라는 것을 입증한다. 또한본 논문에서 제안한 PM방식은 기존의 WM 보다 Δ SDR 측정결과가 평균 0.
본 논문은 커널 스펙트럼 모델 backfitting 기반의 로그 스펙트럼 진폭 추정을적용한 배경음과 보컬음 분리를 제안하였다. 실험결과 커널 스펙트럼 모델 기반의 배경음과 보컬음 분리 방식이 REPET 방식보다 더 명료한 보컬음을 추출한다는 것을 확인했으며 특히, 논문에서 제안한 방식이 배경음과 보컬음 모두 기존의 REPET 방식, 위너형태의 커널 모델 기반 분리 기법보다 레퍼런스 신호에 더 유사하게 분리된다는 것을 확인했다.

후속연구

제안된 방식을 통해 추출된 배경음과 보컬음은 입체음향 시스템에 적용되어 분리된 객체기반으로 풍성한 음장감과 명료한 방향감을 부여할 수 있을 것이라 사료된다.
향후 본 알고리즘을 최적화 하는 방안과 분리된 배경음과 보컬음을 입체음향 시스템에 적용하는 방안에 대해 연구 할 예정이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	Rafii와 Pardo[4]의 반복적인 배경음에 대한 배경음, 보컬음 분리기술(REPET)의 문제점은 무엇인가?	Rafii와 Pardo[4]의 반복적인 배경음에 대한 배경음, 보컬음 분리기술(REPET)은 배경음이 반복적인 특성을 갖는 점을 이용하여 반복적인 배경음과 보컬음을 추출하는 방식이다. 하지만 이 방식은 강한 에너지를 갖는 주기만을 검출하기에 그 외의 반복적인 주기를 잘 검출하지 못한다는 문제점과 추출된 배경 음을 원음에서 차감하는 식으로 보컬음을 추출하기에 명료한 배경음이 추출되지 않을 경우 보컬음에도 배경음이 묻어나온다는 문제가 있다.
	커널 스펙트럼 모델 피팅부는 무엇인가?	커널 스펙트럼 모델 피팅부는 추정하고자 하는 객체의 모델을 생성해서 입력된 스펙트럼을 생성된 모델 형태에 맞게 스펙트럼을 변환해 주는 과정으로 커널 스펙트럼 모델 생성부와 모델 피팅부 2가지로 구성되어있다.
	음원 분리 기술은 어떤 방식들을 이용하여 연구가 진행되고 있는가?	음원 분리 기술은 혼합된 오디오 신호에 대해 배경음과 보컬음을 분리하는 기술로써 지난 30년간 꾸준히 연구되고 있으며 텔레커뮤니케이션, 오디오 신호 처리, 은닉 성분 분석, 생체 신호처리, 입체음향 재현 등 다양하게 적용되고 있다. 음원 분리 기술은 ICA (Independent Components Analysis),[1] RPCA(Robust Principal Component Analysis),[2] NMF(Non-negative Matrix Factorization)[3] 등 여러 가지 방식을 이용하여 음원을 보컬음과 배경음의 객체로 분리하는 연구로 진행되고 있는데 그 중 Rafii와 Pardo[4]의 REPET 방식과 Liutkus et al.[5]의 커널 스펙트럼 모델기반의 음원분리기술이 가장 대표적이다.

참고문헌 (9)

P. Comon and C. Jutten, Handbook of Blind Source Separation: Independent Component Analysis and Applications (Academic Press, 2010). pp. 208-214.
P.-S. Huang, S. D. Chen, P. Smaragdis, and M. H. Johnson, "Singing-voice separation from monaural recordings using robust principal component analysis," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 57-60 (2012).
A. Ozerov, E. Vincent, and F. Bimbot, "A general flexible framework for the handling of prior information in audio source separation," Audio, Speech, and Language Processing, IEEE Transactions on, 1118-1133 (2011)
Z. Rafii and B. Pardo, "Repeating pattern extraction technique (REPET): A simple method for music/voice separation," IEEE Transactions on Audio, Speech & Language Processing, 71-82 (2013).
A. Liutkus, Z. Rafii, E. Fitzgerald and L. Daudet, "Kernel spectrogram models for source separation," 4th Joint Workshop on Hands-free Speech Communication Microphone Arrays, (2014).
Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error log-spectral amplitude estimator," IEEE Trans. Acoust. Speech Signal Process, 443-445 (1985).
B. J. Shannon and K. K. Paliwal, "Role of phase estimation in speech enhancement," in Proc. 9th Int. Conf. Spoken Language Processing - Interspeech, Pittsburgh, PA, 1423-1426 (2006).
Y. Ephraim and I. Cohen, "Recent advancements in speech enhancement," in the Electrical Engineering Handbook, (CRC press, 2005).
E. Vincent, R. Gribonval, and M. Plumbley, "Oracle estimators for the benchmarking of source separation algorithms," Signal Processing, 1933-1950, (2007).

이 논문을 인용한 문헌

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

커널 스펙트럼 모델 backfitting 기반의 로그 스펙트럼 진폭 추정을 적용한 배경음과 보컬음 분리
Music and Voice Separation Using Log-Spectral Amplitude Estimator Based on Kernel Spectrogram Models Backfitting 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

질의응답

참고문헌 (9)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

커널 스펙트럼 모델 backfitting 기반의 로그 스펙트럼 진폭 추정을 적용한 배경음과 보컬음 분리 Music and Voice Separation Using Log-Spectral Amplitude Estimator Based on Kernel Spectrogram Models Backfitting 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

질의응답

참고문헌 (9)

이 논문을 인용한 문헌

저자의 다른 논문 :

이준용 (1) 김형국 (53)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

커널 스펙트럼 모델 backfitting 기반의 로그 스펙트럼 진폭 추정을 적용한 배경음과 보컬음 분리
Music and Voice Separation Using Log-Spectral Amplitude Estimator Based on Kernel Spectrogram Models Backfitting 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper