[논문]빔공간-영역 다채널 비음수 행렬 분해 알고리즘을 이용한 음원 분리 기법 Part II: 빔공간-변환 기법에 대한 고찰

이석진; 박상하; 성굉모

doi:10.7776/ask.2012.31.5.332

초록
AI-Helper

빔공간 변환(beamspace transform) 기법은 공간 영역의 신호를 입사각 혹은 그 사인함수의 영역으로 변환하는 기법으로, MUSIC과 같은 음원 정위 및 추적(source localization and tracking) 문제나 적응 빔형성(adaptive beamforming)과 같은 문제에서 많이 사용되는 기법이다. 다채널 음원 분리 기법에 사용될 때에는, 음원의 정보 뿐만아니라 해당 음원의 이미지(image)를 재구성하여야 하므로 역변환 기법 또한 중요하다. 본 논문에서는 멀티 채널 음원 분리 기법을 위한 빔공간 변환 기법과 그 역변환 기법에 대하여 고찰하였으며, 특히 빔공간-영역 다채널 비음수 행렬 분해 기법에 적용되었을 때 그 성능에 미치는 영향을 중점적으로 살펴보았다.

Abstract ▼ AI-Helper

Beamspace transform algorithm transforms spatial-domain data - such as x, y, z dimension - into incidence-angle-domain data, which is called beamspace-domain data. The beamspace transform method is generally used in source localization and tracking, and adaptive beamforming problem. When the beamspa...

Beamspace transform algorithm transforms spatial-domain data - such as x, y, z dimension - into incidence-angle-domain data, which is called beamspace-domain data. The beamspace transform method is generally used in source localization and tracking, and adaptive beamforming problem. When the beamspace transform method is used in multichannel audio source separation, the inverse beamspace transform is also important because the source image have to be reconstructed. This paper studies the beamspace transform and inverse transform algorithms for multichannel audio source separation system, especially for the beamspace-domain multichannel NMF algorithm.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 다채널 음원 분리 기법을 위한 빔공간 변환 기법에 대해서 연구하였다. 본 논문에서 다룬 빔공간 변환 기법들은 다채널 음원 분리 기법에 적용되었을 때 그 성능에 미치는 영향을 염두에 두고 분석되었으며, 특히 변환 기법뿐만 아니라 역변환 기법까지 고려되었다.
본 논문에서는 앞서 언급하였던 여러 빔공간 변환 기법들이 [7]의 MC-NMF와 결합되었을 때 그 성능을 살펴보기 위하여 실험을 진행하였다.
그 중 하나는 빔공간으로 변환할 때 사용되는 빔형성기의 응답이 주파수에 의존적이라는 것이며, 다른 하나는 빔공간 변환 기법의 역변환이 잘 이루어지지 않을 수 있다는 점이다. 본 논문에서는 위와 같은 관점에서 빔공간 변환 기법에 대해 연구하였다.
이와 같이 빔공간 영역에서 MC-NMF 알고리즘을 적용하는 경우, 빔공간 변환이 성능에 큰 영향을 주게 되며, 해당 공간 변환의 역변환 또한 성능에 영향을 줄 수 있다. 본 논문에서는, 이와 같은 문제에서의 빔공간 변환 기법과 그 역변환에 대하여 고찰하고, 실험을 통하여 성능을 평가하였다.

제안 방법

본 논문에서는 다채널 음원 분리 기법을 위한 빔공간 변환 기법에 대해서 연구하였다. 본 논문에서 다룬 빔공간 변환 기법들은 다채널 음원 분리 기법에 적용되었을 때 그 성능에 미치는 영향을 염두에 두고 분석되었으며, 특히 변환 기법뿐만 아니라 역변환 기법까지 고려되었다.
MC-NMF의 기저 개수는 16개로 설정되었고, 알고리즘의 반복횟수는 200으로 설정되었다. 빔공간-영역 MC-NMF의 성능에 대한 고찰은 앞선 논문에서 논의되었고, 본 논문에서는 빔공간-영역 MC -NMF 알고리즘 중 빔공간 변환 기법의 영향에 대해 집중적으로 고찰하고 있으므로, 기존의 빔공간-영역 MC-NMF 알고리즘(3.1 절의 조향벡터 기법을 이용한 MC-NMF 알고리즘)에서 빔공간 변환 기법만 변화시켜 비교 및 도시하였다.

대상 데이터

실험에 사용된 데이터로는 SiSEC 2010(Signal Separation Evaluation Campaign) 중 “Underdetermined speech and music mixture” task의 dataset을 사용하였으며, 그 중 마이크로폰 사이의 거리가 5 cm인 실험음원 8개를 사용하였다^[9]. 사용된 실험음원은 각각 3개 혹은 4개의 음성음원이 존재하는 환경에서 2개의 마이크로폰을 사용하여 녹음된 음원들이며, 각 실험음원은 서로 다른 음원 신호를 사용하여 녹음된 음원이다. 사용된 음원데이터 8개의 특성은 표 1에서 살펴볼 수 있다.
실험에 사용된 데이터로는 SiSEC 2010(Signal Separation Evaluation Campaign) 중 “Underdetermined speech and music mixture” task의 dataset을 사용하였으며, 그 중 마이크로폰 사이의 거리가 5 cm인 실험음원 8개를 사용하였다[9].

이론/모형

첫 번째는 조향 벡터를 사용하는 빔공간 변환 기법이며, 두 번째는 tapped delay-line을 이용한 광대역 주파수-불변 빔공간 변환 기법이고, 세 번째는 주파수 영역에서의 주파수-불변 빔공간 변환 기법이다. 3가지 알고리즘 모두 MC-NMF 알고리즘과 함께 사용되어 다채널 음원 분리를 수행하였다. 실험결과 주파수-불변 빔공간 변환 기법들이 조향벡터 기반의 빔공간 변환 기법에 비해 좋은 성능을 보였으며, tapped delay-line의 광대역 주파수-불변 빔공간 변환 기법이 보다 안정적인 성능을 보인 반면, ISR 측면에서는 주파수 영역의 주파수-불변 빔공간 변환 기법이 더욱 좋은 성능을 보였다.
성능평가 지수로는 E. Vincent 등에 의해 개발된 SDR (Signal-to-Distortion Ratio), SIR(Source-to- Interference Ratio), SAR(Source-to-Artifacts Ratio), ISR(source-Image -to-Spatial-distortion Ratio)를 사용하였다^[10]. SDR은 전체적인 에러를 나타내는 지수이고, SIR은 분리된 음원과 섞여 있는 다른 간섭신호의 에너지 비를, SAR은 분리된 음원과 신호 자체의 결함(artifact)의 에너지 비를 각각 나타낸다.
앞서 3장에서 언급된 3가지의 빔공간 변환 기법들이 ^[7]의 MC-NMF 알고리즘과 결합되어 다채널 음원 분리를 수행하였으며, 조향 벡터를 이용한 빔공간 변환 기법(3.1절)과 주파수 영역에서의 주파수-불변 빔공간 변환 기법(3.3절)은 국소 푸리에 변환 모듈 뒤 단에, Tapped delay-line을 이용한 주파수-불변 빔공간 변환 기법(3.2절)은 국소 푸리에 변환 모듈 앞단에 각각 사용되었다.

성능/효과

그림 2에 각 성능 지표에 따른 실험 결과들이 나타나 있다. 실험 결과, 모든 성능 지표에서 조향 벡터 기반의 빔공간 변환 기법에 비해 주파수-불변 빔공간 변환 기법들의 성능이 더 좋게 나타났다. 이는 조향 벡터 기반의 빔공간 변환 기법의 응답이 주파수에 비례하여 크게 변함으로써 음원 분리 기법의 성능에 영향을 준 것으로 해석된다.
3가지 알고리즘 모두 MC-NMF 알고리즘과 함께 사용되어 다채널 음원 분리를 수행하였다. 실험결과 주파수-불변 빔공간 변환 기법들이 조향벡터 기반의 빔공간 변환 기법에 비해 좋은 성능을 보였으며, tapped delay-line의 광대역 주파수-불변 빔공간 변환 기법이 보다 안정적인 성능을 보인 반면, ISR 측면에서는 주파수 영역의 주파수-불변 빔공간 변환 기법이 더욱 좋은 성능을 보였다.

후속연구

이와 같이 빔공간 영역에서 MC-NMF 알고리즘을 적용하는 이유는 기존의 MC-NMF 알고리즘이 채널 간 위상차이를 이용하지 못하는 문제점을 개선하기 위한 것이며, 빔공간 영역 MC-NMF 알고리즘에서 채널 간 위상차이를 이용할 수 있도록 만들어 주는 것은 바로 빔공간 변환 알고리즘이다^[6]. 추가적으로, NMF 알고리즘은 데이터의 희박성을 이용하는 알고리즘이므로^[11], 빔공간 변환 기법이 데이터의 희박성을 확보하여 준다면 NMF알고리즘의 성능 또한 개선될 것을 기대할 수 있다. 따라서, 빔공간-영역 MC-NMF의 성능 개선 정도를 좌우하는 것은 빔공간 변환의 정확성과 분해능에 달려있다고 볼 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	빔공간 변환(beamspace transform) 기법이란 무엇인가?	빔공간 변환(beamspace transform) 기법은 공간 영역의 신호를 입사각의 함수로 나타내는 기법으로, 센서 배열을 이용한 신호처리 시스템에서 여러 목적으로 사용되고 있다. 특히, MUSIC과 같은 신호원 정위(source localization) 알고리즘에 사용되어 그 성능을 향상시키거나 [1-2], 적응 빔형성 문제에 사용되어 그 성능을 높이는 목적으로 널리 사용되어 왔다 [3].
	빔공간 영역 MC-NMF 알고리즘에서 채널 간 위상차이를 이용할 수 있도록 만들어 주는 것은 무엇인가?	최근에는 위의 알고리즘을 빔공간 영역에서 수행함으로써 성능을 개선시키는 알고리즘이 개발되었으며 [6], 이에 대한 시스템 구성도는 그림 1과 같다. 이와 같이 빔공간 영역에서 MC-NMF 알고리즘을 적용하는 이유는 기존의 MC-NMF 알고리즘이 채널 간 위상차이를 이용하지 못하는 문제점을 개선하기 위한 것이며, 빔공간 영역 MC-NMF 알고리즘에서 채널 간 위상차이를 이용할 수 있도록 만들어 주는 것은 바로 빔공간 변환 알고리즘이다 [6]. 추가적으로, NMF 알고리즘은 데이터의 희박성을 이용하는 알고리즘이므로 [11], 빔공간 변환 기법이 데이터의 희박성을 확보하여 준다면 NMF알고리즘의 성능 또한 개선될 것을 기대할 수 있다.
	빔공간으로 변환하여 음원 분리 기법을 사용할 때 주의해야 할 문제는 무엇인가?	빔공간으로 변환하여 음원 분리 기법을 사용하는 경우, 주의해야 할 문제가 몇 가지 존재한다. 그 중 하나는 빔공간으로 변환할 때 사용되는 빔형성기의 응답이 주파수에 의존적이라는 것이며, 다른 하나는 빔공간 변환 기법의 역변환이 잘 이루어지지 않을 수 있다는 점이다. 본 논문에서는 위와 같은 관점에서 빔공간 변환 기법에 대해 연구하였다.

참고문헌 (11)

Xiao-Liang Xu and Kevin Buckley, "An Analysis of Beam-Space Source Localization," IEEE Trans. Signal Processing, vol. 41, no. 1, Jan. 1993.
M. D. Zoltowski, G. M. Kautz, S. D. Silverstein, "Beamspace Root-MUSIC," IEEE Trans. Signal Processing, vol. 41, no. 1, Jan. 1993.
W. Liu and S. Weiss, Wideband Beamforming Concepts and Techniques, John Wiley & Sons, 2010.
H. Saruwatari, T. Kawamura, T. Nishikawa, A. Lee, K. Shikano, "Blind Source Separation Based on a Fast -Convergence Algorithm Combining ICA and Beamforming," IEEE Trans. Audio, Speech, and Language Processing, vol. 14, no. 2, 2006.
L. -H. Kim, I. Tashev, A. Acero, "Reverberant Speech Signal Separation based on Regularized Subband Feedforward ICA and Instantaneous Direction of Arrival," Proc. ICASSP 2010, 2010.
S. Lee, S. H. Park, K. -M. Sung, "Beamspace-domain Multichannel Nonnegative Matrix Factorization for Audio Source Separation," Accepted for publications in IEEE Signal Processing Letters.
A. Ozerov, C. Fevotte, "Multichannel Nonnegative Matrix Factorization in Convolutive Mixtures for Audio Source Separation," IEEE Trans. Audio, Speech, Language Processing, vol. 18, no. 3, 2010.
T. K. Moon, and W. C. Stirling, Mathematical Methods and Algorithms for Signal Processing, Prentice Hall, New Jersey, 2000.
Signal Separation Evaluation Campaign 2010 (SiSEC 2010), http://www.sisec.wiki.irisa.fr, 2010.
E. Vincent, H. Sawada, P. Bofill, S. Makino, J. P. Rosca, "First stereo audio source separation evaluation campaign: data, algorithms and results," in Proc. Int. Conf. Ind. Compon. Anal. Blind Source Separation (ICA'07), 2007.
A. Cichocki, R. Zdunek, A. H. Phan, S. Amari, Nonnegative Matrix and Tensor Factorizations: Applications to Exploratory Multi-way Data Analysis and Blind Source Separation, Wiley, Chichester, 2009.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (11)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (11)

이 논문을 인용한 문헌

저자의 다른 논문 :

이석진 (5) 박상하 (5) 성굉모 (64)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

초록
AI-Helper

AI 본문요약
AI-Helper