빔공간-영역 다채널 비음수 행렬 분해 알고리즘을 이용한 음원 분리 기법 Part II: 빔공간-변환 기법에 대한 고찰 Audio Source Separation Method based on Beamspace-domain Multichannel Non-negative Matrix Factorization, Part II: A Study on the Beamspace Transform Algorithms원문보기
빔공간 변환(beamspace transform) 기법은 공간 영역의 신호를 입사각 혹은 그 사인함수의 영역으로 변환하는 기법으로, MUSIC과 같은 음원 정위 및 추적(source localization and tracking) 문제나 적응 빔형성(adaptive beamforming)과 같은 문제에서 많이 사용되는 기법이다. 다채널 음원 분리 기법에 사용될 때에는, 음원의 정보 뿐만아니라 해당 음원의 이미지(image)를 재구성하여야 하므로 역변환 기법 또한 중요하다. 본 논문에서는 멀티 채널 음원 분리 기법을 위한 빔공간 변환 기법과 그 역변환 기법에 대하여 고찰하였으며, 특히 빔공간-영역 다채널 비음수 행렬 분해 기법에 적용되었을 때 그 성능에 미치는 영향을 중점적으로 살펴보았다.
빔공간 변환(beamspace transform) 기법은 공간 영역의 신호를 입사각 혹은 그 사인함수의 영역으로 변환하는 기법으로, MUSIC과 같은 음원 정위 및 추적(source localization and tracking) 문제나 적응 빔형성(adaptive beamforming)과 같은 문제에서 많이 사용되는 기법이다. 다채널 음원 분리 기법에 사용될 때에는, 음원의 정보 뿐만아니라 해당 음원의 이미지(image)를 재구성하여야 하므로 역변환 기법 또한 중요하다. 본 논문에서는 멀티 채널 음원 분리 기법을 위한 빔공간 변환 기법과 그 역변환 기법에 대하여 고찰하였으며, 특히 빔공간-영역 다채널 비음수 행렬 분해 기법에 적용되었을 때 그 성능에 미치는 영향을 중점적으로 살펴보았다.
Beamspace transform algorithm transforms spatial-domain data - such as x, y, z dimension - into incidence-angle-domain data, which is called beamspace-domain data. The beamspace transform method is generally used in source localization and tracking, and adaptive beamforming problem. When the beamspa...
Beamspace transform algorithm transforms spatial-domain data - such as x, y, z dimension - into incidence-angle-domain data, which is called beamspace-domain data. The beamspace transform method is generally used in source localization and tracking, and adaptive beamforming problem. When the beamspace transform method is used in multichannel audio source separation, the inverse beamspace transform is also important because the source image have to be reconstructed. This paper studies the beamspace transform and inverse transform algorithms for multichannel audio source separation system, especially for the beamspace-domain multichannel NMF algorithm.
Beamspace transform algorithm transforms spatial-domain data - such as x, y, z dimension - into incidence-angle-domain data, which is called beamspace-domain data. The beamspace transform method is generally used in source localization and tracking, and adaptive beamforming problem. When the beamspace transform method is used in multichannel audio source separation, the inverse beamspace transform is also important because the source image have to be reconstructed. This paper studies the beamspace transform and inverse transform algorithms for multichannel audio source separation system, especially for the beamspace-domain multichannel NMF algorithm.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 다채널 음원 분리 기법을 위한 빔공간 변환 기법에 대해서 연구하였다. 본 논문에서 다룬 빔공간 변환 기법들은 다채널 음원 분리 기법에 적용되었을 때 그 성능에 미치는 영향을 염두에 두고 분석되었으며, 특히 변환 기법뿐만 아니라 역변환 기법까지 고려되었다.
본 논문에서는 앞서 언급하였던 여러 빔공간 변환 기법들이 [7]의 MC-NMF와 결합되었을 때 그 성능을 살펴보기 위하여 실험을 진행하였다.
그 중 하나는 빔공간으로 변환할 때 사용되는 빔형성기의 응답이 주파수에 의존적이라는 것이며, 다른 하나는 빔공간 변환 기법의 역변환이 잘 이루어지지 않을 수 있다는 점이다. 본 논문에서는 위와 같은 관점에서 빔공간 변환 기법에 대해 연구하였다.
이와 같이 빔공간 영역에서 MC-NMF 알고리즘을 적용하는 경우, 빔공간 변환이 성능에 큰 영향을 주게 되며, 해당 공간 변환의 역변환 또한 성능에 영향을 줄 수 있다. 본 논문에서는, 이와 같은 문제에서의 빔공간 변환 기법과 그 역변환에 대하여 고찰하고, 실험을 통하여 성능을 평가하였다.
제안 방법
본 논문에서는 다채널 음원 분리 기법을 위한 빔공간 변환 기법에 대해서 연구하였다. 본 논문에서 다룬 빔공간 변환 기법들은 다채널 음원 분리 기법에 적용되었을 때 그 성능에 미치는 영향을 염두에 두고 분석되었으며, 특히 변환 기법뿐만 아니라 역변환 기법까지 고려되었다.
MC-NMF의 기저 개수는 16개로 설정되었고, 알고리즘의 반복횟수는 200으로 설정되었다. 빔공간-영역 MC-NMF의 성능에 대한 고찰은 앞선 논문에서 논의되었고, 본 논문에서는 빔공간-영역 MC -NMF 알고리즘 중 빔공간 변환 기법의 영향에 대해 집중적으로 고찰하고 있으므로, 기존의 빔공간-영역 MC-NMF 알고리즘(3.1 절의 조향벡터 기법을 이용한 MC-NMF 알고리즘)에서 빔공간 변환 기법만 변화시켜 비교 및 도시하였다.
대상 데이터
실험에 사용된 데이터로는 SiSEC 2010(Signal Separation Evaluation Campaign) 중 “Underdetermined speech and music mixture” task의 dataset을 사용하였으며, 그 중 마이크로폰 사이의 거리가 5 cm인 실험음원 8개를 사용하였다[9]. 사용된 실험음원은 각각 3개 혹은 4개의 음성음원이 존재하는 환경에서 2개의 마이크로폰을 사용하여 녹음된 음원들이며, 각 실험음원은 서로 다른 음원 신호를 사용하여 녹음된 음원이다. 사용된 음원데이터 8개의 특성은 표 1에서 살펴볼 수 있다.
실험에 사용된 데이터로는 SiSEC 2010(Signal Separation Evaluation Campaign) 중 “Underdetermined speech and music mixture” task의 dataset을 사용하였으며, 그 중 마이크로폰 사이의 거리가 5 cm인 실험음원 8개를 사용하였다[9].
이론/모형
첫 번째는 조향 벡터를 사용하는 빔공간 변환 기법이며, 두 번째는 tapped delay-line을 이용한 광대역 주파수-불변 빔공간 변환 기법이고, 세 번째는 주파수 영역에서의 주파수-불변 빔공간 변환 기법이다. 3가지 알고리즘 모두 MC-NMF 알고리즘과 함께 사용되어 다채널 음원 분리를 수행하였다. 실험결과 주파수-불변 빔공간 변환 기법들이 조향벡터 기반의 빔공간 변환 기법에 비해 좋은 성능을 보였으며, tapped delay-line의 광대역 주파수-불변 빔공간 변환 기법이 보다 안정적인 성능을 보인 반면, ISR 측면에서는 주파수 영역의 주파수-불변 빔공간 변환 기법이 더욱 좋은 성능을 보였다.
성능평가 지수로는 E. Vincent 등에 의해 개발된 SDR (Signal-to-Distortion Ratio), SIR(Source-to- Interference Ratio), SAR(Source-to-Artifacts Ratio), ISR(source-Image -to-Spatial-distortion Ratio)를 사용하였다[10]. SDR은 전체적인 에러를 나타내는 지수이고, SIR은 분리된 음원과 섞여 있는 다른 간섭신호의 에너지 비를, SAR은 분리된 음원과 신호 자체의 결함(artifact)의 에너지 비를 각각 나타낸다.
앞서 3장에서 언급된 3가지의 빔공간 변환 기법들이 [7]의 MC-NMF 알고리즘과 결합되어 다채널 음원 분리를 수행하였으며, 조향 벡터를 이용한 빔공간 변환 기법(3.1절)과 주파수 영역에서의 주파수-불변 빔공간 변환 기법(3.3절)은 국소 푸리에 변환 모듈 뒤 단에, Tapped delay-line을 이용한 주파수-불변 빔공간 변환 기법(3.2절)은 국소 푸리에 변환 모듈 앞단에 각각 사용되었다.
성능/효과
그림 2에 각 성능 지표에 따른 실험 결과들이 나타나 있다. 실험 결과, 모든 성능 지표에서 조향 벡터 기반의 빔공간 변환 기법에 비해 주파수-불변 빔공간 변환 기법들의 성능이 더 좋게 나타났다. 이는 조향 벡터 기반의 빔공간 변환 기법의 응답이 주파수에 비례하여 크게 변함으로써 음원 분리 기법의 성능에 영향을 준 것으로 해석된다.
3가지 알고리즘 모두 MC-NMF 알고리즘과 함께 사용되어 다채널 음원 분리를 수행하였다. 실험결과 주파수-불변 빔공간 변환 기법들이 조향벡터 기반의 빔공간 변환 기법에 비해 좋은 성능을 보였으며, tapped delay-line의 광대역 주파수-불변 빔공간 변환 기법이 보다 안정적인 성능을 보인 반면, ISR 측면에서는 주파수 영역의 주파수-불변 빔공간 변환 기법이 더욱 좋은 성능을 보였다.
후속연구
이와 같이 빔공간 영역에서 MC-NMF 알고리즘을 적용하는 이유는 기존의 MC-NMF 알고리즘이 채널 간 위상차이를 이용하지 못하는 문제점을 개선하기 위한 것이며, 빔공간 영역 MC-NMF 알고리즘에서 채널 간 위상차이를 이용할 수 있도록 만들어 주는 것은 바로 빔공간 변환 알고리즘이다[6]. 추가적으로, NMF 알고리즘은 데이터의 희박성을 이용하는 알고리즘이므로[11], 빔공간 변환 기법이 데이터의 희박성을 확보하여 준다면 NMF알고리즘의 성능 또한 개선될 것을 기대할 수 있다. 따라서, 빔공간-영역 MC-NMF의 성능 개선 정도를 좌우하는 것은 빔공간 변환의 정확성과 분해능에 달려있다고 볼 수 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
빔공간 변환(beamspace transform) 기법이란 무엇인가?
빔공간 변환(beamspace transform) 기법은 공간 영역의 신호를 입사각의 함수로 나타내는 기법으로, 센서 배열을 이용한 신호처리 시스템에서 여러 목적으로 사용되고 있다. 특히, MUSIC과 같은 신호원 정위(source localization) 알고리즘에 사용되어 그 성능을 향상시키거나 [1-2], 적응 빔형성 문제에 사용되어 그 성능을 높이는 목적으로 널리 사용되어 왔다 [3].
빔공간 영역 MC-NMF 알고리즘에서 채널 간 위상차이를 이용할 수 있도록 만들어 주는 것은 무엇인가?
최근에는 위의 알고리즘을 빔공간 영역에서 수행함으로써 성능을 개선시키는 알고리즘이 개발되었으며 [6], 이에 대한 시스템 구성도는 그림 1과 같다. 이와 같이 빔공간 영역에서 MC-NMF 알고리즘을 적용하는 이유는 기존의 MC-NMF 알고리즘이 채널 간 위상차이를 이용하지 못하는 문제점을 개선하기 위한 것이며, 빔공간 영역 MC-NMF 알고리즘에서 채널 간 위상차이를 이용할 수 있도록 만들어 주는 것은 바로 빔공간 변환 알고리즘이다 [6]. 추가적으로, NMF 알고리즘은 데이터의 희박성을 이용하는 알고리즘이므로 [11], 빔공간 변환 기법이 데이터의 희박성을 확보하여 준다면 NMF알고리즘의 성능 또한 개선될 것을 기대할 수 있다.
빔공간으로 변환하여 음원 분리 기법을 사용할 때 주의해야 할 문제는 무엇인가?
빔공간으로 변환하여 음원 분리 기법을 사용하는 경우, 주의해야 할 문제가 몇 가지 존재한다. 그 중 하나는 빔공간으로 변환할 때 사용되는 빔형성기의 응답이 주파수에 의존적이라는 것이며, 다른 하나는 빔공간 변환 기법의 역변환이 잘 이루어지지 않을 수 있다는 점이다. 본 논문에서는 위와 같은 관점에서 빔공간 변환 기법에 대해 연구하였다.
참고문헌 (11)
Xiao-Liang Xu and Kevin Buckley, "An Analysis of Beam-Space Source Localization," IEEE Trans. Signal Processing, vol. 41, no. 1, Jan. 1993.
M. D. Zoltowski, G. M. Kautz, S. D. Silverstein, "Beamspace Root-MUSIC," IEEE Trans. Signal Processing, vol. 41, no. 1, Jan. 1993.
W. Liu and S. Weiss, Wideband Beamforming Concepts and Techniques, John Wiley & Sons, 2010.
H. Saruwatari, T. Kawamura, T. Nishikawa, A. Lee, K. Shikano, "Blind Source Separation Based on a Fast -Convergence Algorithm Combining ICA and Beamforming," IEEE Trans. Audio, Speech, and Language Processing, vol. 14, no. 2, 2006.
L. -H. Kim, I. Tashev, A. Acero, "Reverberant Speech Signal Separation based on Regularized Subband Feedforward ICA and Instantaneous Direction of Arrival," Proc. ICASSP 2010, 2010.
S. Lee, S. H. Park, K. -M. Sung, "Beamspace-domain Multichannel Nonnegative Matrix Factorization for Audio Source Separation," Accepted for publications in IEEE Signal Processing Letters.
A. Ozerov, C. Fevotte, "Multichannel Nonnegative Matrix Factorization in Convolutive Mixtures for Audio Source Separation," IEEE Trans. Audio, Speech, Language Processing, vol. 18, no. 3, 2010.
T. K. Moon, and W. C. Stirling, Mathematical Methods and Algorithms for Signal Processing, Prentice Hall, New Jersey, 2000.
Signal Separation Evaluation Campaign 2010 (SiSEC 2010), http://www.sisec.wiki.irisa.fr, 2010.
E. Vincent, H. Sawada, P. Bofill, S. Makino, J. P. Rosca, "First stereo audio source separation evaluation campaign: data, algorithms and results," in Proc. Int. Conf. Ind. Compon. Anal. Blind Source Separation (ICA'07), 2007.
A. Cichocki, R. Zdunek, A. H. Phan, S. Amari, Nonnegative Matrix and Tensor Factorizations: Applications to Exploratory Multi-way Data Analysis and Blind Source Separation, Wiley, Chichester, 2009.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.