본 논문에서는 학습이 가능한 특정화자의 발화음성이 있는 경우, 잡음과 반향이 있는 실 환경에서의 스테레오 마이크로폰을 이용한 특정화자 음성복원 알고리즘을 제안한다. 이를 위해 반향이 있는 환경에서 음원들을 분리하는 다중경로 암묵음원분리(convolutive blind source separation, CBSS)와 이의 후처리 방법을 결합함으로써, 잡음이 섞인 다중경로 신호로부터 잡음과 반향을 제거하고 특정화자의 음성만을 복원하는 시스템을 제시한다. 즉, 비음수 행렬분해(non-negative matrix factorization, NMF) 방법을 이용하여 특정화자의 학습음성으로부터 주파수 특성을 보존하는 기저벡터들을 학습하고, 이 기저벡터들에 기반 한 두 단계의 후처리 기법들을 제안한다. 먼저 본 시스템의 중간단계인 CBSS가 다중경로 신호를 입력받아 독립음원들을(두 채널) 출력하고, 이 두 채널 중 특정화자의 음성에 보다 가까운 채널을 자동적으로 선택한다(채널선택 단계). 이후 앞서 선택된 채널의 신호에 남아있는 잡음과 다른 방해음원(interference source)을 제거하여 특정화자의 음성만을 복원, 최종적으로 잡음과 반향이 제거된 특정화자의 음성을 복원한다(복원 단계). 이 두 후처리 단계 모두 특정화자 음성으로부터 학습한 기저벡터들을 이용하여 동작하므로 특정화자의 음성이 가지는 고유의 주파수 특성 정보를 효율적으로 음성복원에 이용 할 수 있다. 이로써 본 논문은 CBSS에 음원의 사전정보를 결합하는 방법을 제시하고 기존의 CBSS의 분리 결과를 향상시키는 동시에 특정화자만의 음성을 복원하는 시스템을 제안한다. 실험을 통하여 본 제안 방법이 잡음과 반향 환경에서 특정화자의 음성을 성공적으로 복원함을 확인할 수 있다.
본 논문에서는 학습이 가능한 특정화자의 발화음성이 있는 경우, 잡음과 반향이 있는 실 환경에서의 스테레오 마이크로폰을 이용한 특정화자 음성복원 알고리즘을 제안한다. 이를 위해 반향이 있는 환경에서 음원들을 분리하는 다중경로 암묵음원분리(convolutive blind source separation, CBSS)와 이의 후처리 방법을 결합함으로써, 잡음이 섞인 다중경로 신호로부터 잡음과 반향을 제거하고 특정화자의 음성만을 복원하는 시스템을 제시한다. 즉, 비음수 행렬분해(non-negative matrix factorization, NMF) 방법을 이용하여 특정화자의 학습음성으로부터 주파수 특성을 보존하는 기저벡터들을 학습하고, 이 기저벡터들에 기반 한 두 단계의 후처리 기법들을 제안한다. 먼저 본 시스템의 중간단계인 CBSS가 다중경로 신호를 입력받아 독립음원들을(두 채널) 출력하고, 이 두 채널 중 특정화자의 음성에 보다 가까운 채널을 자동적으로 선택한다(채널선택 단계). 이후 앞서 선택된 채널의 신호에 남아있는 잡음과 다른 방해음원(interference source)을 제거하여 특정화자의 음성만을 복원, 최종적으로 잡음과 반향이 제거된 특정화자의 음성을 복원한다(복원 단계). 이 두 후처리 단계 모두 특정화자 음성으로부터 학습한 기저벡터들을 이용하여 동작하므로 특정화자의 음성이 가지는 고유의 주파수 특성 정보를 효율적으로 음성복원에 이용 할 수 있다. 이로써 본 논문은 CBSS에 음원의 사전정보를 결합하는 방법을 제시하고 기존의 CBSS의 분리 결과를 향상시키는 동시에 특정화자만의 음성을 복원하는 시스템을 제안한다. 실험을 통하여 본 제안 방법이 잡음과 반향 환경에서 특정화자의 음성을 성공적으로 복원함을 확인할 수 있다.
This paper proposes a target speech extraction which restores speech signal of a target speaker form noisy convolutive mixture of speech and an interference source. We assume that the target speaker is known and his/her utterances are available in the training time. Incorporating the additional info...
This paper proposes a target speech extraction which restores speech signal of a target speaker form noisy convolutive mixture of speech and an interference source. We assume that the target speaker is known and his/her utterances are available in the training time. Incorporating the additional information extracted from the training utterances into the separation, we combine convolutive blind source separation(CBSS) and non-negative decomposition techniques, e.g., probabilistic latent variable model. The nonnegative decomposition is used to learn a set of bases from the spectrogram of the training utterances, where the bases represent the spectral information corresponding to the target speaker. Based on the learned spectral bases, our method provides two postprocessing steps for CBSS. Channel selection step finds a desirable output channel from CBSS, which dominantly contains the target speech. Reconstruct step recovers the original spectrogram of the target speech from the selected output channel so that the remained interference source and background noise are suppressed. Experimental results show that our method substantially improves the separation results of CBSS and, as a result, successfully recovers the target speech.
This paper proposes a target speech extraction which restores speech signal of a target speaker form noisy convolutive mixture of speech and an interference source. We assume that the target speaker is known and his/her utterances are available in the training time. Incorporating the additional information extracted from the training utterances into the separation, we combine convolutive blind source separation(CBSS) and non-negative decomposition techniques, e.g., probabilistic latent variable model. The nonnegative decomposition is used to learn a set of bases from the spectrogram of the training utterances, where the bases represent the spectral information corresponding to the target speaker. Based on the learned spectral bases, our method provides two postprocessing steps for CBSS. Channel selection step finds a desirable output channel from CBSS, which dominantly contains the target speech. Reconstruct step recovers the original spectrogram of the target speech from the selected output channel so that the remained interference source and background noise are suppressed. Experimental results show that our method substantially improves the separation results of CBSS and, as a result, successfully recovers the target speech.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
CBSS를통해 얻은 출력신호들은 특정화 자의 음성과 방해 음원 및 잡음이 완벽히 분리가 안 되어 섞어 있기 때문에, (6)와 같은 음원 변수에 대한 확률 모델을 세움으로써 이를 확률적으로 기술하고, 이를 통해 채널선택의 판단기준을 마련하고자 한다.
改는 백색잡음이다. 본 논문에서는 잡음과 반향 환경에서 특정화자와 방해 음원을 스테레오 마이크로폰으료 입력받아(즉, n = m = 2), 최종적으로 특정화 자만의 깨끗한 음성을 복원하는 것을 목표로 한다.
본 논문은 잡음과 반향이 있는 실 환경에서의 특정 화자음성을 복원하는 시스템을 제안하였다. NMF 방법 중 하나인 probabilistic latent variable model를 주어진 특정화 자의 발화음성에 적용하여 주파수 특성을 잘 표현하는 기저벡터들을 학습하였다.
즉, 식 (2)에서 0의 각 열은 시간의 변화에 불변한 주파수 영역의 기저벡터이므로 0를 학습함으로써 특정화자의 음성이 가지는 주파수 특성 정보를 쉽게 추출할 수 있다. 본 연구진은 기본 NMF 방법[9] 외에도 다른 제한 조건들이 추가된 다양한 NMF 방법들을 고려해 보았다. 확률적인 해석이 가능한 probabilistic latent variable model 기법들[13, 18, 2이, 모델 (2)에 직교제한조건(orthogonality) 을 추가한 orthogonal NMF[14]f 희소성 제한조건(sparsity)을 추가한 sparse NMF[10], convou- lutive NMFE11] 등을 고려하였으며, 각 방법론에 따라서로 다른 성질의 기저 벡터들이 학습된다.
본 제안 방법에서 중요한 요소 중 하나는 학습 가능한 특정화자의 발화음성을 통해 특정화 자의 음성이 가지는 고유한 주파수 특성 정보를 추출하는 것이다. 이를 위해 아term Fourier transfgnation(STFT)를 통한 시간-주파수 표현을 고려한다.
본 제안방법은 암묵적 속성을 지니는 CBSS에 효율적으로 특정음원의 사전 정보를 적용시키는 방법을 제시하였다. 또한 잡음 및 반향 환경에서의 실험을 통하여 본제 안 방법이 특정화자의 음성에 가까운 음성 신호를 복원함을 확인할 수 있었다.
다만 CBSS의 암묵적 성질 (blindness)에 의해, 음원에 대햔 사전정보(prior information)를 음원분리에 활용하지 못하므로 논문의 최종목표언 특정화자 음성복원에 바로 적용하기 어렵다. 이에 본 논문은 CBSS와 학습 가능한 특정화자의 음성으로부터 얻은 사전정보를 결합하여 특정화자의 음성만을 복원하는 시스템을 제시하고자 한다.
그러므로 CBSS 만으로는 특정화자의 정보를 미리 가지고 있는 상황에서 이 추가적인 정보를 활용하여 CBSS의 분리성능을향상시킬 수 없다. 이에, 본 논문에서는 CBSS의 후처리 단계를 제안함으로써 기존 CBSS의 성능을 향상시킴과동시에 최종적으로 특정화 자의 음성을 복원하고자 한다. 다음 5.
가설 설정
특정화자가 si에 위치하게 되는데 ①~③의 위치로 자리를 바꾸어가면서 녹음을 흥 H, 다양한 위치에서의 제안방법의 성능평가를 하게 된다. 본 실험에서는 특정화자 sie 여성화자 또는 남성화 자의 음성이고, 방해 음원 s2는 프린터 출력 소리 또는 트럼펫 연주 소리로 가정한다.
제안 방법
이 여성 및 남성의 음성신호를 STFT(윈도우 크기: 1024, hop 크기: 256, hamming window 사용) 변환을 통하여 시간-주파수 표현 M을 얻는다. 3장에서 소개한 대로 을 비음 수 분해하기 위해 probabilistic latent variable mod이을 적용하고, 이때 K를 1000(》F=512) 으로 하여 over-representation이 가능토록 하였다. 이 밖에도 entropic 사전확률을 정의할 때 요구되는 사용자 계수들이 있는데, 이는 Shashanka와 Smaragdis “연구 [18]에서 제시된 수치를 따른다.
복원하는 시스템을 제안하였다. NMF 방법 중 하나인 probabilistic latent variable model를 주어진 특정화 자의 발화음성에 적용하여 주파수 특성을 잘 표현하는 기저벡터들을 학습하였다. 이와 같이 얻어진 기저 벡터들을 CBSS의 후처리 부분에 유기적으로 이용함으로써 특정화자의 음성만을 복원할 수 있었다.
확률적인 해석이 가능한 probabilistic latent variable model 기법들[13, 18, 2이, 모델 (2)에 직교제한조건(orthogonality) 을 추가한 orthogonal NMF[14]f 희소성 제한조건(sparsity)을 추가한 sparse NMF[10], convou- lutive NMFE11] 등을 고려하였으며, 각 방법론에 따라서로 다른 성질의 기저 벡터들이 학습된다. 그러나 본 논문에서는 CBSS의 후처리 단계들이 확률모델에 기반을 두어 동작하므로, 활률적 해석이 가능한 probabilistic latent variable model을 사용하고자 한다. 또한 probabilistic latent variable model은 entropic 人]■전확률을 [21] 활용하여 overcomplete representation (丿了》尸)이적용 가능하다.
Low와 Togneri 외 1인의 연구[8]에서는 누화간섭 잡음(babble noise)과 음성신호가 션형적으로 섞인 경우에, 음성신호를 분리해내는 방법을 제시하였다. 누화간섭 잡음에 비해 음성신호가 보다 콘 kutosis를 가진다는 사실 예 착안하여, 분리된 독립음원에서 음성신호를 찾아냄으로써 교환 모호성 (permutation ambiguity)을 해결하였다. 또한 Sawada 와 Araki 외 2인의 연구[기에서는 특정 음원이 우세한파워틀 가질 경우, time-frequency masking 방법을 이용하여 교환 모호성을 해결하였다.
보다 효율적인 채널 선택 판단 식을 유도하기 위해 확률적 해석이 가능한 모델을 도입한다. 아래의 식 (6) 은이를 위해 제시된 확률 모델로써 [18] 에서는 단일 마이크로폰에서 여러 음성을 분리하기 위해 사용되었다:
본 논문에서 제안하는 특정화자 음성복원 시스템은 잡음과 반향이 있는 환경에서 스테레오 마이크로폰으로부터(2 입력채널) 음성 신호와 방해 신호를 입력받아, 최종적으로 특정화자의 음성만을 결과로 출력한다(그림 1 참고). 본 제안 방법은 기존의 CBSS의 후처리 방법을 제시하여 성능을 향상시키고자 한 방법들과[15-17] 유사한 방법으로 문제에 접근한다.
본 방법의 성능을 평가하기 위해 각 단계별로 SDR를 측정하고 이의 증가 폭을 기존 CBSS와 비교하고자 한다. 즉, 그림 1에서와같이 크게 세 부분에서 매 실험마다 SDR을 측정한다: (r) 마이크로폰으로 얻어진 관측 신호의 SDR값(SDI* = SDR1,SDR2), 두 입력 중 SDR이 높은 쪽 선택택);(ㄴ) 음원 분리만을 통해 얻은 결과의 SDR값 (SDRJ); (ㄷ) 본 방법의 복원 단계를 거친 최종 결과신호의 SDR 값(SDRQ.
다만 제안 방법이 기존 접근 방법들과 차별화 되는 점은 학습 가능한 특정화 자의 음성으로부터 추출한 주파수특성 기저벡터들을 이용하여 특정화자 음성의 고유정보를 직접적으로 음성복원에 적용할 수 있다는 점이다. 본 제안 방법은 기저볙터 학습 단계와 다중경로 신호로부터 독립음원들을 분리하는 CBSS 단계, CBSS의두 출력채널로부터 특정화 자의 음성이 우세한 채널을 찾고(channel selection; 채널 선택 단계) 이로부터 특정화 자의 음성만을 복원해내는(reconstruction: 복원 단계) 두 후처리 단계로 나눌 수 있다. 실제 잡음과 반향 환경에서 특정화자의 음성을 복원하는 실험을 통하여 본 제안 방법의 우수성을 정량적으로 확인핦 수 있다.
본 제안 방법은 기존의 CBSS의 후처리 방법을 제시하여 성능을 향상시키고자 한 방법들과[15-17] 유사한 방법으로 문제에 접근한다. 즉, CBSS의 출력물을 가공하여 우리가 원하는 특정화 자의 음성만을 복원하고자 한다.
이를 위해 아term Fourier transfgnation(STFT)를 통한 시간-주파수 표현을 고려한다. M0E 행렬, F: 주파수 대역, T: 전체 프레임 수)을 특정화자 음성의 시간-주파수 표현이라 할 때, M(비음수 2차원 행렬)에 NMF 를 적용하여 M을 두 행렬로 분해할 수 있다.
제안 방법의 성능을 평가하기 위해, 실제 잡음과 반향이 있는 환경에서 잡음과 반향 제거 정도를 평가한다. 직접 녹음을 할 경우 관측 신호만을 얻을 수 있어, 본래의 음성신호와 제안방법의 복원 결과와의 차이를 분석할 수 없다.
본 제안 방법은 기존의 CBSS의 후처리 방법을 제시하여 성능을 향상시키고자 한 방법들과[15-17] 유사한 방법으로 문제에 접근한다. 즉, CBSS의 출력물을 가공하여 우리가 원하는 특정화 자의 음성만을 복원하고자 한다. 다만 제안 방법이 기존 접근 방법들과 차별화 되는 점은 학습 가능한 특정화 자의 음성으로부터 추출한 주파수특성 기저벡터들을 이용하여 특정화자 음성의 고유정보를 직접적으로 음성복원에 적용할 수 있다는 점이다.
이론/모형
다중경로 혼합신호를 분리하기 위해서 [22-25]에 소개된 CBSS를 사용한다. 여기서 다중경로 혼합신호는 다음과 같이 정의된다:
복원 결과의 정량적 평가를 위하여 source to distortion ration(SDR)[28]을 도입한다. SDRe 잡음이 있는 환경에서 음원분리 방법들의 품질을 평가하는 측정단위로써, 그 값이 클수록 알고리즘이 출력한 결과신호가 목표 신호에 근접하다는 것을 의미한다.
성능/효과
즉, CBSS의 출력물을 가공하여 우리가 원하는 특정화 자의 음성만을 복원하고자 한다. 다만 제안 방법이 기존 접근 방법들과 차별화 되는 점은 학습 가능한 특정화 자의 음성으로부터 추출한 주파수특성 기저벡터들을 이용하여 특정화자 음성의 고유정보를 직접적으로 음성복원에 적용할 수 있다는 점이다. 본 제안 방법은 기저볙터 학습 단계와 다중경로 신호로부터 독립음원들을 분리하는 CBSS 단계, CBSS의두 출력채널로부터 특정화 자의 음성이 우세한 채널을 찾고(channel selection; 채널 선택 단계) 이로부터 특정화 자의 음성만을 복원해내는(reconstruction: 복원 단계) 두 후처리 단계로 나눌 수 있다.
또한 잡음 및 반향 환경에서의 실험을 통하여 본제 안 방법이 특정화자의 음성에 가까운 음성 신호를 복원함을 확인할 수 있었다. 다만 본 방법이 신뢰성 있는 복원성능을 보이기 위해서는 특정화자의 주파수 특성이 방해 음원의 그것과는 달라야 한다는 한계점이 있다.
이 방법은 entropic 사전확률을 이용하여 다른 NMF방법들 보다 더 많은 수의 기저 벡터들을 학습할 수 있기 때문에, 특정화자 음성정보를 더 효과적으로 추출 할 수 있다. 본문에는 자세히 언급되지 않았지만 실험적으로도 overcomplete representation°] 적용했을 때 그렇지 않은 경우보다 성능이 더 향상됨을 관찰했다. 이에 entropic 사전확률에 대한 자세한 설명 및 구현은 [18, 2 이을 참조할 수 있다.
본 제안 방법은 기저볙터 학습 단계와 다중경로 신호로부터 독립음원들을 분리하는 CBSS 단계, CBSS의두 출력채널로부터 특정화 자의 음성이 우세한 채널을 찾고(channel selection; 채널 선택 단계) 이로부터 특정화 자의 음성만을 복원해내는(reconstruction: 복원 단계) 두 후처리 단계로 나눌 수 있다. 실제 잡음과 반향 환경에서 특정화자의 음성을 복원하는 실험을 통하여 본 제안 방법의 우수성을 정량적으로 확인핦 수 있다.
이와 같이 얻어진 기저 벡터들을 CBSS의 후처리 부분에 유기적으로 이용함으로써 특정화자의 음성만을 복원할 수 있었다. 즉, CBSS의 두 출력 채널로부터 특정화 자의 음성에 해당하는 채널을 선택하고(채널 선택 단계), 미리 학습한 기저 벡터들을 활용하여 선택된 채널의 신호로부터 남아 있는 잡음과 방해 음원을 제거, 최종적으로 특정화자의 음성만을 복원할 수 있었다(복원 단계).
여기서 주지하여야 할 사실은 SD& 는 CBSS의 두 출력 채널 중 채널선택 단계가 특정화자의 음성에 해당하는 신호로 선택한 채널의 SDR값이라는 점이다. 즉, 본 방법은 채널선택 단계가 1차적으로 CBSS의 교환 모호성 문제를 해결하여 SDR 값을 향상시키고, 복원 단계를 통해 2차적으로 SDR값을 향상시킨다. 표 1과 표 2는 각각 여성과 남성이 특정화자일 경우, 여러 상황에서 본 방법의 복원 결과를 평가한 것이다.
특히 SDR 값의 증가분을 통해(각 표의 마지막 줄), 본 방법이 반향과 잡음에 의해서 생기는 왜곡을(식 (16) 참고)을 상당 부분 제거하고, CBSS 의 분리 성능을 큰 폭으로 다시 향상시키는 것을 알 수 있다. 즉, 본 제안 방법이 잡음과 반향 환경에서 잡음 및 반향을 제거하고 본 특정화 자의 음성을 복원하는데 적합함을 입증한다.
표 1과 표 2는 각각 여성과 남성이 특정화자일 경우, 여러 상황에서 본 방법의 복원 결과를 평가한 것이다. 특히 SDR 값의 증가분을 통해(각 표의 마지막 줄), 본 방법이 반향과 잡음에 의해서 생기는 왜곡을(식 (16) 참고)을 상당 부분 제거하고, CBSS 의 분리 성능을 큰 폭으로 다시 향상시키는 것을 알 수 있다. 즉, 본 제안 방법이 잡음과 반향 환경에서 잡음 및 반향을 제거하고 본 특정화 자의 음성을 복원하는데 적합함을 입증한다.
후속연구
또한 잡음 및 반향 환경에서의 실험을 통하여 본제 안 방법이 특정화자의 음성에 가까운 음성 신호를 복원함을 확인할 수 있었다. 다만 본 방법이 신뢰성 있는 복원성능을 보이기 위해서는 특정화자의 주파수 특성이 방해 음원의 그것과는 달라야 한다는 한계점이 있다. 즉, 아직 본 방법은 2명의 여성화자나 2명의 남성화자 간의 대화에서 특정화자의 음성만을 선택하여 복원하지 못한다.
참고문헌 (28)
L. C. Parra, C. Spence, 'Convolutive blind source separation of non-stationary sources,' IEEE Trans. Speech and Audio Processing 320-327, 2000
D. Pham, C. Serviere, H. Boumaraf, 'Blind separation of convolutive audio mixtures using nonstationarity,' in: Proceedings of the International Conference on Independent Component Analysis and Blind Signal Separation, pp. 107-110, 2003
K. Torkkola, 'Blind separation of convolved sources based on information maximization,' in: Proceedings of the IEEE Workshop on Neural Networks for Signal Processing, pp. 423-432, 1996
S. Amari, S. C. Douglas, A. Cichocki, H. H. Yang, 'Multichannel blind deconvolution and equalization using the natural gradient,' in: Proceedings of the IEEE International Conference on Signal Processing Advances in Wireless Communications, Paris, France, pp. 101-104, 1997
P. Smaragdis, 'Information-theoretic approaches to source separation,' Master's thesis, Massachusetts Institute of Technology, 1997
extraction from interferences in real environment using bank of lters and blind source separation, in:Proceedings Third AustralianWorkshop on Signal Processing and Applications, 2000
H. Sawada, S. Araki, R. Mukai, S. Makino, 'Blind extraction of a dominant source from mixtures of many sources using ica and time-frequency masking,'
S. Y. Low, R. Togneri, S. Nordholm, 'Spatiotemporal processing for distant speech recognition,' in: Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, 2004
D. D. Lee, H. S. Seung, 'Algorithms for nonnegative matrix factorization,' in: Advances in Neural Information Processing Systems, Vol. 13, MIT Press, 2001
P. O. Hoyer, 'Non-negative matrix factorization with sparseness constraints,' Journal of Machine Learning Research 5, 1457-1469, 2004
P. D. O. Grady, B. A. Pearlmutter, 'Convolutive non-negative matrix factorisation with sparseness constraint,' in: Proceedings of the IEEE International Workshop on Machine Learning for Signal Processing, 2006
T. Hofmann, 'Probablistic latent semantic indexing,' in: Proceedings of the ACM SIGIR International Conference on Research and Development in Information Retrieval, 1999
B. Raj, P. Smaragdis, 'Latent variable decomposition of spectrograms for single channel speaker separation,' in: IEEE Workshop of Applications of Signal Processing to Audio and Acoustics, pp.17-20, 2005
Jiho Yoo and Seungjin Choi (2008), 'Orthogonal nonnegative matrix factorization: Multiplicative updates on Stiefel manifolds,' in Proceedings of the 9th International Conference on Intelligent Data Engineering and Automated Learning, IDEAL-2008
E. Visser, M. Otsuka, Lee, 'A spatiotemporal speech enhancement scheme for robust speech recognition in noisy environments,' Speech Communication 41(15), 393-407, 2003
C. Choi, G. Jang, Y. Lee, S. R. Kim, 'Adaptive cross-channel interference cancellation on blind source separation outputs,' in: Proceedings of International Conference on Independent Component Analysis and Blind Signal Separation, 2004
J. Kocinski, 'Speech intelligibility improvement using convolutive blind source separation assisted by denoising algorithms,' Speech Communication 50, 29-37, 2008
M. V. S. Shashanka, P. Smaragdis, 'Sparse overcomplete decomposition for single channel speaker separation,' in: Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, pp. 641-644, 2007
P. Smaragdis, B. Raj, M. Shashanka, 'Supervised and semi-supervised separation of sounds from single-channel mixtures,' in: Proceedings of International Conference on Independent Component Analysis and Signal Separation, 2007
M. V. S. Shashanka, 'Latent variable framework for modeling and separating single channel acoustic sources,' Ph.D. thesis, Department of Cognitive and Neural Systems, Boston University, 2007
M. Brand, 'Structure learning in conditional probability models via an entropic prior and parameter extinction, Neural Computation,' 11(5), 1155-1182, 1999
J. F. Cardoso, A. 'Souloumiac, Blind beamforming for non Gaussian signals,' IEE Proceedings-F 140(6), 362-370, 1993.
A. Belouchrani, K. Abed-Merain, J. F. Cardoso, E. Moulines, 'A blind source separation technique using second order statistics,' IEEE Trans. Signal Processing 45, 434-444, 1997
S. Choi, A. Cichocki, A. Belouchrani, 'Blind separation of second-order nonstationary and temporally colored sources,' in: Proceedings of IEEE Workshop on Statistical Signal Processing, Singapore, pp. 444-447, 2001
A. Ziehe, P. Laskov, G. Nolte, K. R. Muller, 'A fast algorithm for joint diagonalization with nonorthogonal transformations and its application to blind source separation,' Journal of Machine Learning Research 5, 777-800, 2004
D. T. Pham, 'Joint approximate diagonalization of positive denite matrices,' 22(4), 1163-1152, 2001.
D. R. Campbell, K. J. Palomaki, G. J. Brown, A 'matlab simulation of shoebox room acoustics for use in research and teaching,' Computing and Information Systems Journal 9(3), 1352-1404, 2005
E. Vincent, C. Fevotte, R. Gribonval, 'Performance measurement in blind audio source separation,' IEEE Trans. on Audio, Speech and Language Processing 14(4), 1462-1469, 2006
※ AI-Helper는 부적절한 답변을 할 수 있습니다.