채널 기반에서 객체 기반의 오디오 콘텐츠로의 변환을 위한 비균등 선형 마이크로폰 어레이 기반의 음원분리 방법 Non-uniform Linear Microphone Array Based Source Separation for Conversion from Channel-based to Object-based Audio Content원문보기
오늘날 UHDTV (Ultra-High-Definition TV) 시대에 사용될 멀티미디어 부호화기로 MPEG-H에 대한 표준화가 진행되고 있다. 향후 방송용 오디오 콘텐츠는 채널 기반 오디오 콘텐츠에서 진화하여 객체 기반 오디오 콘텐츠까지도 포함하게 될 예정이다. 이에 따라, 채널 기반 오디오 콘텐츠의 객체 기반 오디오 콘텐츠로의 유기적인 변환이 필요한 실정이다. 본 논문에서는 이러한 유기적인 변환을 실현 가능하게 할 수 있는 비균등 선형 마이크로폰 어레이 기반의 음원분리 기법을 제안한다. 제안된 기법은 주어진 어레이 배치에 따라 채널간의 시간차를 분석하고, 분석된 시간차에 따라 주파수별로 특정 방위각에 위치한 입력 오디오 신호의 spectral magnitude를 예측한다. 이후, azimuth와 width 파라메타를 조정함으로써 객체 오디오 생성을 위한 음원을 분리한다. 제안된 음원분리 기법의 성능을 평가하기 위하여 객관적 음원분리 지표 및 분리정확도를 측정하였고, 최소 분산 무손실 응답 빔형성기와 독립 성분 분석 기법 등 기존 음원분리 기법과의 그 성능을 비교하였다. 비교 결과, 제안된 기법이 기존 음원분리 기법들에 비하여 우수한 음원분리 성능을 보이는 것을 알 수 있었다.
오늘날 UHDTV (Ultra-High-Definition TV) 시대에 사용될 멀티미디어 부호화기로 MPEG-H에 대한 표준화가 진행되고 있다. 향후 방송용 오디오 콘텐츠는 채널 기반 오디오 콘텐츠에서 진화하여 객체 기반 오디오 콘텐츠까지도 포함하게 될 예정이다. 이에 따라, 채널 기반 오디오 콘텐츠의 객체 기반 오디오 콘텐츠로의 유기적인 변환이 필요한 실정이다. 본 논문에서는 이러한 유기적인 변환을 실현 가능하게 할 수 있는 비균등 선형 마이크로폰 어레이 기반의 음원분리 기법을 제안한다. 제안된 기법은 주어진 어레이 배치에 따라 채널간의 시간차를 분석하고, 분석된 시간차에 따라 주파수별로 특정 방위각에 위치한 입력 오디오 신호의 spectral magnitude를 예측한다. 이후, azimuth와 width 파라메타를 조정함으로써 객체 오디오 생성을 위한 음원을 분리한다. 제안된 음원분리 기법의 성능을 평가하기 위하여 객관적 음원분리 지표 및 분리정확도를 측정하였고, 최소 분산 무손실 응답 빔형성기와 독립 성분 분석 기법 등 기존 음원분리 기법과의 그 성능을 비교하였다. 비교 결과, 제안된 기법이 기존 음원분리 기법들에 비하여 우수한 음원분리 성능을 보이는 것을 알 수 있었다.
Recently, MPEG-H has been standardizing for a multimedia coder in UHDTV (Ultra-High-Definition TV). Thus, the demand for not only channel-based audio contents but also object-based audio contents is more increasing, which results in developing a new technique of converting channel-based audio conten...
Recently, MPEG-H has been standardizing for a multimedia coder in UHDTV (Ultra-High-Definition TV). Thus, the demand for not only channel-based audio contents but also object-based audio contents is more increasing, which results in developing a new technique of converting channel-based audio contents to object-based ones. In this paper, a non-uniform linear microphone array based source separation method is proposed for realizing such conversion. The proposed method first analyzes the arrival time differences of input audio sources to each of the microphones, and the spectral magnitudes of each sound source are estimated at the horizontal directions based on the analyzed time differences. In order to demonstrate the effectiveness of the proposed method, objective performance measures of the proposed method are compared with those of conventional methods such as an MVDR (Minimum Variance Distortionless Response) beamformer and an ICA (Independent Component Analysis) method. As a result, it is shown that the proposed separation method has better separation performance than the conventional separation methods.
Recently, MPEG-H has been standardizing for a multimedia coder in UHDTV (Ultra-High-Definition TV). Thus, the demand for not only channel-based audio contents but also object-based audio contents is more increasing, which results in developing a new technique of converting channel-based audio contents to object-based ones. In this paper, a non-uniform linear microphone array based source separation method is proposed for realizing such conversion. The proposed method first analyzes the arrival time differences of input audio sources to each of the microphones, and the spectral magnitudes of each sound source are estimated at the horizontal directions based on the analyzed time differences. In order to demonstrate the effectiveness of the proposed method, objective performance measures of the proposed method are compared with those of conventional methods such as an MVDR (Minimum Variance Distortionless Response) beamformer and an ICA (Independent Component Analysis) method. As a result, it is shown that the proposed separation method has better separation performance than the conventional separation methods.
따라서, 본 논문에서는 고품질의 방송용 오디오 콘텐츠를 제작하기 위한 비균등 선형 마이크로폰 어레이 기반의 음원분리 기법을 제안한다. 제안된 기법에서는 비균등 선형 마이크로폰 어레이에 맞게 채널간의 시간차를 분석하고, 분석된 시간차에 상응하는 azimuth-frequency (AF) plane을 생성한다[9,10].
본 논문에서는 비균등 선형 마이크로폰 어레이 환경에서 고품질의 객체 오디오 콘텐츠 제작을 위한 음원분리 기술을 제안하였다. 제안된 음원분리 기법은 마이크로폰 어레이를 활용하여 채널간의 시간차를 분석하고 AF plane을 생성하였다.
가설 설정
ICA 기법에서는 혼합 행렬 W를 예측하기 위하여 객체 오디오 신호들이 독립적인 특성을 가진다는 가정에 더해서 non-Gaussian 특성을 가진다고 가정한다[15]. 이에 따라, 아래 식과 같은 fourth-order cumulant인 kurtosis를 활용할 수 있다.
제안 방법
본 논문에서 제안된 음원분리 기법의 성능을 평가하기 위하여 공연 잔향이 존재하는 소극장 환경에서 연주자들이 악기를 연주하는 합주를 녹음 받고, 이를 제안된 음원분리 기법을 통하여 각각의 객체 오디오를 획득하였다. 음원분리 기술의 성능은 객관적 분리지표[11] 및 분리정확도 지표[12]로 측정하고, 기존 음원분리 기법인 ICA와 MVDR 빔형성기와의 그 성능을 비교한다.
제안된 기법은 주어진 어레이 배치에 따라 채널간의 시간차를 분석하고, 분석된 시간차에 따라 주파수별로 특정 방위각에 위치한 입력 오디오 신호의 magnitude를 예측하였다. 이후, azimuth와 width 파라메타를 조절함으로 써 객체 오디오 생성을 위한 음원분리를 수행하였다. 제안된 기법의 성능을 평가하기 위하여 실제 공연이 이루어질 수 있는 소극장에서 실제 연주가가 연주하는 객체 오디오를 녹음 받고, 녹음된 콘텐츠를 활용하여 여러 가지 객관적 성능 지표를 측정하였다.
따라서, 본 논문에서는 고품질의 방송용 오디오 콘텐츠를 제작하기 위한 비균등 선형 마이크로폰 어레이 기반의 음원분리 기법을 제안한다. 제안된 기법에서는 비균등 선형 마이크로폰 어레이에 맞게 채널간의 시간차를 분석하고, 분석된 시간차에 상응하는 azimuth-frequency (AF) plane을 생성한다[9,10]. 이후, 생성된 AF plane으로부터 주파수별로 최대값이 되는 방위각에 대해서 입력 오디오 신호의 magnitude를 예측하게 된다.
제안된 음원분리 기법은 마이크로폰 어레이를 활용하여 채널간의 시간차를 분석하고 AF plane을 생성하였다. 제안된 기법은 주어진 어레이 배치에 따라 채널간의 시간차를 분석하고, 분석된 시간차에 따라 주파수별로 특정 방위각에 위치한 입력 오디오 신호의 magnitude를 예측하였다. 이후, azimuth와 width 파라메타를 조절함으로 써 객체 오디오 생성을 위한 음원분리를 수행하였다.
이후, azimuth와 width 파라메타를 조절함으로 써 객체 오디오 생성을 위한 음원분리를 수행하였다. 제안된 기법의 성능을 평가하기 위하여 실제 공연이 이루어질 수 있는 소극장에서 실제 연주가가 연주하는 객체 오디오를 녹음 받고, 녹음된 콘텐츠를 활용하여 여러 가지 객관적 성능 지표를 측정하였다. 성능 평가 결과, 제안된 기법이 기존 음원분리 기법들에 비하여 높은 SDR, SAR, SIR를 보였고, 높은 분리정확도를 보였다.
본 논문에서는 비균등 선형 마이크로폰 어레이 환경에서 고품질의 객체 오디오 콘텐츠 제작을 위한 음원분리 기술을 제안하였다. 제안된 음원분리 기법은 마이크로폰 어레이를 활용하여 채널간의 시간차를 분석하고 AF plane을 생성하였다. 제안된 기법은 주어진 어레이 배치에 따라 채널간의 시간차를 분석하고, 분석된 시간차에 따라 주파수별로 특정 방위각에 위치한 입력 오디오 신호의 magnitude를 예측하였다.
대상 데이터
그리고 나서, azimuth 및 width 파라메타를 조절함으로써 음원분리가 수행된다. 본 논문에서 제안된 음원분리 기법의 성능을 평가하기 위하여 공연 잔향이 존재하는 소극장 환경에서 연주자들이 악기를 연주하는 합주를 녹음 받고, 이를 제안된 음원분리 기법을 통하여 각각의 객체 오디오를 획득하였다. 음원분리 기술의 성능은 객관적 분리지표[11] 및 분리정확도 지표[12]로 측정하고, 기존 음원분리 기법인 ICA와 MVDR 빔형성기와의 그 성능을 비교한다.
이론/모형
객관적 성능을 평가하기 위해서 음원분리 기법에서 객관적 척도로 사용되는 SDR (Source-to-Distortion Ratio), SIR(Source-to-Interference Ratio), SAR (Source-to-Artifacts Ratio)를 각각 측정하였다[10]. 여기서, SIR과 SAR은 분리된 객체 오디오 신호가 다른 오디오 신호의 interference를 얼마만큼 적게 받는 지와 음질이 얼마큼 열화되는 지를 각각 나타내고, SDR은 종합적인 distortion을 나타내는 지표이다.
여기서, Xl(k)는 다채널 마이크로폰 어레이에서 설정한 da와 가장 가까운 마이크로폰, 즉 l번째 마이크로폰의 으로 획득한 주파수 영역 신호를 가리킨다. 그리고, 4096-point inverse STFT을 적용하고 overlap-add 기법을 통해 객체 오디오 신호를 최종적으로 획득한다.
분리정확도는 분리된 신호가 실제 reference 음원 중에서 어떤 음원과 가장 유사한 지를 프레임별로 correlation을 측정하고 correlation이 가장 큰 reference 객체와 가장 유사하다고 판단하여 이를 통계적으로 수치화한 것이다[12]. 상대적인 성능 비교를 위해서 MVDR 빔형성기[4]와 ICA 기법[2]으로 처리된 음원의 객관적 성능 수치도 측정하였다.
성능/효과
제안된 기법의 성능을 평가하기 위하여 실제 공연이 이루어질 수 있는 소극장에서 실제 연주가가 연주하는 객체 오디오를 녹음 받고, 녹음된 콘텐츠를 활용하여 여러 가지 객관적 성능 지표를 측정하였다. 성능 평가 결과, 제안된 기법이 기존 음원분리 기법들에 비하여 높은 SDR, SAR, SIR를 보였고, 높은 분리정확도를 보였다. 이를 통해 제안된 기법이 기존 기법들의 비하여 상대적으로 적은 음질 왜곡으로 높은 분리 성능을 보이는 것으로 볼 수 있다.
성능 평가 결과, 제안된 기법이 기존 음원분리 기법들에 비하여 높은 SDR, SAR, SIR를 보였고, 높은 분리정확도를 보였다. 이를 통해 제안된 기법이 기존 기법들의 비하여 상대적으로 적은 음질 왜곡으로 높은 분리 성능을 보이는 것으로 볼 수 있다. 하지만, 고품질 방송용 오디오 콘텐츠 확보의 차원에서 음원분리 기술의 성능에 대한 지표를 함께 연구할 필요가 있다.
후속연구
이를 통해 제안된 기법이 기존 기법들의 비하여 상대적으로 적은 음질 왜곡으로 높은 분리 성능을 보이는 것으로 볼 수 있다. 하지만, 고품질 방송용 오디오 콘텐츠 확보의 차원에서 음원분리 기술의 성능에 대한 지표를 함께 연구할 필요가 있다.
참고문헌 (17)
J. Herre, J. Hilpert, A. Kuntz, and J, Plogsties, “MPEG-H 3D audio—the new standard for coding of immersive spatial audio,” IEEE Journal of Selected Topics in Signal Processing, vol. 9, no. 5, pp. 770-779, Aug. 2015.
J. Herre, J. Hilpert, A. Kuntz, and J. Plogsties, “MPEG-H audio—the new standard for universal spatial/3D audio coding,” Journal of the Audio Engineering Society, vol. 62, no. 12, pp. 821-830, Dec. 2014.
S. Makino, T.-W. Lee, and H. Sawada, Blind Speech Separation, Springer, Netherlands, 2007.
A. Hyvärinen, J. Karhunen, and E. Oja, Independent Component Analysis, John Wiley & Sons, Inc., Canada, 2001.
D. F. Rosenthal and H. G. Okuno, Computational Auditory Scene Analysis, LEA Publishers, Mahwah, NJ, 1998.
H. Cox, R. M. Zeskind, and M. M. Owen, “Robust adaptive beamforming,” IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 35, no. 10, pp. 1365-1375, Oct. 1987.
O. Yilmaz and S. Rickard, “Blind separation of speech mixtures via time-frequency masking,” IEEE Transactions on Signal Processing, vol. 52, no. 7, pp. 1830-1847, July 2004.
H. Adel, M. Souad, A. Alaqeeli, and A. Hamid, “Beamforming techniques for multichannel audio signal separation,” International Journal of Digital Content Technology and its Applications, vol. 6, no. 20, pp. 659-667, Nov. 2012.
D. Barry, B. Lawlor, and E. Coyle, "Sound source separation: azimuth discrimination and resynthesis," in Proceedings of International Conference on Digital Audio Effects (DAFX-04), pp. 1-5, Naples, Italy, Oct. 2004.
C. J. Chun and H. K. Kim, "Sound source separation using interaural intensity difference in real environments," in Proceedings of 135th Audio Engineering Society (AES) Convention, Preprint 8976, New York, NY, Oct. 2013.
E. Vincent, R. Gribonval, and C. Fevotte, “Performance measurement in blind audio source separation,” IEEE Transactions on Audio, Speech and Language Processing, vol. 14, no. 4, pp. 1462–1469, July 2006.
A. L. Casanovas, G. Monaci, P. Vandergheynst, and R. Gribonval, “Blind audiovisual source separation based on sparse redundant representations,” IEEE Transactions on Multimedia, vol. 12, no. 5, pp. 358-371, Aug. 2010.
J. Benesty, J. Chen, and Y. Huang, Microphone Array Signal Processing, Springer, Berlin, Germany, 2008.
M. Brandstein and D. Ward, Microphone Arrays: Signal Processing Techniques and Applications, Springer, Berlin, Germany, 2001.
A. Hyvärinen and E. Oja, “A fast fixed-point algorithm for independent component analysis,” Neural Computation, vol. 9, no. 7, pp. 1483-1492, Oct. 1997.
J. Breebaart, and C. Faller, Spatial Audio Processing: MPEG Surround and Other Applications, John Wiley & Sons, Ltd., Chichester, UK, 2007.
J. Dmochowski, J. Benesty, and S. Affes, “On spatial aliasing in microphone arrays,” IEEE Transactions on Signal Processing, vol. 57, no. 4, pp. 1383-1395, Apr. 2009.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.