[논문]채널 기반에서 객체 기반의 오디오 콘텐츠로의 변환을 위한 비균등 선형 마이크로폰 어레이 기반의 음원분리 방법

전찬준; 김홍국

doi:10.5909/jbe.2016.21.2.169

초록
AI-Helper

오늘날 UHDTV (Ultra-High-Definition TV) 시대에 사용될 멀티미디어 부호화기로 MPEG-H에 대한 표준화가 진행되고 있다. 향후 방송용 오디오 콘텐츠는 채널 기반 오디오 콘텐츠에서 진화하여 객체 기반 오디오 콘텐츠까지도 포함하게 될 예정이다. 이에 따라, 채널 기반 오디오 콘텐츠의 객체 기반 오디오 콘텐츠로의 유기적인 변환이 필요한 실정이다. 본 논문에서는 이러한 유기적인 변환을 실현 가능하게 할 수 있는 비균등 선형 마이크로폰 어레이 기반의 음원분리 기법을 제안한다. 제안된 기법은 주어진 어레이 배치에 따라 채널간의 시간차를 분석하고, 분석된 시간차에 따라 주파수별로 특정 방위각에 위치한 입력 오디오 신호의 spectral magnitude를 예측한다. 이후, azimuth와 width 파라메타를 조정함으로써 객체 오디오 생성을 위한 음원을 분리한다. 제안된 음원분리 기법의 성능을 평가하기 위하여 객관적 음원분리 지표 및 분리정확도를 측정하였고, 최소 분산 무손실 응답 빔형성기와 독립 성분 분석 기법 등 기존 음원분리 기법과의 그 성능을 비교하였다. 비교 결과, 제안된 기법이 기존 음원분리 기법들에 비하여 우수한 음원분리 성능을 보이는 것을 알 수 있었다.

Abstract ▼ AI-Helper

Recently, MPEG-H has been standardizing for a multimedia coder in UHDTV (Ultra-High-Definition TV). Thus, the demand for not only channel-based audio contents but also object-based audio contents is more increasing, which results in developing a new technique of converting channel-based audio conten...

Recently, MPEG-H has been standardizing for a multimedia coder in UHDTV (Ultra-High-Definition TV). Thus, the demand for not only channel-based audio contents but also object-based audio contents is more increasing, which results in developing a new technique of converting channel-based audio contents to object-based ones. In this paper, a non-uniform linear microphone array based source separation method is proposed for realizing such conversion. The proposed method first analyzes the arrival time differences of input audio sources to each of the microphones, and the spectral magnitudes of each sound source are estimated at the horizontal directions based on the analyzed time differences. In order to demonstrate the effectiveness of the proposed method, objective performance measures of the proposed method are compared with those of conventional methods such as an MVDR (Minimum Variance Distortionless Response) beamformer and an ICA (Independent Component Analysis) method. As a result, it is shown that the proposed separation method has better separation performance than the conventional separation methods.

주제어

AI 본문요약
AI-Helper

문제 정의

따라서, 본 논문에서는 고품질의 방송용 오디오 콘텐츠를 제작하기 위한 비균등 선형 마이크로폰 어레이 기반의 음원분리 기법을 제안한다. 제안된 기법에서는 비균등 선형 마이크로폰 어레이에 맞게 채널간의 시간차를 분석하고, 분석된 시간차에 상응하는 azimuth-frequency (AF) plane을 생성한다[9,10].
본 논문에서는 비균등 선형 마이크로폰 어레이 환경에서 고품질의 객체 오디오 콘텐츠 제작을 위한 음원분리 기술을 제안하였다. 제안된 음원분리 기법은 마이크로폰 어레이를 활용하여 채널간의 시간차를 분석하고 AF plane을 생성하였다.

가설 설정

ICA 기법에서는 혼합 행렬 W를 예측하기 위하여 객체 오디오 신호들이 독립적인 특성을 가진다는 가정에 더해서 non-Gaussian 특성을 가진다고 가정한다[15]. 이에 따라, 아래 식과 같은 fourth-order cumulant인 kurtosis를 활용할 수 있다.

제안 방법

본 논문에서 제안된 음원분리 기법의 성능을 평가하기 위하여 공연 잔향이 존재하는 소극장 환경에서 연주자들이 악기를 연주하는 합주를 녹음 받고, 이를 제안된 음원분리 기법을 통하여 각각의 객체 오디오를 획득하였다. 음원분리 기술의 성능은 객관적 분리지표[11] 및 분리정확도 지표[12]로 측정하고, 기존 음원분리 기법인 ICA와 MVDR 빔형성기와의 그 성능을 비교한다.
제안된 기법은 주어진 어레이 배치에 따라 채널간의 시간차를 분석하고, 분석된 시간차에 따라 주파수별로 특정 방위각에 위치한 입력 오디오 신호의 magnitude를 예측하였다. 이후, azimuth와 width 파라메타를 조절함으로 써 객체 오디오 생성을 위한 음원분리를 수행하였다. 제안된 기법의 성능을 평가하기 위하여 실제 공연이 이루어질 수 있는 소극장에서 실제 연주가가 연주하는 객체 오디오를 녹음 받고, 녹음된 콘텐츠를 활용하여 여러 가지 객관적 성능 지표를 측정하였다.
따라서, 본 논문에서는 고품질의 방송용 오디오 콘텐츠를 제작하기 위한 비균등 선형 마이크로폰 어레이 기반의 음원분리 기법을 제안한다. 제안된 기법에서는 비균등 선형 마이크로폰 어레이에 맞게 채널간의 시간차를 분석하고, 분석된 시간차에 상응하는 azimuth-frequency (AF) plane을 생성한다[9,10]. 이후, 생성된 AF plane으로부터 주파수별로 최대값이 되는 방위각에 대해서 입력 오디오 신호의 magnitude를 예측하게 된다.
제안된 음원분리 기법은 마이크로폰 어레이를 활용하여 채널간의 시간차를 분석하고 AF plane을 생성하였다. 제안된 기법은 주어진 어레이 배치에 따라 채널간의 시간차를 분석하고, 분석된 시간차에 따라 주파수별로 특정 방위각에 위치한 입력 오디오 신호의 magnitude를 예측하였다. 이후, azimuth와 width 파라메타를 조절함으로 써 객체 오디오 생성을 위한 음원분리를 수행하였다.
이후, azimuth와 width 파라메타를 조절함으로 써 객체 오디오 생성을 위한 음원분리를 수행하였다. 제안된 기법의 성능을 평가하기 위하여 실제 공연이 이루어질 수 있는 소극장에서 실제 연주가가 연주하는 객체 오디오를 녹음 받고, 녹음된 콘텐츠를 활용하여 여러 가지 객관적 성능 지표를 측정하였다. 성능 평가 결과, 제안된 기법이 기존 음원분리 기법들에 비하여 높은 SDR, SAR, SIR를 보였고, 높은 분리정확도를 보였다.
본 논문에서는 비균등 선형 마이크로폰 어레이 환경에서 고품질의 객체 오디오 콘텐츠 제작을 위한 음원분리 기술을 제안하였다. 제안된 음원분리 기법은 마이크로폰 어레이를 활용하여 채널간의 시간차를 분석하고 AF plane을 생성하였다. 제안된 기법은 주어진 어레이 배치에 따라 채널간의 시간차를 분석하고, 분석된 시간차에 따라 주파수별로 특정 방위각에 위치한 입력 오디오 신호의 magnitude를 예측하였다.

대상 데이터

그리고 나서, azimuth 및 width 파라메타를 조절함으로써 음원분리가 수행된다. 본 논문에서 제안된 음원분리 기법의 성능을 평가하기 위하여 공연 잔향이 존재하는 소극장 환경에서 연주자들이 악기를 연주하는 합주를 녹음 받고, 이를 제안된 음원분리 기법을 통하여 각각의 객체 오디오를 획득하였다. 음원분리 기술의 성능은 객관적 분리지표[11] 및 분리정확도 지표[12]로 측정하고, 기존 음원분리 기법인 ICA와 MVDR 빔형성기와의 그 성능을 비교한다.

이론/모형

객관적 성능을 평가하기 위해서 음원분리 기법에서 객관적 척도로 사용되는 SDR (Source-to-Distortion Ratio), SIR(Source-to-Interference Ratio), SAR (Source-to-Artifacts Ratio)를 각각 측정하였다[10]. 여기서, SIR과 SAR은 분리된 객체 오디오 신호가 다른 오디오 신호의 interference를 얼마만큼 적게 받는 지와 음질이 얼마큼 열화되는 지를 각각 나타내고, SDR은 종합적인 distortion을 나타내는 지표이다.
여기서, Xl(k)는 다채널 마이크로폰 어레이에서 설정한 da와 가장 가까운 마이크로폰, 즉 l번째 마이크로폰의 으로 획득한 주파수 영역 신호를 가리킨다. 그리고, 4096-point inverse STFT을 적용하고 overlap-add 기법을 통해 객체 오디오 신호를 최종적으로 획득한다.
분리정확도는 분리된 신호가 실제 reference 음원 중에서 어떤 음원과 가장 유사한 지를 프레임별로 correlation을 측정하고 correlation이 가장 큰 reference 객체와 가장 유사하다고 판단하여 이를 통계적으로 수치화한 것이다[12]. 상대적인 성능 비교를 위해서 MVDR 빔형성기[4]와 ICA 기법[2]으로 처리된 음원의 객관적 성능 수치도 측정하였다.

성능/효과

제안된 기법의 성능을 평가하기 위하여 실제 공연이 이루어질 수 있는 소극장에서 실제 연주가가 연주하는 객체 오디오를 녹음 받고, 녹음된 콘텐츠를 활용하여 여러 가지 객관적 성능 지표를 측정하였다. 성능 평가 결과, 제안된 기법이 기존 음원분리 기법들에 비하여 높은 SDR, SAR, SIR를 보였고, 높은 분리정확도를 보였다. 이를 통해 제안된 기법이 기존 기법들의 비하여 상대적으로 적은 음질 왜곡으로 높은 분리 성능을 보이는 것으로 볼 수 있다.
성능 평가 결과, 제안된 기법이 기존 음원분리 기법들에 비하여 높은 SDR, SAR, SIR를 보였고, 높은 분리정확도를 보였다. 이를 통해 제안된 기법이 기존 기법들의 비하여 상대적으로 적은 음질 왜곡으로 높은 분리 성능을 보이는 것으로 볼 수 있다. 하지만, 고품질 방송용 오디오 콘텐츠 확보의 차원에서 음원분리 기술의 성능에 대한 지표를 함께 연구할 필요가 있다.

후속연구

이를 통해 제안된 기법이 기존 기법들의 비하여 상대적으로 적은 음질 왜곡으로 높은 분리 성능을 보이는 것으로 볼 수 있다. 하지만, 고품질 방송용 오디오 콘텐츠 확보의 차원에서 음원분리 기술의 성능에 대한 지표를 함께 연구할 필요가 있다.

참고문헌 (17)

J. Herre, J. Hilpert, A. Kuntz, and J, Plogsties, “MPEG-H 3D audio—the new standard for coding of immersive spatial audio,” IEEE Journal of Selected Topics in Signal Processing, vol. 9, no. 5, pp. 770-779, Aug. 2015.

상세보기
J. Herre, J. Hilpert, A. Kuntz, and J. Plogsties, “MPEG-H audio—the new standard for universal spatial/3D audio coding,” Journal of the Audio Engineering Society, vol. 62, no. 12, pp. 821-830, Dec. 2014.

상세보기
S. Makino, T.-W. Lee, and H. Sawada, Blind Speech Separation, Springer, Netherlands, 2007.
A. Hyvärinen, J. Karhunen, and E. Oja, Independent Component Analysis, John Wiley & Sons, Inc., Canada, 2001.
D. F. Rosenthal and H. G. Okuno, Computational Auditory Scene Analysis, LEA Publishers, Mahwah, NJ, 1998.
H. Cox, R. M. Zeskind, and M. M. Owen, “Robust adaptive beamforming,” IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 35, no. 10, pp. 1365-1375, Oct. 1987.

상세보기
O. Yilmaz and S. Rickard, “Blind separation of speech mixtures via time-frequency masking,” IEEE Transactions on Signal Processing, vol. 52, no. 7, pp. 1830-1847, July 2004.

상세보기
H. Adel, M. Souad, A. Alaqeeli, and A. Hamid, “Beamforming techniques for multichannel audio signal separation,” International Journal of Digital Content Technology and its Applications, vol. 6, no. 20, pp. 659-667, Nov. 2012.
D. Barry, B. Lawlor, and E. Coyle, "Sound source separation: azimuth discrimination and resynthesis," in Proceedings of International Conference on Digital Audio Effects (DAFX-04), pp. 1-5, Naples, Italy, Oct. 2004.
C. J. Chun and H. K. Kim, "Sound source separation using interaural intensity difference in real environments," in Proceedings of 135th Audio Engineering Society (AES) Convention, Preprint 8976, New York, NY, Oct. 2013.
E. Vincent, R. Gribonval, and C. Fevotte, “Performance measurement in blind audio source separation,” IEEE Transactions on Audio, Speech and Language Processing, vol. 14, no. 4, pp. 1462–1469, July 2006.

상세보기
A. L. Casanovas, G. Monaci, P. Vandergheynst, and R. Gribonval, “Blind audiovisual source separation based on sparse redundant representations,” IEEE Transactions on Multimedia, vol. 12, no. 5, pp. 358-371, Aug. 2010.

상세보기
J. Benesty, J. Chen, and Y. Huang, Microphone Array Signal Processing, Springer, Berlin, Germany, 2008.
M. Brandstein and D. Ward, Microphone Arrays: Signal Processing Techniques and Applications, Springer, Berlin, Germany, 2001.
A. Hyvärinen and E. Oja, “A fast fixed-point algorithm for independent component analysis,” Neural Computation, vol. 9, no. 7, pp. 1483-1492, Oct. 1997.

상세보기
J. Breebaart, and C. Faller, Spatial Audio Processing: MPEG Surround and Other Applications, John Wiley & Sons, Ltd., Chichester, UK, 2007.
J. Dmochowski, J. Benesty, and S. Affes, “On spatial aliasing in microphone arrays,” IEEE Transactions on Signal Processing, vol. 57, no. 4, pp. 1383-1395, Apr. 2009.

상세보기

이 논문을 인용한 문헌

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

채널 기반에서 객체 기반의 오디오 콘텐츠로의 변환을 위한 비균등 선형 마이크로폰 어레이 기반의 음원분리 방법
Non-uniform Linear Microphone Array Based Source Separation for Conversion from Channel-based to Object-based Audio Content 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (17)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

채널 기반에서 객체 기반의 오디오 콘텐츠로의 변환을 위한 비균등 선형 마이크로폰 어레이 기반의 음원분리 방법 Non-uniform Linear Microphone Array Based Source Separation for Conversion from Channel-based to Object-based Audio Content 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (17)

이 논문을 인용한 문헌

저자의 다른 논문 :

전찬준 (4) 김홍국 (24)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

채널 기반에서 객체 기반의 오디오 콘텐츠로의 변환을 위한 비균등 선형 마이크로폰 어레이 기반의 음원분리 방법
Non-uniform Linear Microphone Array Based Source Separation for Conversion from Channel-based to Object-based Audio Content 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper