[논문]순환 확률분포를 이용한 다중 음원 방향 추정

남승현; 김용호

doi:10.7776/ask.2011.30.6.308

초록
AI-Helper

본 논문에서는 주기성을 갖는 순환 확률분포를 이용하여 $0^{\circ}{\sim}360^{\circ}$ 범위의 다중 음원의 방향을 추정하는 기법을 제안한다. 음원의 방향 정보를 담고 있는 마이크로폰간의 위상차는 확률분포의 혼합물로 간주될 수 있으며, 음원 방향은 이 확률분포의 혼합물에 적용된 로그-우도함수 (log-likelihood function)를 최대화함으로써 추정된다. 주기성을 갖는 데이터의 분석에 von Mises 확률분포가 널리 활용된다는 사실은 잘 알려져 있지만, 본 논문에서는 기존의 Gaussian이나 Laplacian 확률분포에 $2{\pi}$ 모듈로 (modulo) 연산을 적용함으로써 $0^{\circ}{\sim}360^{\circ}$ 범위의 주기성을 갖는 순환 확률분포를 정의하고 이를 방향 추정에 활용한다. 순환 확률분포의 혼합물에 대한 로그-우도함수를 최대가 되게 하는 음원의 방향은 EM (Expectation-Maximization) 알고리즘을 이용하여 추정된다. 다양한 반향 환경에서의 실험 결과 Laplacian 확률분포가 von Mises나 Gaussian 확률분포보다 우수한 성능을 제공함을 확인할 수 있다.

Abstract ▼ AI-Helper

This paper presents techniques for estimating directions of multiple sound sources ranging from $0^{\circ}$ to $360^{\circ}$ using circular probability distributions having a periodic property. Phase differences containing direction information of sources can be modeled as mixt...

This paper presents techniques for estimating directions of multiple sound sources ranging from $0^{\circ}$ to $360^{\circ}$ using circular probability distributions having a periodic property. Phase differences containing direction information of sources can be modeled as mixtures of multiple probability distributions and source directions can be estimated by maximizing log-likelihood functions. Although the von Mises distribution is widely used for analyzing this kind of periodic data, we define a new class of circular probability distributions from Gaussian and Laplacian distributions by adopting a modulo operation to have $2{\pi}$-periodicity. Direction estimation with these circular probability distributions is done by implementing corresponding EM (Expectation-Maximization) algorithms. Simulation results in various reverberant environments confirm that Laplacian distribution provides better performance than von Mises and Gaussian distributions.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 다중 음원의 방향 추정을 위해 주기성을 갖는 순환 확률분포인 von Mises, wrapped Gaussian, wrapped Laplacian을 기술하고 이들을 이용한 방향추정 알고리즘을 도출하였다. 다양한 환경에서의 음원의 방향 추정 성능을 비교한 결과, 방향 추정은 방의 구조, 반향 정도, 잡음의 유무와 음원들 간의 상호 작용 등에 따라 달라지는 것을 확인할 수 있었다.

가설 설정

본 논문에서는 그림 2와 같이 3개의 마이크로폰으로 구성된 정삼각형 구조의 어레이를 고려한다. 마이크로폰 사이의 간격은 d이고 음원의 방향은 마이크로폰 1을 기준으로 시계방향으로 양의 각도를 갖는다고 가정된다. τ_ij를 마이크로폰 i와 j 간의 시간지연이라고 하면, 음원의 방향 Θ는 마이크로폰 2, 3을 기준으로 할 때 다음의 관계를 갖는다.
센서 잡음을 고려하기 위해 백색잡음을 추가하여 SNR이 15dB가 되도록 하였다. 음원의 개수는 사전에 알고 있다고 가정하였으며, EM 알고리즘의 방향 초기값은 GCCPHAT 히스토그램의 결과를 적용하였다. EM 알고리즘의 최대 반복횟수는 50으로 설정하였다.

제안 방법

다음 2π 주기성을 갖는 von Mises 확률분포를 소개하고, Gaussian과 Laplacian을 주기 데이터에 적용하기 위해 필요한 변형에 대하여 기술하며, 이들 순환 확률분포 함수들을 이용한 음원의 방향 추정을 위한 EM 알고리즘을 도출한다.
다중 음원 환경에서 센서잡음이나 배경잡음의 영향을 살펴보기 위하여 SNR이 15 dB일 때 성능을 표 3에 비교하였다. 표 2와 3에서 확인할 수 있는 흥미로운 점은, vMMM이나 wGMM의 경우 잡음이 없는 환경에서의 성능이 잡음이 있는 환경에서의 성능보다 더 저조하다는 것이다.
von Mises와 wrapped Gaussian 확률분포는 이러한 환경적 인자에 민감하게 반응하는 반면에, wrapped Laplacian은 이러한 환경적 인자에 매우 강인하다는 사실을 확인할 수 있었다. 또한 wrapped Laplacian은 모든 환경에서 von Mises와 wrapped Gaussian에 비하여 훨씬 우수한 방향 추정 정확도를 제공한다.
다음 2π 주기성을 갖는 von Mises 확률분포를 소개하고, Gaussian과 Laplacian을 주기 데이터에 적용하기 위해 필요한 변형에 대하여 기술하며, 이들 순환 확률분포 함수들을 이용한 음원의 방향 추정을 위한 EM 알고리즘을 도출한다. 마지막으로 컴퓨터 모의실험을 통해 순환 확률분포들의 성능을 비교한다.
반향조건이 각각 T60= 50 ms, 100 ms, 200 ms인 조건에서 단일 음원에 대한 RMSE를 비교하였다. 그림 3는 T60= 200 ms 일 때 음원의 위치에 따른 성능을 보여준다.
이 논문에서는 먼저 3개의 마이크로폰으로 구성된 정삼각형 마이크로폰 어레이의 구조와 공간 에일리어싱 문제를 기술한다. 다음 2π 주기성을 갖는 von Mises 확률분포를 소개하고, Gaussian과 Laplacian을 주기 데이터에 적용하기 위해 필요한 변형에 대하여 기술하며, 이들 순환 확률분포 함수들을 이용한 음원의 방향 추정을 위한 EM 알고리즘을 도출한다.
표 2와 3에서 확인할 수 있는 흥미로운 점은, vMMM이나 wGMM의 경우 잡음이 없는 환경에서의 성능이 잡음이 있는 환경에서의 성능보다 더 저조하다는 것이다. 이러한 점을 더 자세히 확인하기 위하여 잡음이 없는 환경 (그림 4)과 잡음이 있는 환경에서 (그림 5) vMMM의 추정 결과를 확인하였다. 그림 4는 295°의 음원 추정이 250°의 음원에 영향을 받아 확률분포 함수의 중앙이 실제 음원의 위치보다 왼쪽으로 이동되었음을 보여준다.

대상 데이터

다중음원에 대한 성능을 평가하기 위하여 4개의 음원이 50°, 170°, 250°, 295°의 위치에 동시에 존재하는 경우를 고려하였다.
본 논문에서는 그림 2와 같이 3개의 마이크로폰으로 구성된 정삼각형 구조의 어레이를 고려한다. 마이크로폰 사이의 간격은 d이고 음원의 방향은 마이크로폰 1을 기준으로 시계방향으로 양의 각도를 갖는다고 가정된다.
5 m 크기의 방 중앙에 마이크로폰 어레이가 놓여져 있으며 마이크로폰 사이의 간격은 d = 5 cm이고 음원들은 마이크로폰 어레이로부터 1 m 거리에 떨어져 있다. 사용된 음성신호는 16 kHz로 샘플링되었으며 5초 길이의 분량이다. 다중 음원의 경우 각 음원 파일의 에너지가 동일하도록 정규화된 다음 임펄스 응답과 콘볼루션 합성하였다.
제안된 알고리즘들의 성능을 비교 평가하기 위하여 다음과 같이 모의실험을 실시하였다. 실험에 사용된 임펄스 응답은 MATLAB 패캐지인 Roomsim[14]을 이용하여 생성되었다. 실험에서 설정한 환경은 6m× 9m× 3.
실험에서 설정한 환경은 6m× 9m× 3.5 m 크기의 방 중앙에 마이크로폰 어레이가 놓여져 있으며 마이크로폰 사이의 간격은 d = 5 cm이고 음원들은 마이크로폰 어레이로부터 1 m 거리에 떨어져 있다.

데이터처리

각 순환 확률분포에 대한 성능은 서로 다른 음성 파일로 구성된 10개의 세트에 대한 결과로부터 다음과 같이 RMSE (Root Mean Squared Error)를 계산함으로써 평가되었다.

이론/모형

가장 널리 활용되는 것은 GMM (Gaussian Mixture Model)이지만 [7] 꼬리가 긴 특징을 갖는 LMM (Laplacian Mixture Model)을 적용한 사례도 있다 [8]. 이때 개별적인 음원들의 혼합 정도를 사전에 알 수 없으므로 우도함수의 최대화는 통상적으로 EM (Expectation-Maximization) 알고리즘을 통해 계산된다. 혼합된 확률분포를 이용한 음원의 방향 추정은 각각의 주파수-시간에서 음원의 혼합 정도 (responsibility)를 계산할 수 있으므로, 음원 분리에 적용할 때 soft-decision을 사용할 수 있다는 장점이 있다.

성능/효과

다양한 환경에서의 음원의 방향 추정 성능을 비교한 결과, 방향 추정은 방의 구조, 반향 정도, 잡음의 유무와 음원들 간의 상호 작용 등에 따라 달라지는 것을 확인할 수 있었다. von Mises와 wrapped Gaussian 확률분포는 이러한 환경적 인자에 민감하게 반응하는 반면에, wrapped Laplacian은 이러한 환경적 인자에 매우 강인하다는 사실을 확인할 수 있었다. 또한 wrapped Laplacian은 모든 환경에서 von Mises와 wrapped Gaussian에 비하여 훨씬 우수한 방향 추정 정확도를 제공한다.
본 논문에서는 다중 음원의 방향 추정을 위해 주기성을 갖는 순환 확률분포인 von Mises, wrapped Gaussian, wrapped Laplacian을 기술하고 이들을 이용한 방향추정 알고리즘을 도출하였다. 다양한 환경에서의 음원의 방향 추정 성능을 비교한 결과, 방향 추정은 방의 구조, 반향 정도, 잡음의 유무와 음원들 간의 상호 작용 등에 따라 달라지는 것을 확인할 수 있었다. von Mises와 wrapped Gaussian 확률분포는 이러한 환경적 인자에 민감하게 반응하는 반면에, wrapped Laplacian은 이러한 환경적 인자에 매우 강인하다는 사실을 확인할 수 있었다.
표 2는 잡음이 없는 환경에서 서로 다른 10개의 음원 파일 세트에 대한 실험결과를 평균한 것이다. 표 2에서 확인할수 있는 바와 같이, 4개의 음원이 동시에 존재하는 경우에도 wLMM은 vMMM이나 wGMM에 비하여 월등하게 우수한 성능을 보여준다. 주목할 만한 사실은, vMMM과 wGMM의 경우 295°에 위치한 음원에 대한 방향 추정 정확도가 현저히 떨어진다는 점이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	음원의 방향 추정은 어디에 적용될 수 있는가?	음원의 방향 추정은 로봇, 화상회의, 음원분리, 환경감시 등 다양한 분야에 적용될 수 있는 요소 기술의 하나이다. 음원의 방향 추정은 신호가 다수의 마이크로폰들에 인가될 때 발생하는 신호의 도래시각차 (Time Difference of Arrival: TDOA)를 이용하여 추정된다.
	음원의 방향 추정은 무엇을 이용하여 추정되는가?	음원의 방향 추정은 로봇, 화상회의, 음원분리, 환경감시 등 다양한 분야에 적용될 수 있는 요소 기술의 하나이다. 음원의 방향 추정은 신호가 다수의 마이크로폰들에 인가될 때 발생하는 신호의 도래시각차 (Time Difference of Arrival: TDOA)를 이용하여 추정된다. TDOA는 마이크로폰 신호 간의 GCC (Cross-correlation)로부터 계산되는데 동시에 여러 음원이 존재할수록, 반향이 커질수록, 분산 잡음이나 센서 잡음이 클수록 정확도가 저하되는 경향이 있다.
	우도함수를 최대화하는 것은 어떤 가정에 기인하는가?	방향을 추정하는 또 다른 방법은 우도함수 (likelihood function)를 최대화하는 것이다 [7]. 이는 음원의 방향이 반향이나 잡음 등의 영향을 받아 특정한 확률분포를 따른 다는 가정에 기인한 것이다. 여러 개의 음원이 동시에 존재하는 경우 우도함수는 여러 개의 독립적인 확률분포함수가 혼합된 형태로 정의된다.

참고문헌 (14)

J. Benesty, J. Chen, and Y. Huang, Microphone array signal processing, Springer, 2008.
C. H. Knapp and G. Carter, "The generalized correlation method for estimation of time delay," IEEE Trans. Acoust. Speech Signal Process., vol. 24, pp. 320-327, 1976.

상세보기
R. O. Schmidt, "Multiple emitter location and signal parameter estimation," IEEE Trans. Antennas Propag., vol. 34, pp. 276- 280, 1986.

상세보기
H. Wang and M. Kaveh, "Coherent signal-subspace processing for the detection and estimation of angles of arrival of multiple wide-band sources," IEEE Trans. Acoust. Speech Signal Process., vol. 33, pp. 823-831, 1985.

상세보기
L. A. Jeffress, "A place theory of sound localization," J. Comparative Physiol. Psychol., vol. 41, no. 1, pp. 35-39, 1948.

상세보기
P. Aarabi, "Self-localizing dynamic microphone arrays," IEEE Trans. Syst., Man, Cybern. C, vol. 32, no. 4, pp. 474-484, 2002.

상세보기
M. I. Mandel, D. P. W. Ellis, and T. Jebara, "An EM algorithm for localizing multiple sound sources in reverberant environments," in Adv. Neural Info. Process. Syst., B. Scholkopf, J. Platt, and T. Hoffman, Eds. Cambridge, MA: MIT Press, pp. 953- 960, 2007.
N. Mitianoudis and T. Stathaki, "Batch and online underdetermined source separation using laplacian mixture models," IEEE Trans. on Audio, Speech, and Lang. Proc. vol. 15, pp. 1818-1832, 2007.

상세보기
C. M. Bishop, Pattern recognition and machine learning, Springer, 2006.
C. Liu, B. C. Wheeler, Jr, R. C. Bilger, C. R. Lansing, and A. S. Feng, "Localization of multiple sound sources with two microphones," J. Acoust. Soc. Amer., vol. 108, no. 4, pp. 1888-1905, 2000.

상세보기
N. T. Thom, and S. H. Nam, "An expectation-maximization method for the permutation problem in frequency-domain blind speech separation," in Proc. of ICASSP2010, 2010.
Y. Hioka, M. Matsuo, and N. Hamada, "Multiple-speechsource localization using advanced histogram mapping method," Acousitical Sicence and Technology, vol. 30, no. 2, 2009.
P. Smaragdis, and P. Boufounos, "Position and trajectory learning for microphone arrays," IEEE Trans. on Speech and Audio Proc., Jan. 2007.
D. R. Campbell, K. J. Palomaki, and G. J. Brown, "Roomsim, a matlab simulation of shoebox room acoustics for use in teaching and research," in http://media.paisley.ac.uk/-campbell/ Roomsim/, 2008.

이 논문을 인용한 문헌

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

순환 확률분포를 이용한 다중 음원 방향 추정
Direction Estimation of Multiple Sound Sources Using Circular Probability Distributions 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

순환 확률분포를 이용한 다중 음원 방향 추정 Direction Estimation of Multiple Sound Sources Using Circular Probability Distributions 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

남승현 (7) 김용호 (14)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

순환 확률분포를 이용한 다중 음원 방향 추정
Direction Estimation of Multiple Sound Sources Using Circular Probability Distributions 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper