[논문]반사음이 존재하는 양귀 모델의 음원분리에 관한 연구

이채봉

반사음이 존재하는 양귀 모델의 음원분리에 관한 연구
A study on sound source segregation of frequency domain binaural model with reflection 원문보기

信號處理·시스템學會論文誌 = Journal of the institute of signal processing and systems, v.15 no.3, 2014년, pp.91 - 96

초록
AI-Helper

두 개의 입력소자에 의한 음원방향 및 분리방법으로서는 연산량이 적고, 음원분리 성능이 높은 주파수 양귀 모델(Frequency Domain Binaural Model : FDBM)이 있다. FDBM은 주파수 영역에서 양귀간 위상차(Interaural Phase Difference : IPD) 및 양귀간 레벨차(Interaural Level Difference : ILD)를 구하여 음향신호가 오는 방향과 음원의 분리처리를 한다. 그러나 실제 환경에서는 반사음의 문제가 되고 있다. 이러한 반사음에 의한 영향을 줄이기 위하여 선행음 효과에 의한 직접음의 음상정위를 모의하여 초기 도착음을 검출하고 직접음이 오는 방향과 음원분리 방법을 제시하였다. 제시한 방법을 이용하여 음원방향 추정 및 분리에 대한 성능을 시뮬레이션으로 검토하였다. 그 결과, 방향추정은 음원이 오는 방향에서 ${\pm}10%$의 범위로 집중되어 음원의 방향과 가까운 값으로 추정되었다, 반사음이 존재하는 경우의 음원분리는 기존의 FDBM에 비하여 코히런스(Coherence), 음성품질 지각평가 PESQ(Perceptual Evaluation of Speech Quality : PESQ)가 높고, 정면에서의 지향특성 감쇠량이 작아 분리의 정도가 개선됨을 나타내었다. 그러나 반사음이 존재하지 않는 경우는 분리 정도가 낮았다.

Abstract ▼ AI-Helper

For Sound source direction and separation method, Frequency Domain Binaural Model(FDBM) shows low computational cost and high performance for sound source separation. This method performs sound source orientation and separation by obtaining the Interaural Phase Difference(IPD) and Interaural Level Difference(ILD) in frequency domain. But the problem of reflection occurs in practical environment. To reduce this reflection, a method to simulate the sound localization of a direct sound, to detect the initial arriving sound, to check the direction of the sound, and to separate the sound is presented. Simulation results show that the direction is estimated to lie close within 10% from the sound source and, in the presence of the reflection, the level of the separation of the sound source is improved by higher Coherence and PESQ(Perceptual Evaluation of Speech Quality) and by lower directional damping than those of the existing FDBM. In case of no reflection, the degree of separation was low.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

가설 설정

그림 1은 2채널 마이크로폰 배열에 근거한 음원방향 추정 법의 모델을 나타내었다. 이 모델은 음파를 평면으로 가정하고 있다. 음파의 방향 로 도착하면 음파의 경로차 ξ[m/s]에 근거한 시간차 r[s]가 생긴다.

제안 방법

FDBM이 반사음이 존재하는 환경하에서는 음원분리의 정도 저하하는 문제점에 대하여 선행음 효과에 의한 음상정위를 모의하고 초기에 도달하는 음의 검출에 근거하여 직접음이 도달하는 방향추정과 음원분리 방법을 제안하였다. 제안방법에 의한 음원방향 추정 및 분리의 성능을 시뮤레이션을 통하여 검토하였다.
방법으로는 입력신호를 푸리에 변환에 의해 대역 분할하여 식 (4)와 같은 피크 홀드 처리 및 상승 검출을 이용하여 직접음만의 구간을 검출한다. 검출된 직접음의 구간에 있어서 IPD 및 ILD를 구하여, 방향추정 및 피크 홀드 값에 따라 추정각도를 유지하고 유지각도에서 음원분리를 한다.
관측된 방향정보를 이용하여 음원분리를 한다. 여기서 음원 분리는 입력 음성신호의 분석정도를 높여, 보다 자세한 주파수 분해능을 얻기 위해서는 방향추정 시, 이용한 프레임 길이 보다 긴 프레임을 이용한다.
본 논문에서는 반사음에 의한 영향을 경감하기 위해 선행음 효과 중에서도 먼저 도달한 신호가 음상정위[10]에 작용하는 초기음의 검출에 대한 처리에 착목하여 부 대역 피크 홀드 처리[11]를 한 후, 양귀 신호의 하강점을 검출하였다. 그리고 검출된 위치에 있어서 양귀간 위상차 및 레벨차를 검출하고 이것에 의해 음원방향을 추정하였다. 그리고 방향정보를 이용하여 음원분리를 하는 것에 의해 반사음을 저감하였다.
그리고 검출된 위치에 있어서 양귀간 위상차 및 레벨차를 검출하고 이것에 의해 음원방향을 추정하였다. 그리고 방향정보를 이용하여 음원분리를 하는 것에 의해 반사음을 저감하였다.
방향추정 시뮤레이션에서는 방향추정 결과는 음원이 오는 방향에서 ±10°의 범위내에서 집중하고 있어 음원이 오는 방향에 가까운 값을 추정하였다.
본 논문에서는 반사음에 의한 영향을 경감하기 위해 선행음 효과 중에서도 먼저 도달한 신호가 음상정위[10]에 작용하는 초기음의 검출에 대한 처리에 착목하여 부 대역 피크 홀드 처리[11]를 한 후, 양귀 신호의 하강점을 검출하였다. 그리고 검출된 위치에 있어서 양귀간 위상차 및 레벨차를 검출하고 이것에 의해 음원방향을 추정하였다.
본 장에서는 초기에 도달하는 음의 검출에 근거하여 직접 음이 오는 방향추정 및 음원분리 방법을 제안한다. 방법으로는 입력신호를 푸리에 변환에 의해 대역 분할하여 식 (4)와 같은 피크 홀드 처리 및 상승 검출을 이용하여 직접음만의 구간을 검출한다.
그림 2는 부 대역 피크 홀드 처리를 이용한 음원방향 추정 방법을 나타내었다. 비 음성 환경 잡음 영향을 줄이거나 무음성 시의 대수 처리에 의한 오차의 영향을 줄이기 위하여 음원방향 추정의 전 처리로서 음성 구간 검출처리(Voice Activity Detection : VAD)를 하였다. VAD는 정상 잡음에 대한 검출법으로서 확률 모델에 근거한 방법을 이용한 돌발성잡음에 대한 검출법이다.
상승검출보다 하강검출이 검출된 프레임에 있어서는 IPD 및 ILD를 구하여 미리 얻은 데이터베이스와 비교함으로서 음원의 방향을 추정한다. 그리고 상승이 검출되지 않은 프레 임에 대해서는 피크 홀드 값을 참조하여 그 값이 분계점 이상에 있는 경우는 선행음 효과에 의해 직접음의 음상정위를 모의하여 앞의 프레임의 추정각도를 유지한다.
그러나 입력신호가 음성인 경우 상승시각이 대역 마다 달라 시간파형상에서는 각 대역의 직접음 성분이 시간 적으로 분산한다. 상승검출에 의해 직접음을 따라 잡을 수가 없으므로 수신신호를 푸리에 변환에 의해 대역분할하여 분할된 스펙트럼에 대하여 상승검출을 함으로서 직접음을 검출한 다. 프레임을 길게 하면 직접음이 보이지 않고 반사음의 성분이 포함될 가능성이 있으므로 본 논문에서는 방향추정에 있어서 프레임의 길이를 128 샘플(8ms)로 하였다.
그림 3에서는 제안방법의 개요를 나타내었다. 선행음 효과에 의한 직접음의 음상정위를 모의하기 위하여 피크 홀드 처리를 한 신호에 대하여 상승검출을 이용함으로서 직접음을 검출하고 상승이 검출된 점에 있어서 방향추정을 한다. 상승 검출에 관해서는 신호의 진폭값이 분계점을 넘은 점을 하강으로 한다.
시뮬레이션 조건은 앞 절과 같으며 FDBM 및 제안방법의 음원분리 성능평가는 코히런스, 음성품질 지각평가(Perceptual Evaluation of Speech Quality : PESQ)와 Quality(PESQ)[12] 및 수평면의 각 방위각에 의한 지향특성으로 하였다[13]. 표 1은 음원의 위치를 청취자 정면으로 하였을 때 신호에 대한 코히런스 및 PESQ를 나타내었다.
FDBM이 반사음이 존재하는 환경하에서는 음원분리의 정도 저하하는 문제점에 대하여 선행음 효과에 의한 음상정위를 모의하고 초기에 도달하는 음의 검출에 근거하여 직접음이 도달하는 방향추정과 음원분리 방법을 제안하였다. 제안방법에 의한 음원방향 추정 및 분리의 성능을 시뮤레이션을 통하여 검토하였다. 방향추정 시뮤레이션에서는 방향추정 결과는 음원이 오는 방향에서 ±10°의 범위내에서 집중하고 있어 음원이 오는 방향에 가까운 값을 추정하였다.
반사음이 존재하는 경우에 제안방법을 이용한 방향추정 결과는 그림 8과 같다. 주파수 변환 프레임 길이는 128 taps로 하고, 이때 주파수 분해능은 125Hz, 시간 분해능은 8ms로 두었다. 그림에서 방향추정 결과는 음원이 오는 방향에서 ±10°의 범위에 집중되고 있음을 알 수 있으며, 제안방법에 의하여 개선됨을 나타내고 있다.

대상 데이터

여기서 음원 분리는 입력 음성신호의 분석정도를 높여, 보다 자세한 주파수 분해능을 얻기 위해서는 방향추정 시, 이용한 프레임 길이 보다 긴 프레임을 이용한다. 여기서는 프레임 길이를 512 샘플(32ms)로 하였다. 그러나 긴 프레임을 이용하는 것에 의해서 주파수 분해능이 높고, 시간 분해능이 낮게 되므로 방향정 보를 그대로 이용하기 어렵다.
입력신호는 샘플링 주파수 16kHz로 여성의 음성을 이용하였다. 음원은 정면으로 하였으며 방위각은 정면을 0°, 좌측을 정, 우측을 부로 나타내었다.
상승검출에 의해 직접음을 따라 잡을 수가 없으므로 수신신호를 푸리에 변환에 의해 대역분할하여 분할된 스펙트럼에 대하여 상승검출을 함으로서 직접음을 검출한 다. 프레임을 길게 하면 직접음이 보이지 않고 반사음의 성분이 포함될 가능성이 있으므로 본 논문에서는 방향추정에 있어서 프레임의 길이를 128 샘플(8ms)로 하였다.

성능/효과

그림에서 방향추정 결과는 음원이 오는 방향에서 ±10°의 범위에 집중되고 있음을 알 수 있으며, 제안방법에 의하여 개선됨을 나타내고 있다.
반사음이 존재하는 경우, 제안방법에 의한 코히런스 및 PESQ는 반사음이 존재하는 FDBM에 비하여 높다. 따라서 제안방법에 의해 반사음이 존재하는 경우의 분리정도가 개선되었음을 알 수 있다.
방향추정 시뮤레이션에서는 방향추정 결과는 음원이 오는 방향에서 ±10°의 범위내에서 집중하고 있어 음원이 오는 방향에 가까운 값을 추정하였다. 음원분리 시뮤레이션 결과에서는 제안방법에 의한 음원분리는 기존의 FDBM에 비하여 코히런스 및 PESQ가 높고, 수평면의 각 방위각의 이득은 정면에서 감쇠량이 적고, 분리정도가 개선됨이 확인되었다.
제안방법에 대해서는 -20°에서 20°의 범위에서는 감쇠가 작고, 분리신호도 FDBM에 비하여 정도가 개선됨을 알 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	VAD란?	비 음성 환경 잡음 영향을 줄이거나 무음성 시의 대수 처리에 의한 오차의 영향을 줄이기 위하여 음원방향 추정의 전 처리로서 음성 구간 검출처리(Voice Activity Detection : VAD)를 하였다. VAD는 정상 잡음에 대한 검출법으로서 확률 모델에 근거한 방법을 이용한 돌발성잡음에 대한 검출법이다.
	음원분리법의 대표적인 방법은 무엇인가?	이와 같은 문제에 대하여 지금까지는 잡음제거, 음원분리에 관한 여러 가지 연구가 있었다[1~3]. 그 중에서 음원분리법의 대표적인 방법 중의 하나인 마이크로 폰 배열을 사용한 Blind Source Separation(BSS)[4]가 있다. 그러나 마이크로 폰 배열에는 음원 수가 증가함에 따라 입력수가 증가하며 연산량이 증대하는 문제점이 생긴다.
	직접 음이 오는 방향추정 및 음원분리 방법의 원리는 무엇인가?	본 장에서는 초기에 도달하는 음의 검출에 근거하여 직접 음이 오는 방향추정 및 음원분리 방법을 제안한다. 방법으로는 입력신호를 푸리에 변환에 의해 대역 분할하여 식 (4)와 같은 피크 홀드 처리 및 상승 검출을 이용하여 직접음만의 구간을 검출한다. 검출된 직접음의 구간에 있어서 IPD 및 ILD 를 구하여, 방향추정 및 피크 홀드 값에 따라 추정각도를 유지하고 유지각도에서 음원분리를 한다.

참고문헌 (13)

Markus Bodden, "Modeling human sound-source localization and the cocktail-party-effect," Acta Acoustica, 1, pp. 43-55, 1993.
W. Lindemann, "Extension of a binaural cross-correlation model by contralateral inhibitation. I. Simulation of lateralization for stationary signals," J. Acoust. Soc. Am., 80(6), pp. 1608-1622, 1986.

상세보기
W. Lindemann, "Extension of a binaural cross-correlation model by contralateral inhibitation. II. The low of the first wave front," J. Acoust. Soc. Am., 80(6), pp. 1623-1630, 1986.

상세보기
Shoji Makino, Hirosh Sawada, Ryo Mukai and Sho Araki, "Blind Source Separation of Convolutive Mixtures of Speech in Frequency Domain," IEICE Trans. Fundamentals, E88-A, pp. 1640-1655, 2005.

상세보기
C.H. Knapp and G.C. Carter, "The generalized correlation method for estimation of time delay," IEEE Trans. Acoust. Speech Signal Process," ASSP-24, pp. 320-327, 1976.
H. Nakashima, N. Sato, T. Nakanishi, T. Usagawa and M. Ebata, "Speech Signal Enhancement Based on the Frequency Domain Binaural Model," Proc. Internoise 2003, N562, pp. 1486-1492, 2003.
H. Nakashima, T. Usagawa, "Frequency domain binaural model based on interaural phase and levrl difference," Acoustical Science & Technology Vol. 24, No. 4, pp. 172-178, 2003.
Y. Chisaki, S. Kawano, K. Nagata, K.Mastuo,"Azimuthal and elevation location of two sound sources using interaural phase and level difference," Acoustical Science & Technology, Vol. 29, No. 2, pp. 139-148, 2008.

상세보기
이채봉, "FDBM의 음원분리 성능평가," 한국전자통신학회, Vol. 8, No. 12, pp. 1793-1801, 2013.
채종덕, 이채봉, "반사음이 음상정위에 미치는 영향," 2013하계학술대회 논문집, 한국신호처리시스템학회, pp. 8-10, 2013.
Suzuki, Kaneta, "The estimated method of sound source direction with sub-band peak hold process," JASA, Vol. 65, No. 10, pp. 513-522, 2009.
ITU-T Recommendation, "Perceptual Evaluation of Speech Quality(PESQ) : An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codes," pp, 862, 2001.
Lado Kakuhari, Hiroyuki Hashimoto, Kenichi Teral, "Development of a loudspeaker system with a unidirectional radiation pattern in a speech frequency range," Proc. 106th Convention of Audio Engineering Society, #4867, 1999.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증