KEMAR 마네킹을 이용한 단이 보청기용 FDSI 빔포밍 알고리즘의 정량적 평가 Quantitative Evaluation of the Performance of Monaural FDSI Beamforming Algorithm using a KEMAR Mannequin원문보기
To enhance the speech perception of hearing aid users in noisy environment, most hearing aid devices adopt various beamforming algorithms such as the first-order differential microphone (DM1) and the two-stage directional microphone (DM2) algorithms that maintain sounds from the direction of the int...
To enhance the speech perception of hearing aid users in noisy environment, most hearing aid devices adopt various beamforming algorithms such as the first-order differential microphone (DM1) and the two-stage directional microphone (DM2) algorithms that maintain sounds from the direction of the interlocutor and reduce the ambient sounds from the other directions. However, these conventional algorithms represent poor directionality ability in low frequency area. Therefore, to enhance the speech perception of hearing aid uses in low frequency range, our group had suggested a fractional delay subtraction and integration (FDSI) algorithm and estimated its theoretical performance using computer simulation in previous article. In this study, we performed a KEMAR test in non-reverberant room that compares the performance of DM1, DM2, broadband beamforming (BBF), and proposed FDSI algorithms using several objective indices such as a signal-to-noise ratio (SNR) improvement, a segmental SNR (seg-SNR) improvement, a perceptual evaluation of speech quality (PESQ), and an Itakura-Saito measure (IS). Experimental results showed that the performance of the FDSI algorithm was -3.26-7.16 dB in SNR improvement, -1.94-5.41 dB in segSNR improvement, 1.49-2.79 in PESQ, and 0.79-3.59 in IS, which demonstrated that the FDSI algorithm showed the highest improvement of SNR and segSNR, and the lowest IS. We believe that the proposed FDSI algorithm has a potential as a beamformer for digital hearing aid devices.
To enhance the speech perception of hearing aid users in noisy environment, most hearing aid devices adopt various beamforming algorithms such as the first-order differential microphone (DM1) and the two-stage directional microphone (DM2) algorithms that maintain sounds from the direction of the interlocutor and reduce the ambient sounds from the other directions. However, these conventional algorithms represent poor directionality ability in low frequency area. Therefore, to enhance the speech perception of hearing aid uses in low frequency range, our group had suggested a fractional delay subtraction and integration (FDSI) algorithm and estimated its theoretical performance using computer simulation in previous article. In this study, we performed a KEMAR test in non-reverberant room that compares the performance of DM1, DM2, broadband beamforming (BBF), and proposed FDSI algorithms using several objective indices such as a signal-to-noise ratio (SNR) improvement, a segmental SNR (seg-SNR) improvement, a perceptual evaluation of speech quality (PESQ), and an Itakura-Saito measure (IS). Experimental results showed that the performance of the FDSI algorithm was -3.26-7.16 dB in SNR improvement, -1.94-5.41 dB in segSNR improvement, 1.49-2.79 in PESQ, and 0.79-3.59 in IS, which demonstrated that the FDSI algorithm showed the highest improvement of SNR and segSNR, and the lowest IS. We believe that the proposed FDSI algorithm has a potential as a beamformer for digital hearing aid devices.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이러한 문제의 해결을 위해, 다양한 광대역 빔포머(broadband beamformer,BBF) 알고리즘들이 제안되었으나[11,12], 이들 광대역 빔포머 알고리즘들의 경우 마이크로폰의 하드웨어적 특성의 변화에 매우 민감하게 반응하여 극 패턴(polar pattern)의 방향성이 감쇄하거나, 단이형 보청기에 적용할 수 있도록 두 마이크로폰 간의 간격을 수 mm 정도로 짧게 설정하면 200Hz 이하의 저주파 대역에서 방향성 성능이 약화되는 단점이 있었다. 기존의 이러한 방향성 알고리즘들의 문제점들을극복하고, 잡음 환경 하에서 보청기 사용자들의 대화 인지도를 향상시키기 위해서, 본 연구 그룹에서는 2채널 디지털보청기에 적용 가능한 fractional cross-correlation을 적용한 방향성 잡음 제거 알고리즘(FDSI algorithm) 을 제안한바 있다[13]. 하지만, 과거 연구에서는 알고리즘의 성능 평가를 위해 컴퓨터 시뮬레이션을 이용하였으나, 이 경우 보청기 알고리즘 연구에서 중요한 이슈 중 하나인 두영효과(headshadowing effect) 를 반영할 수 없었으므로, 보다 정확한 알고리즘의 성능 평가를 위해서는 두영효과가 반영된 상태에서의 정량적인 알고리즘 성능 평가를 수행할 필요가 있다.
본 연구에서는 네 가지의 빔포밍 알고리즘들의 잡음 감쇄성능 및 신호 왜곡 효과를 정량적으로 평가하기 위한 KEMAR테스트를 수행하였다. 평가 결과 대부분의 경우에서 FDSI알고리즘이 높은 잡음 감쇄 효과를 나타냈으며, 또한 가장 낮은 신호 왜곡도를 나타내는 것으로 확인되었다.
본 연구에서는 비교 대상 빔포밍 알고리즘들의 자체적인잡음 감쇄 및 신호 왜곡 효과만을 비교할 수 있도록 무반향실 내에서 평가를 수행하였다. 하지만, 실제 생활 환경에서는 보청기 착용자가 사방이 둘러싸인 실내에 있거나, 그 주위에 장애물이 있을 경우, 그로 인한 음향 반향 효과가 발생하여 보청기 착용자들의 음성 인지에 많은 영향을 미치게된다.
가설 설정
또한, 본 연구에서 사용한 알고리즘들의 구현 단계에서,구현의 편의를 위해 두 개의 무방향성 마이크로폰들과 음원이 모두 동일한 수평면 상에 위치하고 있으며, 두 마이크로폰들 간의 수평 및 수직 위치 편차가 0 인 것으로 가정하였다. 즉, 두 마이크로폰에 입력되는 입력 신호의 입력 시간차가 0° 일 때 최대, 90° 일 때 최소인 것으로 가정하였다.
즉, 두 마이크로폰에 입력되는 입력 신호의 입력 시간차가 0° 일 때 최대, 90° 일 때 최소인 것으로 가정하였다.
제안 방법
[11] 이 제안한 BBF 알고리즘들을 각각 Matlab Simulink 로 구현하였다. BBF 알고리즘 구현 시, 두 마이크로폰 간의 간격은 8 mm 로, 공기 중 음속은 343 m/sec 으로 각각 설정하였다.
White 잡음에 대하여는 한 가지 잡음 데이터만 사용되었고, 이에 따라 3가지 입력SNR에 대한 평균과 표준편차를 계산하였다. PESQ, IS의 분석은 문장별 입력SNR과 잡음의 위치에 따라 각각 진행되었다. Babble 잡음에 대하여 5가지 잡음 데이터에 의한 5가지 경우씩 평균과 표준편차 계산하였고, white 잡음은 하나의 경우씩 나타내었다.
본 연구에서는, 무반향실(non-reverberant room) 에서KEMAR 마네킹을 이용하여 두영효과가 반영된 상황에서의FDSI 알고리즘의 정량적 성능을 측정하였다. 또한, FDSI알고리즘과 기존의 DM1, DM2, BBF 알고리즘들 간의 성능 비교를 위해 객관적 측정 인자들을 이용하여 네 가지 방향성 알고리즘들의 음질, 음성 인지도 및 신호 왜곡도를 각각 정량적으로 평가하였다.
SNR) 가 0 dB 가 되도록 조절된 잡음 신호를 90°, 135°, 180°, 225°, 혹은 270°위치에 있는 스피커들을 통해 순차적으로 출력시키면서 각경우에서의 마이크로폰 입력 신호들을 녹음하였다. 마이크로폰 입력 신호를 녹음하기 위해, 두 마이크로폰의 출력 신호들을 2채널 인터페이스 장치(Fast Track Ultra; AvidTechnology Inc., Berlington, USA) 를 통해 24 비트, 16kHz 의 샘플링 주파수로 신호 변환한 후 변환된 데이터를컴퓨터로 전송하여 개별 마이크로폰 별로 독립적인 wave 파일로 저장하였다. 음향 신호의 녹음이 끝나면, 녹음된 잡음내 음성 신호들을 네 개의 빔포밍 알고리즘들 -DM1, DM2,BBF, FDSI 알고리즘- 을 이용하여 각각 신호 처리한 후, 빔포밍 알고리즘을 거친 출력 신호들을 이용하여 네 가지의 객관적 평가 인자들 -SNR improvement, segSNR improvement, perceptual evaluation of speech quality (PESQ),Itakura-Saito measure (IS)[16]- 을 이용하여 각각의 빔포밍 알고리즘들의 성능을 비교하였다.
무반향실의 가운데 위치에 KEMAR 마네킹(Type 45BA; G.R.A.S. sound & vibration, Holte,Denmark) 을 설치하고, 마네킹 주위에 45o 간격으로 8대의스피커(HS50M; YAMAHA Corp., Hamamatsu, Japan)들을 등간격으로 배치하였다(그림 1a).
본 연구에서는 비교 대상 알고리즘들의 음질 비교를 위해SNR improvement, segSNR improvement, 및 PESQ 인자들을 이용하였으며, 개별 알고리즘들의 스펙트럼 왜곡 정도를 평가하기 위해 IS 인자를 활용하였다. 이들 인자들은 음성 개선 알고리즘들의 성능 평가를 위해 보편적으로 널리활용되는 것들이며, 연구 결과 대부분의 조건 하에서 FDSI알고리즘은 고르게 높은 성능을 나타내었다.
본 연구에서는, 무반향실(non-reverberant room) 에서KEMAR 마네킹을 이용하여 두영효과가 반영된 상황에서의FDSI 알고리즘의 정량적 성능을 측정하였다. 또한, FDSI알고리즘과 기존의 DM1, DM2, BBF 알고리즘들 간의 성능 비교를 위해 객관적 측정 인자들을 이용하여 네 가지 방향성 알고리즘들의 음질, 음성 인지도 및 신호 왜곡도를 각각 정량적으로 평가하였다.
실제 음향 녹음을 수행하기 전에 8대의 스피커들의 출력 볼륨을 일치시키기 위해, 각각의 스피커에 동일한 1 kHz의 순음 신호를 전송하고, 이 때 스피커에서 출력되는 음향의 크기를 음향측정기(2250 Light; Brüel & Kjaer Sound & VibrationMeasurement, Naerum, Denmark) 로 측정하여, 개별 스피커들의 출력 크기가 90 dB SPL 이 되도록 조절하였다.
알고리즘들에 대한 정량적 평가는 삼성서울병원 이비인후과에 설치된 무반향실(L/R/H = 2720 × 2720 × 2100 mm)에서 수행하였다.
실험을 위한 음향(음성 및 잡음) 신호로는 IEEE 음성 데이터베이스[14] 에서 임의로 선택한 두 개의 영어 문장들 -“The birchcanoe slid on a smooth planks” (speech 1), “Glue thesheet to the dark blue background” (speech 2)- 을 음성신호로 사용하였으며, 또한 Phonak 잡음 데이터베이스[15]에서 임의로 선택한 5개의 babble 잡음 및 1개의 백색 잡음신호들을 이용하였다. 음성 및 잡음 신호들은 컴퓨터의 스테레오 출력 단자와 연결되어 있는 외장 사운드카드(CaratRUBY, Styleaudio Corp., Phoenix, USA) 와 이 사운드카드에 연결되어 있는 신호분배기(ne24.24M; Ashly, Webster,USA) 를 거쳐 출력 스피커로 입력되도록 구성하였으며, 분배기 설정을 통해 8대의 스피커 중 임의의 2대(음성출력 1대 및 잡음출력 1대) 를 사용자가 동시에 선택하여 음성 및잡음 신호를 각각 출력시킬 수 있도록 구성하였다. 실제 음향 녹음을 수행하기 전에 8대의 스피커들의 출력 볼륨을 일치시키기 위해, 각각의 스피커에 동일한 1 kHz의 순음 신호를 전송하고, 이 때 스피커에서 출력되는 음향의 크기를 음향측정기(2250 Light; Brüel & Kjaer Sound & VibrationMeasurement, Naerum, Denmark) 로 측정하여, 개별 스피커들의 출력 크기가 90 dB SPL 이 되도록 조절하였다.
음향 녹음 실험이 시작되면, 음성 신호는 마네킹 전면 (0o)에 위치한 스피커를 통해 출력시키고, 그와 동시에 입력 신호대잡음비(signal-to-noise ratio. SNR) 가 0 dB 가 되도록 조절된 잡음 신호를 90°, 135°, 180°, 225°, 혹은 270°위치에 있는 스피커들을 통해 순차적으로 출력시키면서 각경우에서의 마이크로폰 입력 신호들을 녹음하였다.
, Berlington, USA) 를 통해 24 비트, 16kHz 의 샘플링 주파수로 신호 변환한 후 변환된 데이터를컴퓨터로 전송하여 개별 마이크로폰 별로 독립적인 wave 파일로 저장하였다. 음향 신호의 녹음이 끝나면, 녹음된 잡음내 음성 신호들을 네 개의 빔포밍 알고리즘들 -DM1, DM2,BBF, FDSI 알고리즘- 을 이용하여 각각 신호 처리한 후, 빔포밍 알고리즘을 거친 출력 신호들을 이용하여 네 가지의 객관적 평가 인자들 -SNR improvement, segSNR improvement, perceptual evaluation of speech quality (PESQ),Itakura-Saito measure (IS)[16]- 을 이용하여 각각의 빔포밍 알고리즘들의 성능을 비교하였다. SNR과 segSNRimprovement의 분석은 문장별로 잡음위치에 따라 이루어졌고, babble 잡음에 대하여 3가지 입력SNR과 5가지의 잡음 데이터로 이루어진 총 15경우를 평균과 표준편차 계산하였다.
본 연구에서의 실험 결과에서 확인할 수 있듯, FDSI 알고리즘의경우 저주파 대역에서 기존 빔포밍 알고리즘들에 비해 상대적으로 높은 방향성 성능을 나타내었으며, 그와 동시에 원래의 음성 신호에 대한 왜곡도 상대적으로 낮은 것으로 나타났다. 하지만, 실제 FDSI 알고리즘을 구현할 때에는 알고리즘의 주 빔이 4 kHz 이상의 고주파 대역에서 일부 감쇄되어 이로 인한 음성 인식 저하 효과가 발생하였으므로, 비록 그러한 저하 효과가 저주파 대역에서의 DM1, DM2 알고리즘의 음성 인식 저하 효과에 비하면 상대적으로 낮더라도,이를 보상하기 위해 감쇄된 신호 성분만큼을 추가로 증폭시키기 위한 1차 Butterworth 고역 통과 필터(저지대역: 126Hz, 통과대역: 4 kHz) 를 후단에 추가하였다.
대상 데이터
마네킹과 개별 스피커 간의 거리는 1 m 로 고정하였으며, 마네킹 외이와 스피커의 높이는 135 cm 로 설치하였다. 마네킹 외이의 귓바퀴 위에는 두 개의 마이크로폰(EM-26392-C36; Knowles Electronics Inc., IL, USA) 이 내장되어 있는 behind-the-ear(BTE) 타입의 보청기 하우징(DT3060; GN Resound A/S,Ballerup, Denmark) 을 설치하였다(그림 1b). 실험을 위한 음향(음성 및 잡음) 신호로는 IEEE 음성 데이터베이스[14] 에서 임의로 선택한 두 개의 영어 문장들 -“The birchcanoe slid on a smooth planks” (speech 1), “Glue thesheet to the dark blue background” (speech 2)- 을 음성신호로 사용하였으며, 또한 Phonak 잡음 데이터베이스[15]에서 임의로 선택한 5개의 babble 잡음 및 1개의 백색 잡음신호들을 이용하였다.
실험을 위한 음향(음성 및 잡음) 신호로는 IEEE 음성 데이터베이스[14] 에서 임의로 선택한 두 개의 영어 문장들 -“The birchcanoe slid on a smooth planks” (speech 1), “Glue thesheet to the dark blue background” (speech 2)- 을 음성신호로 사용하였으며, 또한 Phonak 잡음 데이터베이스[15]에서 임의로 선택한 5개의 babble 잡음 및 1개의 백색 잡음신호들을 이용하였다.
데이터처리
PESQ, IS의 분석은 문장별 입력SNR과 잡음의 위치에 따라 각각 진행되었다. Babble 잡음에 대하여 5가지 잡음 데이터에 의한 5가지 경우씩 평균과 표준편차 계산하였고, white 잡음은 하나의 경우씩 나타내었다.
음향 신호의 녹음이 끝나면, 녹음된 잡음내 음성 신호들을 네 개의 빔포밍 알고리즘들 -DM1, DM2,BBF, FDSI 알고리즘- 을 이용하여 각각 신호 처리한 후, 빔포밍 알고리즘을 거친 출력 신호들을 이용하여 네 가지의 객관적 평가 인자들 -SNR improvement, segSNR improvement, perceptual evaluation of speech quality (PESQ),Itakura-Saito measure (IS)[16]- 을 이용하여 각각의 빔포밍 알고리즘들의 성능을 비교하였다. SNR과 segSNRimprovement의 분석은 문장별로 잡음위치에 따라 이루어졌고, babble 잡음에 대하여 3가지 입력SNR과 5가지의 잡음 데이터로 이루어진 총 15경우를 평균과 표준편차 계산하였다. White 잡음에 대하여는 한 가지 잡음 데이터만 사용되었고, 이에 따라 3가지 입력SNR에 대한 평균과 표준편차를 계산하였다.
SNR과 segSNRimprovement의 분석은 문장별로 잡음위치에 따라 이루어졌고, babble 잡음에 대하여 3가지 입력SNR과 5가지의 잡음 데이터로 이루어진 총 15경우를 평균과 표준편차 계산하였다. White 잡음에 대하여는 한 가지 잡음 데이터만 사용되었고, 이에 따라 3가지 입력SNR에 대한 평균과 표준편차를 계산하였다. PESQ, IS의 분석은 문장별 입력SNR과 잡음의 위치에 따라 각각 진행되었다.
이론/모형
[8] 이 제안한 DM2 알고리즘, 그리고 Mabande et al.[11] 이 제안한 BBF 알고리즘들을 각각 Matlab Simulink 로 구현하였다. BBF 알고리즘 구현 시, 두 마이크로폰 간의 간격은 8 mm 로, 공기 중 음속은 343 m/sec 으로 각각 설정하였다.
본 연구에서는 알고리즘 간 성능 비교 실험을 위해, 이전에 본 연구 그룹에서 발표했던 FDSI 알고리즘[13] 을Matlab Simulink (Version 7.12.0.635; Mathworks Inc.,MA, USA) 를 이용하여 구현하였으며, 그 외에 Eiko et al.[7]이 제안한 DM1 알고리즘, Luo et al.
성능/효과
61로 각각 나타났다. PESQ의 경우에는 BBF 알고리즘의 성능이 대부분의 상황에서 가장 높게 측정되었으며, FDSI 알고리즘은 두 번째로 높은 성능을 나타내었다. 하지만 두 알고리즘 간의 성능 차이가 유의할 정도로 크게 나타나지는않았다.
59 로 확인되었다. Speech-in-babble noise 인 경우에서와 유사하게 FDSI 알고리즘의 IS 값이 가장 낮은 것으로 나타났으며, 이 결과와 그림 5의 결과로 미루어 볼 때, 네 알고리즘 중에서 FDSI 알고리즘이 원래의 음성 신호를 가장 적게 왜곡시키는 것을 확인할 수 있었다.
상단의 그림은 마이크로폰에 200 Hz, 500 Hz,2 kHz, 4 kHz의 순음 신호를 입력했을 때 DM1, DM2,BBF, FDSI 알고리즘들로부터 측정한 극 패턴을 나타낸다.그림에서 확인할 수 있듯, 네 가지 비교 대상 알고리즘들 중에서 FDSI 알고리즘이 전체 주파수 대역에서 가장 일정하고 안정적인 방향성 성능을 나타냄을 확인할 수 있었다. 특히, FDSI 알고리즘은 저주파 대역에서 방향성 성능을 지속적으로 유지하면서 그와 동시에 빔포머의 이득 값도 DM1,DM2 알고리즘에 비해 높게 유지할 수 있음을 확인하였다.
01 로 각각 확인되었다. 대부분의 상황에서 FDSI 알고리즘이 가장 낮은IS 값을 나타냈으며, 이는 FDSI 알고리즘이 스펙트럼 왜곡을 최소화하여 원래의 음성 신호 성분을 가장 잘 보존할 수있음을 의미한다.
평가 결과 대부분의 경우에서 FDSI알고리즘이 높은 잡음 감쇄 효과를 나타냈으며, 또한 가장 낮은 신호 왜곡도를 나타내는 것으로 확인되었다. 본 그룹에서 제안한 FDSI 알고리즘에서는 기존의 DM1알고리즘에 적분기를 도입함으로써 기존 알고리즘에 비해상대적으로 변화량이 낮은 극 패턴을 얻을 수 있었다. 본 연구에서의 실험 결과에서 확인할 수 있듯, FDSI 알고리즘의경우 저주파 대역에서 기존 빔포밍 알고리즘들에 비해 상대적으로 높은 방향성 성능을 나타내었으며, 그와 동시에 원래의 음성 신호에 대한 왜곡도 상대적으로 낮은 것으로 나타났다.
본 연구에서, 제안된 FDSI 알고리즘은 다양한 잡음 및 음성 환경 하에서 타 알고리즘들에 비해 상대적으로 높은 잡음 감쇄 및 낮은 신호 왜곡 성능을 나타내었으며, 이러한 연구 결과들로 미루어 볼 때, 제안된 FDSI 알고리즘을 디지털보청기의 잡음 감쇄를 위해 적용할 경우, 안정적인 성능을 얻을 수 있을 것으로 기대된다.
본 그룹에서 제안한 FDSI 알고리즘에서는 기존의 DM1알고리즘에 적분기를 도입함으로써 기존 알고리즘에 비해상대적으로 변화량이 낮은 극 패턴을 얻을 수 있었다. 본 연구에서의 실험 결과에서 확인할 수 있듯, FDSI 알고리즘의경우 저주파 대역에서 기존 빔포밍 알고리즘들에 비해 상대적으로 높은 방향성 성능을 나타내었으며, 그와 동시에 원래의 음성 신호에 대한 왜곡도 상대적으로 낮은 것으로 나타났다. 하지만, 실제 FDSI 알고리즘을 구현할 때에는 알고리즘의 주 빔이 4 kHz 이상의 고주파 대역에서 일부 감쇄되어 이로 인한 음성 인식 저하 효과가 발생하였으므로, 비록 그러한 저하 효과가 저주파 대역에서의 DM1, DM2 알고리즘의 음성 인식 저하 효과에 비하면 상대적으로 낮더라도,이를 보상하기 위해 감쇄된 신호 성분만큼을 추가로 증폭시키기 위한 1차 Butterworth 고역 통과 필터(저지대역: 126Hz, 통과대역: 4 kHz) 를 후단에 추가하였다.
측정값이 클수록 높은 성능을 나타내는SNR의 경우와는 달리, IS 는 원신호가 얼마나 왜곡되었는가를 정량적으로 나타내는 지표이므로, 이 경우는 IS의 측정값이 낮을수록 원신호의 왜곡이 적으므로 더 나은 성능을 나타낸다. 알고리즘 별 IS의 최소 및 최대값은 DM1의 경우 1.53과 3.71, DM2의 경우 0.84와 3.33, BBF의 경우 2.09와 5.44, 그리고 FDSI의 경우에는 0.79와 2.01 로 각각 확인되었다. 대부분의 상황에서 FDSI 알고리즘이 가장 낮은IS 값을 나타냈으며, 이는 FDSI 알고리즘이 스펙트럼 왜곡을 최소화하여 원래의 음성 신호 성분을 가장 잘 보존할 수있음을 의미한다.
그림 7은 speech-in-white noise 상황에서 입력 신호의SNR 값을 −5, 0, +5 dB 로 각각 설정했을 경우의 PESQ 값측정 결과를 나타낸다. 알고리즘 별 최대 및 최소값은 DM1의 경우 2.46과 1.58, DM2의 경우 2.48과 1.57, BBF의 경우 2.69와 1.64, 그리고 FDSI의 경우에는 2.51과 1.49 로나타났다. 전체적으로 BBF 알고리즘의 성능이 가장 높은 것으로 나타났으며, DM1, DM2 및 FDSI 알고리즘들의 성능은 서로 비슷한 것으로 측정되었으나, 그 차이의 절대값은크지 않았다.
그림 4는 speech-in-babble noise 상황에서 입력 신호의SNR 값을 −5, 0, +5 dB 로 각각 설정했을 경우의 PESQ값 측정 결과를 나타낸다. 알고리즘 별 최대값과 최소값은DM1의 경우 2.73과 1.48, DM2의 경우 2.73과 1.49, BBF의 경우 3.04와 1.84, 그리고 FDSI의 경우에는 2.79와 1.61로 각각 나타났다. PESQ의 경우에는 BBF 알고리즘의 성능이 대부분의 상황에서 가장 높게 측정되었으며, FDSI 알고리즘은 두 번째로 높은 성능을 나타내었다.
그림 8은 speech-in-white noise 상황에서 입력 신호의SNR 값을 −5, 0, +5 dB 로 각각 설정했을 경우의 IS 값측정 결과를 나타낸다. 알고리즘 별 최소 및 최대값은 DM1의 경우 2.75와 5.83, DM2의 경우 2.11과 5.40, BBF의 경우 3.69와 7.06, 그리고 FDSI의 경우에는 1.25와 3.59 로 확인되었다. Speech-in-babble noise 인 경우에서와 유사하게 FDSI 알고리즘의 IS 값이 가장 낮은 것으로 나타났으며, 이 결과와 그림 5의 결과로 미루어 볼 때, 네 알고리즘 중에서 FDSI 알고리즘이 원래의 음성 신호를 가장 적게 왜곡시키는 것을 확인할 수 있었다.
알고리즘 별로 SNR improvement 의 최대 및 최소값은 DM1의 경우 3.16과 −5.70, DM2의 경우 3.18과 −5.13,BBF의 경우 2.11과 −8.08, 그리고 FDSI의 경우에는 6.68과 −3.26 이었으며, segSNR improvement의 최대 및 최소값은 DM1의 경우 1.95와 −3.08, DM2의 경우 1.96과 −2.82,BBF의 경우 1.67과 −3.74, 그리고 FDSI의 경우에는 5.28과 −1.94 였다.
49 로나타났다. 전체적으로 BBF 알고리즘의 성능이 가장 높은 것으로 나타났으며, DM1, DM2 및 FDSI 알고리즘들의 성능은 서로 비슷한 것으로 측정되었으나, 그 차이의 절대값은크지 않았다.
그림에서 확인할 수 있듯, 네 가지 비교 대상 알고리즘들 중에서 FDSI 알고리즘이 전체 주파수 대역에서 가장 일정하고 안정적인 방향성 성능을 나타냄을 확인할 수 있었다. 특히, FDSI 알고리즘은 저주파 대역에서 방향성 성능을 지속적으로 유지하면서 그와 동시에 빔포머의 이득 값도 DM1,DM2 알고리즘에 비해 높게 유지할 수 있음을 확인하였다.
본 연구에서는 네 가지의 빔포밍 알고리즘들의 잡음 감쇄성능 및 신호 왜곡 효과를 정량적으로 평가하기 위한 KEMAR테스트를 수행하였다. 평가 결과 대부분의 경우에서 FDSI알고리즘이 높은 잡음 감쇄 효과를 나타냈으며, 또한 가장 낮은 신호 왜곡도를 나타내는 것으로 확인되었다. 본 그룹에서 제안한 FDSI 알고리즘에서는 기존의 DM1알고리즘에 적분기를 도입함으로써 기존 알고리즘에 비해상대적으로 변화량이 낮은 극 패턴을 얻을 수 있었다.
후속연구
하지만, 실제 임상에서는 난청 발생 원인 및 증상의 종류에 따라 다양한 난청 환자들이 많이 존재하며, 환자 개개인들의 난청 특성에따라 그 치료 방법도 다양하게 존재하므로, 본 연구에서의객관적 인자를 통한 알고리즘 성능 평가 결과가 실제 임상에서 보청기 착용자들이 느끼는 주관적 성능 평가 결과와는 일치하지 않을 수도 있다. 그러므로, 개별 알고리즘들의 임상적 효과에 대해 보다 정확한 평가가 이루어지려면, 본 연구에서와 같은 객관적 인자 분석을 통한 평가 외에, 다양한 증상을 가지는 난청 환자들을 대상으로 하여 주관적 음질 평가및 단어/문장 인지도를 평가하는 등의 주관적 평가 연구도 함께 수행되어야 한다. 또한, 실제 보청기 환경에서는 두영효과로 인한 음향 왜곡 현상이 난청 환자들의 음성 인지도에 영향을 미치므로, 두영 효과가 FDSI 알고리즘의 성능에 미치는 영향에 대한 보다 상세한 분석 연구를 수행할 필요가있다.
이러한 다양한 상황들에 효과적으로 대응하려면,마이크로폰과 음원 간의 수평 편차각뿐만 아니라 수직 방향으로의 편차각도 함께 고려하여 빔포밍 알고리즘을 구현해야 하지만 단이 보청기만으로는 이러한 구현에 한계가 있다. 따라서 차후 연구에서는 현재 구현된 FDSI 알고리즘을 양이보청기에 맞게 확장하여, 수평 편차각 및 수직 편차각을 모두 고려한 보다 개선된 알고리즘을 개발할 계획이다.
비록 본 연구에서는 고역 통과 필터를 추가한 FDSI 알고리즘이 정상적으로 동작하였으나, 후단에 추가된 고역 통과 필터가 전체 알고리즘의 성능에 미치는 영향을 좀 더 정확히 파악하기 위해서는, 보다 다양한 음성 및 잡음 환경에서 보다 다양한 음성 및 잡음 신호들에 대해 추가적으로 성능 분석 연구를 수행할 필요가 있다. 또한, 그러한 추가 실험을 통해 FDSI 알고리즘에 적용될 고역 통과 필터가 보다 다양한 실제 환경 하에서 최적의 성능을 나타낼 수 있도록 필터의 여러 특성들을 보다 개선할 필요가 있다.
그러므로, 개별 알고리즘들의 임상적 효과에 대해 보다 정확한 평가가 이루어지려면, 본 연구에서와 같은 객관적 인자 분석을 통한 평가 외에, 다양한 증상을 가지는 난청 환자들을 대상으로 하여 주관적 음질 평가및 단어/문장 인지도를 평가하는 등의 주관적 평가 연구도 함께 수행되어야 한다. 또한, 실제 보청기 환경에서는 두영효과로 인한 음향 왜곡 현상이 난청 환자들의 음성 인지도에 영향을 미치므로, 두영 효과가 FDSI 알고리즘의 성능에 미치는 영향에 대한 보다 상세한 분석 연구를 수행할 필요가있다.
비록 본 연구에서는 고역 통과 필터를 추가한 FDSI 알고리즘이 정상적으로 동작하였으나, 후단에 추가된 고역 통과 필터가 전체 알고리즘의 성능에 미치는 영향을 좀 더 정확히 파악하기 위해서는, 보다 다양한 음성 및 잡음 환경에서 보다 다양한 음성 및 잡음 신호들에 대해 추가적으로 성능 분석 연구를 수행할 필요가 있다. 또한, 그러한 추가 실험을 통해 FDSI 알고리즘에 적용될 고역 통과 필터가 보다 다양한 실제 환경 하에서 최적의 성능을 나타낼 수 있도록 필터의 여러 특성들을 보다 개선할 필요가 있다.
하지만, 실제 생활 환경에서는 보청기 착용자가 사방이 둘러싸인 실내에 있거나, 그 주위에 장애물이 있을 경우, 그로 인한 음향 반향 효과가 발생하여 보청기 착용자들의 음성 인지에 많은 영향을 미치게된다. 차후 연구에서는 반향이 존재하는 상황에서의 정량적평가 및 주관적 평가도 함께 수행할 필요가 있다.
기존의 다양한방향성 알고리즘들 가운데, 보청기 시스템에서 소프트웨어적인 방향성 구현을 위해 가장 보편적으로 사용되고 있는것이 first-order differential microphone (DM1) 알고리즘[7] 과 two-stage directional microphone (DM2) 알고리즘[8] 이다. 하지만, 이들 알고리즘들의 경우 출력 신호단에서 저주파 대역의 신호 요소들이 감쇄되어 원 신호의 파형이 일부 왜곡되는 현상이 발생할 수 있다는 단점이 있었다.이러한 신호 왜곡을 보상하기 위해 보통 추가적인 저주파 증폭기를 후단에 사용하지만, 이 증폭기로 인해 저주파 대역에 존재하는 환경 잡음 성분들이 함께 증폭되게 되어 결과적으로 보청기 사용자들이 잡음 환경 하에서 음성신호를 인식하는 데 어려움을 겪을 수 있었다[3,9,10].
디지털 보청기에 소프트웨어적인 방법을 통해 마이크로폰의 방향성을구현하는 방식의 장점은 무엇인가?
초기 보청기들의경우에는 하드웨어적인 방향성을 가지는 방향성(directional)마이크로폰을 이용하여 환경 잡음을 감쇄시키는 방식을 사용하였으나, 대다수의 최근 디지털 보청기들은 복수 개의 무방향성(omnidirectional) 마이크로폰을 이용하여 소프트웨어적으로 방향성을 구현시키는 방식을 채택하고 있다[1]. 이처럼 소프트웨어적인 방법을 통해 마이크로폰의 방향성을구현하는 방식의 장점은: 1) 보청기 사용자가 상황에 맞게음향적 방향성의 부여/비부여 여부를 스스로 조절할 수 있으며, 2) 대화 상대의 위치 변화에 맞게 방향성 알고리즘의목표 방향을 조절할 수 있다는 점이다[3-6]. 기존의 다양한방향성 알고리즘들 가운데, 보청기 시스템에서 소프트웨어적인 방향성 구현을 위해 가장 보편적으로 사용되고 있는것이 first-order differential microphone (DM1) 알고리즘[7] 과 two-stage directional microphone (DM2) 알고리즘[8] 이다.
보청기 시스템에서 소프트웨어적인 방향성 구현을 위해 가장 보편적으로 사용되고 있는 알고리즘은 무엇인가?
이처럼 소프트웨어적인 방법을 통해 마이크로폰의 방향성을구현하는 방식의 장점은: 1) 보청기 사용자가 상황에 맞게음향적 방향성의 부여/비부여 여부를 스스로 조절할 수 있으며, 2) 대화 상대의 위치 변화에 맞게 방향성 알고리즘의목표 방향을 조절할 수 있다는 점이다[3-6]. 기존의 다양한방향성 알고리즘들 가운데, 보청기 시스템에서 소프트웨어적인 방향성 구현을 위해 가장 보편적으로 사용되고 있는것이 first-order differential microphone (DM1) 알고리즘[7] 과 two-stage directional microphone (DM2) 알고리즘[8] 이다. 하지만, 이들 알고리즘들의 경우 출력 신호단에서 저주파 대역의 신호 요소들이 감쇄되어 원 신호의 파형이 일부 왜곡되는 현상이 발생할 수 있다는 단점이 있었다.
참고문헌 (16)
H. Dillon, Hearing aids. Sydney: Boomerang Press, 2001.
P.C. Loizou, Speech enhancement : theory and practice. Boca Raton: CRC Press, 2007.
J.M. Kates, Digital hearing aids. San Diego: Plural Pub., 2008.
W. Soede, F.A. Bilsen, and A.J. Berkhout, "Assessment of a directional microphone array for hearing-impaired listeners," The Journal of the Acoustical Society of America, vol. 94, pp. 799-808, 1993.
T. Ricketts and P. Henry, "Evaluation of an adaptive, directional-microphone hearing aid: Evaluacion de un auxiliar auditivo de microfono direccional adaptable," International Journal of Audiology, vol. 41, pp. 100-112, 2002.
A. Schaub, Digital hearing aids. New York: Thieme, 2008.
G.W. Elko and A.T.N. Pong, "A simple adaptive first-order differential microphone," 1995, pp. 169-172.
F.L. Luo, J. Yang, C. Pavlovic, and A. Nehorai, "Adaptive null-forming scheme in digital hearing aids," Signal Processing, IEEE Transactions on, vol. 50, pp. 1583-1590, 2002.
E. Mabande, A. Schad, and W. Kellermann, "Design of robust superdirective beamformers as a convex optimization problem," in Acoustics, Speech and Signal Processing, 2009. ICASSP 2009. IEEE International Conference on, 2009, pp. 77-80.
S. Doclo and M. Moonen, "Design of broadband beamformers robust against gain and phase errors in the microphone array characteristics," IEEE Transactions on Signal Processing, vol. 51, pp. 2511-2526, Oct 2003.
J. Han, Y.S. Ji, H. Kim, S.H. Yook, S. Lee, D. Kim, S.H. Hong, I.Y. Kim, and S.I. Kim, "New directional noise reduction method utilizing fractional cross-correlation for dual microphone DHA," in Proc. 41th KOSOMBE Conference, Chuncheon, Korea, May. 2010
E. Rothauser, W. Chapman, N. Guttman, K. Nordby, H. Silbiger, G. Urbanek, and M. Weinstock, "IEEE recommended practice for speech quality measurements," IEEE Transactions on Audio Electroacoustics, vol. 17, pp. 227-246, 1969.
M. Buchler, S. Allegro, S. Launer, and N. Dillier, "Sound classification in hearing aids inspired by auditory scene analysis," EURASIP Journal on Applied Signal Processing, vol. 2005, pp. 2991-3002, 2005.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.