본 논문에서는 차량 내부 환경에서 음성인식 성능을 향상시켜 안정적인 차량 제어를 위한 방법으로 사용하는 음원 위치추정방법의 성능 비교와 개선 방법을 제안하였다. 일반적으로 음원 위치추정에는 TDOA알고리즘을 사용하는데 여기에는 시간영역에서 상호상관함수를 이용하는 방법과, 주파수 영역에서 계산하는 GCC-PHAT 방법이 있다. 이중 GCC-PHAT 방법은 상호상관함수보다 반향과 잡음에 강한 특성을 보인다고 알려져 있다. 본 연구에서는 반향과 잡음이 많은 차량 환경에서 위 두 방법의 성능을 비교하고 추가로 미디언 필터 사용을 제안하여 음원위치 추정 성능과 시스템의 안정성을 나타내는 지표로 사용하는 분산값이 모두 향상됨을 확인하였다. 실험결과에서 음성을 사용한 실험에서는 두 방법의 성능 차이가 거의 없지만, 노래신호를 사용한 음원위치 추정에서는 GCC-PHAT 방법이 상호상관함수에 비해 인식률이 10% 우수함을 확인하였다. 또한 미디언 필터를 추가한 경우에는 상호상관함수 방법의 인식률을 최고 11%까지 향상시킬 수 있었고 분산값에서도 두 방법 모두 안정적인 성능을 보여주었다.
본 논문에서는 차량 내부 환경에서 음성인식 성능을 향상시켜 안정적인 차량 제어를 위한 방법으로 사용하는 음원 위치추정방법의 성능 비교와 개선 방법을 제안하였다. 일반적으로 음원 위치추정에는 TDOA알고리즘을 사용하는데 여기에는 시간영역에서 상호상관함수를 이용하는 방법과, 주파수 영역에서 계산하는 GCC-PHAT 방법이 있다. 이중 GCC-PHAT 방법은 상호상관함수보다 반향과 잡음에 강한 특성을 보인다고 알려져 있다. 본 연구에서는 반향과 잡음이 많은 차량 환경에서 위 두 방법의 성능을 비교하고 추가로 미디언 필터 사용을 제안하여 음원위치 추정 성능과 시스템의 안정성을 나타내는 지표로 사용하는 분산값이 모두 향상됨을 확인하였다. 실험결과에서 음성을 사용한 실험에서는 두 방법의 성능 차이가 거의 없지만, 노래신호를 사용한 음원위치 추정에서는 GCC-PHAT 방법이 상호상관함수에 비해 인식률이 10% 우수함을 확인하였다. 또한 미디언 필터를 추가한 경우에는 상호상관함수 방법의 인식률을 최고 11%까지 향상시킬 수 있었고 분산값에서도 두 방법 모두 안정적인 성능을 보여주었다.
This study is intended to compare the performances of sound source localization methods used for stable automobile control by improving voice recognition rate in automobile environment and suggest how to improve their performances. Generally, sound source location estimation methods employ the TDOA ...
This study is intended to compare the performances of sound source localization methods used for stable automobile control by improving voice recognition rate in automobile environment and suggest how to improve their performances. Generally, sound source location estimation methods employ the TDOA algorithm, and there are two ways for it; one is to use a cross correlation function in the time domain, and the other is GCC-PHAT calculated in the frequency domain. Among these ways, GCC-PHAT is known to have stronger characteristics against echo and noise than the cross correlation function. This study compared the performances of the two methods above in automobile environment full of echo and vibration noise and suggested the use of a median filter additionally. We found that median filter helps both estimation methods have good performances and variance values to be decreased. According to the experimental results, there is almost no difference in the two methods' performances in the experiment using voice; however, using the signal of a song, GCC-PHAT is 10% more excellent than the cross correlation function in terms of the recognition rate. Also, when the median filter was added, the cross correlation function's recognition rate could be improved up to 11%. And in regarding to variance values, both methods showed stable performances.
This study is intended to compare the performances of sound source localization methods used for stable automobile control by improving voice recognition rate in automobile environment and suggest how to improve their performances. Generally, sound source location estimation methods employ the TDOA algorithm, and there are two ways for it; one is to use a cross correlation function in the time domain, and the other is GCC-PHAT calculated in the frequency domain. Among these ways, GCC-PHAT is known to have stronger characteristics against echo and noise than the cross correlation function. This study compared the performances of the two methods above in automobile environment full of echo and vibration noise and suggested the use of a median filter additionally. We found that median filter helps both estimation methods have good performances and variance values to be decreased. According to the experimental results, there is almost no difference in the two methods' performances in the experiment using voice; however, using the signal of a song, GCC-PHAT is 10% more excellent than the cross correlation function in terms of the recognition rate. Also, when the median filter was added, the cross correlation function's recognition rate could be improved up to 11%. And in regarding to variance values, both methods showed stable performances.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 차량 내부의 운전자석과 동승자석 사이에 3개의 마이크를 사용하므로 3개의 도달지연 시간을 계산할 수 있는데, 이중 2개의 지연시간을 이용하여 직선의 방정식을 구하고 이의 교점을 음원의 위치로 판단하게 된다. 본 논문에서는 성능 향상을 위하여 미디언 필터를 이용하여 신호를 가공하고, 음압에 임계치를 주어 비음성 구간을 검출하는 방법을 제안하였다.
본 논문에서는 차량 내부에서 음성인식 성능을 향상시켜 차량을 안정적으로 제어하기 위하여 사용하는 음원 위치추정 알고리즘의 개선방법을 제안하였다. 위치추정을 위한 알고리즘으로 TDOA를 이용하였으며, 시간영역에서 상호상관 함수를 이용하여 위상차를 계산하여 지연시간을 구하는 방법과, 주파수 영역에서 지연시간을 구하는 GCC-PHAT 방법의 성능을 비교분석하였다.
제안 방법
마이크의 좌표는 운전석에서 가장 가까운 마이크의 좌표를 (0,0)으로 하였으며, 단위는 mm이다. (그림 12)에서 가장 좌측에 보이는 마이크를 원점으로 삼고 우측으로 150mm씩 간격을 두어 두 개의 마이크를 배치하였다. 자동차라는 환경을 고려하면 너무 넓은 간격으로 마이크를 배치할 수 없기 때문에 자동차의 넓이를 고려하여 150mm로 하였다.
위치추정을 위한 알고리즘으로 TDOA를 이용하였으며, 시간영역에서 상호상관 함수를 이용하여 위상차를 계산하여 지연시간을 구하는 방법과, 주파수 영역에서 지연시간을 구하는 GCC-PHAT 방법의 성능을 비교분석하였다. 또한 입력신호는 잡음에 민감한 특성을 보이기 때문에, 인식률을 향상시키기 위한 방법으로 미디언 필터를 이용하여 임펄스성 잡음을 제거하고, 음압이 낮은 구간을 제거하기 위해 한 프레임의 에너지에 임계치를 두고 비음성 구간과 음성 구간으로 입력신호를 구분하였다. 결과적으로 GCC-PHAT 방법은 상호상관함수에 비해 최고 10% 뛰어난 성능을 보여주었으며, 미디언필터를 이용하여 신호처리를 하게 되면 상호상관 함수의 경우 11%의 성능향상을, GCC-PHAT방법의 경우 1%의 성능이 향상됨을 확인하였다.
본 논문에서는 3개의 마이크를 이용해 3개의 지연시간을 구하고, 이 중 두 개의 지연시간을 이용하여 음원의 위치를 추정하게 된다.
본 논문에서는 차량 내부의 운전자석과 동승자석 사이에 3개의 마이크를 사용하므로 3개의 도달지연 시간을 계산할 수 있는데, 이중 2개의 지연시간을 이용하여 직선의 방정식을 구하고 이의 교점을 음원의 위치로 판단하게 된다. 본 논문에서는 성능 향상을 위하여 미디언 필터를 이용하여 신호를 가공하고, 음압에 임계치를 주어 비음성 구간을 검출하는 방법을 제안하였다.
본 논문에서는 차량에 마이크를 배치하고, 마이크로 들어오는 음성정보를 이용하여 운전자와 동승자의 위치를 구별하는 실험을 진행하였다. 음원의 위치를 추정할 때는 머리전달함수[3], 힐버트 변환[4], TDOA[5], 빔 포밍[6] 등의 방법을 이용한다.
직선의 방정식은 두 점의 좌표를 알고 있거나, 한 점의 좌표와 직선의 기울기를 알면 직선의 방정식을 구할 수 있다. 본 논문에서는 한 점의 좌표와 기울기를 알고 있을 때 직선의 방정식을 구하는 방법을 이용한다.
02로 하였다. 실험 1에서 4까지는 총 400개의 데이터를 노래 200개, 음성 200개 각각에 GCC-PHAT방법과 상호상관방법을 적용하는 것으로 분류하였다.
실험을 위하여 차량 내부에서 운전자석과 동승자석에서 각각 노래와 음성을 100번씩 녹음하였다. 즉, 운전자석과 동승자석 각각 200번씩 총 400개의 데이터를 수집하였다.
본 논문에서는 차량 내부에서 음성인식 성능을 향상시켜 차량을 안정적으로 제어하기 위하여 사용하는 음원 위치추정 알고리즘의 개선방법을 제안하였다. 위치추정을 위한 알고리즘으로 TDOA를 이용하였으며, 시간영역에서 상호상관 함수를 이용하여 위상차를 계산하여 지연시간을 구하는 방법과, 주파수 영역에서 지연시간을 구하는 GCC-PHAT 방법의 성능을 비교분석하였다. 또한 입력신호는 잡음에 민감한 특성을 보이기 때문에, 인식률을 향상시키기 위한 방법으로 미디언 필터를 이용하여 임펄스성 잡음을 제거하고, 음압이 낮은 구간을 제거하기 위해 한 프레임의 에너지에 임계치를 두고 비음성 구간과 음성 구간으로 입력신호를 구분하였다.
자동차는 시동이 꺼진 상태로 잡음이 없는 환경에서 실험하였으며 창문은 닫은 상태로 하였다. 음원은 스피커에 목소리를 녹음하여 실험하였으며, 노래는 저주파에서 고주파까지 분포되어있는 노래를 재생시켰다.
대상 데이터
실험을 위하여 차량 내부에서 운전자석과 동승자석에서 각각 노래와 음성을 100번씩 녹음하였다. 즉, 운전자석과 동승자석 각각 200번씩 총 400개의 데이터를 수집하였다. 이때 사용한 다중 채널 사운드 카드는 m-audio fast-track C600을 사용하였고, 샘플링 주파수 16KHz, 샘플당 16비트로 양자화 하였다.
차량은 구형 투싼 차량을 사용하였으며 에 자세한 실험조건을 나타냈다.
이론/모형
시간축에서 상호상관함수를 이용하여 계산할 수도 있지만, 상호상관함수는 샘플 수가 많아짐에 따라 계산량이 기하급수적으로 증가하기 때문에 처리속도가 늦다. 따라서 실시간으로 처리해야 하는 장소에서는 적용하기 어려워 상대적으로 계산량이 적은 GCC[7]방법을 이용한다.
본 논문에서는 차량에 마이크를 배치하고, 마이크로 들어오는 음성정보를 이용하여 운전자와 동승자의 위치를 구별하는 실험을 진행하였다. 음원의 위치를 추정할 때는 머리전달함수[3], 힐버트 변환[4], TDOA[5], 빔 포밍[6] 등의 방법을 이용한다. 차량환경에서는 차량 내부라는 공간적인 제약이 있기 때문에 마이크를 이용해서 위치를 추정할 수 있는 TDOA방법을 이용하여 지연시간을 측정한 뒤 음원의 위치를 추정하는 방법을 사용한다.
음원의 위치를 추정할 때는 머리전달함수[3], 힐버트 변환[4], TDOA[5], 빔 포밍[6] 등의 방법을 이용한다. 차량환경에서는 차량 내부라는 공간적인 제약이 있기 때문에 마이크를 이용해서 위치를 추정할 수 있는 TDOA방법을 이용하여 지연시간을 측정한 뒤 음원의 위치를 추정하는 방법을 사용한다. TDOA는 음원에서 발생한 음압신호가 각 마이크에 서로 다른 위상 정보를 가지고 도달하게 되는데 이러한 위상 정보를 시간 정보로 변환하여 도달 지연시간을 구한다.
성능/효과
또한 입력신호는 잡음에 민감한 특성을 보이기 때문에, 인식률을 향상시키기 위한 방법으로 미디언 필터를 이용하여 임펄스성 잡음을 제거하고, 음압이 낮은 구간을 제거하기 위해 한 프레임의 에너지에 임계치를 두고 비음성 구간과 음성 구간으로 입력신호를 구분하였다. 결과적으로 GCC-PHAT 방법은 상호상관함수에 비해 최고 10% 뛰어난 성능을 보여주었으며, 미디언필터를 이용하여 신호처리를 하게 되면 상호상관 함수의 경우 11%의 성능향상을, GCC-PHAT방법의 경우 1%의 성능이 향상됨을 확인하였다. 본 논문에서는 정지된 자동차의 실내 반향을 고려한 실험을 진행했는데 이후에는 주행 중에 생기는 진동과 잡음에 대한 성능실험을 할 계획이며, 또한 운전자와 동승자가 동시에 발성하는 상황에 대처하기 위해서 다중 음원에 대한 위치추정방법에 대한 추가적인 연구가 필요하겠다.
그러나 GCC-PHAT방법의 경우에는 미디언 필터를 쓰지 않아도 낮은 분산값을 보였지만, 미디언 필터를 이용하면 분산이 5까지 줄어드는 것을 확인하였다. 결과적으로 자동차 환경처럼 밀폐된 곳에서는 GCC-PHAT 방법이 상호 상관함수보다 더 뛰어난 성능을 나타내며, 데이터에 반향이나 잡음이 추가되어 성능이 저하된 경우에는 미디언 필터를 통해 일정수준 성능 향상이 된다는 결과를 얻을 수 있었다.
그러나 안정성을 나타내는 분산 값에서 상호상관함수는 미디언 필터를 쓰지 않았을 때는 분산이 40이었지만, 미디언 필터를 9까지 증가시켜 약 50%에 가깝게 분산이 줄어드는 것을 알 수 있었다. 그러나 GCC-PHAT방법의 경우에는 미디언 필터를 쓰지 않아도 낮은 분산값을 보였지만, 미디언 필터를 이용하면 분산이 5까지 줄어드는 것을 확인하였다. 결과적으로 자동차 환경처럼 밀폐된 곳에서는 GCC-PHAT 방법이 상호 상관함수보다 더 뛰어난 성능을 나타내며, 데이터에 반향이나 잡음이 추가되어 성능이 저하된 경우에는 미디언 필터를 통해 일정수준 성능 향상이 된다는 결과를 얻을 수 있었다.
음성만을 이용하여 데이터를 수집한 실험 2, 4의 경우에는 상호상관함수나 GCC-PHAT방법 모두 100%의 인식률을 보였다. 그러나 안정성을 나타내는 분산 값에서 상호상관함수는 미디언 필터를 쓰지 않았을 때는 분산이 40이었지만, 미디언 필터를 9까지 증가시켜 약 50%에 가깝게 분산이 줄어드는 것을 알 수 있었다. 그러나 GCC-PHAT방법의 경우에는 미디언 필터를 쓰지 않아도 낮은 분산값을 보였지만, 미디언 필터를 이용하면 분산이 5까지 줄어드는 것을 확인하였다.
실험결과는 - 에 보이며 이를 통해 자동차 환경에서 상호상관함수와 GCC-PHAT방법의 성능과 미디언 필터의 마스크 크기에 따른 성능 변화를 확인할 수 있었다.
여기서 미디언 필터의 크기가 1일 경우에는 미디언 필터를 거치지 않은 경우와 같다. <표 2>에서 여러 주파수 대역의 음이 섞여 있는 노래의 경우에는 미디언 필터를 사용하지 않은 상호상관함수 방법의 인식률이 88%정도였으나 미디언 필터를 이용하여 신호를 가공하면 미디언 필터의 크기가 증가함에 따라 인식률이 증가하고, 시스템의 안정성을 나타내는 분산이 약 40% 정도 줄어드는 것을 확인할 수 있었다. 이때 분산값은 운전석과 동승자의 음원의 위치로부터 떨어져있는 정도를 나타낸다.
이때 분산값은 운전석과 동승자의 음원의 위치로부터 떨어져있는 정도를 나타낸다. 음성만을 이용하여 데이터를 수집한 실험 2, 4의 경우에는 상호상관함수나 GCC-PHAT방법 모두 100%의 인식률을 보였다. 그러나 안정성을 나타내는 분산 값에서 상호상관함수는 미디언 필터를 쓰지 않았을 때는 분산이 40이었지만, 미디언 필터를 9까지 증가시켜 약 50%에 가깝게 분산이 줄어드는 것을 알 수 있었다.
후속연구
결과적으로 GCC-PHAT 방법은 상호상관함수에 비해 최고 10% 뛰어난 성능을 보여주었으며, 미디언필터를 이용하여 신호처리를 하게 되면 상호상관 함수의 경우 11%의 성능향상을, GCC-PHAT방법의 경우 1%의 성능이 향상됨을 확인하였다. 본 논문에서는 정지된 자동차의 실내 반향을 고려한 실험을 진행했는데 이후에는 주행 중에 생기는 진동과 잡음에 대한 성능실험을 할 계획이며, 또한 운전자와 동승자가 동시에 발성하는 상황에 대처하기 위해서 다중 음원에 대한 위치추정방법에 대한 추가적인 연구가 필요하겠다.
질의응답
핵심어
질문
논문에서 추출한 답변
음성인식에서 음성의 발생 위치를 판단하여 차량제어에 활용하는 것이 중요한 이유는 무엇인가?
이중 음성인식은 2001년 GM을 시작으로 가장 먼저 관심을 받기 시작하였으며, 앞으로도 중요성이 높아질 것으로 예상할 수 있는데, 이것은 차량을 설계할 때 가장 최우선 적으로 고려되는 것이 안전이며, 안전을 위하여 가장 적합한 사용자 인터페이스가 BUI(Brain User Interface)를 제외하고는 VUI(Voice User Interface)가 가장 적합하다고 하기 때문이다. 하지만 차량 환경에서 음성정보는 다수의 화자가 존재할 수 있으며, 운전자를 제외한 다른 음성정보는 차량제어에 활용되어서는 안 되는 경우가 발생할 수 있다. 따라서 음성의 발생 위치를 판단하여 차량제어에 활용하는 것이 중요하다.
GCC-PHAT방법이 특정 환경에서 주로 사용되는 이유는 무엇인가?
이러한 도달지연시간을 구하기 위한 방법으로는 시간영역에서 상호상관함수와 주파수영역에서의 GCC-PHAT (Generalized Cross Correlation-Phase Transform) 방법이 있다. 상호상관함수는 시간영역에서 계산하는 방법으로 간단하고 비교적 정확성이 좋아 널리 쓰이는 반면에, GCC-PHAT방법은 입력 신호를 백색화하는 과정을 통해 해당 주파수의 음압을 제거한 뒤, 위상지연을 이용하여 위치를 추정하는 방법으로, 반향효과를 감소시키고 잡음을 줄일 수 있어 특정 환경에서 주로 사용한다.
도달지연시간을 구하기 위한 방법은 무엇이 있는가?
TDOA는 음원에서 발생한 음압신호가 각 마이크에 서로 다른 위상 정보를 가지고 도달하게 되는데 이러한 위상 정보를 시간 정보로 변환하여 도달 지연시간을 구한다. 이러한 도달지연시간을 구하기 위한 방법으로는 시간영역에서 상호상관함수와 주파수영역에서의 GCC-PHAT (Generalized Cross Correlation-Phase Transform) 방법이 있다. 상호상관함수는 시간영역에서 계산하는 방법으로 간단하고 비교적 정확성이 좋아 널리 쓰이는 반면에, GCC-PHAT방법은 입력 신호를 백색화하는 과정을 통해 해당 주파수의 음압을 제거한 뒤, 위상지연을 이용하여 위치를 추정하는 방법으로, 반향효과를 감소시키고 잡음을 줄일 수 있어 특정 환경에서 주로 사용한다.
참고문헌 (8)
S. H. Kim, J. Y. Ahn, "Speech Recognition System in Car Noise Environment", DMC, vol 10, No 1, 121-127, 2009.
J. W. Choi, H. S. Park, K. H. Kim, "The Human Vehicle Interface System for Integrating and Managing the In-Vehicle Interactions with IT Devices," JESK. vol 30, No.5, 651-657, 2011.
S. M. Hwang, Y. J. Park, "Sound Source Localization Using HRTF Database," KAIST, 2005.
Y. J. Park, M. W. Lee, S. H. Min, Y. H. Han, "Sound Localization based on LP Residual and Hilbert Transform for Intelligent Robot," KIISS vol. 18, No 2 ,2008.
W. Rhee, J. S. Choi, "Experimental Studies for Noise Source Positioning Using TDOA Algorithm," KSNVE, 2006.
B. Jang, D. Y. Sim, C. D. Kim, C. B. Lee, K. H. Cga, "A Study for Estimating Absolute Position od Sound Source Using Reference Microphone and Beamforming Method," KSPC ,1997.
.C. H. Knapp, G. C. Carter, "The generalized correlation method for estimation of time delay," IEEE vol. ASSP-24, 320-327, 1976.
. B. C. Park, K. D. Ban, K. C. Kwak, H. S. Yoon, "Performance analysis of GCC-PHAT-based sound source localization for intelligent robots," KROS, 2007.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.