[논문]차량환경에서 음성인식 성능 향상을 위한 마이크로폰 어레이 빔형성 기법

한철희; 강홍구; 황영수; 윤대희

문제 정의

본 논문에서는 상대전달함수를 조향 벡터로 사용하는 RTF-MVDR 알고리듬과 RTF-DS 알고리듬을 제안하였고, 자동차 환경에서 기존 알고리듬과의 인식률 시험을 통해 이들의 성능을 평가하였다.
본 논문에서는 차량환경에서 구현이 용이하고, 안정적이며 잔향 및 근접장 효과에 강인한 빔형성 알고리듬을 제안하였다. TF-GSC의 제한조건 (constraint) 으로부터 같은 제한조건을 갖는 주파수 영역 MVDR 빔형 성기를 유도하였으며, 이것이 MVDR 빔형성기의 조향 벡터로 전달함수 대신 상대전달함수를 갖는 것과 같음을 보였다.
본 논문에서는 차량환경에서 구현이 용이하고, 안정적이며 잔향 및 근접장 효과에 강인한 빔형성 알고리듬을 제안하였다. TF-GSC의 제한조건 (constraint) 으로부터 같은 제한조건을 갖는 주파수 영역 MVDR 빔형 성기를 유도하였으며, 이것이 MVDR 빔형성기의 조향 벡터로 전달함수 대신 상대전달함수를 갖는 것과 같음을 보였다.

가설 설정

잔향 (reverberation)과 잡음 및 간섭신호가 존재하는 환경에서 L개의 센서를 갖는 등간격 선형 마이크로폰 어레이 (uniform linear microphone array)가 있다고 할 때, 다음과 같은 신호 모델을 가정해보자.
잔향 (reverberation)과 잡음 및 간섭신호가 존재하는 환경에서 L개의 센서를 갖는 등간격 선형 마이크로폰 어레이 (uniform linear microphone array)가 있다고 할 때, 다음과 같은 신호 모델을 가정해보자.

제안 방법

그림 1과 같이, 2, 000cc 중형승용차의 조수석 썬바이저에 5개의 무지향성 (omni-directional) 마이크를 6cm 간격으로 배치하고 프리앰프 및 디지털 멀티채널 레코더를 통하여 잡음과 깨끗한 음성을 따로 녹음하여 나중에 SNR별로 혼합된 잡음 음성을 만들 수 있도록 하였다 [11], 가운데 위치한 3번 마이크가 조수석 헤드레스트 중심부와 일직선이 되도록 조정하고 조수석 화자가 정면을 바라보았을 때 음성이 거의 수직으로 입사하도록 어레이를 조정하였다.
녹음시 표본화율은 24kHz 였고, 녹음된 잡음과 음성으로부터 -5dB 에서부터 2.5dB 간격으로 10dB 까지의 SN出을 갖는 잡음 음성 신호를 만들고 이를 8kHz의 표본화율로 다운샘플하였다. 이와 같은 처리는 화자별로 35단어씩 녹음된 단위별로 수행되었고, 나중에 HTK에서 인식 실험시 끝점 검출 오차의 영향을 없애기 위해단어 단위로 파일을 자를 수 있도록 수작업으로 단어의 시작점과 끝점의 시간을 기록하였다.
TF-GSC의 제한조건 (constraint) 으로부터 같은 제한조건을 갖는 주파수 영역 MVDR 빔형 성기를 유도하였으며, 이것이 MVDR 빔형성기의 조향 벡터로 전달함수 대신 상대전달함수를 갖는 것과 같음을 보였다. 또한, 유사한 방법을 적용하여 상대전달함수를 조향 벡터로 갖는 Delay-and-Sum 빔형성기를 제안하였다. 제안한 알고리듬의 성능 비교를 위하여 자동차에서 녹음된 음성 데이터베이스와 HTK 라이브러리를 이용하여 음성인식 실험을 수행하였다[9].
음악은 팝음악을 차량에 내장된 CD Player를 통해 재생했으며, 볼륨은 일반적인 상황과 최대한 비슷하도록 저속에서 창문을 닫았을 때는 작게, 고속에서 창문을 닫았을 때는 조금 더 크게, 저속에서 창문을 열었을 때에는 외부잡음을 감안하여 세 가지 경우 중에서 가장 크게 설정하였다. 또한, 저속에서 창문을 열었을 때에는 비정적인 외부 차량 잡음이 잘 유입되도록 되도록 주로 1차선에서 주행하였으며, 유턴 차선에서 대기하면서 상대적으로 빠른속도로 진행하는 반대편 차량의 소음이 녹음되도록 하였다.
모든 알고리듬은 단구간 퓨리어 변환 영 역에서 수행되었으며 이때 사용된 창함수는 256탭 hamming, FFT 크기는 512, 중첩은 75%로 하였다[12]. 성능비교를 위해원격장 조향벡터를 이용한 far-DS (Delay-and-Sum), far-MVDR 및 상대전달함수를 조향벡터로 이용한 TF- GSC, RTF-MVDR, RTF-DS 알고리듬을 적용하였다.
음성은 비교적 조용한 지하주차장에서 남자 17명, 여자 4명이 35단어를 단어 사이에 1초이상 쉬고 발음하도록 하였고, 그러한 녹음을 1인당 두 번씩 수행하였다.
말한다. 음악은 팝음악을 차량에 내장된 CD Player를 통해 재생했으며, 볼륨은 일반적인 상황과 최대한 비슷하도록 저속에서 창문을 닫았을 때는 작게, 고속에서 창문을 닫았을 때는 조금 더 크게, 저속에서 창문을 열었을 때에는 외부잡음을 감안하여 세 가지 경우 중에서 가장 크게 설정하였다. 또한, 저속에서 창문을 열었을 때에는 비정적인 외부 차량 잡음이 잘 유입되도록 되도록 주로 1차선에서 주행하였으며, 유턴 차선에서 대기하면서 상대적으로 빠른속도로 진행하는 반대편 차량의 소음이 녹음되도록 하였다.
인식률 시험은 표본 데이터를 각각 남자 4명과 여자 1명으로 구성된 3개 세트와 남자 5명과 여자 1명으로 구성된 1개 세트, 총 4 개의 배타적 세트로 나누어 round-robin 방식으로 시험하였다. 이 때, 훈련은 3번 마이크의 깨끗한 음성 신호로 하였고, 시험은 SNR별로 준비된 3번 마이크 잡음 음성 및 5가지 알고리듬으로 후처리된 신호로 하였다.
5dB 간격으로 10dB 까지의 SN出을 갖는 잡음 음성 신호를 만들고 이를 8kHz의 표본화율로 다운샘플하였다. 이와 같은 처리는 화자별로 35단어씩 녹음된 단위별로 수행되었고, 나중에 HTK에서 인식 실험시 끝점 검출 오차의 영향을 없애기 위해단어 단위로 파일을 자를 수 있도록 수작업으로 단어의 시작점과 끝점의 시간을 기록하였다.
HTK의 특징추출 및 HMM 관련 파라메터는 표 2와 같다. 인식률 시험은 표본 데이터를 각각 남자 4명과 여자 1명으로 구성된 3개 세트와 남자 5명과 여자 1명으로 구성된 1개 세트, 총 4 개의 배타적 세트로 나누어 round-robin 방식으로 시험하였다. 이 때, 훈련은 3번 마이크의 깨끗한 음성 신호로 하였고, 시험은 SNR별로 준비된 3번 마이크 잡음 음성 및 5가지 알고리듬으로 후처리된 신호로 하였다.
자동차 환경에서 간섭 신호의 시간적 특성은 시간에 따라 변화할 수 있지만 공간적 특성은 외부적인 요인이 없는 한 크게 변화하지 않는다고 가정하고, far-MVDR 및 RTF-MVDR 알고리듬의 계수 갱신은 35단어씩 녹음된 단위 음성에 대해 잡음만 있는 앞부분의 약 600ms 구간에서 추정한 공간상관행렬로부터 한 번만 구해서 전체 35단어 단위 음성에 적용하였다. TF-GSC를 제외한 나머지 알고리듬들은 계수를 한번만 계산해서 35문장으로 이루어진 단위 음성에 대해 같은 계수로 필터링을 하므로, 계수 계산에 필요한 계산량을 무시하고 필터링에 드는 계산량만 따진다면 L탭의 복소 필터링만 필요하지만, TF-GSC는 시변하는 필터계수에 의한 시간영역 에일리어징 (time-domain aliasing)에 의한 집음을 막기 위한 IFF!% 계수절삭 및 FFT 과정을 빼고도 약 5배의 계산이 필요하므로 제안된 알고리듬이 약 5배 이상의 계산상의 이득이 있다[3, 14].
제안된 알고리듬은 주변 환경의 변화가 적은 충분한 시간 동안에 초기에 한 번 계산된 계수를 그대로 사용하도록 하였다. 이에, RTF-DS 알고리듬은 기존의 원격 장조 향 벡터를 사용하는 Delay-and-Sum 알고리듬과 같은 계산량으로 최대 3%정도 인식률 향상이 있었고, RTF-MVDR 알고리듬도 기존의 원격장 조향벡터를 사용하는 MVDR 알고리듬과 같은 계산량으로 최대 15%의 인식률 향상이 있었다.
제안된 알고리듬의 성능을 평가하기 위하여, 자동차 환경에서 잡음 음성 데이터베이스를 구축하였다.
또한, 유사한 방법을 적용하여 상대전달함수를 조향 벡터로 갖는 Delay-and-Sum 빔형성기를 제안하였다. 제안한 알고리듬의 성능 비교를 위하여 자동차에서 녹음된 음성 데이터베이스와 HTK 라이브러리를 이용하여 음성인식 실험을 수행하였다[9]. 실험 결과, 상대전달함수를 조향벡터로 갖는 제안한 알고리듬이 원격장 조향 벡터를 갖는 기존 알고리듬에 비해 우수한 성능을 보였다.

데이터처리

제안된 알고리듬의 성능 평가는 HTK를 이용한 인식률 비교를 통하여 이루어졌다. HTK의 특징추출 및 HMM 관련 파라메터는 표 2와 같다.

이론/모형

상대전달함수의 추정을 위해서는 일반적인 최소 평균 자승오차 (MMSE) 추정법 대신 Shalvi 등이 제안한 비정적 특성을 이용한 방법 (nonstationarity-based method) 을 이용하여 바이어스가 없는 추정 상대전달함수를 이용한다 [10].
512, 중첩은 75%로 하였다[12]. 성능비교를 위해원격장 조향벡터를 이용한 far-DS (Delay-and-Sum), far-MVDR 및 상대전달함수를 조향벡터로 이용한 TF- GSC, RTF-MVDR, RTF-DS 알고리듬을 적용하였다.

성능/효과

far-DS와 RTF-DS의 경우에는 "저속 창문열고” 일 때는 비슷한 인식률을 보였고, 그 이외의 상황에서는 RTF-DS가 최대 3% 정도 높은 인식률을 보였다. Far-MVDR과 RTF-MVDR의 인식률 비교에 비해 차이가 적은 이유는 Delay-and-Sum 빔형성기는 간섭 신호 방향으로 널링을 하지 않으므로, 단순히 RTF-DS가 시간 지연 보상을 더 충실히 한 효과밖에 없기 때문이라고 판단된다.
마지막으로, TF-GSC오} 고정된 계수로 필터링 하는 부분만 생각했을 때 TF-GSC에 비해 상대적으로 계산량이 적은 RTF-MVDR의 인식률을 비교해보면, "저속, 창문 열고, 음악智 일 때에는 최대 7% 차이로 RTF-MVDR 이 저조한 인식률을 보였다. 그러나, 그 이외의 경우에서는 최대 2.
IFF!% 계수절삭 및 FFT 과정을 빼고도 약 5배의 계산이 필요하므로 제안된 알고리듬이 약 5배 이상의 계산상의 이득이 있다[3, 14].
TF-GSC의 제한조건 (constraint) 으로부터 같은 제한조건을 갖는 주파수 영역 MVDR 빔형 성기를 유도하였으며, 이것이 MVDR 빔형성기의 조향 벡터로 전달함수 대신 상대전달함수를 갖는 것과 같음을 보였다. 또한, 유사한 방법을 적용하여 상대전달함수를 조향 벡터로 갖는 Delay-and-Sum 빔형성기를 제안하였다.
TF-GSC의 제한조건 (constraint) 으로부터 같은 제한조건을 갖는 주파수 영역 MVDR 빔형 성기를 유도하였으며, 이것이 MVDR 빔형성기의 조향 벡터로 전달함수 대신 상대전달함수를 갖는 것과 같음을 보였다. 또한, 유사한 방법을 적용하여 상대전달함수를 조향 벡터로 갖는 Delay-and-Sum 빔형성기를 제안하였다.
8에 보였다. 기준이 될 수 있는 잡음이 없는 깨끗한 신호로 테스트한 결과는 94.63%였다.
먼저 far-MVDR과 RTF-MVDR의 성능을 비교해보면, 전반적으로 RTF-MVDR이 높은 인식률을 보였으며, SN压이 낮을수록 차이가 심했고 최대 15%정도 차이가 났다. far-MVDR의 인식률이 낮은 이유는 근접장 효과에 의한 신호 감쇄 및 왜곡 때문이라고 판단되며, “저속, 창문닫고” 일 때에는 음악 켬/끔에 상관없이 잡음 신호보다도 낮은 인식률을 나타냈는데, 그 이유는 “저속, 창문 닫고” 일 때에는 주로 엔진룸쪽에서 유입되는 극저주파 대역에 에너지가 집중된 엔진 노이즈가 강하기 때문에 앞과 뒤를 구분 못하는 원격장 선형 어레이의 특성상 목적 신호 주변에서 간섭신호가 들어오는 경우와 같으므로 저주파 대역에서 목적 신호의 감쇄 및 왜곡이 심하기 때문이라고 판단된다.
제안한 알고리듬의 성능 비교를 위하여 자동차에서 녹음된 음성 데이터베이스와 HTK 라이브러리를 이용하여 음성인식 실험을 수행하였다[9]. 실험 결과, 상대전달함수를 조향벡터로 갖는 제안한 알고리듬이 원격장 조향 벡터를 갖는 기존 알고리듬에 비해 우수한 성능을 보였다.
제안한 알고리듬의 성능 비교를 위하여 자동차에서 녹음된 음성 데이터베이스와 HTK 라이브러리를 이용하여 음성인식 실험을 수행하였다[9]. 실험 결과, 상대전달함수를 조향벡터로 갖는 제안한 알고리듬이 원격장 조향 벡터를 갖는 기존 알고리듬에 비해 우수한 성능을 보였다.
위의 결과로 미루어보아, 상대전달함수벡터를 조향 벡터로 이용한 제안한 방법이 원격장 조향벡터를 사용한 방법보다 인식성능을 향상시킴을 알 수 있다.
하였다. 이에, RTF-DS 알고리듬은 기존의 원격 장조 향 벡터를 사용하는 Delay-and-Sum 알고리듬과 같은 계산량으로 최대 3%정도 인식률 향상이 있었고, RTF-MVDR 알고리듬도 기존의 원격장 조향벡터를 사용하는 MVDR 알고리듬과 같은 계산량으로 최대 15%의 인식률 향상이 있었다.

후속연구

제안된 알고리듬은 자동차 환경 뿐만 아니라, 임의의지오메트리를 갖는 센서 어레이에 적용가능하며, 추적능력이 있고 잡음환경하에서 적은 추정오차를 갖는 상대전달 함수 추정 알고리듬과 결합한다면 전달함수의 시간에 대한 변화가 더 큰 환경에도 적용이 가능하다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

차량환경에서 음성인식 성능 향상을 위한 마이크로폰 어레이 빔형성 기법
A Microphone Array Beamformer for the Performance Enhancement of Speech Recognizer in Car 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

차량환경에서 음성인식 성능 향상을 위한 마이크로폰 어레이 빔형성 기법 A Microphone Array Beamformer for the Performance Enhancement of Speech Recognizer in Car 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

한철희 (1) 강홍구 (29) 황영수 (16) 윤대희 (144)

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

차량환경에서 음성인식 성능 향상을 위한 마이크로폰 어레이 빔형성 기법
A Microphone Array Beamformer for the Performance Enhancement of Speech Recognizer in Car 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper