최근 핵심어 검출 시스템은 유비쿼터스 홈네트워크의 UI(User Interface) 기술로써 각광받고 있다. 핵심어 검출 시스템은 TV, 라디오, 떠드는 소리 등과 같은 동적 생활 잡음에 매우 취약하다. 특히, 실제 임베디드 DSP(Digital Signal Processor) 환경에서는 상대적으로 CPU(Central Processing Unit) 연산능력이 떨어지므로, 실시간으로 입력되는 음성을 인식하기가 어려워 인식율은 급격히 하락하게 된다. 본 논문은 임베디드 DSP 환경에서 원활한 연속음성인식을 수행하기 위하여 '나래야', '홈매니저'등과 같은 호출명령어를 선정하고 잡음을 포함한 묵음구간과 호출명령어로 구성된 최소의 인식네트워크를 토큰으로 구성하여 입력된 음성에 대해 실시간 음성인식을 계속적으로 수행한다.
최근 핵심어 검출 시스템은 유비쿼터스 홈네트워크의 UI(User Interface) 기술로써 각광받고 있다. 핵심어 검출 시스템은 TV, 라디오, 떠드는 소리 등과 같은 동적 생활 잡음에 매우 취약하다. 특히, 실제 임베디드 DSP(Digital Signal Processor) 환경에서는 상대적으로 CPU(Central Processing Unit) 연산능력이 떨어지므로, 실시간으로 입력되는 음성을 인식하기가 어려워 인식율은 급격히 하락하게 된다. 본 논문은 임베디드 DSP 환경에서 원활한 연속음성인식을 수행하기 위하여 '나래야', '홈매니저'등과 같은 호출명령어를 선정하고 잡음을 포함한 묵음구간과 호출명령어로 구성된 최소의 인식네트워크를 토큰으로 구성하여 입력된 음성에 대해 실시간 음성인식을 계속적으로 수행한다.
Recently, keyword spotting system is greatly in the limelight as UI(User Interface) technology of ubiquitous home network system. Keyword spotting system is vulnerable to non-stationary noises such as TV, radio, dialogue. Especially, speech recognition rate goes down drastically under the embedded D...
Recently, keyword spotting system is greatly in the limelight as UI(User Interface) technology of ubiquitous home network system. Keyword spotting system is vulnerable to non-stationary noises such as TV, radio, dialogue. Especially, speech recognition rate goes down drastically under the embedded DSP(Digital Signal Processor) environments because it is relatively low in the computational capability to process input speech in real-time. In this paper, we propose a new keyword spotting system using the call-command method, which is consisted of small number of recognition networks. We select the call-command such as 'narae', 'home manager' and compose the small network as a token which is consisted of silence with the noise and call commands to carry the real-time recognition continuously for input speeches.
Recently, keyword spotting system is greatly in the limelight as UI(User Interface) technology of ubiquitous home network system. Keyword spotting system is vulnerable to non-stationary noises such as TV, radio, dialogue. Especially, speech recognition rate goes down drastically under the embedded DSP(Digital Signal Processor) environments because it is relatively low in the computational capability to process input speech in real-time. In this paper, we propose a new keyword spotting system using the call-command method, which is consisted of small number of recognition networks. We select the call-command such as 'narae', 'home manager' and compose the small network as a token which is consisted of silence with the noise and call commands to carry the real-time recognition continuously for input speeches.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서 화자독립 연속음성인식 엔진의 DSP 구현을 위하여 음성의 입력에 대한 음성신호 검출 동작과 인식동작을 독립적으로 설계하여 실시간 음성처리를 기반으로 설계하였다. 또한, 홈네트워크의 다양한 응용시스템에 임베딩하기 위한 DSP모듈의 외부 인터페이스를 그림 5와 같이 표준화하여 설계하였다.
오히려, 미등록어 판별 연산을 수행하는 중 화자의 실제 명령이 입력되는 경우가 많아 실제의 음성 인식율이 급격히 하락할 수 밖에 없다. 본 논문에서는 “나래야”, “홈매니저”와 같은 최소의 호출 명령어 인식 네트워크를 구성, 판별함으로써 300MHz CPU 성능을 갖는 임베디드 DSP 환경에서도 실시간 연속 음성인식이 가능한 시스템을 구현하 였다 N
가설 설정
Token-Passing 알고리즘에 의해 디코딩하면 최대 100(10*10) 개의 토큰만이 필요하게 되며, 인식율이 저하되지 않는 한도에서 빠른 계산을 위하여 빔폭은 40-50개의 토큰만으로 제한하여 계산량을 최소화 시킨다. 여기서 40개의 토큰이 실시간으로 계산되면서, 호출명령어 인식 네트워크에서 묵음 모델로 천이하는 순간 역전파 경로 (Back Propagation Path)를 검사했을 때, 호출 명 령어 "나래야”로 인식되었으면 화자가 명령어를 발성하고 있다고 가정하고 연속음성인식 네트워크로 전파한다. 그림 3의 실시간 호출명령어 인식네트워크의 계산량은 실시간 MFCC 파라미터 추출 및 40 토큰 Decoding에 필요한 계산량으로 중소규모 인식기인 300단어 연속음성인식 네트워크(*33000 토큰)에 비해 극소량에 불과하다.
기존의 핵심어 검출 인식 네트워크는 각 단어 모델의 앞뒤에 묵음(silence)이 있다고 가정하고 각 단어 모델은 인식하고자 하는 하부 단위 모델의 네트워크로 구성되어 진다. 입력되는 음성 혹은 음향으로부터 추출된 특징 파라미터는 구성된 인식 네트워크의 경로를 통해 인식되어 지는데, 본 논문에서는 그림 3과 같은 2단계 인식 네트워크를 제안한다.
제안 방법
DB를 구축하였다. Test DB는 실제 홈네트워크에서 사용되는 명령어들로 호출 키워드를 포함하는 200 문장을 "나래야, 안방 불켜”의 형태로 “호출 키워드(Call-Keyword) + 제어 아이템 + 명령어” 로 발성되어지도록 구성하여 만들었다. 실험환경은 조용한 환경에서 노트북 상에서 16&Hz 샘플링 주파수로 녹음되었고, 16bit로 양자화 하여 저장한 평가용 DB를 이용하여, 그림 7과 같이 실제 가정환경과 같이 시뮬레이션 하였다.
Codec로 사용하였다. Codece DSP_Clk에 의하여 Master ModeS 동작하게 설정되었으며 입력되는 음성을 디지털화하기 위한 모든 신호를 Codec 자체에서 발생하고 DSP가 Slave로 동작토록 System 을 설계하였으며 Codec에서 처리된 음성 data는 I2S 방식의 Interface를 이용하여 DSP로 전달 되어지고 처리 결과에 대한 음성안내는 DSP에서 Codec으로 전달되어 Codec내부의 DAC를 통하여 내장된 Amp 에 의해 스피커를 통하여 외부에 전달되어 지도록 설계하였습니다.
이용하였다. TI사에서 제공하는 각종 Lib에 대한 참고하였고 USB type J* TAG 이용하여 Debug 및 초기 Nor-Flash ROM을 programming을 하였으며 1W의 회로도 설계에는 Or-Cad와 PCB Cad는 PADS를 사용하여 설계 하였다.
따라서, 본 논문에서는 음성 녹음을 위한 특별한 이벤트가 필요없는 기존의 핵심어 검출 시스템의 장점을 유지하면서, 임베디드 환경에서 소량의 연산으로 실시간 인식 처리가 가능하도록 다음과 같은 새로운 2단계 인식 네트워크를 제안한다.
잡음환경은 레벨미터기를 이용하여 조용한 실험실 상태(40如B 미만), 일반 가정환경 (40-50dB), TV 시 청환경 (50-60dB)의 3가지 상태로 분류하여 3m 거리에서 각각 테스트 하였다. 또한, 본 논문에서 제안한 호출 명령어 기반 음성인식 DSP 모듈의 사용 환경평가를 위하여 남성 20명, 여성 20 명 화자의 실제 환경에서의 인식율 테스트 평가를 수행하였으며, 오동작율 테스트를 수행하기 위하여 24시간 TV를 켜놓은 상태에서 DSP 모듈에 JTAG를 통해 로그를 남겨 한 달에 걸쳐 평가 하였다.
실험결과 제안한 시스템은 음성인식 시스템의 상용화에 가장 큰 걸림돌이 되는 미등록어 거절율에도 매우 우수한 성능을 보여주는 것으로 평가되었다. 또한, 본 논문에서는 제안한 호출 명령어 방식의 핵심어 검출 시스템을 실제 홈네트워크 시스템과 연동될 수 있는 임베디드 DSP 환경에서 구현함으로써 음성인식 기술을 상용화 할 수 있는 임베디드 시스템을 제시했다. 이러한 호출 명령어 기반 핵심어 검출기술은 홈네트워크 시스템뿐만 아니라 지능형 로봇, 유비쿼터스 가전제품, 네비게이션 등 편리하고 안전한 UI 기술을 필요로 하는 다양한 적용분야의 단말에 직접 적용이 가능하다.
본 논문에서 제안한 방식은 기존의 핵심어 검출 시스템을 임베디드화 함에 있어 문제점이 되고 있는 연산량 대비 인식 성능에 관한 해결 방안을 제안하였다. 이 방식에서 제안한 핵심어 검출 시스템은 집안 환경에서 발생할 수 있는 주방 후드, 헤어드라이기 등의 일정한 잡음 뿐 아니라, 가족간의 대호】-, TV, 라디오 등 일정치 않은 진폭 또한 사용자의 명령어 발성음 보다 큰 일상 잡음 환경에서도 우수한 인식 성능을 나타내고 있다.
본 논문의 훈련에 참여한 음성 데이터 베이스는 화자독립형 원거리 인식을 위하여 성별, 연령별, 지역별로 홈네트워크에 사용되는 545문장을 남녀 각 1, 000명씩 구축하였으며, 30msec 구간을 1 프레임으로 분석하여 Energy, 12 MFCC(Mel-scaled Frequency Cepstral Coefficient), Delta-MFCC의 26차 특징 파라미터를 추출하였고, 추출된 파라미터를 이용하여 EM(Expectation-Maximization) 알고리즘에 의해 tri-phone을 인식단위로 모델링하였다. 각 tri-phone 은 3상태의 left-to-right 천이를 가지는 상태 모델로 훈련하였다' 각 상태는 계산량 대비 우수한 성능을 나타낸 2-mixture 모델로 구성되었다.
Test DB는 실제 홈네트워크에서 사용되는 명령어들로 호출 키워드를 포함하는 200 문장을 "나래야, 안방 불켜”의 형태로 “호출 키워드(Call-Keyword) + 제어 아이템 + 명령어” 로 발성되어지도록 구성하여 만들었다. 실험환경은 조용한 환경에서 노트북 상에서 16&Hz 샘플링 주파수로 녹음되었고, 16bit로 양자화 하여 저장한 평가용 DB를 이용하여, 그림 7과 같이 실제 가정환경과 같이 시뮬레이션 하였다. 잡음환경은 레벨미터기를 이용하여 조용한 실험실 상태(40如B 미만), 일반 가정환경 (40-50dB), TV 시 청환경 (50-60dB)의 3가지 상태로 분류하여 3m 거리에서 각각 테스트 하였다.
구성되어 진다. 입력되는 음성 혹은 음향으로부터 추출된 특징 파라미터는 구성된 인식 네트워크의 경로를 통해 인식되어 지는데, 본 논문에서는 그림 3과 같은 2단계 인식 네트워크를 제안한다. 그림 3에서와 같이 호출 명령어에 대한 인식 네트워크는 음절별로 나누어지고 각 음절은 left-to-right 모델로 구성되어지며 필러 모델은 한 음절로 구성된 7개 이하의 음절 모델로 구성된다.
그림 2와 같다. 입력되는 음성의 특징을 추출하여 핵심단어(Keyword) 및 필러(Filler)모델이 연결된 인식네트워크와 패턴비교 및 언어모델 비교를 통하여 핵심단어를 검출함으로써, 인식어인지 비인식어 인지를 판별하게 된다. 이러한 핵심어 검출 시스템은 음성인식을 하기 위한 별도의 이벤트가 필요없이 연속적으로 입력되는 음성에 대해 처리가 가능해 높은 사양의 CPU를 갖는 서버급 PC등에서 연속음성 인식시스템으로써 적합해 CTI 서버를 이용한 ARS 시스템 등에 적용되어 왔다.
실험환경은 조용한 환경에서 노트북 상에서 16&Hz 샘플링 주파수로 녹음되었고, 16bit로 양자화 하여 저장한 평가용 DB를 이용하여, 그림 7과 같이 실제 가정환경과 같이 시뮬레이션 하였다. 잡음환경은 레벨미터기를 이용하여 조용한 실험실 상태(40如B 미만), 일반 가정환경 (40-50dB), TV 시 청환경 (50-60dB)의 3가지 상태로 분류하여 3m 거리에서 각각 테스트 하였다. 또한, 본 논문에서 제안한 호출 명령어 기반 음성인식 DSP 모듈의 사용 환경평가를 위하여 남성 20명, 여성 20 명 화자의 실제 환경에서의 인식율 테스트 평가를 수행하였으며, 오동작율 테스트를 수행하기 위하여 24시간 TV를 켜놓은 상태에서 DSP 모듈에 JTAG를 통해 로그를 남겨 한 달에 걸쳐 평가 하였다.
이는 제안한 호출 명령어 방식의 핵심어 검출 시스템이 제한된 리소스를 갖는 임베디드 DSP 환경에서 연속 음성인식 시스템의 장점을 최대화 할 수 있음을 보여주는 결과이다. 제안한 방식은 최소의 계산량과 2M Bytes 미만의 작은 메모리 공간으로서 일반 FC에 비해 상대적으로 열악한 리소스를 갖는 임베디드 DSP 환경에서도 연속 음성인식이 가능함을 보여주는 새로운 기법이다.
대상 데이터
또한 음성 Data를 입력받기 위한 회로로 16K应의샘플링과 16bit의 data로 변환하는 ADC와 1W의 출력을 가지는 D-Class Amp를 가지고 있는 WM8960 을 Codec로 사용하였다. Codece DSP_Clk에 의하여 Master ModeS 동작하게 설정되었으며 입력되는 음성을 디지털화하기 위한 모든 신호를 Codec 자체에서 발생하고 DSP가 Slave로 동작토록 System 을 설계하였으며 Codec에서 처리된 음성 data는 I2S 방식의 Interface를 이용하여 DSP로 전달 되어지고 처리 결과에 대한 음성안내는 DSP에서 Codec으로 전달되어 Codec내부의 DAC를 통하여 내장된 Amp 에 의해 스피커를 통하여 외부에 전달되어 지도록 설계하였습니다.
본 논문에서 제안한 방법 및 구현된 DSP 모듈의 성능평가를 위하여 남성 및 여성 화자 100명씩의 Test DB를 구축하였다. Test DB는 실제 홈네트워크에서 사용되는 명령어들로 호출 키워드를 포함하는 200 문장을 "나래야, 안방 불켜”의 형태로 “호출 키워드(Call-Keyword) + 제어 아이템 + 명령어” 로 발성되어지도록 구성하여 만들었다.
이론/모형
SAV 개발환경으로는 TI사의 CCS 개발자 Version 을 이용하였다. TI사에서 제공하는 각종 Lib에 대한 참고하였고 USB type J* TAG 이용하여 Debug 및 초기 Nor-Flash ROM을 programming을 하였으며 1W의 회로도 설계에는 Or-Cad와 PCB Cad는 PADS를 사용하여 설계 하였다.
성능/효과
기존 방식의 경우, 정량적 테스트 보다 실제 환경에서는 더욱 성능이 떨어지는 것을 확언할 수 있었다. 이는, TV와 같은 non-stationary noise 환경에서 테스
미등록어 거절율(오동작율에서도 기존의 핵심어검출 시스템이 평균 하루에 30회 정도의 오동작 횟수 (오동작율 3%)를 나타낸 반면, 똑같은 후처리 과정을 포함하고 있는 제안한 호출 명령어 방식의 연속인식시스템에서는 평균 하루 1회 정도의 오동작(오동작율 0.1%)이 발생하였다. 이는 제안한 호출 명령어 방식의 핵심어 검출 시스템이 제한된 리소스를 갖는 임베디드 DSP 환경에서 연속 음성인식 시스템의 장점을 최대화 할 수 있음을 보여주는 결과이다.
것을 알 수 있다. 반면, 제안한 방식의 경우, 시뮬레이션 환경(테스트 DB)에 의한 평가결과(표 1) 와거의 동일한 수준의 평가 결과를 보였다.
이 방식에서 제안한 핵심어 검출 시스템은 집안 환경에서 발생할 수 있는 주방 후드, 헤어드라이기 등의 일정한 잡음 뿐 아니라, 가족간의 대호】-, TV, 라디오 등 일정치 않은 진폭 또한 사용자의 명령어 발성음 보다 큰 일상 잡음 환경에서도 우수한 인식 성능을 나타내고 있다. 실험결과 제안한 시스템은 음성인식 시스템의 상용화에 가장 큰 걸림돌이 되는 미등록어 거절율에도 매우 우수한 성능을 보여주는 것으로 평가되었다. 또한, 본 논문에서는 제안한 호출 명령어 방식의 핵심어 검출 시스템을 실제 홈네트워크 시스템과 연동될 수 있는 임베디드 DSP 환경에서 구현함으로써 음성인식 기술을 상용화 할 수 있는 임베디드 시스템을 제시했다.
이는 상대적으로.음량이 적은 화자의 경우, 에너지에 크게 의존하는 기존의 인식 시스템에서 비해, 제안한 호출 명령어 방식의 핵심어 검출 시스템이 보다 효과적임을 알 수 있다. 인식속도 측면에서는 시뮬레이션 결과로부터 기존의 방식이 다소 우수한 것으로 나타났으나, 이것은 기존의 방식은 음성이 입력되는 순간부터 실시간으로 인식을 수행하지만, 제안한 방식은 호출 명령어 구간에 실시간 인식을 수행하지 못하기 때문에 나타나는 물리적 시간 차이이며, 사람이 인지하지 못할 정도의 미미한 차이이다.
본 논문에서 제안한 방식은 기존의 핵심어 검출 시스템을 임베디드화 함에 있어 문제점이 되고 있는 연산량 대비 인식 성능에 관한 해결 방안을 제안하였다. 이 방식에서 제안한 핵심어 검출 시스템은 집안 환경에서 발생할 수 있는 주방 후드, 헤어드라이기 등의 일정한 잡음 뿐 아니라, 가족간의 대호】-, TV, 라디오 등 일정치 않은 진폭 또한 사용자의 명령어 발성음 보다 큰 일상 잡음 환경에서도 우수한 인식 성능을 나타내고 있다. 실험결과 제안한 시스템은 음성인식 시스템의 상용화에 가장 큰 걸림돌이 되는 미등록어 거절율에도 매우 우수한 성능을 보여주는 것으로 평가되었다.
1%)이 발생하였다. 이는 제안한 호출 명령어 방식의 핵심어 검출 시스템이 제한된 리소스를 갖는 임베디드 DSP 환경에서 연속 음성인식 시스템의 장점을 최대화 할 수 있음을 보여주는 결과이다. 제안한 방식은 최소의 계산량과 2M Bytes 미만의 작은 메모리 공간으로서 일반 FC에 비해 상대적으로 열악한 리소스를 갖는 임베디드 DSP 환경에서도 연속 음성인식이 가능함을 보여주는 새로운 기법이다.
음량이 적은 화자의 경우, 에너지에 크게 의존하는 기존의 인식 시스템에서 비해, 제안한 호출 명령어 방식의 핵심어 검출 시스템이 보다 효과적임을 알 수 있다. 인식속도 측면에서는 시뮬레이션 결과로부터 기존의 방식이 다소 우수한 것으로 나타났으나, 이것은 기존의 방식은 음성이 입력되는 순간부터 실시간으로 인식을 수행하지만, 제안한 방식은 호출 명령어 구간에 실시간 인식을 수행하지 못하기 때문에 나타나는 물리적 시간 차이이며, 사람이 인지하지 못할 정도의 미미한 차이이다.
평가 결과이다. 평가 결과, 조용한 환경(40dB) 에서는 기존 방식의 핵심어 검출 시스템과 제안한 방식의 시스템의 인식성능 차이가 그다지 크지 않게 나타났다. 하지만, 잡음 레벨이 올라갈수록 기존 방식의 인식성능은 급격히 하락하는 반면, 제안한 방식의 인식성능은 천천히 하락하는 것을 볼 수 있다.
평가 결과, 조용한 환경(40dB) 에서는 기존 방식의 핵심어 검출 시스템과 제안한 방식의 시스템의 인식성능 차이가 그다지 크지 않게 나타났다. 하지만, 잡음 레벨이 올라갈수록 기존 방식의 인식성능은 급격히 하락하는 반면, 제안한 방식의 인식성능은 천천히 하락하는 것을 볼 수 있다. 또한, 여성화자의 경우 그 차이가 남성 화자보다 큰 것을 확인할 수 있다.
신상열, "홈네트워크 개요 및 정책 동향," 電波, 제128호, pp.60-63, 2006.
R. A. Sukkar and C-H. Lee, "Vocabulary independent discriminative utterance verification for non-keyword in subword based speech recognition," IEEE Trans. on speech and audio processing, Vol.4, No.6, pp.420-429, Nov. 1996.
Mazin G Rahim, Chin-Hui Lee, Biing-Hwang Juang and Wu Chou, "Discriminative Utterance Verification Using Minimum String Verification Error(MSVE) Training," ICASSP, 1996.
Hoi-Rin Kim, SingHun Yi and Hang-Seop Lee, "Out-Of-Vocabulary Rejection using Phone Filler Model in Variable Vocabulary Word Recognition," ICSP, Vol.1, pp.337-339, 1999.
J. Kim, J Lee, and S Choi, "Hybrid Confidence Measure for Domain-Specific Keyword Spotting," Proc. of IEA/AIE, 15, 736-745, 2002.
L. Rabiner and Biing-Hwang Juang, "Fundamentals of speech recognition", Prentice- Hall International, Inc., 1993.
박진영, 권호민, 박정원, 김창근, 허강인, "DSP기반의 잡음환경에 강인한 화자 독립 음성 인식기 구현," 대한전자공학회 03 신호처리소사이어티 추계학술대회, pp.69-72, 2003. 11.
장흥, 정익주, "TMS320C32 DSP를 이용한 실시간 화자종속 음성인식 하드웨어 모듈(VR32)구현," 한국음향학회지, 17권, 4호, pp.14-22, 1998년 5월.
Sadaoki Furui, "50 Years of Progress in Speech Recognition Technology-Where We Are, and Where We Should Go-," In Proc. ICASSP 2007 Plenary Speech, 2007.
Deng, A. Acero, M. Plumpe, and X.D. Huang, "Large-Vocabulary Speech Recognition under Adverse Acoustic Environments," In Proc. ICSLP, 2000, pp. III-806-809.
Texas Instruments, TMS320VC5501 Fixed- Point Digital Signal Processor (Rev. K). Nov 2008.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.