[논문]호출 명령어 방식 핵심어 검출 시스템의 임베디드 DSP 구현에 관한 연구

송기창; 강철호

문제 정의

본 논문에서 화자독립 연속음성인식 엔진의 DSP 구현을 위하여 음성의 입력에 대한 음성신호 검출 동작과 인식동작을 독립적으로 설계하여 실시간 음성처리를 기반으로 설계하였다. 또한, 홈네트워크의 다양한 응용시스템에 임베딩하기 위한 DSP모듈의 외부 인터페이스를 그림 5와 같이 표준화하여 설계하였다.
오히려, 미등록어 판별 연산을 수행하는 중 화자의 실제 명령이 입력되는 경우가 많아 실제의 음성 인식율이 급격히 하락할 수 밖에 없다. 본 논문에서는 “나래야”, “홈매니저”와 같은 최소의 호출 명령어 인식 네트워크를 구성, 판별함으로써 300MHz CPU 성능을 갖는 임베디드 DSP 환경에서도 실시간 연속 음성인식이 가능한 시스템을 구현하 였다 N

가설 설정

Token-Passing 알고리즘에 의해 디코딩하면 최대 100(10*10) 개의 토큰만이 필요하게 되며, 인식율이 저하되지 않는 한도에서 빠른 계산을 위하여 빔폭은 40-50개의 토큰만으로 제한하여 계산량을 최소화 시킨다. 여기서 40개의 토큰이 실시간으로 계산되면서, 호출명령어 인식 네트워크에서 묵음 모델로 천이하는 순간 역전파 경로 (Back Propagation Path)를 검사했을 때, 호출 명 령어 "나래야”로 인식되었으면 화자가 명령어를 발성하고 있다고 가정하고 연속음성인식 네트워크로 전파한다. 그림 3의 실시간 호출명령어 인식네트워크의 계산량은 실시간 MFCC 파라미터 추출 및 40 토큰 Decoding에 필요한 계산량으로 중소규모 인식기인 300단어 연속음성인식 네트워크(*33000 토큰)에 비해 극소량에 불과하다.
기존의 핵심어 검출 인식 네트워크는 각 단어 모델의 앞뒤에 묵음(silence)이 있다고 가정하고 각 단어 모델은 인식하고자 하는 하부 단위 모델의 네트워크로 구성되어 진다. 입력되는 음성 혹은 음향으로부터 추출된 특징 파라미터는 구성된 인식 네트워크의 경로를 통해 인식되어 지는데, 본 논문에서는 그림 3과 같은 2단계 인식 네트워크를 제안한다.

제안 방법

DB를 구축하였다. Test DB는 실제 홈네트워크에서 사용되는 명령어들로 호출 키워드를 포함하는 200 문장을 "나래야, 안방 불켜”의 형태로 “호출 키워드(Call-Keyword) + 제어 아이템 + 명령어” 로 발성되어지도록 구성하여 만들었다. 실험환경은 조용한 환경에서 노트북 상에서 16&Hz 샘플링 주파수로 녹음되었고, 16bit로 양자화 하여 저장한 평가용 DB를 이용하여, 그림 7과 같이 실제 가정환경과 같이 시뮬레이션 하였다.
Codec로 사용하였다. Codece DSP_Clk에 의하여 Master ModeS 동작하게 설정되었으며 입력되는 음성을 디지털화하기 위한 모든 신호를 Codec 자체에서 발생하고 DSP가 Slave로 동작토록 System 을 설계하였으며 Codec에서 처리된 음성 data는 I2S 방식의 Interface를 이용하여 DSP로 전달 되어지고 처리 결과에 대한 음성안내는 DSP에서 Codec으로 전달되어 Codec내부의 DAC를 통하여 내장된 Amp 에 의해 스피커를 통하여 외부에 전달되어 지도록 설계하였습니다.
이용하였다. TI사에서 제공하는 각종 Lib에 대한 참고하였고 USB type J* TAG 이용하여 Debug 및 초기 Nor-Flash ROM을 programming을 하였으며 1W의 회로도 설계에는 Or-Cad와 PCB Cad는 PADS를 사용하여 설계 하였다.
따라서, 본 논문에서는 음성 녹음을 위한 특별한 이벤트가 필요없는 기존의 핵심어 검출 시스템의 장점을 유지하면서, 임베디드 환경에서 소량의 연산으로 실시간 인식 처리가 가능하도록 다음과 같은 새로운 2단계 인식 네트워크를 제안한다.
잡음환경은 레벨미터기를 이용하여 조용한 실험실 상태(40如B 미만), 일반 가정환경 (40-50dB), TV 시 청환경 (50-60dB)의 3가지 상태로 분류하여 3m 거리에서 각각 테스트 하였다. 또한, 본 논문에서 제안한 호출 명령어 기반 음성인식 DSP 모듈의 사용 환경평가를 위하여 남성 20명, 여성 20 명 화자의 실제 환경에서의 인식율 테스트 평가를 수행하였으며, 오동작율 테스트를 수행하기 위하여 24시간 TV를 켜놓은 상태에서 DSP 모듈에 JTAG를 통해 로그를 남겨 한 달에 걸쳐 평가 하였다.
실험결과 제안한 시스템은 음성인식 시스템의 상용화에 가장 큰 걸림돌이 되는 미등록어 거절율에도 매우 우수한 성능을 보여주는 것으로 평가되었다. 또한, 본 논문에서는 제안한 호출 명령어 방식의 핵심어 검출 시스템을 실제 홈네트워크 시스템과 연동될 수 있는 임베디드 DSP 환경에서 구현함으로써 음성인식 기술을 상용화 할 수 있는 임베디드 시스템을 제시했다. 이러한 호출 명령어 기반 핵심어 검출기술은 홈네트워크 시스템뿐만 아니라 지능형 로봇, 유비쿼터스 가전제품, 네비게이션 등 편리하고 안전한 UI 기술을 필요로 하는 다양한 적용분야의 단말에 직접 적용이 가능하다.
본 논문에서 제안한 방식은 기존의 핵심어 검출 시스템을 임베디드화 함에 있어 문제점이 되고 있는 연산량 대비 인식 성능에 관한 해결 방안을 제안하였다. 이 방식에서 제안한 핵심어 검출 시스템은 집안 환경에서 발생할 수 있는 주방 후드, 헤어드라이기 등의 일정한 잡음 뿐 아니라, 가족간의 대호】-, TV, 라디오 등 일정치 않은 진폭 또한 사용자의 명령어 발성음 보다 큰 일상 잡음 환경에서도 우수한 인식 성능을 나타내고 있다.
본 논문의 훈련에 참여한 음성 데이터 베이스는 화자독립형 원거리 인식을 위하여 성별, 연령별, 지역별로 홈네트워크에 사용되는 545문장을 남녀 각 1, 000명씩 구축하였으며, 30msec 구간을 1 프레임으로 분석하여 Energy, 12 MFCC(Mel-scaled Frequency Cepstral Coefficient), Delta-MFCC의 26차 특징 파라미터를 추출하였고, 추출된 파라미터를 이용하여 EM(Expectation-Maximization) 알고리즘에 의해 tri-phone을 인식단위로 모델링하였다. 각 tri-phone 은 3상태의 left-to-right 천이를 가지는 상태 모델로 훈련하였다' 각 상태는 계산량 대비 우수한 성능을 나타낸 2-mixture 모델로 구성되었다.
Test DB는 실제 홈네트워크에서 사용되는 명령어들로 호출 키워드를 포함하는 200 문장을 "나래야, 안방 불켜”의 형태로 “호출 키워드(Call-Keyword) + 제어 아이템 + 명령어” 로 발성되어지도록 구성하여 만들었다. 실험환경은 조용한 환경에서 노트북 상에서 16&Hz 샘플링 주파수로 녹음되었고, 16bit로 양자화 하여 저장한 평가용 DB를 이용하여, 그림 7과 같이 실제 가정환경과 같이 시뮬레이션 하였다. 잡음환경은 레벨미터기를 이용하여 조용한 실험실 상태(40如B 미만), 일반 가정환경 (40-50dB), TV 시 청환경 (50-60dB)의 3가지 상태로 분류하여 3m 거리에서 각각 테스트 하였다.
구성되어 진다. 입력되는 음성 혹은 음향으로부터 추출된 특징 파라미터는 구성된 인식 네트워크의 경로를 통해 인식되어 지는데, 본 논문에서는 그림 3과 같은 2단계 인식 네트워크를 제안한다. 그림 3에서와 같이 호출 명령어에 대한 인식 네트워크는 음절별로 나누어지고 각 음절은 left-to-right 모델로 구성되어지며 필러 모델은 한 음절로 구성된 7개 이하의 음절 모델로 구성된다.
그림 2와 같다. 입력되는 음성의 특징을 추출하여 핵심단어(Keyword) 및 필러(Filler)모델이 연결된 인식네트워크와 패턴비교 및 언어모델 비교를 통하여 핵심단어를 검출함으로써, 인식어인지 비인식어 인지를 판별하게 된다. 이러한 핵심어 검출 시스템은 음성인식을 하기 위한 별도의 이벤트가 필요없이 연속적으로 입력되는 음성에 대해 처리가 가능해 높은 사양의 CPU를 갖는 서버급 PC등에서 연속음성 인식시스템으로써 적합해 CTI 서버를 이용한 ARS 시스템 등에 적용되어 왔다.
실험환경은 조용한 환경에서 노트북 상에서 16&Hz 샘플링 주파수로 녹음되었고, 16bit로 양자화 하여 저장한 평가용 DB를 이용하여, 그림 7과 같이 실제 가정환경과 같이 시뮬레이션 하였다. 잡음환경은 레벨미터기를 이용하여 조용한 실험실 상태(40如B 미만), 일반 가정환경 (40-50dB), TV 시 청환경 (50-60dB)의 3가지 상태로 분류하여 3m 거리에서 각각 테스트 하였다. 또한, 본 논문에서 제안한 호출 명령어 기반 음성인식 DSP 모듈의 사용 환경평가를 위하여 남성 20명, 여성 20 명 화자의 실제 환경에서의 인식율 테스트 평가를 수행하였으며, 오동작율 테스트를 수행하기 위하여 24시간 TV를 켜놓은 상태에서 DSP 모듈에 JTAG를 통해 로그를 남겨 한 달에 걸쳐 평가 하였다.
이는 제안한 호출 명령어 방식의 핵심어 검출 시스템이 제한된 리소스를 갖는 임베디드 DSP 환경에서 연속 음성인식 시스템의 장점을 최대화 할 수 있음을 보여주는 결과이다. 제안한 방식은 최소의 계산량과 2M Bytes 미만의 작은 메모리 공간으로서 일반 FC에 비해 상대적으로 열악한 리소스를 갖는 임베디드 DSP 환경에서도 연속 음성인식이 가능함을 보여주는 새로운 기법이다.

대상 데이터

또한 음성 Data를 입력받기 위한 회로로 16K应의샘플링과 16bit의 data로 변환하는 ADC와 1W의 출력을 가지는 D-Class Amp를 가지고 있는 WM8960 을 Codec로 사용하였다. Codece DSP_Clk에 의하여 Master ModeS 동작하게 설정되었으며 입력되는 음성을 디지털화하기 위한 모든 신호를 Codec 자체에서 발생하고 DSP가 Slave로 동작토록 System 을 설계하였으며 Codec에서 처리된 음성 data는 I2S 방식의 Interface를 이용하여 DSP로 전달 되어지고 처리 결과에 대한 음성안내는 DSP에서 Codec으로 전달되어 Codec내부의 DAC를 통하여 내장된 Amp 에 의해 스피커를 통하여 외부에 전달되어 지도록 설계하였습니다.
본 논문에서 제안한 방법 및 구현된 DSP 모듈의 성능평가를 위하여 남성 및 여성 화자 100명씩의 Test DB를 구축하였다. Test DB는 실제 홈네트워크에서 사용되는 명령어들로 호출 키워드를 포함하는 200 문장을 "나래야, 안방 불켜”의 형태로 “호출 키워드(Call-Keyword) + 제어 아이템 + 명령어” 로 발성되어지도록 구성하여 만들었다.

이론/모형

SAV 개발환경으로는 TI사의 CCS 개발자 Version 을 이용하였다. TI사에서 제공하는 각종 Lib에 대한 참고하였고 USB type J* TAG 이용하여 Debug 및 초기 Nor-Flash ROM을 programming을 하였으며 1W의 회로도 설계에는 Or-Cad와 PCB Cad는 PADS를 사용하여 설계 하였다.

성능/효과

기존 방식의 경우, 정량적 테스트 보다 실제 환경에서는 더욱 성능이 떨어지는 것을 확언할 수 있었다. 이는, TV와 같은 non-stationary noise 환경에서 테스
미등록어 거절율(오동작율에서도 기존의 핵심어검출 시스템이 평균 하루에 30회 정도의 오동작 횟수 (오동작율 3%)를 나타낸 반면, 똑같은 후처리 과정을 포함하고 있는 제안한 호출 명령어 방식의 연속인식시스템에서는 평균 하루 1회 정도의 오동작(오동작율 0.1%)이 발생하였다. 이는 제안한 호출 명령어 방식의 핵심어 검출 시스템이 제한된 리소스를 갖는 임베디드 DSP 환경에서 연속 음성인식 시스템의 장점을 최대화 할 수 있음을 보여주는 결과이다.
것을 알 수 있다. 반면, 제안한 방식의 경우, 시뮬레이션 환경(테스트 DB)에 의한 평가결과(표 1) 와거의 동일한 수준의 평가 결과를 보였다.
이 방식에서 제안한 핵심어 검출 시스템은 집안 환경에서 발생할 수 있는 주방 후드, 헤어드라이기 등의 일정한 잡음 뿐 아니라, 가족간의 대호】-, TV, 라디오 등 일정치 않은 진폭 또한 사용자의 명령어 발성음 보다 큰 일상 잡음 환경에서도 우수한 인식 성능을 나타내고 있다. 실험결과 제안한 시스템은 음성인식 시스템의 상용화에 가장 큰 걸림돌이 되는 미등록어 거절율에도 매우 우수한 성능을 보여주는 것으로 평가되었다. 또한, 본 논문에서는 제안한 호출 명령어 방식의 핵심어 검출 시스템을 실제 홈네트워크 시스템과 연동될 수 있는 임베디드 DSP 환경에서 구현함으로써 음성인식 기술을 상용화 할 수 있는 임베디드 시스템을 제시했다.
이는 상대적으로.음량이 적은 화자의 경우, 에너지에 크게 의존하는 기존의 인식 시스템에서 비해, 제안한 호출 명령어 방식의 핵심어 검출 시스템이 보다 효과적임을 알 수 있다. 인식속도 측면에서는 시뮬레이션 결과로부터 기존의 방식이 다소 우수한 것으로 나타났으나, 이것은 기존의 방식은 음성이 입력되는 순간부터 실시간으로 인식을 수행하지만, 제안한 방식은 호출 명령어 구간에 실시간 인식을 수행하지 못하기 때문에 나타나는 물리적 시간 차이이며, 사람이 인지하지 못할 정도의 미미한 차이이다.
본 논문에서 제안한 방식은 기존의 핵심어 검출 시스템을 임베디드화 함에 있어 문제점이 되고 있는 연산량 대비 인식 성능에 관한 해결 방안을 제안하였다. 이 방식에서 제안한 핵심어 검출 시스템은 집안 환경에서 발생할 수 있는 주방 후드, 헤어드라이기 등의 일정한 잡음 뿐 아니라, 가족간의 대호】-, TV, 라디오 등 일정치 않은 진폭 또한 사용자의 명령어 발성음 보다 큰 일상 잡음 환경에서도 우수한 인식 성능을 나타내고 있다. 실험결과 제안한 시스템은 음성인식 시스템의 상용화에 가장 큰 걸림돌이 되는 미등록어 거절율에도 매우 우수한 성능을 보여주는 것으로 평가되었다.
1%)이 발생하였다. 이는 제안한 호출 명령어 방식의 핵심어 검출 시스템이 제한된 리소스를 갖는 임베디드 DSP 환경에서 연속 음성인식 시스템의 장점을 최대화 할 수 있음을 보여주는 결과이다. 제안한 방식은 최소의 계산량과 2M Bytes 미만의 작은 메모리 공간으로서 일반 FC에 비해 상대적으로 열악한 리소스를 갖는 임베디드 DSP 환경에서도 연속 음성인식이 가능함을 보여주는 새로운 기법이다.
음량이 적은 화자의 경우, 에너지에 크게 의존하는 기존의 인식 시스템에서 비해, 제안한 호출 명령어 방식의 핵심어 검출 시스템이 보다 효과적임을 알 수 있다. 인식속도 측면에서는 시뮬레이션 결과로부터 기존의 방식이 다소 우수한 것으로 나타났으나, 이것은 기존의 방식은 음성이 입력되는 순간부터 실시간으로 인식을 수행하지만, 제안한 방식은 호출 명령어 구간에 실시간 인식을 수행하지 못하기 때문에 나타나는 물리적 시간 차이이며, 사람이 인지하지 못할 정도의 미미한 차이이다.
평가 결과이다. 평가 결과, 조용한 환경(40dB) 에서는 기존 방식의 핵심어 검출 시스템과 제안한 방식의 시스템의 인식성능 차이가 그다지 크지 않게 나타났다. 하지만, 잡음 레벨이 올라갈수록 기존 방식의 인식성능은 급격히 하락하는 반면, 제안한 방식의 인식성능은 천천히 하락하는 것을 볼 수 있다.
평가 결과, 조용한 환경(40dB) 에서는 기존 방식의 핵심어 검출 시스템과 제안한 방식의 시스템의 인식성능 차이가 그다지 크지 않게 나타났다. 하지만, 잡음 레벨이 올라갈수록 기존 방식의 인식성능은 급격히 하락하는 반면, 제안한 방식의 인식성능은 천천히 하락하는 것을 볼 수 있다. 또한, 여성화자의 경우 그 차이가 남성 화자보다 큰 것을 확인할 수 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

호출 명령어 방식 핵심어 검출 시스템의 임베디드 DSP 구현에 관한 연구
A Study on Embedded DSP Implementation of Keyword-Spotting System using Call-Command 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

참고문헌 (12)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

호출 명령어 방식 핵심어 검출 시스템의 임베디드 DSP 구현에 관한 연구 A Study on Embedded DSP Implementation of Keyword-Spotting System using Call-Command 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

참고문헌 (12)

이 논문을 인용한 문헌

저자의 다른 논문 :

송기창 (1) 강철호 (40)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

호출 명령어 방식 핵심어 검출 시스템의 임베디드 DSP 구현에 관한 연구
A Study on Embedded DSP Implementation of Keyword-Spotting System using Call-Command 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper