[논문]자동차 잡음환경에서의 음성인식시스템

김수훈; 안종영

자동차 잡음환경에서의 음성인식시스템
Speech Recognition System in Car Noise Environment 원문보기

디지털콘텐츠학회 논문지 = Journal of Digital Contents Society, v.10 no.1, 2009년, pp.121 - 127

초록
AI-Helper

자동차 ECU(Electronic Control Unit)는 날이 갈수록 더욱 복잡해지고 많은 기능을 요구하고 있다. 대표적으로 power windows switch, LCM(Light Control Module), mirror control system, seat memory등 운전자 편의 시스템이 개발되어 양산 중에 있다. 또한 현재 업계에서 많은 연구개발이 진행되고 있는 운전자 편의를 위한 DIS(Driver Information System)도 있다. 하지만 이러한 시스템을 운전 중 조작하게 되면 많은 위험이 따른다. 따라서 본 논문에서는 이러한 자동차 편의장치를 음성으로 조작 가능한 음성인식 시스템을 구현하였으며 자동차 잡음환경에서 인식률 향상을 위한 전처리 필터를 적용하여 양호한 인식결과 얻었다.

Abstract ▼ AI-Helper

The automotive ECU(Electronic Control Unit) becomes more complicated and is demanding many functions. For example, many automobile companies are developing driver convenience systems such as power window switch, LCM(Light Control Module), mirror control system, seat memory. In addition, many researches and developments for DIS(Driver Information System) are in progress. It is dangerous to operate such systems in driving. In this paper, we implement the speech recognition system which controls the car convenience system using speech, and apply the preprocessing filter to improve the speech recognition rate in car noise environment. As a result, we get the good speech recognition rate in car noise environment.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 음성인식 시스템을 구현하여 차량의 편의장치용 ECU제어를 위해 CAN 인터페이스와 접목 시켜 보았다. 22개의 인식단어들에 대하여 인식률을 산출하였고 차량용 인터페이스로 HI CAN BUS로 구현 해 보았다.
본 논문에서는 차량용 편의시스템 제어를 위한 음성인식 시스템을 구현하였고, 차량잡음으로 인한 인식률 감소를 개선하기 위하여 전처리 필터를 사용하였다. 2장에서는 음성인식시스템, 잡음처리필터, ECU 인터페이스 및 실험결과에 대하여 설명하고, 3장에서 결론을 기술하였다.

제안 방법

본 논문에서는 음성인식 시스템을 구현하여 차량의 편의장치용 ECU제어를 위해 CAN 인터페이스와 접목 시켜 보았다. 22개의 인식단어들에 대하여 인식률을 산출하였고 차량용 인터페이스로 HI CAN BUS로 구현 해 보았다.
전송 속도는 최대 1M비트/sec이며 전송방식은 Event Trigger형으로 CAN에서는 1개의 노드가 통신경로를 점거하여 지연이 발생할 수 있다. CAN은 마이크로컨트롤러 간의 통신을 위해 설계되었으며 현재 자동차에서 증가 하는 ECU간의 통신과 작업배선 저 잡음을 위해 설계되었다. 1987년 인텔에서는 82526이라는 표준으로 처음 CAN 라이센스를 소개하였고 1991 년 Mercedes S-Class에서 처음 CAN을 적용 하였다.
스케일링된 음성신호는 배경잡음레벨 이상인 음성신호만을 증폭시킴으로서 배경잡음을 거의 제거할 수 있다. 따라서 음성특징추출 및 음성인식 시 배경잡음을 (그림 8)과 같은 과정으로 제거한 다음 음성인식을 행하였다.
본 논문에서 구현한 음성 시스템은 화자의 음성만을 인식하여 결과를 수행하는 시스템으로 화자의 2회 발성(학습)에 의해 플래시 메모리에 저장되며 버튼 제어에 의해 시스템이 가동된다. 프로그램에서는 매칭 레벨을 1∼5까지 줄 수 있으며 이 값은 보이스 키의 인증레벨의 개념으로 사용할 수 있다.
본 논문에서는 Sensory사의 음성인식 프로세서인 RSC-4128을 이용하여 음성인식 시스템을 구현하였다.
본 논문에서는 상기와 같이 음성과 배경잡음의 관계를 이용하여 입력음향을 전체적으로 진폭을 줄여서 음성감도를 둔화 시켜서 배경잡음의 레벨을 최소화하여 음성특징만을 추출 할 수 있도록 하드웨어적으로 필터를 설계하였다. (그림 7)과 같이 마이크 입력 다음부터 콘덴서 및 저항의 병렬 필터를 구성하고 저항을 거친 DC성분 제거를 위하여 종단 필터용 콘덴서를 사용했다.
본 논문에서는 화자종속방식으로 22개의 명령에 대하여 2회 학습 후 인식 가능하도록 하였다.
차량용 ECU 제어를 위한 음성인식을 위하여 음성인식 전용 IC인 RSC-4128을 사용하여 화자 인식 실험을 하였다. 실험방법은 1명의 남성 화자가 22개의 인식단어를 각각 2회 발성(학습)하여 플래시 메모리에 저장한 후, 10회 발성으로 인식률을 측정 하였다. 실험환경은 20Km/h 이하의 주행속도로 실험하였으며 일관성 있는 실험 결과를 위해 주변에 차량이 없는 장소에서 실험하였다.
(그림 1)은 ECU 음성인식시스템의 개요이다. 음성인식 모듈에서 인식과정을 수행하고 인식결과를 Uart를 통해 인터페이스 모듈의 MCU(XC886CM)로 결과를 송신하고 그 데이터를 CAN BUS를 통하여 주변 ECU로 송신 한다. 각 ECU는 송신 받은 결과를 수행하여 결과적으로 음성인식을 통해 차량 편의 시설을 제어 할 수 있게 된다[2][6].
차량용 ECU 제어를 위한 음성인식을 위하여 음성인식 전용 IC인 RSC-4128을 사용하여 화자 인식 실험을 하였다. 실험방법은 1명의 남성 화자가 22개의 인식단어를 각각 2회 발성(학습)하여 플래시 메모리에 저장한 후, 10회 발성으로 인식률을 측정 하였다.
그리고 나머지 1바이트는 Temporary로 정의해 두었다. 통상 자동차에서는 8바이트 데이터를 사용하지만 본 논문에서는 2바이트를 음성인식결과에 대한 전송으로 사용 하였다.

대상 데이터

본 논문에서는 상기와 같이 음성과 배경잡음의 관계를 이용하여 입력음향을 전체적으로 진폭을 줄여서 음성감도를 둔화 시켜서 배경잡음의 레벨을 최소화하여 음성특징만을 추출 할 수 있도록 하드웨어적으로 필터를 설계하였다. (그림 7)과 같이 마이크 입력 다음부터 콘덴서 및 저항의 병렬 필터를 구성하고 저항을 거친 DC성분 제거를 위하여 종단 필터용 콘덴서를 사용했다. 우선 초단저항 및 콘덴서의 역할은 몇 가지가 있지만 입력음에 대해서 진폭을 낮추는 효과로 본 논문에 있어서 음향 스케일링 역할을 해주는 주요 포인트이다.
그리고 인터페이스는 HI CAN을 적용 하였으며 Infineon사의 MCU(XC886CLM)와 CAN transceiver(TLE6250)를 사용하였다. 그림2는 아날로그 음성 입력 부로써 4가지의 Pull-Up 저항으로 민감도를 조정할 수 있도록 설계 되어 있다.
0으로 표준 11비트, 확장 29비트의 ID로 구성된다[9]. 본 논문에서는 Infineon사의 8비트 MCU XC886CLM과 CAN Transceiver인 TLE 6250을 사용 하였다. XC886CLM은 ISO 11898 규격을 지원하고, MultiCAN 모듈 즉 2개의 Full-CAN 노드를 가지고 있으며 독립적인 32개의 메시지 오브젝트를 가지고 있다.
실험방법은 1명의 남성 화자가 22개의 인식단어를 각각 2회 발성(학습)하여 플래시 메모리에 저장한 후, 10회 발성으로 인식률을 측정 하였다. 실험환경은 20Km/h 이하의 주행속도로 실험하였으며 일관성 있는 실험 결과를 위해 주변에 차량이 없는 장소에서 실험하였다. 이러한 실험과정을 5명 화자에 대하여 각각 실시하였다.
실험환경은 20Km/h 이하의 주행속도로 실험하였으며 일관성 있는 실험 결과를 위해 주변에 차량이 없는 장소에서 실험하였다. 이러한 실험과정을 5명 화자에 대하여 각각 실시하였다.

성능/효과

이렇게 1차적으로 진폭조정이 되면 종단 콘덴서(C3)를 거치면서 DC성분의 잡음을 다시 제거한다. 결과적으로 진폭이 원음에 비해 약 4～5배정도 줄어들게 되는데 음성신호는 물론 배경잡음도 같이 줄어들게 되므로 음성신호대비 배경잡음에 대한 변별력을 높일 수 있다.
하지만 이와 같은 방법으로 실험한 결과 평균 인식률은 30% 이하로 저조하였다. 하지만 본 논문에서 제안한 잡음처리방법을 사용한 후 현저히 향상된 인식 결과를 얻을 수 있었다.

후속연구

주변잡음의 경우 어느 정도 변별력을 향상시킬 수 있는 이론 적인 접근이 가능하나 유사단어의 경우 변별력을 가지기에는 아직도 많은 노력이 필요한 현실 이다. 향후 유사단어의 인식향상을 위하여 명령어 선정 시 중복 되는 단어선택을 배제하는 방법과 학습 시 변별력 있는 음절에 음압 차이를 두어 효과를 얻는 방법 등의 연구가 진행되어야 한다고 사료되어진다.

질의응답

핵심어	질문	논문에서 추출한 답변
	음성인식 시스템을 구현하여 차량의 편의장치용 ECU제어를 위해 CAN 인터 페이스와 접목 시킨 결과는?	잡음처리필터의 경우 음성신호 대비 주변잡음이 약 10dB정도 이상의 음압레벨이 있어야 그효과가 있다고 할 수 가 있으며 음성신호 대비 주변잡음의 음압레벨이 유사할 경우 주변 잡음 필터의 효과가 떨어진다는 단점이 있다. 따라서 인식률 향상을 위해서는 화자가 다소 큰 소리로명령어를 발성 하여야 한다. 실험결과에서 화자 간의 인식률 차이도 상기와 같은 화자의 음압차이로 인한 결과로 추정된다. 이처럼 차량환경에 서의 음성인식은 유사단어 및 주변잡음에 따라 많은 영향을 받음을 알 수 있다. 주변잡음의 경우 어느 정도 변별력을 향상시킬 수 있는 이론 적인 접근이 가능하나 유사단어의 경우 변별력을 가지기에는 아직도 많은 노력이 필요한 현실 이다. 향후 유사단어의 인식향상을 위하여 명령어 선정 시 중복 되는 단어선택을 배제하는 방법과 학습 시 변별력 있는 음절에 음압 차이를두어 효과를 얻는 방법 등의 연구가 진행되어야 한다고 사료되어 진다.
	음성인식에서의 잡음처리 기술을 세 가지로 구분하면?	이러한 잡음을 제거하기 위하여 잡음제거를 위한 기술개발이 활발하게 이루어지고 있다. 현재 음성인식에서의 잡음처리 기술은 크게 음성향상(speech enhancement), 특징보상(feature compensation), 모델적응(model adaptation)과 같이 세 가지로 구분된다. 또한, 일반적으로 음성인식 알고리즘은 크게, HMM(Hidden Markov Model)[1][4], 신경망으로 나누어지나 현재는 HMM이 좋은 성능으로 자리 매김 하였다[2][3][5].
	음성인식방식을 두 가지로 나누면?	지금의 상용제품이 나오기 까지는 상당한 시간이 걸렸으며 많은 기업들이 더많은 음성인식 기술을 수용하려고 준비 중이고 다양한 접목이 시도되고 있다. 음성인식에는 특정 화자를 인식하는 화자종속방식과, 불특정 화자를 인식하는 화자독립방식으로 나눌 수 있으며 인식단어에 따른 고립단어인식과 연속단어인 식으로 나누어진다[1]. 화자종속에는 화자인증, 핵심어인증으로 나눌 수 있다.

참고문헌 (10)

WaldenC.Rhines, “System Approaches to Integration of Automotive Electronic Components”, Automotive Electronics Conference, pp.7-26, 2006
Seongsoo-Hong, “Technology Trends in Automotive RTOS and Component Midd leaware”, Electric-Electronics Part Symposium, The Korean Society of Automotive Engineers, pp35-10, 2006
Gordon E. Pelton, Voice Processing, pp90-102
K-F.Lee and H-W.Hon, “Large-Vocabulary Speaker-Independent Continuous Speech Recognition Using HMM: The SPHINX System”, proc ICASSP, pp3-126, 1988
L.R.Bahl, P.F.Browon, P.V. de Souza, R.L.Meecer and M.A. Picheny, “Acoustic Markov Models used in the TANGORA speech recognition system”, proc. ICASSP, pp497-500, 1988
Sensory Speech 7 Technology, RSC-4X Evaluation Manual, 2003
Raimund Ellinger, Burkhard Pollak, Thomas Pels, “Tasks and Process Steps to Develope and Evaluate Hybrid Electric Vehicles for Passenger Carto Heavy Duty Application”, International Hybrid Electric Vehicle Workshop, 2007
Jongsoon Jong, Younjeong Kyung, Seungho Choi, Hwangsoo Lee , “A Study on the performance improvement of speaker recognition using average pattern and weighted cepstrum”, Korean singal processing conference, pp179-183, 1995
Ki-Ho Kang,Bong Kyun Cho, “Design of a CAN-based Distributed Controller for BCM in Integrated Power/Signal MUX of Car”, Electric-Electronics Part Symposium, The Korean Society of Automotive Engineers, pp.114-121 , 2006
김수훈, 안종영, 로봇제어용 음성인식시스템 구현, 2004학년도 RT전략과제 개발사업 결과보고서, 2004.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

자동차 잡음환경에서의 음성인식시스템
Speech Recognition System in Car Noise Environment 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

자동차 잡음환경에서의 음성인식시스템 Speech Recognition System in Car Noise Environment 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

김수훈 (6)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

자동차 잡음환경에서의 음성인식시스템
Speech Recognition System in Car Noise Environment 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper