최근 들어 인간의 의지를 각종의 전자시스템에 전달하기 위한 수단으로 음성인식 기술을 이용하고자 하는 연구가 널리 진행되고 있다. 음성인식 인터페이스에서 가장 중요한 이슈는 처리시간의 감소 및 범용 인터페이스의 개발이다. 이러한 문제점을 해결하기 위하여 본 연구에서는 하드웨어 기반의 상용 IC로 생산되고 있는 음성인식프로세서인 RSC-4128이 내장된 음성인식 모듈 VR-STAMP를 사용하였다. 본 연구에서 새롭게 개발한 시스템은 T2SI(Text To Speaker Independent) 기반의 화자(話者)독립 방식으로 음성인식 신호를 컨텐츠 네비게이션 시스템의 제어신호로 활용하여 임베디드 시스템 및 PC 등에 설치된 윈도우즈 기반의 응용 소프트웨어를 제어할 수 있는 시스템이다. 필드 테스트를 통해 그 유용성을 확인한 결과, 본 연구에서 개발한 시스템은 컨텐츠 네비게이션은 물론 가전기기 제어 및 흠 네트워크 등에 널리 응용될 수 있을 것으로 판단된다.
최근 들어 인간의 의지를 각종의 전자시스템에 전달하기 위한 수단으로 음성인식 기술을 이용하고자 하는 연구가 널리 진행되고 있다. 음성인식 인터페이스에서 가장 중요한 이슈는 처리시간의 감소 및 범용 인터페이스의 개발이다. 이러한 문제점을 해결하기 위하여 본 연구에서는 하드웨어 기반의 상용 IC로 생산되고 있는 음성인식프로세서인 RSC-4128이 내장된 음성인식 모듈 VR-STAMP를 사용하였다. 본 연구에서 새롭게 개발한 시스템은 T2SI(Text To Speaker Independent) 기반의 화자(話者)독립 방식으로 음성인식 신호를 컨텐츠 네비게이션 시스템의 제어신호로 활용하여 임베디드 시스템 및 PC 등에 설치된 윈도우즈 기반의 응용 소프트웨어를 제어할 수 있는 시스템이다. 필드 테스트를 통해 그 유용성을 확인한 결과, 본 연구에서 개발한 시스템은 컨텐츠 네비게이션은 물론 가전기기 제어 및 흠 네트워크 등에 널리 응용될 수 있을 것으로 판단된다.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구에서는 T2SI(Text To Speaker Independent) 기반의 화자(話者)독립 방식으로 음성인식 신호를 컨텐츠네비게이션 시스템의 제어신호로 활용하여 임베디드 시스템 및 PC 등에 설치된 윈도우즈 기반의 응용 소프트웨어를 제어할 수 있는 시스템을 개발하였다.
본 연구에서는 범용의 시스템을 구현하기 위하여 T2SI(Text To Speaker Independent) 기반의 화자독립방식을 이용하여 컨텐츠 네비게이션 시스템을 개발하였다. 음성인식 인터페이스에서 가장 중요한 이슈는 처리 시간의 감소 및 범용 인터페이스의 개발이다.
본 연구에서는 음성인식을 이용하여 자동차용 네비게이션 시스템에 내장된 응용소프트웨어를 제어하는 음성인식 인터페이스 시스템의 개발을 목표로 발음이 자연스러우면서 각 발음이 서로 뚜렷하게 구별되는 것에 주안점을 두고, 의 의미를 갖는 단어를 입력인식 주요 단^로 선정하였다.
제안 방법
먼저 트리거 (Trigger) 워드와 실제 음성인식에 사용될 단어를 작성한 후, 단어들의 인식률을 테스트한다. 인식률이 낮은 단어는 실제 발음기호를 수정하여 튜닝하는 과정을 거친다.
이러한 문제점을 해결하기 위하여 본 연구에서는 하드웨어 기반의 상용 IC 로 생산되고 있는 음성인식 프로세서인 RSC-4128이 내장된 음성인식 모듈 VR-STAMP〔4, 5, 6〕를 사용하였다. 본 연구에서 새롭게 개발한 시스템은 T2SI(Text To Speaker Independent) 기반의 화자(話者)독립 방식으로 음성인식 신호를 컨텐츠 네비게이션 시스템의 제어 신호로 활용하여 임베디드 시스템 및 PC 등에 설치된 윈도우즈기반의 응용 소프트웨어를 제어할 수 있는 시스템이다. 실험을 통하여 그 유용성을 확인한 결과, 본 연구에서 개발한 시스템은 컨텐츠 네비게이션은 물론 가전기기 제어 및 홈 네트워크 등에 널리 응용될 수 있을 것으로 판단된다.
본 연구에서는 음성인식 인터페이스를 자동차용 네비게이션 시스템에 적용하는 것을 목표로 발음하기 편하고, 발음의 구별이 비교적 명확한 단어를 선정하여 음성인식 단어로 활용하였다. 본 연구에서는 음성인식을 이용하여 자동차용 네비게이션 시스템에 내장된 응용소프트웨어를 제어하는 음성인식 인터페이스 시스템의 개발을 목표로 발음이 자연스러우면서 각 발음이 서로 뚜렷하게 구별되는 것에 주안점을 두고, <표 1>의 의미를 갖는 단어를 입력인식 주요 단^로 선정하였다.
실행 시킬 수 있도록 제어한다. 이를 통해 음성인식 시스템으로부터 출발하여 최종 시스템까지 넘어온 10진수 형태의 인덱스 데이터에 따라 각 1~4까지, 그리고 9~11까지의 문자를 사용하여 각 독립적인 프로그램들을 실행한다..
대상 데이터
정상적인 동작을 확인하였다. 본 연구에서 사용한 음성인식 모듈에는 약 20개의 입력 데이터를 저장할 수있는 메모리가 내장되어 있다. 그러나 컨텐츠 네비게이션시스템의 기능을 다양하게 구현할 목적으로 입력대상 단어를 15개 이상으로 증가한 필드 테스트에서는 인식률이 저하되는 것을 확인하였다.
이론/모형
음성인식 결과를 윈도우즈 기반의 시스템으로 전송하는 인터페이스 시스템은 Atmegal28을 사용하여 구성하였다. 외부 인터럽트 신호의 에지에서 인터럽트 서비스루틴이 실행되면 1T0까지의 인덱스를 RS-232C를 통해 컨텐즈 네비게이션 대상 시스템으로 전송된다.
음성인식 인터페이스에서 가장 중요한 이슈는 처리 시간의 감소 및 범용 인터페이스의 개발이다. 이러한 문제점을 해결하기 위하여 본 연구에서는 하드웨어 기반의 상용 IC 로 생산되고 있는 음성인식 프로세서인 RSC-4128이 내장된 음성인식 모듈 VR-STAMP〔4, 5, 6〕를 사용하였다. 본 연구에서 새롭게 개발한 시스템은 T2SI(Text To Speaker Independent) 기반의 화자(話者)독립 방식으로 음성인식 신호를 컨텐츠 네비게이션 시스템의 제어 신호로 활용하여 임베디드 시스템 및 PC 등에 설치된 윈도우즈기반의 응용 소프트웨어를 제어할 수 있는 시스템이다.
성능/효과
12개 내외의 음성인식 대상 단어를 사용하는 시제품의성능검증을 위한 필드 테스트에서 정상적인 동작을 확인하였다. 한편, 본 연구에서는 외부환경으로부터 발생되는 각종의 소음을 제거하는 문제는 고려하지 않았으나, 외부 소음에 강건한 실시간 컨텐츠 네비게이션 시스템을 개발하기위해서는 필수적으로 고려하여할 사항이다.
본 연구에서 사용한 음성인식 모듈에는 약 20개의 입력 데이터를 저장할 수있는 메모리가 내장되어 있다. 그러나 컨텐츠 네비게이션시스템의 기능을 다양하게 구현할 목적으로 입력대상 단어를 15개 이상으로 증가한 필드 테스트에서는 인식률이 저하되는 것을 확인하였다.
본 연구에서 개발한 시제품의 성능검증을 위한 필드 테스트에서 정상적인 동작을 확인하였다. 본 연구에서 사용한 음성인식 모듈에는 약 20개의 입력 데이터를 저장할 수있는 메모리가 내장되어 있다.
후속연구
본 연구에서 새롭게 개발한 시스템은 T2SI(Text To Speaker Independent) 기반의 화자(話者)독립 방식으로 음성인식 신호를 컨텐츠 네비게이션 시스템의 제어 신호로 활용하여 임베디드 시스템 및 PC 등에 설치된 윈도우즈기반의 응용 소프트웨어를 제어할 수 있는 시스템이다. 실험을 통하여 그 유용성을 확인한 결과, 본 연구에서 개발한 시스템은 컨텐츠 네비게이션은 물론 가전기기 제어 및 홈 네트워크 등에 널리 응용될 수 있을 것으로 판단된다.
필드 테스트를 통하여 본 연구에서 개발한 시제품의 유용성을 확인한 결과, 본 시스템은 컨텐츠 네비게이션은 물론 가전기기 제어 및 홈 네트워크 등에 널리 응용될 수 있을 것으로 판단된다.
한편, 본 연구에서는 외부환경으로부터 발생되는 각종의 소음을 제거하는 문제는 고려하지 않았으나, 외부 소음에 강건한 실시간 컨텐츠 네비게이션 시스템을 개발하기위해서는 필수적으로 고려하여할 사항이다. 향후의 연구과제이다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.