현재의 음성인식 기술은 하드웨어 기술의 발전과 더불어 여러 분야에 응용되고 있지만 음성구동 휠체어와 같은 고신뢰성이 요구되는 응용분야에서는 아직도 그 성능이 불충분하다. 실 환경에서 음성을 통해 안전하게 휠체어를 제어하기 위해서는 도로의 소음 등과 같은 주변잡음의 영향에 의한 음성인식 성능의 저하, 사용자의 기침소리나 숨소리 등과 같은 비음성 입력시의 오동작, 명령어의 불명확한 발성과 일반인과는 다른 발성 속도 및 발성 주파수 등을 고려한 인식시스템이 필요하다. 이를 위하여 본 논문에서는 비음성 입력시의 오동작을 방지하기 위해 인식기의 전처리 단에서 YIN 기본주파수 추출방법을 적용한 후 프레임 별 신뢰도에 기반한 고정도로 음성/비음성을 판별할 수 있는 방법을 제안하고, 불명확한발성에 대한 인식 성능 향상을 위해 화자 적응화 방법 및 개인적인 발성 변이를 표현할 수 있는 다중 후보 단어사전을 구성하여 인식성능 제고를 도모하였다. 잡음이 포함된 실 환경하에서 수집한 데이터를 대상으로 인식실험을 수행한 결과 기존의 켑스트럼 방법에서는 오류 없이 비음성을 찾아내는 재현율은 62%로 나타났으나 본 논문에서 제안한 YIN방법에 기반을 둔 신뢰도 측정방법에서는 95.1%를 나타나 우수한 성능을 나타내었다. 실 환경에서 수집된 2211개의 불명확한 발성을 대상으로 인식실험을 수행한 결과 2000상태 16 혼합수 HMnet 모델을 이용한 경우 인식률이 78.6%로 나타났으나 MAP적응화 방법 및 다중 후보 인식사전을 적용한 결과 99.5%의 인식 성능을 나타내어 제안한 방법의 유효성을 확인할 수 있었다.
현재의 음성인식 기술은 하드웨어 기술의 발전과 더불어 여러 분야에 응용되고 있지만 음성구동 휠체어와 같은 고신뢰성이 요구되는 응용분야에서는 아직도 그 성능이 불충분하다. 실 환경에서 음성을 통해 안전하게 휠체어를 제어하기 위해서는 도로의 소음 등과 같은 주변잡음의 영향에 의한 음성인식 성능의 저하, 사용자의 기침소리나 숨소리 등과 같은 비음성 입력시의 오동작, 명령어의 불명확한 발성과 일반인과는 다른 발성 속도 및 발성 주파수 등을 고려한 인식시스템이 필요하다. 이를 위하여 본 논문에서는 비음성 입력시의 오동작을 방지하기 위해 인식기의 전처리 단에서 YIN 기본주파수 추출방법을 적용한 후 프레임 별 신뢰도에 기반한 고정도로 음성/비음성을 판별할 수 있는 방법을 제안하고, 불명확한발성에 대한 인식 성능 향상을 위해 화자 적응화 방법 및 개인적인 발성 변이를 표현할 수 있는 다중 후보 단어사전을 구성하여 인식성능 제고를 도모하였다. 잡음이 포함된 실 환경하에서 수집한 데이터를 대상으로 인식실험을 수행한 결과 기존의 켑스트럼 방법에서는 오류 없이 비음성을 찾아내는 재현율은 62%로 나타났으나 본 논문에서 제안한 YIN방법에 기반을 둔 신뢰도 측정방법에서는 95.1%를 나타나 우수한 성능을 나타내었다. 실 환경에서 수집된 2211개의 불명확한 발성을 대상으로 인식실험을 수행한 결과 2000상태 16 혼합수 HMnet 모델을 이용한 경우 인식률이 78.6%로 나타났으나 MAP적응화 방법 및 다중 후보 인식사전을 적용한 결과 99.5%의 인식 성능을 나타내어 제안한 방법의 유효성을 확인할 수 있었다.
Current speech recognition technology s achieved high performance with the development of hardware devices, however it is insufficient for some applications where high reliability is required, such as voice control of powered wheelchairs for disabled persons. For the system which aims to operate pow...
Current speech recognition technology s achieved high performance with the development of hardware devices, however it is insufficient for some applications where high reliability is required, such as voice control of powered wheelchairs for disabled persons. For the system which aims to operate powered wheelchairs safely by voice in real environment, we need to consider that non-voice commands such as user s coughing, breathing, and spark-like mechanical noise should be rejected and the wheelchair system need to recognize the speech commands affected by disability, which contains specific pronunciation speed and frequency. In this paper, we propose non-voice rejection method to perform voice/non-voice classification using both YIN based fundamental frequency(F0) extraction and reliability in preprocessing. We adopted a multi-template dictionary and acoustic modeling based speaker adaptation to cope with the pronunciation variation of inarticulately uttered speech. From the recognition tests conducted with the data collected in real environment, proposed YIN based fundamental extraction showed recall-precision rate of 95.1% better than that of 62% by cepstrum based method. Recognition test by a new system applied with multi-template dictionary and MAP adaptation also showed much higher accuracy of 99.5% than that of 78.6% by baseline system.
Current speech recognition technology s achieved high performance with the development of hardware devices, however it is insufficient for some applications where high reliability is required, such as voice control of powered wheelchairs for disabled persons. For the system which aims to operate powered wheelchairs safely by voice in real environment, we need to consider that non-voice commands such as user s coughing, breathing, and spark-like mechanical noise should be rejected and the wheelchair system need to recognize the speech commands affected by disability, which contains specific pronunciation speed and frequency. In this paper, we propose non-voice rejection method to perform voice/non-voice classification using both YIN based fundamental frequency(F0) extraction and reliability in preprocessing. We adopted a multi-template dictionary and acoustic modeling based speaker adaptation to cope with the pronunciation variation of inarticulately uttered speech. From the recognition tests conducted with the data collected in real environment, proposed YIN based fundamental extraction showed recall-precision rate of 95.1% better than that of 62% by cepstrum based method. Recognition test by a new system applied with multi-template dictionary and MAP adaptation also showed much higher accuracy of 99.5% than that of 78.6% by baseline system.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 위에 열거한 연구내용 중 실 환경에서 효과적으로 동작하는 시스템 구현을 위해 신뢰성 높은 음성/비음성 구간 검출 방법과 중증 장애우의 불명확한 발성 및 속도 등을 고려하여 작성된 음성 데이터베이스와 이를 도입하여 개발된 기본적인 음성구동 휠체어 시스템에 대해 간략히 소개하고 새로운 시스템을 이용한 성능평가 결과에 대해 기술한다.
본 논문에서는 위에 열거한 연구내용 중 실 환경에서 효과적으로 동작하는 시스템 구현을 위해 신뢰성 높은 음성/비음성 구간 검출 방법과 중증 장애우의 불명확한 발성 및 속도 등을 고려하여 작성된 음성 데이터베이스와 이를 도입하여 개발된 기본적인 음성구동 휠체어 시스템에 대해 간략히 소개하고 새로운 시스템을 이용한 성능평가 결과에 대해 기술한다.
음성구동 전동 휠체어 시스템과 같이 한정된 명령어 인식을 위한 고정도 음성/비음성 분별을 위해서는 이와 같은 문제점을 해결한 새로운 방법이 필요하다. 이를 위하여 본 논문에서는 F0 추출과정 중 프레임별 신뢰도 검증을 수행한 후 전체적으로 신뢰성 있는 프레임의 비율을 통해 음성/비음성 구간을 검출하는 새로운 방법을 제안하고자 한다.
가설 설정
4. (a) An example of difference function, (b) Gurmilative mean-normalized difference function of the same waveform.그림 6.
제안 방법
5%로 나타나 실용화에 충분한 성능을 보임을 알 수 있었다 이때 오류율 감소는 64%로 나타났다. V. 결 론본 논문에서는 중증 장애우들이 실 환경에서 음성인식 장치를 이용하여 안전하게 휠체어를 제어할 수 있도록 개발한 음성구동 휠체어 시스템의 성능향상을 위하여 인식 기의 전처리단에서 고정도 F0추출과 신뢰도 판별을 수행 하여 음성/비음성 분별을 수행할 수 있는 방법을 제안하고, 불명확한 발성에 대한 음성인식 성능 향상을 위해 화자 적응화 방법 및 개인적인 발성 변이를 표현할 수 있는 다중 후보 단어 사전을 작성하여 이용하였다. 잡음이 포함된 실 환경하에서 수집한 데이터를 대상으로 인식실험을 수행한 결과 기존의 켑스트럼 방법에서는 감사의 글이 논문은 2006학년도 영남대학교 학술연구조성비 지원에 의한 것임 참고 문헌 1.
블루투스 헤드셋은 전송특성상 8kHz 샘플링률로 녹음하였다 수집한 음성 데이터의 수는 표 3과 같으며, 헤드셋의경우 정확히 입력된 음성 샘플수가 426개로써 음성입력 성공률이 가장 높음을 알 수 있었다. 골전도 마이크의 경우에는 돌발성 잡음이 가장 많이 나타났으며, 고정형 마이크의 경우에는 주변 사람들의 음성이 많이 입력됨을 확인할 수 있었다 다양한 실 환경의 음성 수집을 위한 다음 단계에서는데모 시스템을 통해 수집된 초기단계의 음성 데이터를 기반으로 음성구동 휠체어 시스템을 구현한 후 집, 도로, 재활센터의 실내와 실외, 공원, 장애우 운동회 등의 환경에서 실제 휠체어 테스트를 겸하여 음성 데이터를 녹음하였다. 수집된 2000개 이상의 음성 데이터는 적응화 및 인식성능 분석을 위해 이용하였다 IV.
블루투스 헤드셋은 전송특성상 8kHz 샘플링률로 녹음하였다 수집한 음성 데이터의 수는 표 3과 같으며, 헤드셋의경우 정확히 입력된 음성 샘플수가 426개로써 음성입력 성공률이 가장 높음을 알 수 있었다. 골전도 마이크의 경우에는 돌발성 잡음이 가장 많이 나타났으며, 고정형 마이크의 경우에는 주변 사람들의 음성이 많이 입력됨을 확인할 수 있었다 다양한 실 환경의 음성 수집을 위한 다음 단계에서는데모 시스템을 통해 수집된 초기단계의 음성 데이터를 기반으로 음성구동 휠체어 시스템을 구현한 후 집, 도로, 재활센터의 실내와 실외, 공원, 장애우 운동회 등의 환경에서 실제 휠체어 테스트를 겸하여 음성 데이터를 녹음하였다. 수집된 2000개 이상의 음성 데이터는 적응화 및 인식성능 분석을 위해 이용하였다 IV.
음성입력장치를 이용하여 전동휠체어를 조작하는 경우 디지털로 표현된 음성명령어를 아날로그 입력장치인 조이스틱과 같이 각도와 속도를 자유롭게 조작하기에는 어려운 점이 있다. 따라서 보다 더 자유로운 조작을 위해 그림 10과 같이 전후좌우 및 정지의 5개의 상태에 혼합상태 6개를 추가하였다. 예를 들어 "전진 명령어 이후 오른쪽' 명령어가 발성되면 15° 각도의 오른쪽 방향으로 전진하게 되고, 다시 "오른쪽' 명령어가 발성되면 60° 각도의 오른쪽 방향으로 전진하게 된다.
하지만, 이렇게 선택된 단어의 경우에도 장애우의 음성발성의 어려움으로 인해 “hd da ri”의 발성을 "hi hi hi da ri", "i a ri" 등으로 발성하는 경우가 있으며, 이때 일반적인 단어사전의단어당 발성 후보가 하나로 구성된 경우에는 불명확한 발성에 대응하지 못하는 문제점이 있다. 따라서 본 연구에서는 장애우가 발성한 음성 데이터의 발성 패턴을 분석한후 다중 후보 인식사전을 구성하기로 하였다. 이를 표 1에 나타낸다.
하지만, 이렇게 선택된 단어의 경우에도 장애우의 음성발성의 어려움으로 인해 “hd da ri”의 발성을 "hi hi hi da ri", "i a ri" 등으로 발성하는 경우가 있으며, 이때 일반적인 단어사전의단어당 발성 후보가 하나로 구성된 경우에는 불명확한 발성에 대응하지 못하는 문제점이 있다. 따라서 본 연구에서는 장애우가 발성한 음성 데이터의 발성 패턴을 분석한후 다중 후보 인식사전을 구성하기로 하였다. 이를 표 1에 나타낸다.
V. 결 론본 논문에서는 중증 장애우들이 실 환경에서 음성인식 장치를 이용하여 안전하게 휠체어를 제어할 수 있도록 개발한 음성구동 휠체어 시스템의 성능향상을 위하여 인식 기의 전처리단에서 고정도 F0추출과 신뢰도 판별을 수행 하여 음성/비음성 분별을 수행할 수 있는 방법을 제안하고, 불명확한 발성에 대한 음성인식 성능 향상을 위해 화자 적응화 방법 및 개인적인 발성 변이를 표현할 수 있는 다중 후보 단어 사전을 작성하여 이용하였다. 잡음이 포함된 실 환경하에서 수집한 데이터를 대상으로 인식실험을 수행한 결과 기존의 켑스트럼 방법에서는 감사의 글이 논문은 2006학년도 영남대학교 학술연구조성비 지원에 의한 것임 참고 문헌 1.
2. 불명확한발성에 대한 안식 실험 음성구동 휠체어 시스템의 기본적인 성능과 적응화된 음향모델 및 다중 후보 인식사전의 유효성을 확인하기 위해 인식실험을 수행하였다. 실험을 위해 사용된 데이터와 분석 조건은 표 5와 같다.
이를 표 1에 나타낸다. 표!에 나타낸 다중 후보 인식사전을 작성하는 데 있어서는 사전에 녹음한 음성을 대상으로 음소 인식실험을 수행하여 그 결과를 바탕으로 초기 단어 인식사전을 작성한후, 반복적인 단어인식 실험을 통해 불필요한 후보를 삭제하는 과정을 거쳐 최종 인식사전으로 하였다. HI.
2. 불명확한발성에 대한 안식 실험 음성구동 휠체어 시스템의 기본적인 성능과 적응화된 음향모델 및 다중 후보 인식사전의 유효성을 확인하기 위해 인식실험을 수행하였다. 실험을 위해 사용된 데이터와 분석 조건은 표 5와 같다.
2GHz 타블렛 PC 에서 동작하도록 하였다. 이때 화면 디자인은 음성입력 상태, 휠체어 동작상태를 사용자가 직관적 확인이 가능하도록 하였고, 전동휠체어의 전체 속도를 변경하기 위해 실내, 저속, 중속, 고속 모드로 변경이 편리하도록 하였다.음성입력장치를 이용하여 전동휠체어를 조작하는 경우 디지털로 표현된 음성명령어를 아날로그 입력장치인 조이스틱과 같이 각도와 속도를 자유롭게 조작하기에는 어려운 점이 있다.
2GHz 타블렛 PC 에서 동작하도록 하였다. 이때 화면 디자인은 음성입력 상태, 휠체어 동작상태를 사용자가 직관적 확인이 가능하도록 하였고, 전동휠체어의 전체 속도를 변경하기 위해 실내, 저속, 중속, 고속 모드로 변경이 편리하도록 하였다.음성입력장치를 이용하여 전동휠체어를 조작하는 경우 디지털로 표현된 음성명령어를 아날로그 입력장치인 조이스틱과 같이 각도와 속도를 자유롭게 조작하기에는 어려운 점이 있다.
특히 중증 장애우를 위한 음성구동 휠체어의 경우에는 발성 환경이 휠체어 조작환경과 유사하면서 자연스러운 발성이 나타날 수 있는 안전한 환경에서 녹음하는 것이 필요 하다.이를 위해 초기 녹음단계에서는 그림 11과 같이 음성명령어로 제어할 수 있는 음성구동 소형로봇 시스템과 그래픽 데모 시스템을 구현하여 음성데이터를 수록하였다 이때 4개의 마이크를 동시에 착용하였으며, 사용된 마이크 (a) (b) 그림 11 . 음성 녹음 환경 (a) 음성구동 소형로봇 (b) 그래픽 데모 시스템 Fig.
이를 위해 초기 녹음단계에서는 그림 11과 같이 음성명령어로 제어할 수 있는 음성구동 소형로봇 시스템과 그래픽 데모 시스템을 구현하여 음성데이터를 수록하였다 이때 4개의 마이크를 동시에 착용하였으며, 사용된 마이크는 헤드셋 (Audio-technica: AT810X), 소형 골전도 (Sony: ECM-TL1), 고정형 핀 (PAVEC: MC-105), 블루투스 헤드셋 (Sonorix: OBHTHOO)이다.
표 1에 나타낸 다중 후보 인식사전을 작성하는데 있어서는 사전에 녹음한 음성을 대상으로 음소 인식실험을 수행하여 그 결과를 바탕으로 초기 단어 인식사전을 작성한 후, 반복적인 단어인식 실험을 통해 불필요한 후보를 삭제하는 과정을 거쳐 최종 인식사전으로 하였다.
대상 데이터
Confidence threshold analysis of four types of micro-phones with the best recall-precision. Headset Bone conduction Pin Bluetooth Cepstrum 3 2.5 1.5 2 YIN 0.05-0.1 0.06-0.08 0.07-0.1 0.08-0.1부터 녹음된 음성명령어 데이터 1567개와 잡음 데이터 44깨를 이용하였으며, 그 성능은 정확도와 재현율 곡선으로 나타내었다. 이를 그림 12, 13에 보인다.
골전도 마이크의 경우에는 돌발성 잡음이 가장 많이 나타났으며, 고정형 마이크의 경우에는 주변 사람들의 음성이 많이 입력됨을 확인할 수 있었다 다양한 실 환경의 음성 수집을 위한 다음 단계에서는데모 시스템을 통해 수집된 초기단계의 음성 데이터를 기반으로 음성구동 휠체어 시스템을 구현한 후 집, 도로, 재활센터의 실내와 실외, 공원, 장애우 운동회 등의 환경에서 실제 휠체어 테스트를 겸하여 음성 데이터를 녹음하였다. 수집된 2000개 이상의 음성 데이터는 적응화 및 인식성능 분석을 위해 이용하였다 IV. 안식 실험 및 결과 4.
골전도 마이크의 경우에는 돌발성 잡음이 가장 많이 나타났으며, 고정형 마이크의 경우에는 주변 사람들의 음성이 많이 입력됨을 확인할 수 있었다 다양한 실 환경의 음성 수집을 위한 다음 단계에서는데모 시스템을 통해 수집된 초기단계의 음성 데이터를 기반으로 음성구동 휠체어 시스템을 구현한 후 집, 도로, 재활센터의 실내와 실외, 공원, 장애우 운동회 등의 환경에서 실제 휠체어 테스트를 겸하여 음성 데이터를 녹음하였다. 수집된 2000개 이상의 음성 데이터는 적응화 및 인식성능 분석을 위해 이용하였다 IV. 안식 실험 및 결과 4.
이때 F0 검출을 위한 샘플링율은 16kHz이며, 윈도우 크기는 25ms, 프레임 이동은 8ms 이다. 실험에 사용된 데이터는 4종류의 마이크로폰으로 256 한국음힝학회지 제26권 제6호 (2007) 표 4. 최고의 재현유정확도에서 4가지 타입 마이크로폰의 신뢰도 문턱값 Ta이e 4. Confidence threshold analysis of four types of micro-phones with the best recall-precision. Headset Bone conduction Pin Bluetooth Cepstrum 3 2.
실험에 사용된 데이터는 4종류의 마이크로폰으로 부터 녹음된 음성명령어 데이터 1567개와 잡음 데이터 44깨를 이용하였으며, 그 성능은 정확도와 재현율 곡선으로 나타내었다.
다중 후보 인식사전 중증 장애우를 위한 음성명령어의 선택은 장애의 정도와 개개인의 특성에 따라 발음이 쉽고 명료하게 발성할수 있는 단어로 한정할 필요가 있다. 이를 위해 명령어로 사용 가능한 12개의 단어 가운데 개인별 테스트를 통해 발성이 쉬운 5개의 단어를 선택하였다. 하지만, 이렇게 선택된 단어의 경우에도 장애우의 음성발성의 어려움으로 인해 “hd da ri”의 발성을 "hi hi hi da ri", "i a ri" 등으로 발성하는 경우가 있으며, 이때 일반적인 단어사전의단어당 발성 후보가 하나로 구성된 경우에는 불명확한 발성에 대응하지 못하는 문제점이 있다.
실험을 위해 사용된 데이터와 분석 조건은 표 5와 같다. 표 5의 JNAS 데이터베이스는 일본어 대어휘 연속음성인식을 위해 작성된 님녀 각 153명의 신문기사 낭독체 연속음성 데이터베이스로써 기본 음향모델 생성을 위해 사용되었다. 화자독립 음향모델을 이용한 기본 인식결과와 MAP 방법을 이용하여 적응화된 음향모델의 인식결과를 표 6에 나타내었다.
실험을 위해 사용된 데이터와 분석 조건은 표 5와 같다. 표 5의 JNAS 데이터베이스는 일본어 대어휘 연속음성인식을 위해 작성된 님녀 각 153명의 신문기사 낭독체 연속음성 데이터베이스로써 기본 음향모델 생성을 위해 사용되었다. 화자독립 음향모델을 이용한 기본 인식결과와 MAP 방법을 이용하여 적응화된 음향모델의 인식결과를 표 6에 나타내었다.
데이터처리
수집된 2000개 이상의 음성 데이터는 적응화 및 인식성능 분석을 위해 이용하였다 IV. 안식 실험 및 결과 4.1 음성/비음성 분별실험 제안된 YIN을 이용한 음성 비음성 분별 성능을 확인하기 위해 표 3의 녹음 데이터를 이용하여 켑스트럼 방법과 비교 실험을 수행하였다. 이때 F0 검출을 위한 샘플링율은 16kHz이며, 윈도우 크기는 25ms, 프레임 이동은 8ms 이다.
안식 실험 및 결과 4.1 음성/비음성 분별실험 제안된 YIN을 이용한 음성 비음성 분별 성능을 확인하기 위해 표 3의 녹음 데이터를 이용하여 켑스트럼 방법과 비교 실험을 수행하였다. 이때 F0 검출을 위한 샘플링율은 16kHz이며, 윈도우 크기는 25ms, 프레임 이동은 8ms 이다.
이론/모형
F0 검출방법은 시간 영역에서의 검출방법으로는 평균 H7] 차'분■함^수 (average magnitude difference function), 평균 제곱 차분 함수 (average squared difference function), 유사 자기상관 함수 (similar autocorrelation methods) 등을 이용하는 방법들이 있으며, 주파수 영역에서는 켑스트럼 분석을 통한 검출방법이 있다 본 논문에서는 이와 같은 F0 검출 알고리즘 중에서 가장 정확성이 높은 것으로 알려진 YIN 방법을 이용하기로 한다.
F0 검출방법은 시간 영역에서의 검출방법으로는 평균 H7] 차'분■함^수 (average magnitude difference function), 평균 제곱 차분 함수 (average squared difference function), 유사 자기상관 함수 (similar autocorrelation methods) 등을 이용하는 방법들이 있으며, 주파수 영역에서는 켑스트럼 분석을 통한 검출방법이 있다 본 논문에서는 이와 같은 F0 검출 알고리즘 중에서 가장 정확성이 높은 것으로 알려진 YIN 방법을 이용하기로 한다. 이 방법은 de Cheveigne에 의해 제안되었으며 부가적인 파라미터의 수가 적고, 세부적인 조정이 필요 없는 장점이 있다 [9].
성능/효과
& Adapt 1 61.4 94.2 97.8 98.42 78.4 95.5 98.8 99.14 77.9 94.6 98.7 99.28 80.4 94.3 98.8 99.316 78.6 93.8 98.6 99.532 75.1 91.2 98.4 99.4립 모델을 이용한 경우 인식률이 78.6%로 나타났으나 여기에 다중후보 인식사전을 적용한 결과 93.8%로 향상되어 71%의 오류율이 감소됨을 확인할 수 있었다.
Recognition accuracies according to the number of adapted words. Models Number of Adapted words BASE니 NE 12 24 48 96 Monophone 78.9 95.0 95.2 96.6 96.6 Triphone 51.8 76.5 91.3 97.9 99.01000-state HMnet 88.2 97.4 98.0 99.0 99.02000-state HMnet 78.6 97.2 98.6 99.3 99.4오류 없이 비음성을 찾아낸 재현율은 62%로 나타났으나본 논문에서 제안한YIN방법에 기반을 둔 신뢰도 측정방법에서는 95.1%의 우수한 성능을 나타내었다. 실 환경에서 수록된 2211개의 불명확한 발성을 대상으로 인식실험을 수행한 결과 2000상태 16 혼합수 HMnet 모델을 이용하고 MAP적응화 방법 및 다중 후보 인식사전을 적용한결과 99.
블루투스 헤드셋은 전송특성상 8kHz 샘플링률로 녹음하였다 수집한 음성 데이터의 수는 표 3과 같으며, 헤드셋의경우 정확히 입력된 음성 샘플수가 426개로써 음성입력 성공률이 가장 높음을 알 수 있었다. 골전도 마이크의 경우에는 돌발성 잡음이 가장 많이 나타났으며, 고정형 마이크의 경우에는 주변 사람들의 음성이 많이 입력됨을 확인할 수 있었다 다양한 실 환경의 음성 수집을 위한 다음 단계에서는데모 시스템을 통해 수집된 초기단계의 음성 데이터를 기반으로 음성구동 휠체어 시스템을 구현한 후 집, 도로, 재활센터의 실내와 실외, 공원, 장애우 운동회 등의 환경에서 실제 휠체어 테스트를 겸하여 음성 데이터를 녹음하였다. 수집된 2000개 이상의 음성 데이터는 적응화 및 인식성능 분석을 위해 이용하였다 IV.
이를 그림 12, 13에 보인다. 그림 12에서와 같이 켑스트럼 방법을 이용한 경우 문턱 값을 2.5로 설정할 때 정확도 93%, 재현율 94%를 나타내 었으며, YIN방법을 이용한 경우 (그림 13) 문턱값을 0.08로 설정할 때 정확도 99%에 재현율 97%를 나타내어 제안한 방법이 켑스트럼 방법에 비해 성능이 뛰어남을 확인할수있다.일반적인 음성인식 장치와 달리 휠체어 구동을 위한 음성/비음성 분별의 경우, 정지 명령어 발성이 비음성으로 분별되어 반드시 정지해야 하는 경우에 정지하지 못해 사고로 이어질 수 있다.
그림 12에서와 같이 켑스트럼 방법을 이용한 경우 문턱값을 2.5로 설정할 때 정확도 93%, 재현율 94%를 나타내었으며, YIN방법을 이용한 경우 (그림 13) 문턱값을 0.08 로 설정할 때 정확도 99%에 재현율 97%를 나타내어 제안한 방법이 켑스트럼 방법에 비해 성능이 뛰어남을 확인할 수 있다.
마이크로폰 종류에 따른 최적의 신뢰도 문턱값을 결정함에 있어서도 켑스트럼 방법의 경우에는 각 마이크로폰마다 문턱값의 세부 조정이 필요하나, YIN 방법의 경우에는 문턱값 0.08에서 사용 마이크로폰에 관계없이 안정적으로 동작함을 확인할 수 있었다 (표4 참조).
Type Voice command Noise Owners other utterances Other peoples utterances Headset 426 65 76 12 Bone conduction 405 339 88 286 Pin 399 21 90 361 Bluetooth 337 22 64 62 Total 1567 447 318 721는 헤드셋 (Audio-technica: AT810X), 소형 골전도 (Sony: ECM-TL1), 고정형 핀 (PAVEC: MC-105), 블루 투스 헤드셋 (Sonorix: OBHTHOO)이다. 블루투스 헤드셋은 전송특성상 8kHz 샘플링률로 녹음하였다 수집한 음성 데이터의 수는 표 3과 같으며, 헤드셋의경우 정확히 입력된 음성 샘플수가 426개로써 음성입력 성공률이 가장 높음을 알 수 있었다. 골전도 마이크의 경우에는 돌발성 잡음이 가장 많이 나타났으며, 고정형 마이크의 경우에는 주변 사람들의 음성이 많이 입력됨을 확인할 수 있었다 다양한 실 환경의 음성 수집을 위한 다음 단계에서는데모 시스템을 통해 수집된 초기단계의 음성 데이터를 기반으로 음성구동 휠체어 시스템을 구현한 후 집, 도로, 재활센터의 실내와 실외, 공원, 장애우 운동회 등의 환경에서 실제 휠체어 테스트를 겸하여 음성 데이터를 녹음하였다.
Type Voice command Noise Owners other utterances Other peoples utterances Headset 426 65 76 12 Bone conduction 405 339 88 286 Pin 399 21 90 361 Bluetooth 337 22 64 62 Total 1567 447 318 721는 헤드셋 (Audio-technica: AT810X), 소형 골전도 (Sony: ECM-TL1), 고정형 핀 (PAVEC: MC-105), 블루 투스 헤드셋 (Sonorix: OBHTHOO)이다. 블루투스 헤드셋은 전송특성상 8kHz 샘플링률로 녹음하였다 수집한 음성 데이터의 수는 표 3과 같으며, 헤드셋의경우 정확히 입력된 음성 샘플수가 426개로써 음성입력 성공률이 가장 높음을 알 수 있었다. 골전도 마이크의 경우에는 돌발성 잡음이 가장 많이 나타났으며, 고정형 마이크의 경우에는 주변 사람들의 음성이 많이 입력됨을 확인할 수 있었다 다양한 실 환경의 음성 수집을 위한 다음 단계에서는데모 시스템을 통해 수집된 초기단계의 음성 데이터를 기반으로 음성구동 휠체어 시스템을 구현한 후 집, 도로, 재활센터의 실내와 실외, 공원, 장애우 운동회 등의 환경에서 실제 휠체어 테스트를 겸하여 음성 데이터를 녹음하였다.
1%의 우수한 성능을 나타내었다. 실 환경에서 수록된 2211개의 불명확한 발성을 대상으로 인식실험을 수행한 결과 2000상태 16 혼합수 HMnet 모델을 이용하고 MAP적응화 방법 및 다중 후보 인식사전을 적용한결과 99.5%의 인식 성능을 나타내어 제안한 방법의 유효성을 확인할 수 있었다. 표 7.
1%의 우수한 성능을 나타내었다. 실 환경에서 수록된 2211개의 불명확한 발성을 대상으로 인식실험을 수행한 결과 2000상태 16 혼합수 HMnet 모델을 이용하고 MAP적응화 방법 및 다중 후보 인식사전을 적용한결과 99.5%의 인식 성능을 나타내어 제안한 방법의 유효성을 확인할 수 있었다. 표 7.
Recall-precision curve for non-voice classification 다. 이 경우 그림 12의 켑스트럼 방법에서는 음성은 반드시 음성으로 판별한 정확도가 100%일 경우 비음성을 찾아낸 재현율은 62%이나, 그림 13의 YIN방법에서는 정확도 100%일 때 재현율 95.1%를 나타내어 성능이 우수함을 알 수 있다 마이크로폰 종류에 따른 최적의 신뢰도 문턱값을 결정 함에 있어서도 켑스트럼 방법의 경우에는 각 마이크로폰마다 문턱값의 세부 조정이 필요하나, YIN 방법의 경우에는 문턱값 0.08에서 사용 마이크로폰에 관계없이 안정적으로 동작함을 확인할 수 있었다 (표4 참조).
Recall-precision curve for non-voice classification 다. 이 경우 그림 12의 켑스트럼 방법에서는 음성은 반드시 음성으로 판별한 정확도가 100%일 경우 비음성을 찾아낸 재현율은 62%이나, 그림 13의 YIN방법에서는 정확도 100%일 때 재현율 95.1%를 나타내어 성능이 우수함을 알 수 있다 마이크로폰 종류에 따른 최적의 신뢰도 문턱값을 결정 함에 있어서도 켑스트럼 방법의 경우에는 각 마이크로폰마다 문턱값의 세부 조정이 필요하나, YIN 방법의 경우에는 문턱값 0.08에서 사용 마이크로폰에 관계없이 안정적으로 동작함을 확인할 수 있었다 (표4 참조). 4.
잡음이 포함된 실 환경하에서 수집한 데이터를 대상으로 인식실험을 수행한 결과 기존의 켑스트럼 방법에서는 오류 없이 비음성을 찾아낸 재현율은 62%로 나타났으나 본 논문에서 제안한YIN방법에 기반을 둔 신뢰도 측정 방법에서는 95.1%의 우수한 성능을 나타내었다.
장애우 운동회 및 다양한 잡음이 포함된 실외 환경 (SNR 10dB이상)에서 녹음된 데이터를 이용한 단어 인식 실험에서 1000상태 HMnet 모델을 이용한 경우, 인식사전의 단어 수가 5개임에도 불구하고 단어인식률이 88.2%로 낮게 나타났다.
화자독립 음향모델을 이용한 기본 인식결과와 MAP 방법을 이용하여 적응화된 음향모델의 인식결과를 표 6에 나타내었다. 장애우 운동회 및 다양한 잡음이 포함된 실외 환경 (SNR 10dB이상)에서 녹음된 데이터를 이용한 단어인식 실험에서 1000상태 HMnet 모델을 이용한 경우, 인식사전의 단어 수가 5개임에도 불구하고 단어인식률이 88.2%로 낮게 나타났다. 이 원인은 화자의 특성 및 발성 변이를 고려하지 않아 발생한 것으로 판단되었다.
8%로 향상되어 71%의 오류율이 감소됨을 확인할 수 있었다. 장애우의 경우 적응화 단어발성이 쉽지 않은 점을 고려 하여 24 단어를 이용하여 적응화를 수행한 모델의 결과 98.6%의 인식률을 나타내었으며 여기에 다중 후보 인식 사전을 추가적으로 적용한 결과 인식률이 99.5%로 나타나 실용화에 충분한 성능을 보임을 알 수 있었다 이때 오류율 감소는 64%로 나타났다. V.
8%로 향상되어 71%의 오류율이 감소됨을 확인할 수 있었다. 장애우의 경우 적응화 단어발성이 쉽지 않은 점을 고려 하여 24 단어를 이용하여 적응화를 수행한 모델의 결과 98.6%의 인식률을 나타내었으며 여기에 다중 후보 인식 사전을 추가적으로 적용한 결과 인식률이 99.5%로 나타나 실용화에 충분한 성능을 보임을 알 수 있었다 이때 오류율 감소는 64%로 나타났다. V.
화자변이를 고려한 다중 후보 인식사전의 성능을 확인하기 위해 인식실험을 수행한 결과 표 7에서와 같이 2000상태 HMnet 모델을 이용한 경우, 16혼합의 화자독립 모델을 이용한 경우 인식률이 78.6%로 나타났으나 여기에 다중후보 인식사전을 적용한 결과 93.8%로 향상되어 71%의 오류율이 감소됨을 확인할 수 있었다.
참고문헌 (11)
D. Ding, R.A. Cooper, 'Electric Powered Wheelchairs,' in IEEE Trans. Control Systems Magazine, 25 22-34, 2005
송병섭, 이정현, 박정제, 박희준, 김영남 '화자 독립 방식의 음성인식 칩 및 무선마이크를 이용한 전동 휠체어의 구현' 센서공학회 논문집, 13 (1) 20-26, 2004
A. Sasou, H. Kojima, 'Multi-Channel Speech Input System for a Wheelchair,' in Proc. Acoust. Soc. Japan, 2006
K. Sadohara, S.W. Lee and H. Kojima, 'Topic Segmentation Using Kernel Principal Component Analysis for Sub-Phonetic Segments,' Technical Report of IEICE, AI 2004-77, 37-41, 2005
J. Rouat, Y. C. Liu and D. Morrisette, 'A Pitch Determination and Voiced/Unvoiced Decision Algorithm for Noisy Speech,' in Speech Communication, 21, 1997
S. Ahmadi, S. S. Andreas, 'Cepstrum-based Pitch Detection using a New Statistical V/UV Classification Algorithm,' in IEEE Trans. Speech Audio Processing, 7 (3) 333 -339, 1999
H. Miyabayashi, T. Funada, 'Pitch extraction and voiced/ unvoiced detection of speech by cross-coupling multi-layered neural network with feedback architecture.' in Journal of Electronics and Communication of Japan, 80 (9) 48-58, 1998
K. Giridharan, B.Y. Smolenski and R.E. Yantorno, 'Statistical And Model Based Approach To Unvoiced Speech Detection:' in Proc. ISPACS, 816-821. 2004
A. de Cheveigne, H. Kawahara, 'YIN, a Fundamental Frequency Estimator for Speech and Music,' in Journal of the Acoustic Society of the America, 111, 2002
A. Lee, T. Kawahara and K. Shikano, 'Julius - an Open Source Real-time Large Vocabulary Recognition Engine.' in Proc. European Conference on Speech Communication and Technology, 1691-1694, 2001
S.Y. SUK, S.W. Lee, H. Kojima and S. Makino, 'Multi-mixture based PDT-SSS Algorithm for Extension of HMNet Structure,' in Proc. Acoust. Soc. Japan, 2005
※ AI-Helper는 부적절한 답변을 할 수 있습니다.