[논문]중증 장애우용 음성구동 휠체어를 위한 강인한 음성인식 알고리즘

석수영; 정현열

doi:10.7776/ask.2007.26.6.250

문제 정의

본 논문에서는 위에 열거한 연구내용 중 실 환경에서 효과적으로 동작하는 시스템 구현을 위해 신뢰성 높은 음성/비음성 구간 검출 방법과 중증 장애우의 불명확한 발성 및 속도 등을 고려하여 작성된 음성 데이터베이스와 이를 도입하여 개발된 기본적인 음성구동 휠체어 시스템에 대해 간략히 소개하고 새로운 시스템을 이용한 성능평가 결과에 대해 기술한다.
본 논문에서는 위에 열거한 연구내용 중 실 환경에서 효과적으로 동작하는 시스템 구현을 위해 신뢰성 높은 음성/비음성 구간 검출 방법과 중증 장애우의 불명확한 발성 및 속도 등을 고려하여 작성된 음성 데이터베이스와 이를 도입하여 개발된 기본적인 음성구동 휠체어 시스템에 대해 간략히 소개하고 새로운 시스템을 이용한 성능평가 결과에 대해 기술한다.
음성구동 전동 휠체어 시스템과 같이 한정된 명령어 인식을 위한 고정도 음성/비음성 분별을 위해서는 이와 같은 문제점을 해결한 새로운 방법이 필요하다. 이를 위하여 본 논문에서는 F0 추출과정 중 프레임별 신뢰도 검증을 수행한 후 전체적으로 신뢰성 있는 프레임의 비율을 통해 음성/비음성 구간을 검출하는 새로운 방법을 제안하고자 한다.

가설 설정

4. (a) An example of difference function, (b) Gurmilative mean-normalized difference function of the same waveform.그림 6.

제안 방법

5%로 나타나 실용화에 충분한 성능을 보임을 알 수 있었다 이때 오류율 감소는 64%로 나타났다. V. 결 론본 논문에서는 중증 장애우들이 실 환경에서 음성인식 장치를 이용하여 안전하게 휠체어를 제어할 수 있도록 개발한 음성구동 휠체어 시스템의 성능향상을 위하여 인식 기의 전처리단에서 고정도 F0추출과 신뢰도 판별을 수행 하여 음성/비음성 분별을 수행할 수 있는 방법을 제안하고, 불명확한 발성에 대한 음성인식 성능 향상을 위해 화자 적응화 방법 및 개인적인 발성 변이를 표현할 수 있는 다중 후보 단어 사전을 작성하여 이용하였다. 잡음이 포함된 실 환경하에서 수집한 데이터를 대상으로 인식실험을 수행한 결과 기존의 켑스트럼 방법에서는 감사의 글이 논문은 2006학년도 영남대학교 학술연구조성비 지원에 의한 것임 참고 문헌 1.
블루투스 헤드셋은 전송특성상 8kHz 샘플링률로 녹음하였다 수집한 음성 데이터의 수는 표 3과 같으며, 헤드셋의경우 정확히 입력된 음성 샘플수가 426개로써 음성입력 성공률이 가장 높음을 알 수 있었다. 골전도 마이크의 경우에는 돌발성 잡음이 가장 많이 나타났으며, 고정형 마이크의 경우에는 주변 사람들의 음성이 많이 입력됨을 확인할 수 있었다 다양한 실 환경의 음성 수집을 위한 다음 단계에서는데모 시스템을 통해 수집된 초기단계의 음성 데이터를 기반으로 음성구동 휠체어 시스템을 구현한 후 집, 도로, 재활센터의 실내와 실외, 공원, 장애우 운동회 등의 환경에서 실제 휠체어 테스트를 겸하여 음성 데이터를 녹음하였다. 수집된 2000개 이상의 음성 데이터는 적응화 및 인식성능 분석을 위해 이용하였다 IV.
블루투스 헤드셋은 전송특성상 8kHz 샘플링률로 녹음하였다 수집한 음성 데이터의 수는 표 3과 같으며, 헤드셋의경우 정확히 입력된 음성 샘플수가 426개로써 음성입력 성공률이 가장 높음을 알 수 있었다. 골전도 마이크의 경우에는 돌발성 잡음이 가장 많이 나타났으며, 고정형 마이크의 경우에는 주변 사람들의 음성이 많이 입력됨을 확인할 수 있었다 다양한 실 환경의 음성 수집을 위한 다음 단계에서는데모 시스템을 통해 수집된 초기단계의 음성 데이터를 기반으로 음성구동 휠체어 시스템을 구현한 후 집, 도로, 재활센터의 실내와 실외, 공원, 장애우 운동회 등의 환경에서 실제 휠체어 테스트를 겸하여 음성 데이터를 녹음하였다. 수집된 2000개 이상의 음성 데이터는 적응화 및 인식성능 분석을 위해 이용하였다 IV.
음성입력장치를 이용하여 전동휠체어를 조작하는 경우 디지털로 표현된 음성명령어를 아날로그 입력장치인 조이스틱과 같이 각도와 속도를 자유롭게 조작하기에는 어려운 점이 있다. 따라서 보다 더 자유로운 조작을 위해 그림 10과 같이 전후좌우 및 정지의 5개의 상태에 혼합상태 6개를 추가하였다. 예를 들어 "전진 명령어 이후 오른쪽' 명령어가 발성되면 15° 각도의 오른쪽 방향으로 전진하게 되고, 다시 "오른쪽' 명령어가 발성되면 60° 각도의 오른쪽 방향으로 전진하게 된다.
하지만, 이렇게 선택된 단어의 경우에도 장애우의 음성발성의 어려움으로 인해 “hd da ri”의 발성을 "hi hi hi da ri", "i a ri" 등으로 발성하는 경우가 있으며, 이때 일반적인 단어사전의단어당 발성 후보가 하나로 구성된 경우에는 불명확한 발성에 대응하지 못하는 문제점이 있다. 따라서 본 연구에서는 장애우가 발성한 음성 데이터의 발성 패턴을 분석한후 다중 후보 인식사전을 구성하기로 하였다. 이를 표 1에 나타낸다.
하지만, 이렇게 선택된 단어의 경우에도 장애우의 음성발성의 어려움으로 인해 “hd da ri”의 발성을 "hi hi hi da ri", "i a ri" 등으로 발성하는 경우가 있으며, 이때 일반적인 단어사전의단어당 발성 후보가 하나로 구성된 경우에는 불명확한 발성에 대응하지 못하는 문제점이 있다. 따라서 본 연구에서는 장애우가 발성한 음성 데이터의 발성 패턴을 분석한후 다중 후보 인식사전을 구성하기로 하였다. 이를 표 1에 나타낸다.
V. 결 론본 논문에서는 중증 장애우들이 실 환경에서 음성인식 장치를 이용하여 안전하게 휠체어를 제어할 수 있도록 개발한 음성구동 휠체어 시스템의 성능향상을 위하여 인식 기의 전처리단에서 고정도 F0추출과 신뢰도 판별을 수행 하여 음성/비음성 분별을 수행할 수 있는 방법을 제안하고, 불명확한 발성에 대한 음성인식 성능 향상을 위해 화자 적응화 방법 및 개인적인 발성 변이를 표현할 수 있는 다중 후보 단어 사전을 작성하여 이용하였다. 잡음이 포함된 실 환경하에서 수집한 데이터를 대상으로 인식실험을 수행한 결과 기존의 켑스트럼 방법에서는 감사의 글이 논문은 2006학년도 영남대학교 학술연구조성비 지원에 의한 것임 참고 문헌 1.
2. 불명확한발성에 대한 안식 실험 음성구동 휠체어 시스템의 기본적인 성능과 적응화된 음향모델 및 다중 후보 인식사전의 유효성을 확인하기 위해 인식실험을 수행하였다. 실험을 위해 사용된 데이터와 분석 조건은 표 5와 같다.
이를 표 1에 나타낸다. 표!에 나타낸 다중 후보 인식사전을 작성하는 데 있어서는 사전에 녹음한 음성을 대상으로 음소 인식실험을 수행하여 그 결과를 바탕으로 초기 단어 인식사전을 작성한후, 반복적인 단어인식 실험을 통해 불필요한 후보를 삭제하는 과정을 거쳐 최종 인식사전으로 하였다. HI.
2. 불명확한발성에 대한 안식 실험 음성구동 휠체어 시스템의 기본적인 성능과 적응화된 음향모델 및 다중 후보 인식사전의 유효성을 확인하기 위해 인식실험을 수행하였다. 실험을 위해 사용된 데이터와 분석 조건은 표 5와 같다.
2GHz 타블렛 PC 에서 동작하도록 하였다. 이때 화면 디자인은 음성입력 상태, 휠체어 동작상태를 사용자가 직관적 확인이 가능하도록 하였고, 전동휠체어의 전체 속도를 변경하기 위해 실내, 저속, 중속, 고속 모드로 변경이 편리하도록 하였다.음성입력장치를 이용하여 전동휠체어를 조작하는 경우 디지털로 표현된 음성명령어를 아날로그 입력장치인 조이스틱과 같이 각도와 속도를 자유롭게 조작하기에는 어려운 점이 있다.
2GHz 타블렛 PC 에서 동작하도록 하였다. 이때 화면 디자인은 음성입력 상태, 휠체어 동작상태를 사용자가 직관적 확인이 가능하도록 하였고, 전동휠체어의 전체 속도를 변경하기 위해 실내, 저속, 중속, 고속 모드로 변경이 편리하도록 하였다.음성입력장치를 이용하여 전동휠체어를 조작하는 경우 디지털로 표현된 음성명령어를 아날로그 입력장치인 조이스틱과 같이 각도와 속도를 자유롭게 조작하기에는 어려운 점이 있다.
특히 중증 장애우를 위한 음성구동 휠체어의 경우에는 발성 환경이 휠체어 조작환경과 유사하면서 자연스러운 발성이 나타날 수 있는 안전한 환경에서 녹음하는 것이 필요 하다.이를 위해 초기 녹음단계에서는 그림 11과 같이 음성명령어로 제어할 수 있는 음성구동 소형로봇 시스템과 그래픽 데모 시스템을 구현하여 음성데이터를 수록하였다 이때 4개의 마이크를 동시에 착용하였으며, 사용된 마이크 (a) (b) 그림 11 . 음성 녹음 환경 (a) 음성구동 소형로봇 (b) 그래픽 데모 시스템 Fig.
이를 위해 초기 녹음단계에서는 그림 11과 같이 음성명령어로 제어할 수 있는 음성구동 소형로봇 시스템과 그래픽 데모 시스템을 구현하여 음성데이터를 수록하였다 이때 4개의 마이크를 동시에 착용하였으며, 사용된 마이크는 헤드셋 (Audio-technica: AT810X), 소형 골전도 (Sony: ECM-TL1), 고정형 핀 (PAVEC: MC-105), 블루투스 헤드셋 (Sonorix: OBHTHOO)이다.
표 1에 나타낸 다중 후보 인식사전을 작성하는데 있어서는 사전에 녹음한 음성을 대상으로 음소 인식실험을 수행하여 그 결과를 바탕으로 초기 단어 인식사전을 작성한 후, 반복적인 단어인식 실험을 통해 불필요한 후보를 삭제하는 과정을 거쳐 최종 인식사전으로 하였다.

대상 데이터

Confidence threshold analysis of four types of micro-phones with the best recall-precision. Headset Bone conduction Pin Bluetooth Cepstrum 3 2.5 1.5 2 YIN 0.05-0.1 0.06-0.08 0.07-0.1 0.08-0.1부터 녹음된 음성명령어 데이터 1567개와 잡음 데이터 44깨를 이용하였으며, 그 성능은 정확도와 재현율 곡선으로 나타내었다. 이를 그림 12, 13에 보인다.
골전도 마이크의 경우에는 돌발성 잡음이 가장 많이 나타났으며, 고정형 마이크의 경우에는 주변 사람들의 음성이 많이 입력됨을 확인할 수 있었다 다양한 실 환경의 음성 수집을 위한 다음 단계에서는데모 시스템을 통해 수집된 초기단계의 음성 데이터를 기반으로 음성구동 휠체어 시스템을 구현한 후 집, 도로, 재활센터의 실내와 실외, 공원, 장애우 운동회 등의 환경에서 실제 휠체어 테스트를 겸하여 음성 데이터를 녹음하였다. 수집된 2000개 이상의 음성 데이터는 적응화 및 인식성능 분석을 위해 이용하였다 IV. 안식 실험 및 결과 4.
골전도 마이크의 경우에는 돌발성 잡음이 가장 많이 나타났으며, 고정형 마이크의 경우에는 주변 사람들의 음성이 많이 입력됨을 확인할 수 있었다 다양한 실 환경의 음성 수집을 위한 다음 단계에서는데모 시스템을 통해 수집된 초기단계의 음성 데이터를 기반으로 음성구동 휠체어 시스템을 구현한 후 집, 도로, 재활센터의 실내와 실외, 공원, 장애우 운동회 등의 환경에서 실제 휠체어 테스트를 겸하여 음성 데이터를 녹음하였다. 수집된 2000개 이상의 음성 데이터는 적응화 및 인식성능 분석을 위해 이용하였다 IV. 안식 실험 및 결과 4.
이때 F0 검출을 위한 샘플링율은 16kHz이며, 윈도우 크기는 25ms, 프레임 이동은 8ms 이다. 실험에 사용된 데이터는 4종류의 마이크로폰으로 256 한국음힝학회지 제26권 제6호 （2007） 표 4. 최고의 재현유정확도에서 4가지 타입 마이크로폰의 신뢰도 문턱값 Ta이e 4. Confidence threshold analysis of four types of micro-phones with the best recall-precision. Headset Bone conduction Pin Bluetooth Cepstrum 3 2.
실험에 사용된 데이터는 4종류의 마이크로폰으로 부터 녹음된 음성명령어 데이터 1567개와 잡음 데이터 44깨를 이용하였으며, 그 성능은 정확도와 재현율 곡선으로 나타내었다.
다중 후보 인식사전 중증 장애우를 위한 음성명령어의 선택은 장애의 정도와 개개인의 특성에 따라 발음이 쉽고 명료하게 발성할수 있는 단어로 한정할 필요가 있다. 이를 위해 명령어로 사용 가능한 12개의 단어 가운데 개인별 테스트를 통해 발성이 쉬운 5개의 단어를 선택하였다. 하지만, 이렇게 선택된 단어의 경우에도 장애우의 음성발성의 어려움으로 인해 “hd da ri”의 발성을 "hi hi hi da ri", "i a ri" 등으로 발성하는 경우가 있으며, 이때 일반적인 단어사전의단어당 발성 후보가 하나로 구성된 경우에는 불명확한 발성에 대응하지 못하는 문제점이 있다.
실험을 위해 사용된 데이터와 분석 조건은 표 5와 같다. 표 5의 JNAS 데이터베이스는 일본어 대어휘 연속음성인식을 위해 작성된 님녀 각 153명의 신문기사 낭독체 연속음성 데이터베이스로써 기본 음향모델 생성을 위해 사용되었다. 화자독립 음향모델을 이용한 기본 인식결과와 MAP 방법을 이용하여 적응화된 음향모델의 인식결과를 표 6에 나타내었다.
실험을 위해 사용된 데이터와 분석 조건은 표 5와 같다. 표 5의 JNAS 데이터베이스는 일본어 대어휘 연속음성인식을 위해 작성된 님녀 각 153명의 신문기사 낭독체 연속음성 데이터베이스로써 기본 음향모델 생성을 위해 사용되었다. 화자독립 음향모델을 이용한 기본 인식결과와 MAP 방법을 이용하여 적응화된 음향모델의 인식결과를 표 6에 나타내었다.

데이터처리

수집된 2000개 이상의 음성 데이터는 적응화 및 인식성능 분석을 위해 이용하였다 IV. 안식 실험 및 결과 4.1 음성/비음성 분별실험 제안된 YIN을 이용한 음성 비음성 분별 성능을 확인하기 위해 표 3의 녹음 데이터를 이용하여 켑스트럼 방법과 비교 실험을 수행하였다. 이때 F0 검출을 위한 샘플링율은 16kHz이며, 윈도우 크기는 25ms, 프레임 이동은 8ms 이다.
안식 실험 및 결과 4.1 음성/비음성 분별실험 제안된 YIN을 이용한 음성 비음성 분별 성능을 확인하기 위해 표 3의 녹음 데이터를 이용하여 켑스트럼 방법과 비교 실험을 수행하였다. 이때 F0 검출을 위한 샘플링율은 16kHz이며, 윈도우 크기는 25ms, 프레임 이동은 8ms 이다.

이론/모형

F0 검출방법은 시간 영역에서의 검출방법으로는 평균 H7] 차'분■함^수 (average magnitude difference function), 평균 제곱 차분 함수 (average squared difference function), 유사 자기상관 함수 (similar autocorrelation methods) 등을 이용하는 방법들이 있으며, 주파수 영역에서는 켑스트럼 분석을 통한 검출방법이 있다 본 논문에서는 이와 같은 F0 검출 알고리즘 중에서 가장 정확성이 높은 것으로 알려진 YIN 방법을 이용하기로 한다.
F0 검출방법은 시간 영역에서의 검출방법으로는 평균 H7] 차'분■함^수 (average magnitude difference function), 평균 제곱 차분 함수 (average squared difference function), 유사 자기상관 함수 (similar autocorrelation methods) 등을 이용하는 방법들이 있으며, 주파수 영역에서는 켑스트럼 분석을 통한 검출방법이 있다 본 논문에서는 이와 같은 F0 검출 알고리즘 중에서 가장 정확성이 높은 것으로 알려진 YIN 방법을 이용하기로 한다. 이 방법은 de Cheveigne에 의해 제안되었으며 부가적인 파라미터의 수가 적고, 세부적인 조정이 필요 없는 장점이 있다 [9].

성능/효과

& Adapt 1 61.4 94.2 97.8 98.42 78.4 95.5 98.8 99.14 77.9 94.6 98.7 99.28 80.4 94.3 98.8 99.316 78.6 93.8 98.6 99.532 75.1 91.2 98.4 99.4립 모델을 이용한 경우 인식률이 78.6%로 나타났으나 여기에 다중후보 인식사전을 적용한 결과 93.8%로 향상되어 71%의 오류율이 감소됨을 확인할 수 있었다.
Recognition accuracies according to the number of adapted words. Models Number of Adapted words BASE니 NE 12 24 48 96 Monophone 78.9 95.0 95.2 96.6 96.6 Triphone 51.8 76.5 91.3 97.9 99.01000-state HMnet 88.2 97.4 98.0 99.0 99.02000-state HMnet 78.6 97.2 98.6 99.3 99.4오류 없이 비음성을 찾아낸 재현율은 62%로 나타났으나본 논문에서 제안한YIN방법에 기반을 둔 신뢰도 측정방법에서는 95.1%의 우수한 성능을 나타내었다. 실 환경에서 수록된 2211개의 불명확한 발성을 대상으로 인식실험을 수행한 결과 2000상태 16 혼합수 HMnet 모델을 이용하고 MAP적응화 방법 및 다중 후보 인식사전을 적용한결과 99.
블루투스 헤드셋은 전송특성상 8kHz 샘플링률로 녹음하였다 수집한 음성 데이터의 수는 표 3과 같으며, 헤드셋의경우 정확히 입력된 음성 샘플수가 426개로써 음성입력 성공률이 가장 높음을 알 수 있었다. 골전도 마이크의 경우에는 돌발성 잡음이 가장 많이 나타났으며, 고정형 마이크의 경우에는 주변 사람들의 음성이 많이 입력됨을 확인할 수 있었다 다양한 실 환경의 음성 수집을 위한 다음 단계에서는데모 시스템을 통해 수집된 초기단계의 음성 데이터를 기반으로 음성구동 휠체어 시스템을 구현한 후 집, 도로, 재활센터의 실내와 실외, 공원, 장애우 운동회 등의 환경에서 실제 휠체어 테스트를 겸하여 음성 데이터를 녹음하였다. 수집된 2000개 이상의 음성 데이터는 적응화 및 인식성능 분석을 위해 이용하였다 IV.
이를 그림 12, 13에 보인다. 그림 12에서와 같이 켑스트럼 방법을 이용한 경우 문턱 값을 2.5로 설정할 때 정확도 93%, 재현율 94%를 나타내 었으며, YIN방법을 이용한 경우 （그림 13） 문턱값을 0.08로 설정할 때 정확도 99%에 재현율 97%를 나타내어 제안한 방법이 켑스트럼 방법에 비해 성능이 뛰어남을 확인할수있다.일반적인 음성인식 장치와 달리 휠체어 구동을 위한 음성/비음성 분별의 경우, 정지 명령어 발성이 비음성으로 분별되어 반드시 정지해야 하는 경우에 정지하지 못해 사고로 이어질 수 있다.
그림 12에서와 같이 켑스트럼 방법을 이용한 경우 문턱값을 2.5로 설정할 때 정확도 93%, 재현율 94%를 나타내었으며, YIN방법을 이용한 경우 (그림 13) 문턱값을 0.08 로 설정할 때 정확도 99%에 재현율 97%를 나타내어 제안한 방법이 켑스트럼 방법에 비해 성능이 뛰어남을 확인할 수 있다.
마이크로폰 종류에 따른 최적의 신뢰도 문턱값을 결정함에 있어서도 켑스트럼 방법의 경우에는 각 마이크로폰마다 문턱값의 세부 조정이 필요하나, YIN 방법의 경우에는 문턱값 0.08에서 사용 마이크로폰에 관계없이 안정적으로 동작함을 확인할 수 있었다 (표4 참조).
Type Voice command Noise Owners other utterances Other peoples utterances Headset 426 65 76 12 Bone conduction 405 339 88 286 Pin 399 21 90 361 Bluetooth 337 22 64 62 Total 1567 447 318 721는 헤드셋 (Audio-technica： AT810X), 소형 골전도 (Sony： ECM-TL1), 고정형 핀 (PAVEC： MC-105), 블루 투스 헤드셋 (Sonorix： OBHTHOO)이다. 블루투스 헤드셋은 전송특성상 8kHz 샘플링률로 녹음하였다 수집한 음성 데이터의 수는 표 3과 같으며, 헤드셋의경우 정확히 입력된 음성 샘플수가 426개로써 음성입력 성공률이 가장 높음을 알 수 있었다. 골전도 마이크의 경우에는 돌발성 잡음이 가장 많이 나타났으며, 고정형 마이크의 경우에는 주변 사람들의 음성이 많이 입력됨을 확인할 수 있었다 다양한 실 환경의 음성 수집을 위한 다음 단계에서는데모 시스템을 통해 수집된 초기단계의 음성 데이터를 기반으로 음성구동 휠체어 시스템을 구현한 후 집, 도로, 재활센터의 실내와 실외, 공원, 장애우 운동회 등의 환경에서 실제 휠체어 테스트를 겸하여 음성 데이터를 녹음하였다.
Type Voice command Noise Owners other utterances Other peoples utterances Headset 426 65 76 12 Bone conduction 405 339 88 286 Pin 399 21 90 361 Bluetooth 337 22 64 62 Total 1567 447 318 721는 헤드셋 (Audio-technica： AT810X), 소형 골전도 (Sony： ECM-TL1), 고정형 핀 (PAVEC： MC-105), 블루 투스 헤드셋 (Sonorix： OBHTHOO)이다. 블루투스 헤드셋은 전송특성상 8kHz 샘플링률로 녹음하였다 수집한 음성 데이터의 수는 표 3과 같으며, 헤드셋의경우 정확히 입력된 음성 샘플수가 426개로써 음성입력 성공률이 가장 높음을 알 수 있었다. 골전도 마이크의 경우에는 돌발성 잡음이 가장 많이 나타났으며, 고정형 마이크의 경우에는 주변 사람들의 음성이 많이 입력됨을 확인할 수 있었다 다양한 실 환경의 음성 수집을 위한 다음 단계에서는데모 시스템을 통해 수집된 초기단계의 음성 데이터를 기반으로 음성구동 휠체어 시스템을 구현한 후 집, 도로, 재활센터의 실내와 실외, 공원, 장애우 운동회 등의 환경에서 실제 휠체어 테스트를 겸하여 음성 데이터를 녹음하였다.
1%의 우수한 성능을 나타내었다. 실 환경에서 수록된 2211개의 불명확한 발성을 대상으로 인식실험을 수행한 결과 2000상태 16 혼합수 HMnet 모델을 이용하고 MAP적응화 방법 및 다중 후보 인식사전을 적용한결과 99.5%의 인식 성능을 나타내어 제안한 방법의 유효성을 확인할 수 있었다. 표 7.
1%의 우수한 성능을 나타내었다. 실 환경에서 수록된 2211개의 불명확한 발성을 대상으로 인식실험을 수행한 결과 2000상태 16 혼합수 HMnet 모델을 이용하고 MAP적응화 방법 및 다중 후보 인식사전을 적용한결과 99.5%의 인식 성능을 나타내어 제안한 방법의 유효성을 확인할 수 있었다. 표 7.
Recall-precision curve for non-voice classification 다. 이 경우 그림 12의 켑스트럼 방법에서는 음성은 반드시 음성으로 판별한 정확도가 100%일 경우 비음성을 찾아낸 재현율은 62%이나, 그림 13의 YIN방법에서는 정확도 100%일 때 재현율 95.1%를 나타내어 성능이 우수함을 알 수 있다 마이크로폰 종류에 따른 최적의 신뢰도 문턱값을 결정 함에 있어서도 켑스트럼 방법의 경우에는 각 마이크로폰마다 문턱값의 세부 조정이 필요하나, YIN 방법의 경우에는 문턱값 0.08에서 사용 마이크로폰에 관계없이 안정적으로 동작함을 확인할 수 있었다 （표4 참조）.
Recall-precision curve for non-voice classification 다. 이 경우 그림 12의 켑스트럼 방법에서는 음성은 반드시 음성으로 판별한 정확도가 100%일 경우 비음성을 찾아낸 재현율은 62%이나, 그림 13의 YIN방법에서는 정확도 100%일 때 재현율 95.1%를 나타내어 성능이 우수함을 알 수 있다 마이크로폰 종류에 따른 최적의 신뢰도 문턱값을 결정 함에 있어서도 켑스트럼 방법의 경우에는 각 마이크로폰마다 문턱값의 세부 조정이 필요하나, YIN 방법의 경우에는 문턱값 0.08에서 사용 마이크로폰에 관계없이 안정적으로 동작함을 확인할 수 있었다 （표4 참조）. 4.
잡음이 포함된 실 환경하에서 수집한 데이터를 대상으로 인식실험을 수행한 결과 기존의 켑스트럼 방법에서는 오류 없이 비음성을 찾아낸 재현율은 62%로 나타났으나 본 논문에서 제안한YIN방법에 기반을 둔 신뢰도 측정 방법에서는 95.1%의 우수한 성능을 나타내었다.
장애우 운동회 및 다양한 잡음이 포함된 실외 환경 (SNR 10dB이상)에서 녹음된 데이터를 이용한 단어 인식 실험에서 1000상태 HMnet 모델을 이용한 경우, 인식사전의 단어 수가 5개임에도 불구하고 단어인식률이 88.2%로 낮게 나타났다.
화자독립 음향모델을 이용한 기본 인식결과와 MAP 방법을 이용하여 적응화된 음향모델의 인식결과를 표 6에 나타내었다. 장애우 운동회 및 다양한 잡음이 포함된 실외 환경 （SNR 10dB이상）에서 녹음된 데이터를 이용한 단어인식 실험에서 1000상태 HMnet 모델을 이용한 경우, 인식사전의 단어 수가 5개임에도 불구하고 단어인식률이 88.2%로 낮게 나타났다. 이 원인은 화자의 특성 및 발성 변이를 고려하지 않아 발생한 것으로 판단되었다.
8%로 향상되어 71%의 오류율이 감소됨을 확인할 수 있었다. 장애우의 경우 적응화 단어발성이 쉽지 않은 점을 고려 하여 24 단어를 이용하여 적응화를 수행한 모델의 결과 98.6%의 인식률을 나타내었으며 여기에 다중 후보 인식 사전을 추가적으로 적용한 결과 인식률이 99.5%로 나타나 실용화에 충분한 성능을 보임을 알 수 있었다 이때 오류율 감소는 64%로 나타났다. V.
8%로 향상되어 71%의 오류율이 감소됨을 확인할 수 있었다. 장애우의 경우 적응화 단어발성이 쉽지 않은 점을 고려 하여 24 단어를 이용하여 적응화를 수행한 모델의 결과 98.6%의 인식률을 나타내었으며 여기에 다중 후보 인식 사전을 추가적으로 적용한 결과 인식률이 99.5%로 나타나 실용화에 충분한 성능을 보임을 알 수 있었다 이때 오류율 감소는 64%로 나타났다. V.
화자변이를 고려한 다중 후보 인식사전의 성능을 확인하기 위해 인식실험을 수행한 결과 표 7에서와 같이 2000상태 HMnet 모델을 이용한 경우, 16혼합의 화자독립 모델을 이용한 경우 인식률이 78.6%로 나타났으나 여기에 다중후보 인식사전을 적용한 결과 93.8%로 향상되어 71%의 오류율이 감소됨을 확인할 수 있었다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

중증 장애우용 음성구동 휠체어를 위한 강인한 음성인식 알고리즘
Robust Speech Recognition Algorithm of Voice Activated Powered Wheelchair for Severely Disabled Person 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

참고문헌 (11)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

중증 장애우용 음성구동 휠체어를 위한 강인한 음성인식 알고리즘 Robust Speech Recognition Algorithm of Voice Activated Powered Wheelchair for Severely Disabled Person 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

참고문헌 (11)

이 논문을 인용한 문헌

저자의 다른 논문 :

정현열 (47)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

중증 장애우용 음성구동 휠체어를 위한 강인한 음성인식 알고리즘
Robust Speech Recognition Algorithm of Voice Activated Powered Wheelchair for Severely Disabled Person 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper