[논문]감마톤 특징 추출 음향 모델을 이용한 음성 인식 성능 향상

안찬식; 최기호

doi:10.14400/jdpm.2013.11.7.209

[국내논문] 감마톤 특징 추출 음향 모델을 이용한 음성 인식 성능 향상
Speech Recognition Performance Improvement using Gamma-tone Feature Extraction Acoustic Model 원문보기

디지털정책연구 = The Journal of digital policy & management, v.11 no.7, 2013년, pp.209 - 214

초록
AI-Helper

음성 인식 시스템에서는 인식 성능 향상을 위한 방법으로 인간의 청취 능력을 인식 시스템에 접목하였으며 잡음 환경에서 음성 신호와 잡음을 분리하여 원하는 음성 신호만을 선택할 수 있도록 구성되었다. 하지만 실용적 측면에서 음성 인식 시스템의 성능 저하 요인으로 인식 환경 변화에 따른 잡음으로 인한 음성 검출이 정확하지 못하여 일어나는 것과 학습 모델이 일치하지 않는 것을 들 수 있다. 따라서 본 논문에서는 음성 인식 향상을 위해 감마톤을 이용하여 특징을 추출하고 음향 모델을 이용한 학습 모델을 제안하였다. 제안한 방법은 청각 장면 분석을 이용한 특징을 추출을 통해 인간의 청각 인지 능력을 반영하였으며 인식을 위한 학습 모델 과정에서 음향 모델을 이용하여 인식 성능을 향상시켰다. 성능 평가를 위해 잡음 환경의 -10dB, -5dB 신호에서 잡음 제거를 수행하여 SNR을 측정한 결과 3.12dB, 2.04dB의 성능이 향상됨을 확인하였다.

Abstract ▼ AI-Helper

Improve the recognition performance of speech recognition systems as a method for recognizing human listening skills were incorporated into the system. In noisy environments by separating the speech signal and noise, select the desired speech signal. but In terms of practical performance of speech recognition systems are factors. According to recognized environmental changes due to noise speech detection is not accurate and learning model does not match. In this paper, to improve the speech recognition feature extraction using gamma tone and learning model using acoustic model was proposed. The proposed method the feature extraction using auditory scene analysis for human auditory perception was reflected In the process of learning models for recognition. For performance evaluation in noisy environments, -10dB, -5dB noise in the signal was performed to remove 3.12dB, 2.04dB SNR improvement in performance was confirmed.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

음성 인식 시스템의 실용적 측면에서 인식 성능이 떨어지는 주요 원인은 인식 환경 변화에 따른 잡음으로 인한 음성 검출이 정확하지 않은 문제와 학습 모델이 일치하지 않는 문제이다[4]. 따라서 음성 인식 성능 향상을 위해 잡음을 분리하여 잡음에 강인한 음성 특징을 추출하기 위해 본 논문에서는 감마톤의 ERB 필터 뱅크 켑스트럼을 이용하여 특징 추출하였고 음성 인식율 향상을 위해 음향 모델을 이용한 학습 모델을 구성하였다.

제안 방법

ERB 필터의 주파수 응답과 최대 이득을 이용하여 추출한 음성 신호의 특징을 학습 모델링을 위해 사용한다.
구성된 모델은 잡음 분리율과 음성 인식률에 대하여 성능 평가를 수행하였다. 성능 평가 결과 잡음 환경의 -10dB, -5dB 신호에서 잡음 제거를 수행하여 SNR을 측정한 결과 3.
논문은 감마톤의 ERB(Equivalent Rectangular Bandwidth) 필터 뱅크 켑스트럼을 이용하여 특징을 추출하고 음성 인식율 향상을 위해 음향 모델을 이용한 학습 모델을 구성하였다.
본 논문에서 제안한 감마톤의 ERB 필터 뱅크 켑스트럼을 이용하여 특징 추출하여 학습 모델을 구성하고 잡음 제거와 인식 성능을 평가하였다.
이를 통해 얻어진 신호를 시간의 주기성과 채널간의 유사성을 비교하여 음성 인식을 수행한다. 비교 연산을 통해 얻어진 특징들에 대해 비슷한 특징을 가지는 영역으로 세분화하는 세그먼테이션 과정을 수행하고 세분화된 영역을 음원에 따라 그룹화하는 그룹핑 과정을 수행하여 인식을 위한 모델을 구성한다.
음성 인식 성능 향상을 위해 환경 잡음에서 음성 신호와 잡음을 분리하여 잡음에 강인한 음성 특징을 추출하기 위해서 인간의 청각 기관을 모델링하는 방법인 감마톤의 ERB 필터 뱅크 켑스트럼을 이용하여 음성의 특징을 추출한다.
인간의 청각 인지 과정을 바탕으로 시간-주파수 영역에서 청각 장면을 분석하는 청각 신경 분석을 수행한다. 이를 통해 얻어진 신호를 시간의 주기성과 채널간의 유사성을 비교하여 음성 인식을 수행한다. 비교 연산을 통해 얻어진 특징들에 대해 비슷한 특징을 가지는 영역으로 세분화하는 세그먼테이션 과정을 수행하고 세분화된 영역을 음원에 따라 그룹화하는 그룹핑 과정을 수행하여 인식을 위한 모델을 구성한다.
인간만이 가지고 있는 청각 기관을 이용하여 감마톤의 ERB 필터 뱅크 켑스트럼을 통한 특징 추출을 수행하고 음향 모델을 바탕으로 학습 모델을 구성하여 잡음 환경에서 음성 인식의 성능을 향상시켰다.
계산적 청각 장면 분석 시스템에서 음성 신호의 속성을 분석하기 위해 감마톤의 ERB(Equivalent Rectangular Bandwidth) 필터 뱅크 켑스트럼을 사용한다[3]. 인간의 청각 인지 과정을 바탕으로 시간-주파수 영역에서 청각 장면을 분석하는 청각 신경 분석을 수행한다. 이를 통해 얻어진 신호를 시간의 주기성과 채널간의 유사성을 비교하여 음성 인식을 수행한다.
잡음 제거 성능 실험을 위하여 Ohio주립대의 PNL에서 채집한 100 Non-speech Sounds[10] 생활 환경 잡음 20종류 중에서 임의의 10개의 잡음을 5명의 화자의 임의의 음성을 각각 10개의 음성으로 잡음 제거 실험을 수행하였다.
잡음에 강인한 음성 신호를 위해 추출된 음성 특징을 음성 인식에 사용하기 위해 학습 모델링 과정을 수행한다. 학습 모델링 과정은 블록 단위로 나누는 과정을 거치게 된다.

이론/모형

또한, 은닉 상태열을 찾기 위해 관측열O = {o1, o2, ⋯,oT}과 모델 λ = (A,B,π)가 주어졌을 때, 가장 최적의 상태열 Q = {q1,q2, ⋯,qT}을 찾기 위해서 Viterbi 알고리듬을 사용한다.
모델 학습 P(O|λ)를 극대화시키기 위해 모델 매개 변수 λ = (A, B, π)를 조정하기 위해 Baum-Welch 알고리듬을 사용한다.

성능/효과

구성된 모델은 잡음 분리율과 음성 인식률에 대하여 성능 평가를 수행한 결과 잡음 제거율과 SNR에서 성능이 향상됨을 확인하였다.
구성된 모델은 잡음 분리율과 음성 인식률에 대하여 성능 평가를 수행하였다. 성능 평가 결과 잡음 환경의 -10dB, -5dB 신호에서 잡음 제거를 수행하여 SNR을 측정한 결과 3.12dB, 2.04dB의 성능이 향상됨을 확인하였다.
성능 평가를 위해 화이트 노이즈 사용하였고 잡음 환경의 -10dB, -5dB 신호에서 잡음 제거를 수행하여 SNR을 측정한 결과 3.12dB, 2.04dB의 성능이 향상됨을 확인할 수 있었다.

질의응답

핵심어	질문	논문에서 추출한 답변
	잡음을 분리하여 잡음에 강인한 음성 특징을 추출하기 위한 방법은?	음성 인식 시스템의 실용적 측면에서 인식 성능이 떨어지는 주요 원인은 인식 환경 변화에 따른 잡음으로 인한 음성 검출이 정확하지 않은 문제와 학습 모델이 일치하지 않는 문제이다[4]. 따라서 음성 인식 성능 향상을 위해 잡음을 분리하여 잡음에 강인한 음성 특징을 추출하기 위해 본 논문에서는 감마톤의 ERB 필터 뱅크 켑스트럼을 이용하여 특징 추출하였고 음성 인식율 향상을 위해 음향 모델을 이용한 학습 모델을 구성하였다.
	음성 인식 시스템의 실용적 측면에서 인식 성능이 떨어지는 주요 원인은?	음성 인식 시스템의 실용적 측면에서 인식 성능이 떨어지는 주요 원인은 인식 환경 변화에 따른 잡음으로 인한 음성 검출이 정확하지 않은 문제와 학습 모델이 일치하지 않는 문제이다[4]. 따라서 음성 인식 성능 향상을 위해 잡음을 분리하여 잡음에 강인한 음성 특징을 추출하기 위해 본 논문에서는 감마톤의 ERB 필터 뱅크 켑스트럼을 이용하여 특징 추출하였고 음성 인식율 향상을 위해 음향 모델을 이용한 학습 모델을 구성하였다.
	MFCC의 특징은?	음성 인식을 위한 특징 추출은 인간의 청취 능력을 위주로 주관적인 인지 능력을 반영하여 기본적인 주파수를 mel-scale로 변형한 필터 뱅크를 비선형적으로 분포시켜 사용한다. 이러한 필터 뱅크를 사용해서 구한 음성 벡터를 MFCC라 한다[5].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국내논문] 감마톤 특징 추출 음향 모델을 이용한 음성 인식 성능 향상
Speech Recognition Performance Improvement using Gamma-tone Feature Extraction Acoustic Model 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국내논문] 감마톤 특징 추출 음향 모델을 이용한 음성 인식 성능 향상 Speech Recognition Performance Improvement using Gamma-tone Feature Extraction Acoustic Model 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

안찬식 (19) 최기호 (30)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[국내논문] 감마톤 특징 추출 음향 모델을 이용한 음성 인식 성능 향상
Speech Recognition Performance Improvement using Gamma-tone Feature Extraction Acoustic Model 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper