[논문]잡음에 강인한 음성 인식을 위한 환경 파라미터 보상에 관한 연구

홍미정; 이호웅

잡음에 강인한 음성 인식을 위한 환경 파라미터 보상에 관한 연구
A Study on Environment Parameter Compensation Method for Robust Speech Recognition 원문보기

본 논문에서는 강인한 음성인식 기술의 하나인 모델 파라미터 변환 기법 중 Carnegie Mellon University(1996)에서 Moreno가 제안한 최신 VTS(Vector Taylor Series) 알고리즘을 이용하여 주어진 잡음 환경에서 실험하였다. 이러한 VTS 알고리즘의 성능평가를 위해서 기존의 잡음 처리 방법 중 CMN(Cepstral Mean Normalization) 기법을 도입하였으며, 데시벨별로 설정한 백색 잡음과 거리잡음을 환경잡음으로 주어졌을 때의 인식률을 비교하였다. 또한 기존 Moreno가 제안한 실험환경의 인식 결과와 본 논문에서의 실험결과를 비교 분석하였다. 인식 알고리즘으로는 실시간 구현이 가능한 이산HMM(Hidden Markov Model)을 사용하였다.

In this paper, VTS(Vector Taylor Series) algorithm, which was proposed by Moreno at Carnegie Mellon University in 1996, is analyzed and simulated. VTS is considered to be one of the robust speech recognition techniques where model parameter conversion technique is adapted. To evaluation performance of the VTS algorithm, We used CMN(Cepstral Mean Normalization) technique which is one of the well-known noise processing methods. And the recognition rate is evaluated when white gaussian and street noise are employed as background noise. Also, the simulation result is analyzed in order to be compared with the previous one which was performed by Moreno.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 각 단어마다 환경 잡음을 추정한 후 주어진 모델 파라미터를 몇 개의 보상(Compensation) 알고리즘을 적용시키는 방식에 대하여 연구한다. 특히 음성 인식 시스템이 환경에 강인하도록 하기 위한 방법 중 잡음에 강한 특징을 기반으로 한 방법의 CMN(Cepstral mean normalization)과 채널 잡음에만 국한된 CMN과는 다르게 부가 잡음과 채널 왜곡을 동시에 감소시키는 최신 기법으로 Carnegie Mellon University에서 Moreno가 제안한 모델에 기반을 둔 보상 방법의 VTS(Vector Taylor Series)알고리즘[3]을 비교하고 Moreno의 실험 환경과 다른 실험 환경에서 직접 실험하여 음성 인식 시스템의 인식 결과를 얻고자 한다.
본 논문에서는 이산적인 HMM을 사용하고자 한다.
본 논문에서는 환경에 강인한 voice portal system의 인식률 향상을 목표로 음성 인식 시스템의 성능을 저하시키는 요인 중 부가 잡음과 채널 왜곡을 동시에 감소시키는 Moreno가 제안한 최신 기법인 VTS(Vector Taylor Series)와 기존의 잡음 처리 방법 중 CMN(Cepstral Mean Nonnalization) 방법을 직접 비교 실험하여 인식률을 검토하였다.

가설 설정

실험에 사용한 모든 음성 파라미터(parameter)는 13차로 하였고, 256 sample을 한 개의 프레임(frame)으로 하였다. NSR(Noise to Signal ratio)은 0dB, 2dB, 3dB의 범위로 하였고, 여기서 NSR은 임의적인 신호에 대한 잡음의 크기를 나타낸 것으로 가정하였다. <그림 3>는 실험에 사용한 배경 잡음들로 길거리의 배경잡음과 컴퓨터로 만든 임의의 백색 잡음(2dB)을 보여주는 그림이다.
두 번째 가정은 clean 한 음성의 log-spectrum 랜덤 변수는 아래 식과 같이 gaussian 분포의 Mixture에 의해 나타낼 수 있다는 것이다.
scalars, matrices, …)이다. 본 논문에서는 환경은 그림 4에 표현되어 있는 것처럼 모델링 된다고 가정한다[3][7].
순수 음성 (Clean speech)을 나타내는 vector x 가 주위 환경으로부터 영향을 받아 새로운 vector y를 만들었다고 가정하자. 이때 vector y는 noisy한 음성을 나타내고 식(12)로 표현할 수 있다.
앞의 가정을 이용하여 noisy 음성의 log-spectral vector의 확률 분포들을 계산하고자 한다. y의 확률밀도 함수에 대한 해를 얻기 위해서는 확률 분포가 Gaussian 분포가 되도록 단순화시킨다.

제안 방법

갖는다. RASTA(RelAtive SpecTrAl) 와 CMN 등이 대표적인 방법이고, 본 논문의 실험을 위해서 CMN알고리즘을 도입한다
필요하다는 것으로 보인다. <표 9>는 종합적으로 무 잡음 환경에서의 인식 시스템과 baseline, VTS와 CMN의 인식률을 정리해 보았다.
본 논문에서는 영 교차율을 사용하여 음성 신호의 끝점 검출을 하였다. 영 교차율은 한 프레임 내에서 음성 파형의 영점과 교차하는 횟수를 말하며 화자의 성량에 대해서는 독립적이다.
본 실험에서는 인식에서 학습에 참가하지 않은 5명의 화자와 환경 잡음 4가지 인식실험을 수행한다. Baseline은 잡음 처리를 하지 않은 기본 인식 시스템을 말하며, 화자는 A~E로 나타내었다.
이러한 배경 잡음과 단어들을 각각 혼합하여 인식 실험을 하였는데, 임의의 백색잡음(0, 2, 3 dB) 와 길거리 잡음인 경우로 하여 4가지 배경 잡음 환경으로 실험 하였다.
인식 알고리즘은 VQ의 K-means와 이산 HMM(DHMM)의 Baum-welch 와 ML(Maximum Likeli-hood)방법을 사용하였고, 조용한 연구실 환경에서 녹음한 20대 후반의 남성 17명이 10번씩 발음한 후 16,000Hz로써 sampling 한 음성으로 학습하였다. 이때 VQ는 128개의 codeword# 사용하였고, HMM 의 상태(state)는 5개로 하였다.
특히 음성 인식 시스템이 환경에 강인하도록 하기 위한 방법 중 잡음에 강한 특징을 기반으로 한 방법의 CMN(Cepstral mean normalization)과 채널 잡음에만 국한된 CMN과는 다르게 부가 잡음과 채널 왜곡을 동시에 감소시키는 최신 기법으로 Carnegie Mellon University에서 Moreno가 제안한 모델에 기반을 둔 보상 방법의 VTS(Vector Taylor Series)알고리즘[3]을 비교하고 Moreno의 실험 환경과 다른 실험 환경에서 직접 실험하여 음성 인식 시스템의 인식 결과를 얻고자 한다.

대상 데이터

VTS를 적용시킨 고립 단어 인식 시스템의 성능평가를 위해서 남성 17명이 30개의 고립 단어를 10 번 발음한 Database를 가지고 인식 실험을 하였다.
두 번째 실험은 달리는 자동차 안에서 녹음한 음성(1994년에 10평가 set)을 사용하였다. 인식 시스템은 37,000개의 문장으로 구성된 WSJ에서 학습되었고 남자와 여자 모델은 약 10,000 senonic 클러스터로 구성되어 있다.
이때 VQ는 128개의 codeword# 사용하였고, HMM 의 상태(state)는 5개로 하였다. 실험에 사용한 모든 음성 파라미터(parameter)는 13차로 하였고, 256 sample을 한 개의 프레임(frame)으로 하였다. NSR(Noise to Signal ratio)은 0dB, 2dB, 3dB의 범위로 하였고, 여기서 NSR은 임의적인 신호에 대한 잡음의 크기를 나타낸 것으로 가정하였다.
첫 번째 실험은 4개의 SNRs에서 Gaussian 백색잡음인 섞인 5,000 단어(1993년에 평가된 WSJ set)를 사용하였다. 또한 256개의 Gaussian은 clean 음성 특징 벡터의 분포를 나타내었고, VTS 알고리즘은 40 차수의 log spectral 벡터를 사용하였다.

이론/모형

를 사용하였다. 또한 256개의 Gaussian은 clean 음성 특징 벡터의 분포를 나타내었고, VTS 알고리즘은 40 차수의 log spectral 벡터를 사용하였다. 다음 <표 3>은 실험 결과를 나타낸다.

성능/효과

그 결과 VTS 알고리즘은 보다 정확한 환경을 모델화하며, 보다 정확한 환경 파라미터를 예측할 수있으므로 인식률도 CMN 방법보다 높게 나타나며, 무 잡음 환경에서의 음성 인식 성능에 가까워짐을 알 수 있었다.
그러나 기존의 Moreno의 실험 환경과 결과를 비교해 보면, 본 논문에서의 실험 환경이 채널왜곡의 영향과 자동차나 길거리에서 직접 녹음한 음성data가 부족했음을 알 수 있었다.
기존의 논문에서는 SNR비를 사용한 것에 비해 본 논문에서는 NSR비를 사용했기 때문에 가장 작은 값의 noisy 음성의 입력 경우, 인식률을 각각 살펴보면 기존의 논문에서는 89%, 90%(실제 데이터), 본 논문에서는 91.6%, 89.4%의 인식률을 나타내었다.
인 경우의 인식 율을 비교한 것이다. 인식 결과를 보면, 두 알고리즘(VTS, CMN)의 인식결과가 Baseline의 인식 결과보다 더욱 높은 인식률을 보이며, 특히 VTS 알고리즘을 적용시킨무잡음시스템의 인식률이 무 잡음 환경에서의 인식률에 대략적으로 접근 하게 된다. 즉, 위의 실험 결과를 통하여 다음과 같은 사실을 알 수 있었다.

후속연구

따라서 환경 잡음인 채널 왜곡의 영향을 좀 더 충분히 반영하고, 여러 가지 환경에서의 데이터 음성을 사용하여 직접 추가 실험을 한다면, 또한 Moreno의 연구에서도 해결하지 못한 계산량의 감소를 위한 환경함 수의 수식을 더 단순화시킬 수 있다면, 보다 좋은 인식 결과를 얻으리라고 기대한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

잡음에 강인한 음성 인식을 위한 환경 파라미터 보상에 관한 연구
A Study on Environment Parameter Compensation Method for Robust Speech Recognition 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

잡음에 강인한 음성 인식을 위한 환경 파라미터 보상에 관한 연구 A Study on Environment Parameter Compensation Method for Robust Speech Recognition 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

이호웅 (6)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

잡음에 강인한 음성 인식을 위한 환경 파라미터 보상에 관한 연구
A Study on Environment Parameter Compensation Method for Robust Speech Recognition 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper