$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

잡음에 강인한 음성 인식을 위한 환경 파라미터 보상에 관한 연구
A Study on Environment Parameter Compensation Method for Robust Speech Recognition 원문보기

韓國ITS學會 論文誌 = The journal of the Korea Institute of Intelligent Transportation Systems, v.5 no.2 = no.10, 2006년, pp.1 - 10  

홍미정 ((주)디알텍) ,  이호웅 (동원대학 정보통신과)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 강인한 음성인식 기술의 하나인 모델 파라미터 변환 기법 중 Carnegie Mellon University(1996)에서 Moreno가 제안한 최신 VTS(Vector Taylor Series) 알고리즘을 이용하여 주어진 잡음 환경에서 실험하였다. 이러한 VTS 알고리즘의 성능평가를 위해서 기존의 잡음 처리 방법 중 CMN(Cepstral Mean Normalization) 기법을 도입하였으며, 데시벨별로 설정한 백색 잡음과 거리잡음을 환경잡음으로 주어졌을 때의 인식률을 비교하였다. 또한 기존 Moreno가 제안한 실험환경의 인식 결과와 본 논문에서의 실험결과를 비교 분석하였다. 인식 알고리즘으로는 실시간 구현이 가능한 이산HMM(Hidden Markov Model)을 사용하였다.

Abstract AI-Helper 아이콘AI-Helper

In this paper, VTS(Vector Taylor Series) algorithm, which was proposed by Moreno at Carnegie Mellon University in 1996, is analyzed and simulated. VTS is considered to be one of the robust speech recognition techniques where model parameter conversion technique is adapted. To evaluation performance ...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 각 단어마다 환경 잡음을 추정한 후 주어진 모델 파라미터를 몇 개의 보상(Compensation) 알고리즘을 적용시키는 방식에 대하여 연구한다. 특히 음성 인식 시스템이 환경에 강인하도록 하기 위한 방법 중 잡음에 강한 특징을 기반으로 한 방법의 CMN(Cepstral mean normalization)과 채널 잡음에만 국한된 CMN과는 다르게 부가 잡음과 채널 왜곡을 동시에 감소시키는 최신 기법으로 Carnegie Mellon University에서 Moreno가 제안한 모델에 기반을 둔 보상 방법의 VTS(Vector Taylor Series)알고리즘[3]을 비교하고 Moreno의 실험 환경과 다른 실험 환경에서 직접 실험하여 음성 인식 시스템의 인식 결과를 얻고자 한다.
  • 본 논문에서는 이산적인 HMM을 사용하고자 한다.
  • 본 논문에서는 환경에 강인한 voice portal system의 인식률 향상을 목표로 음성 인식 시스템의 성능을 저하시키는 요인 중 부가 잡음과 채널 왜곡을 동시에 감소시키는 Moreno가 제안한 최신 기법인 VTS(Vector Taylor Series)와 기존의 잡음 처리 방법 중 CMN(Cepstral Mean Nonnalization) 방법을 직접 비교 실험하여 인식률을 검토하였다.

가설 설정

  • 실험에 사용한 모든 음성 파라미터(parameter)는 13차로 하였고, 256 sample을 한 개의 프레임(frame)으로 하였다. NSR(Noise to Signal ratio)은 0dB, 2dB, 3dB의 범위로 하였고, 여기서 NSR은 임의적인 신호에 대한 잡음의 크기를 나타낸 것으로 가정하였다. <그림 3>는 실험에 사용한 배경 잡음들로 길거리의 배경잡음과 컴퓨터로 만든 임의의 백색 잡음(2dB)을 보여주는 그림이다.
  • 두 번째 가정은 clean 한 음성의 log-spectrum 랜덤 변수는 아래 식과 같이 gaussian 분포의 Mixture에 의해 나타낼 수 있다는 것이다.
  • scalars, matrices, …)이다. 논문에서는 환경은 그림 4에 표현되어 있는 것처럼 모델링 된다고 가정한다[3][7].
  • 순수 음성 (Clean speech)을 나타내는 vector x 가 주위 환경으로부터 영향을 받아 새로운 vector y를 만들었다고 가정하자. 이때 vector y는 noisy한 음성을 나타내고 식(12)로 표현할 수 있다.
  • 앞의 가정을 이용하여 noisy 음성의 log-spectral vector의 확률 분포들을 계산하고자 한다. y의 확률밀도 함수에 대한 해를 얻기 위해서는 확률 분포가 Gaussian 분포가 되도록 단순화시킨다.
본문요약 정보가 도움이 되었나요?

저자의 다른 논문 :

관련 콘텐츠

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로