최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기말소리와 음성과학 = Phonetics and speech sciences, v.6 no.2, 2014년, pp.29 - 34
In the Vector Taylor Series (VTS)-based noisy speech recognition methods, Hidden Markov Models (HMM) are usually trained with clean speech. However, better performance is expected by training the HMM with noisy speech. In a previous study, we could find that Minimum Mean Square Error (MMSE) estimati...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
HMM 파라미터들과 테스트 잡음음성간의 불일치를 줄이기 위한 방법은 무엇들로 나뉘는가? | 잡음환경에서의 음성인식은 많은 기술적인 발전에도 불구 하여 여전히 어려운 문제로 남아 있다. HMM 파라미터들과 테스트 잡음음성간의 불일치를 줄이기 위한 방법은 크게 잡음에 강인한 특징추출, 음질향상 그리고 특징보상 및 모델 파라 미터 적응 등으로 나누어진다[1]-[3]. | |
MTR 방식에서는 어떻게 잡음에 강한 모델을 구축할 수 있었는가? | 최근에는 기존의 연구들과는 다른 관점에서 미리 잡음음성을 이용하여 HMM을 훈련하는 방법이 잡음음성 인식성능 향상을 위한 유용한 방법으로 간주되어 왔다. MTR 방식에서는 다양한 잡음환경의 잡음음성들을 모아서 HMM을 훈련함으로서 보다 잡음에 강인한 인식모델을 훈련과정 중에 구축할 수 있었다[4]. MMSR(Multi-Model based Speech Recognition) 방식 에서는 잡음종류나 신호대잡음비(SNR: Signal to Noise Ratio) 에 따라서 각각의 HMM을 훈련과정을 통해서 구성함으로서 테스트 잡음음성에 최적화한 인식모델을 사용할 수 있게 하였다[5]. | |
훈련잡음음성과 테스트 잡음음성 간의 관계를 로그-스펙트럼(log-spectrum) 영역에서 수학적으로 정립하였을때의 도출된 관계식에는 어떤 단점이 있는가? | 이 관계식을 VTS를 이용하여 간소화 한 후, 테스트 잡음음성을 이용하여 훈련잡음음성을 추정함으로서 MTR 방식에 비하여 향상된 인식성능을 얻을 수 있었다. 그러나 수학적 관계식이 로그-스펙트럼 영역에서만 성립되었으므로, 제안된 방식은 HMM 파라미터의 적응을 위해서는 사용될 수 없는 단점이 있었다. 따라서 본 논문에서는 기존의 알고리듬을 수정하여 이를 잡음음성 HMM의 파라미터 적응에 이용될 수 있도록 하였다. |
Gales, M. (1995). Model based techniques for noise- robust speech recognition. Ph.D. Dissertation, University of Cambridge, United Kingdom.
Ball, S. F. (1979). Suppression of acoustic noise in speech using spectral subtraction, IEEE Trans. Acoust., Speech, Signal Process. Vol. 27, No. 2, 113-122.
Moreno, P. J. (1996). Speech recognition in noisy environments. Ph.D. Dissertation, Carnegie Mellon University, United States of America.
Hirsch, H. G. & Pearce, D. (2000). The Aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions, in Proc. ICSLP. 18-20.
Xu, H., Tan, Z. -H., Dalsgaard, P. & Lindberg, B. (2007). Noise condition-dependent training based on noise classification and SNR estimation. IEEE Trans. Audio, Speech and Language Process. Vol. 15, No. 8, 2431-2443.
Kalinli, O., Seltzer, M. L., Droppo, J., & Acero, A. (2010). Noise adaptive training for robust automatic speech recognition. IEEE Trans. Audio, Speech and Language Process. Vol. 18, No. 8, 1889-1901.
Chung, Y. & Hansen, J.H.L. (2013). Compensation of SNR and noise type mismatch using an environmental sniffing based speech recognition solution. EURASIP Journal on Audio, Speech, and Music Processing, 2013:12, 1-14.
Gopinath, R. A., Gales, M., Gopalakrishnan, P. S., Balakrishnan-Aiyer, S. & Pocheny M. A. (1995). Robust speech recognition in Noise : Performance of the IBM continuous speech recognizer on the ARPA noise spoke task. in Proc. ARPA Spoken Language System Technology. 127-130.
ETSI draft standard doc., Speech processing, Transmission and Quality aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithm. ETSI Standard ES 202 050, 2002.
Young, S. (1993). HTK: Hidden Markov Model Toolkit V3.4.1. Cambridge University, Engineering Department, Speech Group.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.