최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기한국음향학회지= The journal of the acoustical society of Korea, v.29 no.7, 2010년, pp.468 - 474
The major factor that disturbs practical use of speech recognition is distortion by the ambient and channel noises. Generally, the ambient noise drops the performance and restricts places to use. DSR (Distributed Speech Recognition) based speech recognition also has this problem. Various noise cance...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
음성향상 알고리듬 중에서 일반적으로 널리 사용되고 있는 알고리듬은 무엇인가? | 음성향상 알고리듬 중에서 일반적으로 널리 사용되고 있는 알고리듬은 Wiener 필터 방식이며, 음성신호의 스펙트럼에 대한 MMSE (Minimum Mean Square Error) 추정 기반의 필터가 사용된다. 이보다 개선된 것은 음성신호와 잡음신호의 스펙트럼에 대한 사전 확률분포를 가정하고 통계모델에 근거하여 음성신호의 스펙트럼의 크기를 추정하는 MMSE-STSA (Short Time Spectral Amplitude) 방법이 좋은 성능을 보이나 음성통신에서 음성품질향상을 목표로 연구된 알고리듬으로 인식상황에 적합하지 않을 수 있으며 특히 잡음제거 후 음악잡음과 잔존잡음이 남아 인식률을 저하시키게 되어 음성인식을 위해서는 적절한 알고리듬의 선택이 필요하다 [3, 4]. | |
음성인식의 실용화에 가장 저해되는 요소는 무엇인가? | 음성인식의 실용화에 가장 저해되는 요소는 배경잡음과 채널잡음에 의한 왜곡이다. 일반적으로 배경잡음은 음성인식 시스템의 성능을 저하시키고 이로 인해 사용 장소의 제약을 받게 한다. | |
통계 기반 잡음 추정을 이용한 음성향상 알고리듬은 어떤 문제점이 있는가? | 통계 기반 잡음 추정을 이용한 음성향상 알고리듬들은 일반적으로 각각의 프레임에서 음성의 존재여부를 계산하고 잡음을 제거한다. 따라서 프레임 내에서 변화하는 잡음의 크기를 정확하게 추정하지 못하면 잔존잡음과 음악잡음에 의해 스펙트럼을 손상시키게 되며 이 같은 문제는 비안정적 잡음신호가 부가된 경우 더욱 심각해진다. 본 논문에서는 변화하는 잡음을 최대한 제거하기 위해긴 구간에서 식 (9)와 같이 각각의 주파수 빈에 대한 평균 값을 계산한다. |
ETSI standard document, Speech Processing, Transmission and Quality aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithms, ETSI ES 201 108 v.1.1.1 (2000-02), Feb. 2002.
ETSI standard document, Speech Processing, Transmission and Quality aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithms, ETSI ES 201 108 v.1.1.1 (2000-02), Feb. 2002.
R. Flynn, E jones, "Robust Distributed Speech Recognition using Speech Enhancement", IEEE Tansactions on Consumer Electronics, vol. 54, no. 3, pp. 1267-1273, 2008. 8.
Ephraim, Y., Malah, D. "Speech enhancement Using a minimum mean square error short-time spectral amplitude estimator", IEEE Trans. Acoust., Speech Signal Process., vol. 32, pp. 1109- 1121, 1984.
A. S. Bregman, Auditory Scene Analysis. Cambridge, MA: MIT Press, 1990.
N. Roman, D. L. Wang, and G. J. Brown, "Speech segregation based on sound localization," Journal of the Acoustical Society of America, vol. 114, no. 4, pp. 2236?2252, 2003.
R. Lyon, "A computational model of filtering, detection, and compression in the cochlea," in Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP'82., vol. 7, pp. 1282-1285, 1982.
A. Varga and H. J. M. Steeneken, "Assessment for automatic speech recognition: II. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems," Speech Communication, vol. 12, no. 3, pp. 247-251, July 1993.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
오픈액세스 학술지에 출판된 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.