최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기말소리와 음성과학 = Phonetics and speech sciences, v.5 no.1, 2013년, pp.11 - 16
홍정표 (한국과학기술원, 전기 및 전자공학과) , 박상준 (한국과학기술원, 전기 및 전자공학과) , 정상배 (경상대학교, 전자공학과(공학연구원)) , 한민수 (한국과학기술원, 전기 및 전자공학과)
This paper proposes robust feature extraction for accurate voice activity detection (VAD). VAD is one of the principal modules for speech signal processing such as speech codec, speech enhancement, and speech recognition. Noisy environments contain nonstationary noises causing the accuracy of the VA...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
프레임 에너지와 영교차율을 이용한 EPD 방법은 무엇인가? | 그중 가장 간단하면서도 효과적인 방법이 프레임 에너지와 영교차율을 이용한 EPD 방법이다. 이 방법은 음성의 시작과 끝에서 영교차율이 급격히 증가하는 현상, 유성음(voiced speech), 무성음(unvoiced speech), 묵음 (silence) 간의 에너지 차이가 크다는 점을 활용하여 효과적으로 음성의 시작점과 끝점을 검출하는 방법이다 [1]. | |
정확한 음성인식 결과를 얻기 위해서 중요한 것은? | 정확한 음성인식 결과를 얻기 위해서는 음성구간을 정확히 찾아서 입력하는 것이 중요하다. 음성 구간 검출 (voice activity detection, VAD)이 음성 부호화기, 잡음제거, 음성인식기의 성능에 직접적인 영향을 미치기 때문에 정확한 음성구간 검출을 위한 연구가 지난 수십 년간 활발히 수행되었다[1-5]. | |
정상성 잡음이 음성인식에 큰 문제가 되지 않는 이유는? | 잡음은 에어컨, PC 팬 등에서 유발하는 정상적인(stationary) 잡음과 그밖에 TV, 음악, 사람 목소리 등 시간에 따라 상태가 급격히 변하는 비정상성(nonstationary) 잡음으로 나뉜다. 정상성 잡음은 위너필터(Wiener filter) 와 칼만 필터(Kalman filter) 에 의해 충분히 제거 할 수 있기 때문에 음성인식에 큰 문제가 되지 않는다[6-7]. 그러나 비정상성 잡음의 경우, 잡음의 종류가 다양하고, 잡음의 주파수 특성이 시간에 따라 급격히 변하기 때문에 잡음의 스펙트럼 파워 추정이 쉽지 않다. |
Rabiner, L.R. (1975). An algorithm for determining the endpoints of isolated utterances. The Bell System Technical Journal, Vol. 54, No. 2, 297-315.
Zoltan, T. (2005). Robust voice activity detection based on the entropy of noise-suppressed spectrum. Interspeech, 245-248.
Ouzounov, A. (2004). A robust feature for speech detection. Cybernetics and information technologies, Vol. 4, No. 2, 3-14.
Kondoz, A.M. (1994). Digital speech: coding for low bit rate communication system. UK: John Wiley & Sons.
Rabiner, L.R. (1978). Digital processing of speech signals. USA: Prentice-Hall.
Jeong, S. (2001). Speech quality and recognition rate improvement in car noise environments. Electronics Letters, Vol. 37, No. 12, 801-802.
ETSI Std. (2005). Speech processing, transmission and quality aspects (STQ); distributed speech recognition; extended advanced front-end feature extraction algorithm; compression algorithm; back-end speech reconstruction algorithm. ES 202212 V1.1.2.
Brandstein, M. (2001). Microphone arrays: signal processing techniques and applications. Berlin: Springer.
Qi, Y. (1997). Temporal and spectral estimations of harmonics-to-noise ratio in human voice signals. Journal of Acoustical Society of America. Vol. 102, No. 1, 537-543.
Hirsch, H. (2000). The aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions. ISCA ITRW ASR2000.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.