최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기한국음향학회지= The journal of the acoustical society of Korea, v.30 no.6, 2011년, pp.324 - 329
김상균 (한양대학교 융합전자공학부) , 장준혁 (한양대학교 융합전자공학부)
In this paper, we propose a novel approach to improve the performance of a statistical model-based voice activity detection (VAD) which is based on the conditional maximum a posteriori (CMAP) with deviation. In our approach, the VAD decision rule is expressed as the geometric mean of likelihood rati...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
음성 스펙트럼 변이란? | 본 연구에서는 음성 스펙트럼 변이 (spectral deviation, SD)를 음성검출을 위한 추가정보로서 유용하게 통계모델기반의 알고리즘에 사용가능하다는 것을 고찰한다. 음성 스펙트럼 변이는 이전 프레임 동안 예측된 평균 longterm 파워 스펙트럼과 현재 파워 스펙트럼의 차이다 [11]. 본 논문에서는 기존의 CMAP 기반의 음성 검출 판별식에서 문턱값을 결정할 때 음성 스펙트럼 변이 상태를 조건부 확률로 부과한다. | |
음성 검출기란? | 음성인식, 음성 부호화 그리고 음성 향상 등 음성신호 처리 기술에서 음성이 존재하는 부분과 아닌 부분을 결정 하는 음성 검출기 (voice activity detector, VAD)는 매우 중요한 기술이다. 특히 신호 대 잡음비 (signal-to-noise ratio, SNR)가 낮은 환경에서 음성 구간을 검출하는 정확도는 음성 처리 시스템의 성능에 큰 영향을 준다. | |
조건 사후 최대 확률 기반의 음성검출 알고리즘을 생긴 배경은? | 잡음이 음성신호를 간섭하면 음성의 꼬리와 같은 약한 음성 신호를 검출하기 힘들다. 이러한 취약점을 개선한 방법 중의 하나가 조건 사후 최대 확률 (conditional maximum a posteriori, CMAP) 기반의 음성검출 알고리즘이다. |
K. Srinivasant and Allen Gersho, "Voice activity detection for cellular networks," Proc. IEEE Speech Coding Workshop, pp. 85-86, Oct. 1993.
Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator," IEEE Trans. Acoustics, Speech, Sig. Process., vol. ASSP-32, no. 6, pp. 1190-1121, Dec. 1984.
J. Sohn and W. Sung, "A voice activity detector employing soft decision based noise spectrum adaptation," Proc. Int. Conf. Acoustics, Speech, and Sig. Process., vol. 1, pp. 365-368, May 1998.
J. Sohn, N. S. Kim, and W. Sung, "A statistical modelbased voice activity detection," IEEE Sig. Process. Lett., vol. 6, no. 1, pp. 1-3, Jan. 1999.
Y. D. Cho and A. Kondoz, "Analysis and improvement of a statistical model-based voice activity detector," IEEE Sig. Process. Lett., vol. 8, no.10, pp. 276-278, Oct. 2001.
J.-H. Chang, J. W. Shin, and N. S. Kim, "Voice activity detector employing generalised gaussian distribution," Electron. Lett., vol. 40, no. 24, pp. 1561-1563, Nov. 2004.
J.-H. Chang, N. S. Kim, and S. K. Mitra, "Voice activity detection based on multiple statistical models," IEEE Trans. Sig. Process., vol. 54, no. 6, pp. 1965-1976, June 2006.
Y. C. Lee and S. S. Ahn, "Statistical model-based VAD algorithm with Wavelet Transform," IEICE Trans. Fundamentals., vol. E89-A, no. 6, pp. 1594-1600, June 2006.
J. Ramirez, J. M. Gorriz, J. C. Segura, C. G. Puntonet, and A. J. Rubio, "Speech/non-speech discrimination based on contextual information integrated bispectrum LRT," IEEE Sig. Process. Lett., vol. 13, no. 8, pp. 497-500, Aug. 2006.
J. W. Shin, H. J. Kwon, S. H. Jin and N. S. Kim, "Voice activity detection based on conditional MAP criterion," IEEE Signal Processing Letters, vol. 15, pp. 257-260, Feb. 2008.
3GPP2 Spec., "Enhanced Variable Rate Codec (EVRC)," 3Gpp2- C.S0014-0, vol. 1.0 Apr. 2004.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
오픈액세스 학술지에 출판된 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.