최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기방송공학회논문지 = Journal of broadcast engineering, v.23 no.4, 2018년, pp.511 - 518
정준영 (숭실대학교 전기공학부) , 김기백 (숭실대학교 전기공학부)
This paper deals with improving speech intelligibility by applying binary mask to time-frequency units of speech in noise. The binary mask is set to "0" or "1" according to whether speech is dominant or noise is dominant by comparing signal-to-noise ratio with pre-defined threshold. Bayesian classif...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
MAP 적응 방법의 역할은? | ML 방법에서는 관찰 데이터를 랜덤 벡터로 가정하고 각 모델에 대한 likelihood가 최대가 되도록 하는 모델 파라미터를 찾는다. 이와 달리 MAP 적응 방법은 모델 파라미터를 랜덤 벡터로 가정하고, 데이터의 변화에 따른 확률 분포 함수의 변화에 따라 사후 확률 분포(posterior distribution)가 최대가 되는 모델 파라미터를 찾는다. 관찰 데이터가 적을 때는 사전 확률 분포가 최대가 되는 파라미터를 선택하고, 데이터가 늘어날수록 사전 확률 분포의 영향은 줄어들면서 ML의 결과에 수렴하게 된다. | |
Eigenvoice의 기본 아이디어는 사전에 구한 고유 벡터에 대한 의존도가 높은데 어떠한 이유로 그러한가? | 이와 같은 eigenvoice 적응 방법은 고유 벡터의 가중치만 구하면 되므로 추정해야 할 파라미터의 수가 적고 그에 따라 음성 인식의 화자 적응에서는 적은 양의 데이터에 대해서도 높은 성능을 나타내는 것으로 알려져 있다[14]. Eigenvoice의 기본 아이디어는 신호의 특성을 몇 개의 주된 모델의 가중합으로 나타낼 수 있다는 사실을 전제로 하여 사전에 구한 고유 벡터에 대한 의존도가 높다. 이와 같은 아이디어는 음성 신호에는 효과적으로 적용되었으나, 잡음의 형태는 음성 신호보다 훨씬 다양하여 몇 개의 고유 벡터의 가중합으로 표현하는데 한계가 있다. | |
점증 학습 방법의 단점은 무엇인가? | 이러한 점증 학습 방법으로 새로운 잡음 환경에 대해 이진 마스크 추정 성능이 점진적으로 향상됨을 확인하였다. 그러나 이러한 방법은 점진적으로 성능이 향상되기는 하지만 적은 양의 데이터를 이용한 초기학습 과정에서는 충분한 성능을 발휘하지 못하는 단점이 있다. |
Y. Hu and P. Loizou, "Subjective comparison and evaluation of speech enhancement algorithms," Speech communication, vol. 49, no. 7, pp. 588-601, Jul. 2007. https://doi.org/10.1016/j.specom.2006.12.006
Y. Hu and P. Loizou, "Evaluation of objective quality measures for speech enhancement," IEEE Transactions on Speech and Audio Processing, vol. 16, no. 1, pp. 229-238, 2008. https://doi.org/10.1109/tasl.2007.911054
Y. Hu and P. Loizou, "A comparative intelligibility study of single-microphone noise reduction algorithms." The Journal of the Acoustical Society of America, vol. 122, no. 3, p. 1777, Sep. 2007. https://doi.org/10.1121/1.2766778
G. Brown and M. Cooke, "Computational auditory scene analysis," Computer speech and language, vol. 8, pp. 297-336, 1994 https://doi.org/10.1006/csla.1994.1016
G. Brown and M. Cooke, "Computational auditory scene analysis," Computer speech and language, vol. 8, pp. 297-336, 1994 https://doi.org/10.1109/9780470043387
D. Wang, "On ideal binary mask as the computational goal of auditory scene analysis," In Divenyi P. (ed.), Speech Separation by Humans and Machines, pp. 181-197, Kluwer Academic, Norwell MA, 2005. https://doi.org/10.1007/0-387-22794-6_12
G. Kim. Y. Lu, Y. Hu and P. Loizou, "An algorithm that improves speech intelligibility in noise for normal-hearing listeners," The Journal of the Acoustical Society of America, vol. 126, no. 3, pp 1486-1494, 2009. https://doi.org/10.1121/1.3184603
Y. Hu, P. Loizou, "Environment-specific noise suppression for improved speech intelligibility by cochlear implant users", The Journal of the Acoustical Society of America, vol. 127, no. 6, pp 3689-3695, 2010. https://doi.org/10.1121/1.3365256
K. Han, D. Wang, "A classification based approach to speech segregation", The Journal of the Acoustical Society of America, vol. 132, no. 5, pp 3475-3483, 2012. https://doi.org/10.1121/1.4754541
Y. Wang, K. Han, D. Wang, "Exploring monaural features for classification-based speech segregation", IEEE Transactions on Audio, Speech, and Language Processing, vol. 21, no. 2, pp 270-279, 2013. https://doi.org/10.1109/tasl.2012.2221459
G. Kim, P. Loizou, "Improving speech intelligibility in noise using environment optimized algorithms", IEEE Transactions on Audio, Speech, and Language Processing, vol. 18, no. 8, pp 2080-2090, 2010. https://doi.org/10.1109/tasl.2010.2041116
R. Kuhn, J. Junqua, P. Nguyen, N. Niedzielski, "Rapid Speaker Adaptation in Eigenvoice Space," IEEE Transactions on Speech and Audio Proceeding, vol. 8, no. 6, pp. 695-707, November 2000. https://doi.org/10.1109/89.876308
D. Povey and G. Saon, "Feature and model space speaker adaptation with full covariance Gaussians," Proceedings of Interspeech, USA, september 2006.
K. Shinoda, "Speaker Adaptation Techniques for Speech Recognition Using Probabilistic Models," Electronics and Communications in Japan, Part 3, Vol. 88, No. 12, pp.25-42, 2005. https://doi.org/10.1002/ecjc.20207
J. Tchorz and B. Kollmeier, "Estimation of the signal-to-noise ratio with amplitude modulation spectrograms," Speech Communication, vol. 38, no. 1-2, pp. 1-17, Sep. 2002. https://doi.org/10.1016/s0167-6393(01)00040-1
J. Tchorz and B. Kollmeier, "SNR estimation based on amplitude modulation analysis with applications to noise suppression," IEEE Transactions on Speech and Audio Processing, vol. 11, no. 3, pp. 184-192, May 2003. https://doi.org/10.1109/tsa.2003.811542
IEEE, "IEEE recommended practice for speech quality measurements," IEEE Trans. Audio Electroacoust., vol. 17, pp. 225-246, 1969. https://doi.org/10.1109/tau.1969.1162058
A. Varga and H. J. M. Steeneken, "Assessment for automatic speech recognition: II. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems," Speech Communication, vol. 12, pp. 247-251, 1993. https://doi.org/10.1016/0167-6393(93)90095-3
※ AI-Helper는 부적절한 답변을 할 수 있습니다.