최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기말소리와 음성과학 = Phonetics and speech sciences, v.10 no.1, 2018년, pp.33 - 38
Although deep neural network-based acoustic models have greatly improved the performance of automatic speech recognition (ASR), reverberation still degrades the performance of distant speech recognition in indoor environments. In this paper, we adopt the DenseNet, which has shown great performance r...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
잔향이란 무엇인가? | 최근 음성인식 성능은 심층신경망(deep neural network: DNN) 기반 음향모델의 도입으로 크게 향상되었으나, 잔향 환경에서의 원거리 음성에 대해서는 여전히 개선의 여지가 많이 남아있다. 잔향이란 실내 환경에서 소리가 벽이나 천장 등에 의해 반사되어 시간차를 두고 강도가 약해진 음성이 함께 들어오는 현상을 말한다. 잔향 효과는 실내 공간이 넓을수록, 화자와 마이크 사이의 거리가 멀어질수록 그 영향이 커지게 된다. | |
CNN은 크게 합성곱층과 풀링층 구성되는데 합성곱층의 역할은 무엇인가? | CNN은 크게 합성곱층과 풀링층(pooling layer)으로 구성되며, 각층의 입력과 출력은 2차원 행렬 형태의 특징 맵들의 집합으로 이루어져 있다. 합성곱층은 입력 특징 맵과 훈련 가능한 파라미터로 이루어진 2차원 행렬 형태의 필터의 합성곱을 통해 출력 특징 맵을 얻는 역할을 수행한다. 합성곱층은 복수의 특징 맵을 출력할 수 있는데, 한 개의 출력 특징 맵을 구하기 위해서 모든 입력 특징 맵을 서로 다른 필터와 합성곱하고, 그 결과를 모두 더한다. | |
CNN 기반의 음향 모델의 장점은? | CNN은 영상인식 분야에서 먼저 그 효과가 확인되었고[1], 이후 연구에서 음향 모델에 적용되어 성능 향상 효과를 보여주었다[2]. CNN 기반의 음향 모델은 기존의 전결합 신경망(fully-connected neural network) 구조에 비해 스펙트로그램의 시간과 주파수 축의 정보를 활용할 수 있다는 장점이 있다. 컴퓨터 비전 분야의 연구에서는 다양한 방법을 통해 보다 많은 수의 합성곱층(convolutional layer)으로 CNN 모델을 구성하였고, 이러한 구조가 뛰어난 성능 향상 효과가 있음을 보여주었다. |
Krizhevsky, A., Sutskever, I., & Hinton, G. (2012). ImageNet classification with deep convolutional neural networks. Proceedings of the 25th International Conference on Neural Information Processing Systems - Volume 1 (pp. 1097-1105).
Sainath, T., Kingsbury, B., Saon, G., Soltau, H., Mohamed, A., Dahl, G., & Ramabhadran, B. (2015). Deep convolutional neural networks for large-scale speech tasks. Neural Networks, 64, 39-48.
He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 770-778).
Srivastava, R., Greff, K., & Schmidhuber, J. (2015). Training very deep networks. Proceedings of the Advances in Neural Information Processing Systems 28 (pp. 2377-2385).
Huang, G., Liu, Z., Maaten, L., & Weinberger, K. (2017). Densely connected convolutional networks. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 4700-4708).
Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., Berg, A., & Fei-Fei, L. (2015). ImageNet large scale visual recognition challenge. International Journal of Computer Vision, 115(3), 211-252.
Park, S., Jeong, Y., & Kim, H. (2017). Multiresolution CNN for reverberant speech recognition. Proceedings of the Conference of The Oriental Chapter of International Committee for Coordination and Standardization of Speech Databases and Assessment Techniques.
Robinson, T., Fransen, J., Pye, D., Foote, J., & Renals, S. (1995). WSJCAMO: A British English speech corpus for large vocabulary continuous speech recognition. 1995 International Conference on Acoustics, Speech, and Signal Processing (pp. 81-84). Detroit, MI. 1995.
Lincoln, M., McCowan, I., Vepa, J., & Maganti, H. (2005). The multi-channel Wall Street Journal audio visual corpus (MC-WSJ-AV): Specification and initial experiments. Proceedings of the IEEE Workshop on Automatic Speech Recognition and Understanding. San Juan (pp. 357-362).
Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., Hannemann, M., Motlicek, P., Qian, Y., Schwarz, P., Silovsky, J., Stemmer, G., & Vesely, K. (2011). The Kaldi speech recognition toolkit. Proceedings of the IEEE Automatic Speech Recognition and Understanding Workshop (ASRU 2011) (p. 4). Hawaii. 11-15 December, 2011.
Yu, D., Yao, K., & Zhang, Y. (2015). The computational network toolkit. IEEE Signal Processing Magazine, 32(6), 123-126.
Qian, Y., Bi, M., Tan, T., & Yu, K. (2016). Very deep convolutional neural networks for noise robust speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 24(12), 2263-2276.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.