최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기말소리와 음성과학 = Phonetics and speech sciences, v.11 no.1, 2019년, pp.41 - 49
임성민 (한국과학기술원 전기및전자공학부) , 구자현 (한국과학기술원 전기및전자공학부) , 김회린 (한국과학기술원 전기및전자공학부)
An end-to-end speech recognition model consisting of a single integrated neural network model was recently proposed. The end-to-end model does not need several training steps, and its structure is easy to understand. However, it is difficult to understand how the model recognizes speech internally. ...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
음성인식이 이루어지는 과정은 어떻게 되는가? | 이러한 음성인식이 이루어지는 과정은 다음과 같다. 먼저 기기가 사람의 음성을 입력으로 받고, 기기 내부에서 이미 훈련되어있는 음성인식 모델을 사용하여 입력 음성을 인식하고 텍스트로 변환한다. 이렇게 변환된 텍스트를 최종 출력으로 가지게 된다. 이때 사용하는 음성 인식 모델은 다양한 구조를 가질 수 있지만, 가장 널리 사용되는 구조는 다음과 같다. | |
음성인식이란 무엇인가? | 음성인식(automatic speech recognition)이란 입력으로 사람의 음성을 받아 어떤 대사를 말하였는지 인식하여 텍스트로 변환하고 이를 출력하는 것이다. 음성인식은 스마트폰에서부터 에어컨, 냉장고 그리고 AI 스피커에서 찾아볼 수 있다. | |
음성인식 기술의 중요성은 무엇인가? | 음성인식은 스마트폰에서부터 에어컨, 냉장고 그리고 AI 스피커에서 찾아볼 수 있다. 이렇듯 음성인식 기술은 단순히 음성 명령으로 기기를 조종하는 것에서 나아가 인공지능이 사람과 음성 대화를 나누기 위하여 필수적인 모듈로써 그 중요성이 높아지고 있다. 이러한 음성인식이 이루어지는 과정은 다음과 같다. |
Abdel-Hamid, O., Mohamed, A. R., Jiang, H., & Penn, G. (2012, March). Applying convolutional neural networks concepts to hybrid NN-HMM model for speech recognition. Proceedings of the 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 4277-4280).
Chan, W., Jaitly, N., Le, Q., & Vinyals, O. (2016, March). Listen, attend and spell: A neural network for large vocabulary conversational speech recognition. Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 4960-4964).
Chorowski, J., Bahdanau, D., Cho, K., & Bengio, Y. (2014). End-to-end continuous speech recognition using attention-based recurrent NN: First results [Computing Research Repository]. Retrieved from http://arxiv.org/abs/1412.1602
Dayhoff, J. E., & DeLeo, J. M. (2001). Artificial neural networks: Opening the black box. Cancer: Interdisciplinary International Journal of the American Cancer Society, 91(S8), 1615-1635.
Graves, A., Fernandez, S., Gomez, F., & Schmidhuber, J. (2006, June). Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks. Proceedings of the 23rd International Conference on Machine Learning (pp. 369-376).
Graves, A., Mohamed, A. R., & Hinton, G. (2013, May). Speech recognition with deep recurrent neural networks. Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 6645-6649).
Gunning, D. (2017). Explainable artificial intelligence (XAI). Defense Advanced Research Projects Agency (DARPA).
Hinton, G., Deng, L., Yu, D., Dahl, G., Mohamed, A. R., Jaitly, N., Senior, A., ... Kingsbury, B. (2012). Deep neural networks for acoustic modeling in speech recognition. IEEE Signal Processing Magazine, 29(6), 82-97.
LeCun, Y., Cortes, C., & Burges, C. J. C. (1998). The MNIST database of handwritten digits. Retrieved from http://yann.lecun.com/exdb/mnist
Miao, Y., Gowayyed, M., & Metze, F. (2015, October). EESEN: End-to-end speech recognition using deep RNN models and WFST-based decoding. Proceedings of the 2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU) (pp. 167-174).
Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., & Khudanpur, S. (2010). Recurrent neural network based language model. Proceedings of the 11th Annual Conference of the International Speech Communication Association (pp. 1045-1048).
Panayotov, V., Chen, G., Povey, D., & Khudanpur, S. (2015, April). Librispeech: An ASR corpus based on public domain audio books. Proceedings of the 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 5206-5210).
Sriram, A., Jun, H., Satheesh, S., & Coates, A. (2017). Cold fusion: Training seq2seq models together with language models [Computing Research Repository]. Retrieved from http://arxiv.org/abs/1708.06426
Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to sequence learning with neural networks. Proceedings of the Advances in Neural Information Processing Systems (pp. 3104-3112).
Watanabe, S., Hori, T., Karita, S., Hayashi, T., Nishitoba, J., Unno, Y., Enrique Yalta Soplin, N., ... Ochiai, T. (2018). ESPnet: End-to-End Speech Processing Toolkit [Computing Research Repository]. Retrieved from http://arxiv.org/abs/1804.00015
※ AI-Helper는 부적절한 답변을 할 수 있습니다.