$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

잔향 환경 음성인식을 위한 다중 해상도 DenseNet 기반 음향 모델
Multi-resolution DenseNet based acoustic models for reverberant speech recognition 원문보기

말소리와 음성과학 = Phonetics and speech sciences, v.10 no.1, 2018년, pp.33 - 38  

박순찬 (부산대학교 전기전자컴퓨터공학과) ,  정용원 (부산대학교 전자공학과) ,  김형순 (부산대학교)

Abstract AI-Helper 아이콘AI-Helper

Although deep neural network-based acoustic models have greatly improved the performance of automatic speech recognition (ASR), reverberation still degrades the performance of distant speech recognition in indoor environments. In this paper, we adopt the DenseNet, which has shown great performance r...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 DenseNet 구조를 음성인식에서의 음향 모델에 적용하고, 이전 연구에서 잔향 환경 음성에 대한 성능 개선 효과를 보여준 다중 해상도(multi-resolution) CNN을 확장한 다중 해상도 DenseNet 구조를 제안한다. 그리고 REVERB(REverberant Voice Enhancement and Recognition Benchmark) challenge 2014데이터를 통해 제안한 구조의 음향 모델과 기존 CNN 기반 음향 모델의 잔향 환경 음성인식 성능을 비교한다.
  • 본 논문에서는 최근 영상인식 분야에서 뛰어난 성능을 보여준 DenseNet을 음향 모델에 적합한 형태로 적용하고자 하였다. 또한 이전에 제안한 다중 해상도 CNN 구조를 DenseNet으로 확장한 다중 해상도 DenseNet 구조를 제안하고, REVERB challenge 2014 데이터를 통해 기존의 음향모델과 잔향 환경에서의 음성인식 성능을 비교하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
잔향이란 무엇인가? 최근 음성인식 성능은 심층신경망(deep neural network: DNN) 기반 음향모델의 도입으로 크게 향상되었으나, 잔향 환경에서의 원거리 음성에 대해서는 여전히 개선의 여지가 많이 남아있다. 잔향이란 실내 환경에서 소리가 벽이나 천장 등에 의해 반사되어 시간차를 두고 강도가 약해진 음성이 함께 들어오는 현상을 말한다. 잔향 효과는 실내 공간이 넓을수록, 화자와 마이크 사이의 거리가 멀어질수록 그 영향이 커지게 된다.
CNN은 크게 합성곱층과 풀링층 구성되는데 합성곱층의 역할은 무엇인가? CNN은 크게 합성곱층과 풀링층(pooling layer)으로 구성되며, 각층의 입력과 출력은 2차원 행렬 형태의 특징 맵들의 집합으로 이루어져 있다. 합성곱층은 입력 특징 맵과 훈련 가능한 파라미터로 이루어진 2차원 행렬 형태의 필터의 합성곱을 통해 출력 특징 맵을 얻는 역할을 수행한다. 합성곱층은 복수의 특징 맵을 출력할 수 있는데, 한 개의 출력 특징 맵을 구하기 위해서 모든 입력 특징 맵을 서로 다른 필터와 합성곱하고, 그 결과를 모두 더한다.
CNN 기반의 음향 모델의 장점은? CNN은 영상인식 분야에서 먼저 그 효과가 확인되었고[1], 이후 연구에서 음향 모델에 적용되어 성능 향상 효과를 보여주었다[2]. CNN 기반의 음향 모델은 기존의 전결합 신경망(fully-connected neural network) 구조에 비해 스펙트로그램의 시간과 주파수 축의 정보를 활용할 수 있다는 장점이 있다. 컴퓨터 비전 분야의 연구에서는 다양한 방법을 통해 보다 많은 수의 합성곱층(convolutional layer)으로 CNN 모델을 구성하였고, 이러한 구조가 뛰어난 성능 향상 효과가 있음을 보여주었다.
질의응답 정보가 도움이 되었나요?

참고문헌 (12)

  1. Krizhevsky, A., Sutskever, I., & Hinton, G. (2012). ImageNet classification with deep convolutional neural networks. Proceedings of the 25th International Conference on Neural Information Processing Systems - Volume 1 (pp. 1097-1105). 

  2. Sainath, T., Kingsbury, B., Saon, G., Soltau, H., Mohamed, A., Dahl, G., & Ramabhadran, B. (2015). Deep convolutional neural networks for large-scale speech tasks. Neural Networks, 64, 39-48. 

  3. He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 770-778). 

  4. Srivastava, R., Greff, K., & Schmidhuber, J. (2015). Training very deep networks. Proceedings of the Advances in Neural Information Processing Systems 28 (pp. 2377-2385). 

  5. Huang, G., Liu, Z., Maaten, L., & Weinberger, K. (2017). Densely connected convolutional networks. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 4700-4708). 

  6. Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., Berg, A., & Fei-Fei, L. (2015). ImageNet large scale visual recognition challenge. International Journal of Computer Vision, 115(3), 211-252. 

  7. Park, S., Jeong, Y., & Kim, H. (2017). Multiresolution CNN for reverberant speech recognition. Proceedings of the Conference of The Oriental Chapter of International Committee for Coordination and Standardization of Speech Databases and Assessment Techniques. 

  8. Robinson, T., Fransen, J., Pye, D., Foote, J., & Renals, S. (1995). WSJCAMO: A British English speech corpus for large vocabulary continuous speech recognition. 1995 International Conference on Acoustics, Speech, and Signal Processing (pp. 81-84). Detroit, MI. 1995. 

  9. Lincoln, M., McCowan, I., Vepa, J., & Maganti, H. (2005). The multi-channel Wall Street Journal audio visual corpus (MC-WSJ-AV): Specification and initial experiments. Proceedings of the IEEE Workshop on Automatic Speech Recognition and Understanding. San Juan (pp. 357-362). 

  10. Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., Hannemann, M., Motlicek, P., Qian, Y., Schwarz, P., Silovsky, J., Stemmer, G., & Vesely, K. (2011). The Kaldi speech recognition toolkit. Proceedings of the IEEE Automatic Speech Recognition and Understanding Workshop (ASRU 2011) (p. 4). Hawaii. 11-15 December, 2011. 

  11. Yu, D., Yao, K., & Zhang, Y. (2015). The computational network toolkit. IEEE Signal Processing Magazine, 32(6), 123-126. 

  12. Qian, Y., Bi, M., Tan, T., & Yu, K. (2016). Very deep convolutional neural networks for noise robust speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 24(12), 2263-2276. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로