[논문]잔향 환경 음성인식을 위한 다중 해상도 DenseNet 기반 음향 모델

박순찬; 정용원; 김형순

doi:10.13064/ksss.2018.10.1.033

잔향 환경 음성인식을 위한 다중 해상도 DenseNet 기반 음향 모델
Multi-resolution DenseNet based acoustic models for reverberant speech recognition 원문보기

말소리와 음성과학 = Phonetics and speech sciences, v.10 no.1, 2018년, pp.33 - 38

박순찬 (부산대학교 전기전자컴퓨터공학과) , 정용원 (부산대학교 전자공학과) , 김형순 (부산대학교)

Abstract ▼ AI-Helper

Although deep neural network-based acoustic models have greatly improved the performance of automatic speech recognition (ASR), reverberation still degrades the performance of distant speech recognition in indoor environments. In this paper, we adopt the DenseNet, which has shown great performance results in image classification tasks, to improve the performance of reverberant speech recognition. The DenseNet enables the deep convolutional neural network (CNN) to be effectively trained by concatenating feature maps in each convolutional layer. In addition, we extend the concept of multi-resolution CNN to multi-resolution DenseNet for robust speech recognition in reverberant environments. We evaluate the performance of reverberant speech recognition on the single-channel ASR task in reverberant voice enhancement and recognition benchmark (REVERB) challenge 2014. According to the experimental results, the DenseNet-based acoustic models show better performance than do the conventional CNN-based ones, and the multi-resolution DenseNet provides additional performance improvement.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 DenseNet 구조를 음성인식에서의 음향 모델에 적용하고, 이전 연구에서 잔향 환경 음성에 대한 성능 개선 효과를 보여준 다중 해상도(multi-resolution) CNN을 확장한 다중 해상도 DenseNet 구조를 제안한다. 그리고 REVERB(REverberant Voice Enhancement and Recognition Benchmark) challenge 2014데이터를 통해 제안한 구조의 음향 모델과 기존 CNN 기반 음향 모델의 잔향 환경 음성인식 성능을 비교한다.
본 논문에서는 최근 영상인식 분야에서 뛰어난 성능을 보여준 DenseNet을 음향 모델에 적합한 형태로 적용하고자 하였다. 또한 이전에 제안한 다중 해상도 CNN 구조를 DenseNet으로 확장한 다중 해상도 DenseNet 구조를 제안하고, REVERB challenge 2014 데이터를 통해 기존의 음향모델과 잔향 환경에서의 음성인식 성능을 비교하였다.

제안 방법

본 논문에서는 DenseNet 구조를 음성인식에서의 음향 모델에 적용하고, 이전 연구에서 잔향 환경 음성에 대한 성능 개선 효과를 보여준 다중 해상도(multi-resolution) CNN을 확장한 다중 해상도 DenseNet 구조를 제안한다. 그리고 REVERB(REverberant Voice Enhancement and Recognition Benchmark) challenge 2014데이터를 통해 제안한 구조의 음향 모델과 기존 CNN 기반 음향 모델의 잔향 환경 음성인식 성능을 비교한다.
본 논문에서는 최근 영상인식 분야에서 뛰어난 성능을 보여준 DenseNet을 음향 모델에 적합한 형태로 적용하고자 하였다. 또한 이전에 제안한 다중 해상도 CNN 구조를 DenseNet으로 확장한 다중 해상도 DenseNet 구조를 제안하고, REVERB challenge 2014 데이터를 통해 기존의 음향모델과 잔향 환경에서의 음성인식 성능을 비교하였다.
음향 모델 훈련을 위한 라벨(label)은 트라이폰(triphone)에 대한 3,268개의 상태 집합(tied state)으로, GMM- HMM(Gaussian Mixture Model – Hidden Markov Model) 모델의 강제 정렬(forced alignment)을 통해 생성하였다. 라벨 생성을 위한 GMM-HMM 모델은 Kaldi의 기본 제공 스크립트를 통해 훈련하였는데, REVERB challenge 2014의 MCT 데이터에 해당하는 WSJCAM0의 깨끗한 음성으로 훈련 및 강제 정렬하여 잔향에 의한 오류를 최소화하였다. 모든 신경망 모델은 확률적 경사 하강법(SGD, stochastic gradient descent)을 통해 상태 집합의 라벨과 출력의 CE(cross entropy)를 최소화하도록 훈련하였으며, 훈련 데이터의 10%를 검증 데이터로 분리하고, 교차 검증(cross validation)을 통해 epoch 단위로 CE의 변화에 맞추어 학습률(learning rate)을 자동 조절하였다.
라벨 생성을 위한 GMM-HMM 모델은 Kaldi의 기본 제공 스크립트를 통해 훈련하였는데, REVERB challenge 2014의 MCT 데이터에 해당하는 WSJCAM0의 깨끗한 음성으로 훈련 및 강제 정렬하여 잔향에 의한 오류를 최소화하였다. 모든 신경망 모델은 확률적 경사 하강법(SGD, stochastic gradient descent)을 통해 상태 집합의 라벨과 출력의 CE(cross entropy)를 최소화하도록 훈련하였으며, 훈련 데이터의 10%를 검증 데이터로 분리하고, 교차 검증(cross validation)을 통해 epoch 단위로 CE의 변화에 맞추어 학습률(learning rate)을 자동 조절하였다.
실험을 위한 음성인식 시스템은 음성인식을 위한 오픈소스 툴킷인 Kaldi[10]와 신경망 훈련을 위한 오픈소스 툴킷인 CNTK[11]를 통해 구현하였다. 음향 모델 훈련을 위한 라벨(label)은 트라이폰(triphone)에 대한 3,268개의 상태 집합(tied state)으로, GMM- HMM(Gaussian Mixture Model – Hidden Markov Model) 모델의 강제 정렬(forced alignment)을 통해 생성하였다.
각 입력 특징이 별도의 밀집 블록들을 거친 후, 그 출력 특징 맵들이 연결되어 단일 밀집 블록의 입력이 된다. 이후 두 특징이 통합된 상태에서 밀집 블록들을 거친 후 선형 연결을 통해 음향 모델의 출력을 얻게 된다. 서로 다른 입력 특징에서 얻어진 특징 맵들을 연결하기 위해서는 두 특징 맵의 크기가 동일해야 하는데, 이를 위해 두 입력 특징과 풀링의 크기가 적절히 조절되어야 한다.
CNN 모델은 비교를 위한 기준으로서 가장 많이 알려진 CNN 기반 음향 모델 구조를 적용하였다. 입력으로는 40차 LMFE를 좌우 5프레임과 함께 총 11프레임을 문장 단위로 평균 및 표준편차에 대해 정규화 하여 사용하였다. 입력은 9×9 크기의 필터 256개로 구성된 첫 번째 합성곱층을 거쳐, 3×1 크기의 최댓값 풀링층으로 연결된다.
잔향 환경 음성인식 성능 비교를 위해 CNN, VDCNN(very deep convolutional neural network), DenseNet, MR-DenseNet (multiresolution DenseNet)의 네 가지 음향 모델을 구성하였다. <표 2>에 각 음향모델의 세부 구조를 정리하였다.

대상 데이터

REVERB challenge 2014의 모든 음성 데이터는 8채널 원형 배열 마이크를 통해 수집되었으나, 본 논문에서는 정면 1개 마이크를 통해 수집된 단일 채널 음성 데이터만을 사용하였다.
제공되는 RIR 데이터는 측정된 방의 크기에 따라 3종류로 구분되며, 각각의 크기에는 2 종류의 방에서 측정한 RIR이 포함된다. 그리고 6개 방에 대해 화자와 마이크 사이의 거리 2종류, 각도 2종류로 총 24개의 RIR로 구성된다. 생성된 MCT 데이터를 통해 다양한 잔향 환경에 대응할 수 있는 음향모델을 만들 수 있다.
본 논문에서는 잔향 환경 음성인식 성능 비교를 위해 REVERB challenge 2014 데이터를 사용하였다. REVERB challenge 2014는 음향모델 훈련을 위해 다중 조건 훈련(MCT, multi-condition training) 데이터와 성능 평가를 위한 잔향 환경 음성 데이터를 제공한다.
두 스트림의 기본적인 구성은 동일하나, 협대역 LMFE를 처리하는 스트림에서는 풀링의 크기를 조정하여 두 스트림의 출력의 크기를 같게 만들어 특징 맵 사이 연결을 가능하게 하였다. 입력 특징으로는 광대역(64~8,000 Hz)의 64차 LMFE 17프레임과 협대역(64~4,000 Hz)의 64차 LMFE 8 프레임을 사용하였다. 광대역 LMFE의 경우, 기준 프레임과 전후 각각 8 프레임씩을 사용하여 총 17 프레임으로, 그리고 협대역 LMFE의 경우, 기준 프레임에 이전 4 프레임과 이후 3 프레임을 합쳐 총 8프레임의 문맥 윈도우를 구성하였다.
VDCNN은 VGGNet을 기반으로 기존 연구에서 잡음 및 잔향 환경에서 뛰어난 성능 향상을 보여준 음향모델 구조를 적용하였다[12]. 입력 특징으로는 문장 단위의 평균 및 표준편차에 대한 정규화가 적용된 64차 LMFE를 좌우 8프레임씩, 총 17프레임을 사용한다. 모든 합성곱층에는 가장자리에 적절한 수의 0이 추가되어 특징 맵의 크기가 변하지 않으며, 필터의 크기는 3×3으로 고정된다.
평가를 위한 데이터는 SimData와 RealData로 구성된다. SimData는 MCT 데이터와 마찬가지로 왜곡이 없는 깨끗한 음성과 측정된 RIR을 합성곱하고, 배경 잡음을 더하여 생성된다.

이론/모형

CNN 모델은 비교를 위한 기준으로서 가장 많이 알려진 CNN 기반 음향 모델 구조를 적용하였다. 입력으로는 40차 LMFE를 좌우 5프레임과 함께 총 11프레임을 문장 단위로 평균 및 표준편차에 대해 정규화 하여 사용하였다.
VDCNN은 VGGNet을 기반으로 기존 연구에서 잡음 및 잔향 환경에서 뛰어난 성능 향상을 보여준 음향모델 구조를 적용하였다[12]. 입력 특징으로는 문장 단위의 평균 및 표준편차에 대한 정규화가 적용된 64차 LMFE를 좌우 8프레임씩, 총 17프레임을 사용한다.
음향 모델 훈련을 위한 라벨(label)은 트라이폰(triphone)에 대한 3,268개의 상태 집합(tied state)으로, GMM- HMM(Gaussian Mixture Model – Hidden Markov Model) 모델의 강제 정렬(forced alignment)을 통해 생성하였다.

성능/효과

<표 3>에 각 음향모델 구조에 의한 잔향환경 음성인식결과를 정리하였다. VDCNN은 CNN에 비해 상당한 인식오류 감소효과를 보여주었고, DenseNet은 VDCNN에 비해 SimData에서 7.06%, RealData에서 3.74%의 추가적인 오류감소율(error reduction rate)을 보여주었다. 또한 MR-DenseNet는 SimData에서 5.
잔향 환경의 데이터를 통해 음성인식 실험을 진행한 결과, DenseNet 기반의 음향모델이 기존의 VGGNet을 기반으로 한 VDCNN 모델에 비해 좋은 성능을 보여주었다. 그리고 본 논문에서 제안한 다중 해상도 DenseNet 기반 음향모델 실험을 통해 기존의 CNN에서 잔향 환경 음성에 대해 성능 향상 효과를 보여준 다중 해상도 구조가 DenseNet에서도 긍정적인 효과를 나타냄을 확인할 수 있었다. 다중 해상도 DenseNet의 합성곱층 단계에서 두 특징을 통합하는 것이 기존의 다중 해상도 CNN의 전결합층 단계에서 두 특징을 통합하는 것보다 효과적일 것으로 추정되며, 이를 확인하기 위한 추가 실험이 필요하다고 판단된다.
74%의 추가적인 오류감소율(error reduction rate)을 보여주었다. 또한 MR-DenseNet는 SimData에서 5.27%, RealData에서 5.19%의 오류감소율을 나타내어, 다중 해상도 구조의 적용이 DenseNet에서 추가적인 성능 향상 효과가 있음을 확인할 수 있었다.
잔향 환경의 데이터를 통해 음성인식 실험을 진행한 결과, DenseNet 기반의 음향모델이 기존의 VGGNet을 기반으로 한 VDCNN 모델에 비해 좋은 성능을 보여주었다. 그리고 본 논문에서 제안한 다중 해상도 DenseNet 기반 음향모델 실험을 통해 기존의 CNN에서 잔향 환경 음성에 대해 성능 향상 효과를 보여준 다중 해상도 구조가 DenseNet에서도 긍정적인 효과를 나타냄을 확인할 수 있었다.

후속연구

그리고 본 논문에서 제안한 다중 해상도 DenseNet 기반 음향모델 실험을 통해 기존의 CNN에서 잔향 환경 음성에 대해 성능 향상 효과를 보여준 다중 해상도 구조가 DenseNet에서도 긍정적인 효과를 나타냄을 확인할 수 있었다. 다중 해상도 DenseNet의 합성곱층 단계에서 두 특징을 통합하는 것이 기존의 다중 해상도 CNN의 전결합층 단계에서 두 특징을 통합하는 것보다 효과적일 것으로 추정되며, 이를 확인하기 위한 추가 실험이 필요하다고 판단된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	잔향이란 무엇인가?	최근 음성인식 성능은 심층신경망(deep neural network: DNN) 기반 음향모델의 도입으로 크게 향상되었으나, 잔향 환경에서의 원거리 음성에 대해서는 여전히 개선의 여지가 많이 남아있다. 잔향이란 실내 환경에서 소리가 벽이나 천장 등에 의해 반사되어 시간차를 두고 강도가 약해진 음성이 함께 들어오는 현상을 말한다. 잔향 효과는 실내 공간이 넓을수록, 화자와 마이크 사이의 거리가 멀어질수록 그 영향이 커지게 된다.
	CNN은 크게 합성곱층과 풀링층 구성되는데 합성곱층의 역할은 무엇인가?	CNN은 크게 합성곱층과 풀링층(pooling layer)으로 구성되며, 각층의 입력과 출력은 2차원 행렬 형태의 특징 맵들의 집합으로 이루어져 있다. 합성곱층은 입력 특징 맵과 훈련 가능한 파라미터로 이루어진 2차원 행렬 형태의 필터의 합성곱을 통해 출력 특징 맵을 얻는 역할을 수행한다. 합성곱층은 복수의 특징 맵을 출력할 수 있는데, 한 개의 출력 특징 맵을 구하기 위해서 모든 입력 특징 맵을 서로 다른 필터와 합성곱하고, 그 결과를 모두 더한다.
	CNN 기반의 음향 모델의 장점은?	CNN은 영상인식 분야에서 먼저 그 효과가 확인되었고[1], 이후 연구에서 음향 모델에 적용되어 성능 향상 효과를 보여주었다[2]. CNN 기반의 음향 모델은 기존의 전결합 신경망(fully-connected neural network) 구조에 비해 스펙트로그램의 시간과 주파수 축의 정보를 활용할 수 있다는 장점이 있다. 컴퓨터 비전 분야의 연구에서는 다양한 방법을 통해 보다 많은 수의 합성곱층(convolutional layer)으로 CNN 모델을 구성하였고, 이러한 구조가 뛰어난 성능 향상 효과가 있음을 보여주었다.

참고문헌 (12)

Krizhevsky, A., Sutskever, I., & Hinton, G. (2012). ImageNet classification with deep convolutional neural networks. Proceedings of the 25th International Conference on Neural Information Processing Systems - Volume 1 (pp. 1097-1105).
Sainath, T., Kingsbury, B., Saon, G., Soltau, H., Mohamed, A., Dahl, G., & Ramabhadran, B. (2015). Deep convolutional neural networks for large-scale speech tasks. Neural Networks, 64, 39-48.

상세보기
He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 770-778).
Srivastava, R., Greff, K., & Schmidhuber, J. (2015). Training very deep networks. Proceedings of the Advances in Neural Information Processing Systems 28 (pp. 2377-2385).
Huang, G., Liu, Z., Maaten, L., & Weinberger, K. (2017). Densely connected convolutional networks. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 4700-4708).
Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., Berg, A., & Fei-Fei, L. (2015). ImageNet large scale visual recognition challenge. International Journal of Computer Vision, 115(3), 211-252.

상세보기
Park, S., Jeong, Y., & Kim, H. (2017). Multiresolution CNN for reverberant speech recognition. Proceedings of the Conference of The Oriental Chapter of International Committee for Coordination and Standardization of Speech Databases and Assessment Techniques.
Robinson, T., Fransen, J., Pye, D., Foote, J., & Renals, S. (1995). WSJCAMO: A British English speech corpus for large vocabulary continuous speech recognition. 1995 International Conference on Acoustics, Speech, and Signal Processing (pp. 81-84). Detroit, MI. 1995.
Lincoln, M., McCowan, I., Vepa, J., & Maganti, H. (2005). The multi-channel Wall Street Journal audio visual corpus (MC-WSJ-AV): Specification and initial experiments. Proceedings of the IEEE Workshop on Automatic Speech Recognition and Understanding. San Juan (pp. 357-362).
Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., Hannemann, M., Motlicek, P., Qian, Y., Schwarz, P., Silovsky, J., Stemmer, G., & Vesely, K. (2011). The Kaldi speech recognition toolkit. Proceedings of the IEEE Automatic Speech Recognition and Understanding Workshop (ASRU 2011) (p. 4). Hawaii. 11-15 December, 2011.
Yu, D., Yao, K., & Zhang, Y. (2015). The computational network toolkit. IEEE Signal Processing Magazine, 32(6), 123-126.
Qian, Y., Bi, M., Tan, T., & Yu, K. (2016). Very deep convolutional neural networks for noise robust speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 24(12), 2263-2276.

상세보기

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증