[논문]다양한 손실 함수를 이용한 음성 향상 성능 비교 평가

황서림; 변준; 박영철

doi:10.7776/ask.2021.40.2.176

다양한 손실 함수를 이용한 음성 향상 성능 비교 평가
Performance comparison evaluation of speech enhancement using various loss functions 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.40 no.2, 2021년, pp.176 - 182

황서림 (연세대학교 컴퓨터정보통신공학부) , 변준 (연세대학교 컴퓨터정보통신공학부) , 박영철 (연세대학교 컴퓨터정보통신공학부)

초록
AI-Helper

본 논문은 다양한 손실 함수에 따른 Deep Nerual Network(DNN) 기반 음성 향상 모델의 성능을 비교 평가한다. 베이스라인 모델로는 음성의 위상 정보를 고려할 수 있는 복소 네트워크를 사용하였다. 손실 함수는 두 가지 유형의 기본 손실 함수, Mean Squared Error(MSE)와 Scale-Invariant Source-to-Noise Ratio(SI-SNR)를 사용하였으며 두 가지 유형의 지각 기반 손실 함수 Perceptual Metric for Speech Quality Evaluation(PMSQE)과 Log Mel Spectra(LMS)를 사용한다. 성능은 각 손실 함수의 다양한 조합을 사용하여 얻은 출력을 객관적인 평가와 청취 테스트를 통해 측정하였다. 실험 결과, 지각기반 손실 함수를 MSE 또는 SI-SNR과 결합하였을 때 전반적으로 성능이 향상되며, 지각기반 손실함수를 사용하면 객관적 지표에서 약세를 보이는 경우라도 청취 테스트에서 우수한 성능을 보임을 확인하였다.

Abstract ▼ AI-Helper

This paper evaluates and compares the performance of the Deep Nerual Network (DNN)-based speech enhancement models according to various loss functions. We used a complex network that can consider the phase information of speech as a baseline model. As the loss function, we consider two types of basic loss functions; the Mean Squared Error (MSE) and the Scale-Invariant Source-to-Noise Ratio (SI-SNR), and two types of perceptual-based loss functions, including the Perceptual Metric for Speech Quality Evaluation (PMSQE) and the Log Mel Spectra (LMS). The performance comparison was performed through objective evaluation and listening tests with outputs obtained using various combinations of the loss functions. Test results show that when a perceptual-based loss function was combined with MSE or SI-SNR, the overall performance is improved, and the perceptual-based loss functions, even exhibiting lower objective scores showed better performance in the listening test.

주제어

표/그림 (6)

그림 Fig. 1. (Color available online) The architecture of DCCRN.^[3]
표 Table 1. Learning rate and coupling coefficients ratio for the performance evaluation according to each loss function.
표 Table 2. Performance evaluation of various loss functions using seen noise.
표 Table 3. Evaluation of various loss functions using unseen noise.
그림 Fig. 2. (Color available online) The spectrograms of (a) clean speech, (b) noisy speech at 0 dB SNR, estimated speeches using (c) MSE and PMSQE, (d) SI-SNR, (e) SI-SNR and PMSQE, (f) SI-SNR and LMS.
그림 Fig. 3. The listening test results: CMOS scores of SI-SNR + LMS with respect to (a) SI-SNR, (b) MSE + PMSQE, (c) SI-SNR + PMSQE. Positive values indicate SI-SNR+LMS is better than the compared loss functions.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

반면, PMSQE와 LMS는 주파수 영역에서 추정된 파워를 기반으로 계산된다.^[7,8] 본 논문에서는 손실 함수 결합에 의한 성능 향상을 평가하기 위해 기본 손실함수(L_n)와 지각 기반 손실함수(L_p)를 결합하여 각 손실함수를 공동으로 학습하도록 하였다.
본 논문에서는 복소 네트워크 모델을 기반으로 다양한 손실함수에 따른 음성 향상의 성능을 비교 평가함으로써 음성 향상을 위한 딥러닝 네트워크 최적화 가이드라인을 제시하고자 한다. 이를 위해 MSE 와 SI-SNR 두 종류의 손실 함수를 기본으로 사용하고, 이에 사람의 지각 특성에 기반을 둔 두 종류의 손실함수^[7,8]를 추가적으로 결합하여 성능을 평가하였다.
본 논문에서는 최근 제안되어 우수한 성능을 보이는 것으로 알려진 Deep Complex Convolutional Recurrent Network(DCCRN)^[3]를 베이스라인 네트워크로 사용하여 서로 다른 손실 함수에 따른 음질을 비교 평가한다. DCCRNe 합성곱 신경망과 순환 신경망을 결합한 복소 네트워크이며, 구조는 Fig.
본 논문은 복소 네트워크를 사용하여 다양한 손실 함수들에 대한 성능을 비교 평가 하였다. 또한, 기존 손실 함수가 가지는 한계를 보완하기 위하여 기존 손실 함수에 지각 기반 손실 함수를 결합하여 그 성능을 비교 분석하였다.

제안 방법

[4] 이를 위해본 논문에서는 각 손실 함수에 대해 최상의 성능을 보이는 학습률과 결합계수비를 실험적으로 결정하였다. 그 결과는 Table 1에 정리되어 있다.
[8] LMS는 파워 스펙트로그램에 인간의 청각 구조를 기반으로 하는 Mel 필터뱅크를 적용하였으며, 해상도를 달리하는 다수의 Mel 필터뱅크를 결합하여 사용하였다. 수식은 다음과 같다.
각각의 손실 함수가 음성 향상 성능 변화에 어떤 영향을 주는지 확인하기 위해서, Fig. 1의 DCCRN 모델에 서로 다른 손실 함수를 사용하여 실험하였다.
잡음 신호를 합성곱 STFT을 통해서 복소 스펙트럼을 추출한 뒤 복소 인코더와 복소 Long Short-Term Memory(LSTM), 복소 디코더를 순차적으로 거쳐 복소 마스크를 추정한다. 그리고 복소 마스크를 추출한 복소 스펙트럼에 곱한 뒤 합성곱 ISTFT을 통해서 향상된 신호를 만들어낸다.
본 논문은 복소 네트워크를 사용하여 다양한 손실 함수들에 대한 성능을 비교 평가 하였다. 또한, 기존 손실 함수가 가지는 한계를 보완하기 위하여 기존 손실 함수에 지각 기반 손실 함수를 결합하여 그 성능을 비교 분석하였다. 지각 기반 손실 함수를 결합함으로써 PESQ 점수가 전반적으로 향상됨을 확인할 수 있었으며, CMOS 청취 실험 결과 SI-SNR과 LMS 를 결합한 손실함수의 성능이 가장 우수함을 확인할 수 있었다.
모델의 성능을 평가하기 위해, 객관적 평가와 주관적 평가를 수행하였다. 객관적 평가 지표로는 음질 평가에서 가장 많이 사용되는 PESQ와 Short-Time Objective Intelligibility(STOI)를 사용하였다.
이를 위해 MSE 와 SI-SNR 두 종류의 손실 함수를 기본으로 사용하고, 이에 사람의 지각 특성에 기반을 둔 두 종류의 손실함수^[7,8]를 추가적으로 결합하여 성능을 평가하였다. 성능평가는 객관적인 지표와 청취실험을 통해 비교 분석하였다.
위 식에서 M_i는 i번째 Mel 밴드의 log 스펙트럼을 나타내며,^[8] 본 논문에서는 각각 16, 32, 64개의 밴드를 갖는 3종류의 필터뱅크를 사용하였다. 결과적으로 Eq.
한편 SI-SNR만 사용한 경우에는 음성 초기 고주파 성분이 충실히 복원되지 않고 있다. 이러한 결과가 전반적인 음질 차이로 반영되는지를 확인 하기 위해 Comparative Mean Opinion Score(CMOS) 청취 실험^[9]을 수행하였다.
본 논문에서는 복소 네트워크 모델을 기반으로 다양한 손실함수에 따른 음성 향상의 성능을 비교 평가함으로써 음성 향상을 위한 딥러닝 네트워크 최적화 가이드라인을 제시하고자 한다. 이를 위해 MSE 와 SI-SNR 두 종류의 손실 함수를 기본으로 사용하고, 이에 사람의 지각 특성에 기반을 둔 두 종류의 손실함수^[7,8]를 추가적으로 결합하여 성능을 평가하였다. 성능평가는 객관적인 지표와 청취실험을 통해 비교 분석하였다.
1과 같다. 잡음 신호를 합성곱 STFT을 통해서 복소 스펙트럼을 추출한 뒤 복소 인코더와 복소 Long Short-Term Memory(LSTM), 복소 디코더를 순차적으로 거쳐 복소 마스크를 추정한다. 그리고 복소 마스크를 추출한 복소 스펙트럼에 곱한 뒤 합성곱 ISTFT을 통해서 향상된 신호를 만들어낸다.

대상 데이터

훈련은 3,696개의 잡음이 없는 음성에 11종류의 잡음 신호를 각각 SNR–10 dB 에서 20 dB까지 총 25,872개의 데이터를 생성한 뒤 사용하였다. 검증 데이터는 훈련에 사용되지 않은 1,152개의 잡음이 없는 음성에 훈련에 사용한 것과 같은 잡음 신호를 SNR–10 dB에서 20 dB까지 무작위로 섞어 사용하였다. 테스트에는 훈련에 사용되지 않은 193개의 잡음이 없는 음성에 훈련에 사용된 잡음 신호와 훈련에 사용되지 않은 6종류의 생활 잡음 신호를 각각 검증 데이터와 같은 방식으로 만들어 사용하였다.
실험 데이터는 16 kHz로 샘플링된 TIMIT 음성과 NoiseX-92, CHiME-2, CHiME-3, ETSI 잡음 데이터셋을 사용하여 생성하였다. 훈련은 3,696개의 잡음이 없는 음성에 11종류의 잡음 신호를 각각 SNR–10 dB 에서 20 dB까지 총 25,872개의 데이터를 생성한 뒤 사용하였다.
객관적 평가 지표로는 음질 평가에서 가장 많이 사용되는 PESQ와 Short-Time Objective Intelligibility(STOI)를 사용하였다. 주관적 평가로는 성인 7명을 대상으로 청취 테스트를 수행하였다.
청취 실험에는 7명의 경험자가 참여하였으며, 실험 참가자들은 총35쌍의 향상된 음성 한 쌍씩듣고–3에서 3까지 점수를 매겼다. 이때, –3은 첫 번째 음성이 두 번째 음성보다 월등히 우수, 0은 비슷, +3은두 번째 음성이 월등히 우수함을 의미한다.
검증 데이터는 훈련에 사용되지 않은 1,152개의 잡음이 없는 음성에 훈련에 사용한 것과 같은 잡음 신호를 SNR–10 dB에서 20 dB까지 무작위로 섞어 사용하였다. 테스트에는 훈련에 사용되지 않은 193개의 잡음이 없는 음성에 훈련에 사용된 잡음 신호와 훈련에 사용되지 않은 6종류의 생활 잡음 신호를 각각 검증 데이터와 같은 방식으로 만들어 사용하였다.
실험 데이터는 16 kHz로 샘플링된 TIMIT 음성과 NoiseX-92, CHiME-2, CHiME-3, ETSI 잡음 데이터셋을 사용하여 생성하였다. 훈련은 3,696개의 잡음이 없는 음성에 11종류의 잡음 신호를 각각 SNR–10 dB 에서 20 dB까지 총 25,872개의 데이터를 생성한 뒤 사용하였다. 검증 데이터는 훈련에 사용되지 않은 1,152개의 잡음이 없는 음성에 훈련에 사용한 것과 같은 잡음 신호를 SNR–10 dB에서 20 dB까지 무작위로 섞어 사용하였다.

이론/모형

모델의 성능을 평가하기 위해, 객관적 평가와 주관적 평가를 수행하였다. 객관적 평가 지표로는 음질 평가에서 가장 많이 사용되는 PESQ와 Short-Time Objective Intelligibility(STOI)를 사용하였다. 주관적 평가로는 성인 7명을 대상으로 청취 테스트를 수행하였다.

성능/효과

또한 MSE 혹은 SI-SNR에 지각 기반 손실 함수인 LMS 또는 PMSQE를 결합하면, PESQ가 개선됨을 확인할 수 있다. Table 2(seen 데이터)에서 MSE와 LMS를 결합하면 STOI 값은 큰 차이를 보이지 않으나 PESQ 값은 평균 0.07 이상 향상됨을 확인할 수 있다. MSE와 PMSQE를 결합하는 경우, PESQ 값은 평균적으로 0.
[2,3] 딥러닝 모델에 잡음이 섞인 음성이 입력으로 들어가면 해당 모델은 마스크를 추정하고 추정된 마스크가 입력으로 들어온 음성과 곱해져 향상된 음성을 얻는다. 이때, 시간 영역에서의 음성은 각각 Short-Time Fourier Transform(STFT)과 Inverse STFT(ISFTF)을 통해 시간-주파수 영역으로 전환되며 수식은 다음과 같다.
결과적으로 PESQ 측면에서 볼 때, MSE 혹은 SISNR과 PMSQE를 결합하여 사용할 때 다른 경우보다 평균적으로 더 높은 점수를 얻음을 확인할 수 있다. 그러나 출력음성을 좀 더 세밀히 관찰하였을 때 결과는 이와 상이하였다.
결과적으로 PMSQE를 기본 손실함수와 결합하였을 때 가장 높은 PESQ 점수를 보인 반면, 실제 주관적인 음질 평가에서는 SI-SNR과 LMS를 결합한 손실함수로 얻은 음질이 가장 우수함을 확인하였다. 이는 PESQ 점수가 주관적인 음질을 정확히 반영하지 못한다는 최근의 연구 사례^[10]와 일치하는 결과이다.
먼저 SI-SNR을 손실 함수로 사용하였을 때 MSE를 사용한 경우보다 더 높은 PESQ와 STOI를 보인다. 또한 MSE 혹은 SI-SNR에 지각 기반 손실 함수인 LMS 또는 PMSQE를 결합하면, PESQ가 개선됨을 확인할 수 있다. Table 2(seen 데이터)에서 MSE와 LMS를 결합하면 STOI 값은 큰 차이를 보이지 않으나 PESQ 값은 평균 0.
3(a)는 SI-SNR과 (SI-SNR + LMS)를 비교한 결과이다. 모든SNR에서 (SI-SNR + LMS)가 더 우수한 평가를 얻었으며, 특히 –5 dB와 0 dB SNR에서는 1.5 이상의 높은 점수를 얻었다. Fig.
또한, 기존 손실 함수가 가지는 한계를 보완하기 위하여 기존 손실 함수에 지각 기반 손실 함수를 결합하여 그 성능을 비교 분석하였다. 지각 기반 손실 함수를 결합함으로써 PESQ 점수가 전반적으로 향상됨을 확인할 수 있었으며, CMOS 청취 실험 결과 SI-SNR과 LMS 를 결합한 손실함수의 성능이 가장 우수함을 확인할 수 있었다.
그러나 딥러닝 기반 음성 향상은 음질과 음성의 명료도 측면에서 우수한 성능을 보이고 있지만 아직 보완해야하는 문제점들을 가지고 있다. 첫째로, 딥러닝 기반의 기존 음성 향상은 학습 단계에서 복소수 연산이 필요한 위상 정보를 고려하지 못한다. 이는 음질이나 음성의 명료도를 향상시키는 데에 한계를 지니게 한다.
21 이상 크게 향상되어 비교된 손실함수 중 가장 좋은 수치를 보인다. 한편 SI-SNR와 LMS를 결합하면 SI-SNR에 비해 PESQ 값이 평균 0.05 이상 향상되며, SI-SNR과 PMSQE를 결합하면 PESQ 값이 평균적으로 0.07 이상 향상됨을 볼 수 있다.

후속연구

두 번째로 음성 향상 성능을 높이기 위해서는 딥러닝 네트워크의 훈련을 위한 손실 함수를 최적화해야 한다. 딥러닝 모델을 학습할 때, 손실 함수는 학습 방향을 결정하는 중요한 역할을 한다.

참고문헌 (10)

H. Zhao, S. Zarar, I. Tashev, and C. Lee, "Convolutional recurrent neural networks for speech enhancement," Proc. IEEE ICASSP. 2401-2405 (2018).
D. S. Williamson, Y. Wang, and D. Wang, "Complex ratio masking for monaural speech separation," IEEE/ACM Trans. on audio, speech, and Lang. Pross. 24, 483-492 (2015).

상세보기
Y. Hu, Y. Liu, S. Lv, M. Xing, S. Zhang, Y. Fu, J. Wu, B. Zhang, and L. Xie, "Dccrn: Deep complex convolution recurrent network for phase-aware speech enhancement," arXiv:2008.00264 (2020).
M. Kolbk, Z. Tan, S. H. Jensen, and J. Jensen, "On loss functions for supervised monaural time-domain speech enhancement," IEEE/ACM Trans. on Audio, Speech, and Lang. Pross. 28, 825-838 (2020).

상세보기
S. Braun and I. Tashev, "A consolidated view of loss functions for supervised deep learning-based speech enhancement," arXiv:2009.12286 (2020).
S. Fu, C. Liao, and Y. Tsao, "Learning with learned loss function: Speech enhancement with quality-net to improve perceptual evaluation of speech quality," IEEE Signal Processing Letters, 27, 26-30 (2020).

상세보기
J. M. Martin-Donas, A. M. Gomez, J. A. Gonzalez, and A. M. Peinado, "A deep learning loss function based on the perceptual evaluation of the speech quality," IEEE Signal Processing Letters, 25, 1680-1684 (2018).

상세보기
S. Kankanahalli, "End-to-end optimized speech coding with deep neural networks," Proc. IEEE ICASSP. 2521-2525 (2018).
ITU-T. Rec. P.800, Methods for Subjective Determination of Transmission Quality, E 9713, 1996.
W. A. Jassim, J. Skoglund, M. Chinen, and A. Hines, "Speech quality factors for traditional and neural-based low bit rate vocoders," arXiv:2003.11882 (2020).

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증