음성코딩 시 성도는 Linear Predictive Coding (LPC) 계수를 이용해서 모델링 한다. 일반적으로 LPC 계수는 양자화와 선형보간 관점에서 유리한 Line Spectral Frequency (LSF) 파라미터로 변경하여 사용한다. 10차 이상의 다차원 LSF 데이터를 벡터 양자화를 이용하여 직접 코딩하게 되면 벡터 내 상관관계 (intra-frame correlation)를 모두 이용할 수 있으므로 rate-distortion 관점에서는 높은 효율을 기대할 수 있다. 하지만, 계산량과 메모리 요구량이 높아져서 실제 코딩 시스템에서는 사용할 수 없게 되므로, 차원을 나누어 압축하는 Split Vector Quantization (SVQ)이 이용된다. 또한, LSF 데이터는 과거 벡터와의 벡터 간 상관관계 (inter-frame correlation)가 높으므로, 이를 이용한 Predictive Split Vector Quantization (PSVQ)이 사용되고 있다. PSVQ는 SVQ 보다 높은 rate-distortion 성능을 보인다. 본 논문에서는 음성 저장 장치를 위한 최적의 PSVQ를 구현하기 위해서 다수의 과거 프레임 정보와의 벡터 간상관관계 (inter-frame correlation)를 고려한 Multi-Frame AR-model 기반 SVQ (MF-AR-SVQ)를 제안하였다. 기존 PSVQ와 비교해 보았을 때, MF-AR-SVQ는 계산량과 메모리 요구량의 큰 증가 없이, 평균 spectral distortion 관점에서 약 1비트의 성능 향상을 보였다.
음성코딩 시 성도는 Linear Predictive Coding (LPC) 계수를 이용해서 모델링 한다. 일반적으로 LPC 계수는 양자화와 선형보간 관점에서 유리한 Line Spectral Frequency (LSF) 파라미터로 변경하여 사용한다. 10차 이상의 다차원 LSF 데이터를 벡터 양자화를 이용하여 직접 코딩하게 되면 벡터 내 상관관계 (intra-frame correlation)를 모두 이용할 수 있으므로 rate-distortion 관점에서는 높은 효율을 기대할 수 있다. 하지만, 계산량과 메모리 요구량이 높아져서 실제 코딩 시스템에서는 사용할 수 없게 되므로, 차원을 나누어 압축하는 Split Vector Quantization (SVQ)이 이용된다. 또한, LSF 데이터는 과거 벡터와의 벡터 간 상관관계 (inter-frame correlation)가 높으므로, 이를 이용한 Predictive Split Vector Quantization (PSVQ)이 사용되고 있다. PSVQ는 SVQ 보다 높은 rate-distortion 성능을 보인다. 본 논문에서는 음성 저장 장치를 위한 최적의 PSVQ를 구현하기 위해서 다수의 과거 프레임 정보와의 벡터 간상관관계 (inter-frame correlation)를 고려한 Multi-Frame AR-model 기반 SVQ (MF-AR-SVQ)를 제안하였다. 기존 PSVQ와 비교해 보았을 때, MF-AR-SVQ는 계산량과 메모리 요구량의 큰 증가 없이, 평균 spectral distortion 관점에서 약 1비트의 성능 향상을 보였다.
For speech coding, a vocal tract is modeled using Linear Predictive Coding (LPC) coefficients. The LPC coefficients are typically transformed to Line Spectral Frequency (LSF) parameters which are advantageous for linear interpolation and quantization. If multidimensional LSF data are quantized direc...
For speech coding, a vocal tract is modeled using Linear Predictive Coding (LPC) coefficients. The LPC coefficients are typically transformed to Line Spectral Frequency (LSF) parameters which are advantageous for linear interpolation and quantization. If multidimensional LSF data are quantized directly using Vector-Quantization (VQ), high rate-distortion performance can be obtained by fully utilizing intra-frame correlation. In practice, since this direct VQ system cannot be used due to high computational complexity and memory requirement, Split VQ (SVQ) is used where a multidimensional vector is split into multilple sub-vectors for quantization. The LSF parameters also have high inter-frame correlation, and thus Predictive SVQ (PSVQ) is utilized. PSVQ provides better rate-distortion performance than SVQ. In this paper, to implement the optimal predictors in PSVQ for voice storage devices, we propose Multi-Frame AR-model based SVQ (MF-AR-SVQ) that considers the inter-frame correlations with multiple previous frames. Compared with conventional PSVQ, the proposed MF-AR-SVQ provides 1 bit gain in terms of spectral distortion without significant increase in complexity and memory requirement.
For speech coding, a vocal tract is modeled using Linear Predictive Coding (LPC) coefficients. The LPC coefficients are typically transformed to Line Spectral Frequency (LSF) parameters which are advantageous for linear interpolation and quantization. If multidimensional LSF data are quantized directly using Vector-Quantization (VQ), high rate-distortion performance can be obtained by fully utilizing intra-frame correlation. In practice, since this direct VQ system cannot be used due to high computational complexity and memory requirement, Split VQ (SVQ) is used where a multidimensional vector is split into multilple sub-vectors for quantization. The LSF parameters also have high inter-frame correlation, and thus Predictive SVQ (PSVQ) is utilized. PSVQ provides better rate-distortion performance than SVQ. In this paper, to implement the optimal predictors in PSVQ for voice storage devices, we propose Multi-Frame AR-model based SVQ (MF-AR-SVQ) that considers the inter-frame correlations with multiple previous frames. Compared with conventional PSVQ, the proposed MF-AR-SVQ provides 1 bit gain in terms of spectral distortion without significant increase in complexity and memory requirement.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
하지만, 채널 에러가 자주 발생하지 않는 응용처에 대해서는 과거 다수의 frame 정보를 이용하는 multiframe AR model이 성능을 올리는데 효과적이다. 따라서, 본 논문에서는 multi-frame AR model에 대해서 rate-distortion performance 관점과 complexity 관점에서 보다 구체적으로 살펴보고자 한다. 국가 재난 시스템 등 콜센터에서는 대량의 음성 통화 내용을 저장하고 있으며 이 경우에는 채널 에러의 영향은 미미하다.
본 논문에서 언급하는 PSVQ는 이전 frame에 가중치를 주지 않고 현재 frame과의 차를 양자화 하는 방법을 소개한다. PSVQ는 다음 식과 같이 i번째 frame 의 LSF 데이터와 i-1번째 frame의 LSF 데이터의 차이인 잔차 et를 양자화하는 방식이다 [8,9].
또한, MF-AR-SVQ 방식은 학습 시에 구한 AR 계수를 고정하여 사용함으로써, PSVQ 방식과 비슷하게 계산량과 메모리 요구량 관점에서도 유사한 성능을 보인다. 향후에는 별도의 비트 전송 없이 적응적인 AR 계수를 디코더 단에 전달하기 위해서 과거 frame의 양자화된 LSF 데이터들을 이용한 backwardadaptive AR 계수 추정 방법을 구현해 보고자 한다.
제안 방법
만약 학습 시 미리 구한 AR 계수를 고정해서 사용하는 것이 아 니고 frame마다 적응적으로 구하고자 한다면, AR 계 수를 전송하기 위한 별도의 비트가 필요할 뿐만 아니라 AR 계수의 추정을 위한 추가적인 계산량이 필요하다. 별도의 비트 전송 없이 적응적인 AR 계수를 decoder 단에 전달하기 위해서는 과거 frame의 양자화된 LSF 데이터들을 이용한 backward-adaptive AR 계수 추정 방법이 사용가능하나, 이 또한 추가적인 계산량이 매 frame 요구되므로 본 논문에서는 별도로 구현하지 않았다.
양자화기의 성능은 다음 식과 같이 Spectral Distortion (SD)을 사용하여 비교 및 평가 하였다. M차 LSF 벡터 a를 #으로 양자화 함으로써 측정하는 SD는
본 논문에서는 10차 LSF 벡터 1,200,000개를 학습 데이터로 사용하여 P차 AR 계수를 각 차원에 대해서 독립적으로 추정하였다. AR 계수는 성능평가 시 고정되어 사용되므로 별도의 비트를 전송할 필요가 없다.
AR 계수는 성능평가 시 고정되어 사용되므로 별도의 비트를 전송할 필요가 없다. 10차 LSF 벡터의 각 차원별 데이터에 대해서 rectangular window를 사용하여 (4)의 에러분산을 최소화하는 P차 AR 계수를 독립적으로 추정하였으며, 따라서 총 10P개의 AR 계수를 구할 수 있었다.
AR 계수의 차수 P를 1부터 50까지 변화시키면서 측정한 MF-AR-SVQ의 평균 SD 성능은 그림 4에 나타나 있다. Frame당 비트할당은 27 비트 부터 30 비트까지 변화시키면서 성능을 관찰하였다. MF-AR-SVQ 의 평균 SD 성능은 AR 계수의 차수가 증가함에 따라서 지속적으로 줄어들고 있으며, 40차 이상이 되면 일정한 값으로 수렴함을 알 수 있다.
대상 데이터
제안된 방식을 평가하기 위해서 TIMIT 데이터베이스를 8 kHz 샘플링 주파수로 다운 샘플링하여 사용하였다. 우선, AR 계수의 추출과 코드북 학습을 위해서 TIMIT 데이터베이스에서 10차 LSF 데이터를 1,200,000개 추출하였다.
제안된 방식을 평가하기 위해서 TIMIT 데이터베이스를 8 kHz 샘플링 주파수로 다운 샘플링하여 사용하였다. 우선, AR 계수의 추출과 코드북 학습을 위해서 TIMIT 데이터베이스에서 10차 LSF 데이터를 1,200,000개 추출하였다. 10차 LSF 벡터는 3, 3, 4 차원으로 나누어서 독립적으로 양자화 하였다.
10차 LSF 벡터는 3, 3, 4 차원으로 나누어서 독립적으로 양자화 하였다. 성능평가에 이용된 LSF 데이터는 학습 시 사용한 데이터와 서로 다른 600,000개의 LSF 데이터를 TIMIT 데이터를 통해 추출 후 이용하였다.
이 식에서 β = (10/In(10))2이고, [A(w)]2 과 [A(w)]2는 original LSF 데이터와 quantized LSF 데이터를 통해 구해진 파워 스펙트럴 envelope를 의미한다. 실험에 쓰인 SD 계산의 주파수의 범위는 50 ~ 4000 Hz로 설정하였다.
이론/모형
일반적인 데이터 압축 기술은 코드북 학습을 위해서 Generalized Lloyd Algorithm (GLA)을 사용한다 [10]. 이 알고리즘은 N개의 centroid들을 임의로 분포시키고, 입력 데이터 각각에 대해서 N개의 centroid들과의 왜곡을 비교하여 왜곡이 가장 적은 centroid 값으로 매핑함으로써 각각의 centroid 값에 대한 보로노이 영역을 설정한다.
본 논문에서는, 위 두 방법 중에서 window wi를 사용 하는 autocorrelation 방법을 통해 AR 계수를 구한다.
성능/효과
P값을 1로 한 Single Frame AR-SVQ (SF-AR-SVQ)의 경우에는 PSVQ와 같이 과거값 하나만을 보게 된다. 따라서, SF-AR-SVQ와 PSVQ의 성능 차이를 비교하면, AR 계수를 사용한 가중치가 과거 frame에 어떤 영향을 미치는지 확인할 수 있다. 또한, AR-model의 차수 P를 높이면, 과거 값을 그만큼 많이 보기 때문에 에러분산 값이 감소한다.
본 논문에서 제안하는 MF-AR-SVQ 방법은 학습 시 AR 계수를 따로 추출하여 실제 코더에서는 고정된 값을 이용하기 때문에 과거값을 하나 이상 봤을 때에 적용되는 가중치에 대한 계산량은 큰 차이가 없다. 즉, (9) 식을 통해 예측된 LSF 데이터를 계산하는 과정은 코드북 탐색 과정에 비해서 추가되는 계산량이 미미하므로 MF-AR-SVQ와 PSVQ의 계산량은 유사하다고 할 수 있다.
3, 3, 4 차원으로 나눈 부벡터 별 양자화 비트는 27 비트의 경우 9, 9, 9 비트, 28 비트의 경우 9, 9, 10 비트, 29 비트의 경우 9, 10, 10비트, 30비트의 경우 10, 10, 10 비트가 각각 할당 되었다. 모든 비트 할당에 대해서 MF-AR-SVQ (P=10)가 가장 우수한 평균 SD 성능을 보였고, SF-AR-SVQ도 PSVQ 보다는 우수한 성능을 보였다.
이전 frame과의 상관관계만 고려한 P=1인 경우보다 P값 이 증가할수록 에러분산 값이 지속적으로 줄어들고 있음을 볼 수 있었다.
Frame당 비트할당은 27 비트 부터 30 비트까지 변화시키면서 성능을 관찰하였다. MF-AR-SVQ 의 평균 SD 성능은 AR 계수의 차수가 증가함에 따라서 지속적으로 줄어들고 있으며, 40차 이상이 되면 일정한 값으로 수렴함을 알 수 있다.
표 1은 SVQ, PSVQ, SF-AR-SVQ, MF-AR-SVQ의 성능을 다양한 비트율에 대해서 측정한 결과이다. 과거 데이터와의 inter-frame correlation은 이용하지 않고 intra-frame correlation 만을 이용하는 SVQ에 비해서 직전 frame 데이터와의 차이를 코딩하는 PSVQ의 평균 SD 성능이 우수함을 볼 수 있다. 하지만, 2-4 dB와 4 dB 이상의 outlier percentage는 평균 SD 성능 향상에 비해서 떨어짐을 볼 수 있다.
PSVQ와 비교해 볼 때, 1차 AR 계수를 사용하는 SF-AR-SVQ의 성능이 약간 증가하는 것을 볼 수 있다. AR 계수의 차수를 50차 까지 증가시키면서 구현한 MF-AR-SVQ의 성능은 평균 SD 뿐만 아니라 2-4 dB와 4 dB 이상의 outlier percentage 관점에서도 성능 증가가 지속적으로 이루 어짐을 알 수 있다. 50차 MF-AR-SVQ는 PSVQ나 SFAR-SVQ와 비교하면 약 1 비트 정도의 성능 향상을 얻을 수 있음을 알 수 있다.
50차 MF-AR-SVQ는 PSVQ나 SFAR-SVQ와 비교하면 약 1 비트 정도의 성능 향상을 얻을 수 있음을 알 수 있다. 또한, informal listening test 시 제안하는 50차 MF-AR-SVQ 방법이 기존 PSVQ 방법 보다 우수한 성능을 보임을 확인 하였다
기존의 PSVQ는 현재 frame 데이터와 직전 frame 데이터 간의 차이를 코딩하는 방식인 반면에, 본 논문에서 제안하는 MFAR-SVQ 방식은 P차 AR model을 이용하여 과거 P개 frame들과 현재 frame 데이터의 상관 관계를 고려함 으로써 SD 관점에서 1 비트의 성능 향상을 얻을 수 있었다.
질의응답
핵심어
질문
논문에서 추출한 답변
효율적인 음성 신호의 압축을 위해 사람의 vocal tract 필터는 무엇에 의해 모델링 되는가?
효율적인 음성 신호의 압축을 위해 사람의 vocal tract 필터는 Linear Predictive Coding (LPC) 계수에 의해 모델링 된다. 적은 비트율에서 LPC 계수를 직접 양자화하면 스펙트럼 왜곡이 심해지고 필터가 불안 정해질 수 있으므로, Line Spectral Frequency (LSF)로 변경하여 양자화 하는 방식이 제안되었다 [1-9].
적은 비트율에서 LPC 계수를 직접 양자화했을 때, 스펙트럼 왜곡이 심해지고 필터가 불안정해지는 문제를 해결하기 위해 어떤 방식이 제안되었는가?
효율적인 음성 신호의 압축을 위해 사람의 vocal tract 필터는 Linear Predictive Coding (LPC) 계수에 의해 모델링 된다. 적은 비트율에서 LPC 계수를 직접 양자화하면 스펙트럼 왜곡이 심해지고 필터가 불안 정해질 수 있으므로, Line Spectral Frequency (LSF)로 변경하여 양자화 하는 방식이 제안되었다 [1-9].
Vector Quantization 방식의 단점은 무엇인가?
Vector Quantization (VQ) 방식은 입력 데이터의 차원 간 상관관계를 효율적으로 사용할 수 있으므로 Scalar Quantization (SQ) 방식에 비해 rate-distortion performance가 우수한 장점이 있다. 하지만, 입력 데이터의 차원이 증가할수록 계산량과 메모리 요구량이 크게 증가하게 되는 단점이 있다. 8 kHz로 샘플링된 음성신호의 표현을 위해서는 일반적으로 10차 LSF 데이터를 사용하게 되는데, 10차 LSF 데이터는 계산량과 메모리 요구량 때문에 직접 VQ를 적용하기에는 문제가 있다.
참고문헌 (13)
F. Itakura, "Line Spectrum Representation of Linear Predictive Coefficients of Speech Signal," J. Acoust. Soc. Amer., vol. 57, suppl. 1, pp. S35(A), 1975.
K. K. Paliwal and B. S. Atal, "Efficient Vector Quantization of LPC Parameters at 24 Bits/Frame," IEEE Trans. Speech and Audio Proc., vol. 1, no. 1, pp. 3-14, 1993.
F. Nordin and T. Eriksson, "On split quantization of LSF parameters," IEEE Int. Conf. Acoust. Speech and Signal Proc., vol. 1, pp. I-157-60, 2004.
S. So and K. K. Paliwal, "Switched split vector quantization of line spectral frequencies for wideband speech coding," in Proc. European Conf. Speech Commun. Tech (INTERSPEECH -2005), pp. 2705-2708, 2005.
S. So and K. K. Paliwal, "Efficient product code vector quantization using the switched split vector quantizer," Digital Signal Proc., vol. 17, no. 1, pp. 138-171, 2007.
W. P. LeBlanc, B. Bhattacharya and S. A. Mahmoud, "Efficient Search and Design Procedures for Robust Multi-Stage VQ of LPC Parameters for 4 kb/s Speech Coding" IEEE Trans. Speech Audio Proc., vol. 1, no. 4, pp. 373-385, 1993.
T. Eriksson, J. Linden and Jan Skoglund, "Interframe LSF Quantization for Noisy Channels," IEEE Trans. Speech Audio Proc., vol. 7, no. 5, pp. 495-509, 1999.
M. Sabin and R. Gray, "Global convergence and empirical consistency of the generalized Lloyd algorithm," IEEE Trans. Information Theory, vol. 32, no. 2, pp. 148-155, 1986.
W. B. Kleijn, A Basis for Source Coding, Course notes, KTH, Stockholm, 2008.
R. Salami, C. Laflamme, J.-P. Adoul and D. Massalux, "A Toll Quality 8 Kb/s Speech Codec for the Personal Communications System (PCS)," IEEE Trans. Vehicular tech., vol. 43, no. 3, part: 1-2, pp. 808-816, Aug. 1994.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.