$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] Multi-frame AR model을 이용한 LPC 계수 양자화
Quantization of LPC Coefficients Using a Multi-frame AR-model 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.31 no.2, 2012년, pp.93 - 99  

정원진 (세종대학교 정보통신공학과) ,  김무영 (세종대학교 정보통신공학과)

초록
AI-Helper 아이콘AI-Helper

음성코딩 시 성도는 Linear Predictive Coding (LPC) 계수를 이용해서 모델링 한다. 일반적으로 LPC 계수는 양자화와 선형보간 관점에서 유리한 Line Spectral Frequency (LSF) 파라미터로 변경하여 사용한다. 10차 이상의 다차원 LSF 데이터를 벡터 양자화를 이용하여 직접 코딩하게 되면 벡터 내 상관관계 (intra-frame correlation)를 모두 이용할 수 있으므로 rate-distortion 관점에서는 높은 효율을 기대할 수 있다. 하지만, 계산량과 메모리 요구량이 높아져서 실제 코딩 시스템에서는 사용할 수 없게 되므로, 차원을 나누어 압축하는 Split Vector Quantization (SVQ)이 이용된다. 또한, LSF 데이터는 과거 벡터와의 벡터 간 상관관계 (inter-frame correlation)가 높으므로, 이를 이용한 Predictive Split Vector Quantization (PSVQ)이 사용되고 있다. PSVQ는 SVQ 보다 높은 rate-distortion 성능을 보인다. 본 논문에서는 음성 저장 장치를 위한 최적의 PSVQ를 구현하기 위해서 다수의 과거 프레임 정보와의 벡터 간상관관계 (inter-frame correlation)를 고려한 Multi-Frame AR-model 기반 SVQ (MF-AR-SVQ)를 제안하였다. 기존 PSVQ와 비교해 보았을 때, MF-AR-SVQ는 계산량과 메모리 요구량의 큰 증가 없이, 평균 spectral distortion 관점에서 약 1비트의 성능 향상을 보였다.

Abstract AI-Helper 아이콘AI-Helper

For speech coding, a vocal tract is modeled using Linear Predictive Coding (LPC) coefficients. The LPC coefficients are typically transformed to Line Spectral Frequency (LSF) parameters which are advantageous for linear interpolation and quantization. If multidimensional LSF data are quantized direc...

Keyword

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 하지만, 채널 에러가 자주 발생하지 않는 응용처에 대해서는 과거 다수의 frame 정보를 이용하는 multiframe AR model이 성능을 올리는데 효과적이다. 따라서, 본 논문에서는 multi-frame AR model에 대해서 rate-distortion performance 관점과 complexity 관점에서 보다 구체적으로 살펴보고자 한다. 국가 재난 시스템 등 콜센터에서는 대량의 음성 통화 내용을 저장하고 있으며 이 경우에는 채널 에러의 영향은 미미하다.
  • 본 논문에서 언급하는 PSVQ는 이전 frame에 가중치를 주지 않고 현재 frame과의 차를 양자화 하는 방법을 소개한다. PSVQ는 다음 식과 같이 i번째 frame 의 LSF 데이터와 i-1번째 frame의 LSF 데이터의 차이인 잔차 et를 양자화하는 방식이다 [8,9].
  • 또한, MF-AR-SVQ 방식은 학습 시에 구한 AR 계수를 고정하여 사용함으로써, PSVQ 방식과 비슷하게 계산량과 메모리 요구량 관점에서도 유사한 성능을 보인다. 향후에는 별도의 비트 전송 없이 적응적인 AR 계수를 디코더 단에 전달하기 위해서 과거 frame의 양자화된 LSF 데이터들을 이용한 backwardadaptive AR 계수 추정 방법을 구현해 보고자 한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
효율적인 음성 신호의 압축을 위해 사람의 vocal tract 필터는 무엇에 의해 모델링 되는가? 효율적인 음성 신호의 압축을 위해 사람의 vocal tract 필터는 Linear Predictive Coding (LPC) 계수에 의해 모델링 된다. 적은 비트율에서 LPC 계수를 직접 양자화하면 스펙트럼 왜곡이 심해지고 필터가 불안 정해질 수 있으므로, Line Spectral Frequency (LSF)로 변경하여 양자화 하는 방식이 제안되었다 [1-9].
적은 비트율에서 LPC 계수를 직접 양자화했을 때, 스펙트럼 왜곡이 심해지고 필터가 불안정해지는 문제를 해결하기 위해 어떤 방식이 제안되었는가? 효율적인 음성 신호의 압축을 위해 사람의 vocal tract 필터는 Linear Predictive Coding (LPC) 계수에 의해 모델링 된다. 적은 비트율에서 LPC 계수를 직접 양자화하면 스펙트럼 왜곡이 심해지고 필터가 불안 정해질 수 있으므로, Line Spectral Frequency (LSF)로 변경하여 양자화 하는 방식이 제안되었다 [1-9].
Vector Quantization 방식의 단점은 무엇인가? Vector Quantization (VQ) 방식은 입력 데이터의 차원 간 상관관계를 효율적으로 사용할 수 있으므로 Scalar Quantization (SQ) 방식에 비해 rate-distortion performance가 우수한 장점이 있다. 하지만, 입력 데이터의 차원이 증가할수록 계산량과 메모리 요구량이 크게 증가하게 되는 단점이 있다. 8 kHz로 샘플링된 음성신호의 표현을 위해서는 일반적으로 10차 LSF 데이터를 사용하게 되는데, 10차 LSF 데이터는 계산량과 메모리 요구량 때문에 직접 VQ를 적용하기에는 문제가 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (13)

  1. F. Itakura, "Line Spectrum Representation of Linear Predictive Coefficients of Speech Signal," J. Acoust. Soc. Amer., vol. 57, suppl. 1, pp. S35(A), 1975. 

  2. 김해진, 강상원, "효율적인 LSF 양자화기를 이용한 QCELP 성능개선," 한국음향학회지, 16권, 1호, 10-15쪽, 1997. 

  3. K. K. Paliwal and B. S. Atal, "Efficient Vector Quantization of LPC Parameters at 24 Bits/Frame," IEEE Trans. Speech and Audio Proc., vol. 1, no. 1, pp. 3-14, 1993. 

  4. F. Nordin and T. Eriksson, "On split quantization of LSF parameters," IEEE Int. Conf. Acoust. Speech and Signal Proc., vol. 1, pp. I-157-60, 2004. 

  5. S. So and K. K. Paliwal, "Switched split vector quantization of line spectral frequencies for wideband speech coding," in Proc. European Conf. Speech Commun. Tech (INTERSPEECH -2005), pp. 2705-2708, 2005. 

  6. S. So and K. K. Paliwal, "Efficient product code vector quantization using the switched split vector quantizer," Digital Signal Proc., vol. 17, no. 1, pp. 138-171, 2007. 

  7. W. P. LeBlanc, B. Bhattacharya and S. A. Mahmoud, "Efficient Search and Design Procedures for Robust Multi-Stage VQ of LPC Parameters for 4 kb/s Speech Coding" IEEE Trans. Speech Audio Proc., vol. 1, no. 4, pp. 373-385, 1993. 

  8. T. Eriksson, J. Linden and Jan Skoglund, "Interframe LSF Quantization for Noisy Channels," IEEE Trans. Speech Audio Proc., vol. 7, no. 5, pp. 495-509, 1999. 

  9. S. Chatterjee and T.V. Sreenivas, "Predicting VQ Performance Bound for LSF Coding," IEEE Signal Proc. Letter, vol. 15, pp. 166-169, 2008. 

  10. M. Sabin and R. Gray, "Global convergence and empirical consistency of the generalized Lloyd algorithm," IEEE Trans. Information Theory, vol. 32, no. 2, pp. 148-155, 1986. 

  11. Y. Linde, A. Buzo and R. Gray, "An Algorithm for Vector Quantization Design," Commun., IEEE Trans., vol. 28, no. 1, pp. 84-95, 1980. 

  12. W. B. Kleijn, A Basis for Source Coding, Course notes, KTH, Stockholm, 2008. 

  13. R. Salami, C. Laflamme, J.-P. Adoul and D. Massalux, "A Toll Quality 8 Kb/s Speech Codec for the Personal Communications System (PCS)," IEEE Trans. Vehicular tech., vol. 43, no. 3, part: 1-2, pp. 808-816, Aug. 1994. 

저자의 다른 논문 :

LOADING...
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로