최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기Journal of the Institute of Electronics Engineers of Korea = 전자공학회논문지, v.50 no.2, 2013년, pp.185 - 192
김지은 (충북대학교 전파통신 공학과) , 이인성 (충북대학교 전파통신 공학과)
In this paper, proposed to improve the performance of speech and mixed content signal classification using MFCC based on GMM probability model used for the MPEG USAC(Unified Speech and Audio Coding) standard. For effective pattern recognition, the Gaussian mixture model (GMM) probability model is us...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
USAC의 신호 분류 방법은 어떤 구조를 사용하였는가? | 따라서 MPEG에서 표준화된 음성 및 오디오 코딩 구조를 사용한 USAC(Unified Speech and Audio Coding) 의 신호 분류방법에서 단점인 복잡성과 Close-loop AbS 구조 방식의 많은 연산 량의 문제점을 개선고자 하였다. 또한 기존 USAC에서는 신호가 가지는 연속적인 특성을 고려하지 않은 현재 프레임만을 가지고 신호를 분류하기 때문에 이점을 보안하고자 과거 프레임과의 상관성을 이용한 GMM 분류 방법을 통해 더욱더 정확성을 높였다. | |
선형 예측도메인 코더는 Closed-loop AbS구조를 이용하여 어떤 모드로 분류되는가? | 그 후 선형 예측 영역 부호화코더의 경우 한 번 더 스위칭 하게 되어 Closed-loop AbS구조를 이용하여 MDCT를 기반으로 하는 TCX(Transform Coded eXcitation)모드와 ACELP(Algebraic Code Excited Linear Predictor)모드로 분류된다. 그림 1에서는 간략한 USAC의 신호 분류방법을 나타내며, 표 1에서는 USAC에서의 신호 특징에 따른 3가지 압축 방법을 보여준다. | |
MFCC는 어떤 특징을 가지는가? | 음성인식에 쓰이는 특징 값으로 LPC(Linear Prediction Coefficients)나 LPS(Liner Prediction Spectrum) 등과 같은 많은 방법이 존재하지만 주파수를 피치로 이용하였을 때 잡음의 영향을 덜 받고 효과적인 것으로 나타났다[11]. 그 중 MFCC는 음성 인식에 널리 쓰이는 유효한 특징 값으로 스펙트럼 기반을 특징으로 하며 인간의 귀가 가지는 비선형적인 주파수 특성을 이용한다. |
ISO/IEC SC29 WG11 N9519, Call for Proposals on Unified Speech and Audio Coding, 82nd MPEG Meeting, October, 2007.
송정욱, 오현오, 강홍구, "통합 음성/오디오 부호화를 위한 새로운 MPEG 참조 모델," 전자공학회논문지, 제47권 SP편, 제5호, 74-80쪽, 2010년 9월
R.O. Duda, P.E. Hart, and D.G. Stork, Pattern Classificaion, Wiley-Interscience, 2001.
N.Scaringella, G. Zoia, and D.G.Stork, Pattern Classification Wiley-interscience, 2001.
J. Bergstra, N.Casagrande,D. Erhan, D. Eck, and B. Kegl, "Aggregate features and ADABOOST for music calssificatio." Machine Learning, vol. 65, no. 2, pp. 474-484, Dec. 2006.
Martin F. Mcknney, Jeroen Breebaart, "Features for audio and music calssification" in Proc. lnt. Conf. on Music lnfo. Retrieval (ISMIR-03), 2003.
K. West, S. Cox, "Features and classifiers for the automatic classification of musical audio signals," in Proc. lnt. Conf. on Music lnfo. Retrieval (ISMIR-08), 2004.
Bernd Geiser et al, "Candidate Proposal for ITU-T Super-wideband Speech and Audio Coding", ICASSP, pp.4121-4124. 2009.
M. Neuendorf, et al. ,"A novel scheme for low bitrate unified speech and audio coding-MPEG RM0," in Proceedings of the 126th AES Convention, Munich, Germany, May 2009.
원양희, 이형일, 강상원, "ARM Core(R)를 이용한 AMR-WB+오디오 부호화기의 실시간 구현," 전자공학회논문지, 제46권 제 3호, 119-124쪽, 2009년 5월
B.Atal, "Automatic recognition of speakers from their voices" proc.IEEE vol.64 pp 460-475 apr.1976
Thomas F. Quantieri, Discrete-Time Speech Signal Processing, Prentice Hall, 2001
J. Makinen, B. Bessette, S. Bruhn, P. Ojala, R. Salami, and A.Taleb, "AMR-WB+: a new audio coding standard for 3RD generation mobile audioservices," in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP '05), vol. 2, pp. 1109-1112, March 2005.
A.P.Dempster; N.M.Laird, et al.,"Maximum Likelihood from Incomplete Data via the EM Algorithm", Journal of the Royal Statistical Society. Series B (Methodological),Vol.39,No.1.
ITU-T Recommendation (1996). "Methods for subjective determination of transmission quality", P.800, 08.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.