최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기말소리와 음성과학 = Phonetics and speech sciences, v.7 no.1, 2015년, pp.3 - 10
In this paper, different frequency scales in cepstral feature extraction are evaluated for the text-independent speaker recognition. To this end, mel-frequency cepstral coefficients (MFCCs), linear frequency cepstral coefficients (LFCCs), and bilinear warped frequency cepstral coefficients (BWFCCs) ...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
문장독립 화자인식에 사용되는 인식 방식에는 무엇이 있는가? | 문장독립 화자인식에 사용되는 인식 방식으로는 Gaussian mixture model-universal background model(GMM-UBM) 방식[2], support vector machine(SVM) 방식[3], joint factor analysis(JFA) 방식[4], 그리고 i-vector 방식[5] 등이 있다. 이들 방식 모두 화자 특성을 잘 표현해 주는 특징 추출 과정을 필요로 한다. | |
화자인 식은 어떻게 분류할 수 있는가? | 화자인식은 음성으로부터 발성 화자가 누구인지 인식하는 기술을 말하며, 범죄과학수사, PC 및 스마트폰 보안 소프트웨어, 출입통제 시스템 등 여러 분야에서 사용되고 있다. 화자인 식은 입력 음성이 등록된 화자의 음성인지를 확인하는 화자확인(speaker verification)과 다수의 등록자 중 누구의 음성인지를 판단하는 화자식별(speaker identification)의 두 가지 부류로 크게 구분된다. 또한 발성 내용에 따라, 정해진 구문의 발성을 대상으로 하는 문장종속(text-dependent) 화자인식과 자유롭게 아무 말을 하더라도 인식이 가능한 문장독립(text-independent) 화자인식으로 나눌 수 있다. | |
화자인식및 음성인식에서 temporal discrete cosine transform의 문제점은 무엇인가? | Delta 특징 이외에 음성의 주파수-시간 특성을 보다 잘 표현해 주고자 하는 시도들 중에 temporal discrete cosine transform(TDCT) 방법이 있다[9]. 이는 음성 특징의 각 차원별 시간열을 discrete cosine transform (DCT)를 통해 표현하는 방법인데, delta 특징들의 시간열마저도 DCT로 표현하다 보니 추출되는 특징의 차원수가 많아지고 정보의 중복에 의한 비효율성 문제가 있다. 본 논문에서는 TDCT의 단점을 극복하기 위해, 정적인 켑스트럼의 시간열에 대해서만 DCT를 통해 동적인 특성을 표현하는 방법으로 켑스트럼-시간 행렬(cepstral-time matrix (CTM))을 사용하였다[10]. |
Kinnunen, T. & Li, H. (2010). An overview of text-independent speaker recognition: From features to supervectors. Speech Commun, Vol. 52, No. 1, 12-40.
Reynolds, D., Quatieri, T., Dunn, R. (2000). Speaker verification using adapted gaussian mixture models. Digital Signal Process, Vol. 10, No. 1, 19-41.
Campbell, W., Campbell, J., Reynolds, D., Singer, E., Torres-Carrasquillo, P. (2006). Support vector machines for speaker and language recognition. Computer Speech & Language, Vol. 20, No. 2-3, 210-229.
Kenny, P. (2006). Joint factor analysis of speaker and session variability: Theory and algorithms. http://www.crim.ca/perso/patrick.kenny/
Senoussaoui, M., Kenny, P., Dehak, N., Dumouchel, P. (2010). An i-vector extractor suitable for speaker recognition with both microphone and telephone speech. Proc. Odyssey Speaker and Language Recognition Workshop, 28-33.
Davis, S., Mermelstein, P. (1980). Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. IEEE Trans. Acoustics, Speech Signal Process, Vol. 28, No. 4, 357-366.
Zhou, X., Garcia-Romero, D., Duraiswami, R., Espy-Wilson, C., Shamma, S. (2011). Linear versus mel frequency cepstral coefficients for speaker recognition. Proc. ASRU Workshop, 559-564.
Furui, S. (1981). Cepstral analysis technique for automatic speaker verification. IEEE Trans. Acoustics, Speech Signal Process, Vol. 29, No. 2, 254-272.
Kinnunen, T., Koh, C., Wang, L., Li, H., Chng, E. (2006). Temporal discrete cosine transform: Towards longer term temporal features for speaker verification. Proc. ISCSLP, 547-558.
Milner, B. P., Vaseghi, S. V. (1995). An analysis of cepstral-time feature matrices for noise and channel robust speech recognition. Proc. Eurospeech, 519-522.
Stevens, S., Volkman, J., Newman, E. B. (1937). A scale for the measurement of the psychological magnitude pitch. Journal of the Acoustical Society of America, Vol. 8, No. 3, 185-190.
Wolfel, M., McDonough, J., Waibel, A. (2003). Warping and scaling of the minimum variance distortionless response. Proc. ASRU Workshop, 387-392.
Choi, Y. H., Ban, S. M., Lee, G. H., Kim, K. H. Kim, H. S. (2014). Performance comparison of different frequency scales in feature extraction for speaker recognition. Proceedings of 2014 Fall Conference of Korean Society of Speech Sciences, 195-196. (최영호, 반성민, 이가희, 김경화, 김형순 (2014). 화자인식 특징추출을 위한 주파수 스케일 성능 비교. 2014 한국음성학회 가을 학술대회 발표 논문집, 195-196.)
Kumar, P., Rao, P. (2004). A study of frequency-scale warping for speaker recognition. Proc. NCC 2004, 203-207.
Zhang, W. Q., Deng, Y., He, L., Liu, J. (2010). Variant time-frequency cepstral features for speaker recognition. Proc. Interspeech, 2122-2125.
Larcher, A., Bonastre, J. F., Fauve, B., Lee, K. A., Levy, C., Li, H., Mason, J. S., Parfait, J. Y. (2013). ALIZE 3.0 - open source toolkit for state-of-the-art speaker recognition. Proc. Interspeech, 2768-2773.
The evaluation plan of NIST 2004 speaker recognition evaluation campaign. http://www.itl.nist.gov/iad/mig/tests/spk/2004/SRE-04_evalplan-v1a.pdf.
Brandschain, L., Graff, D., Cieri, C., Walker, K., Caruso, C., Neely, A. (2010). The mixer 6 corpus: Resources for cross-channel and text independent speaker recognition. Proc. LREC 2010, 2441-2444.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.