최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기한국통신학회논문지 = The Journal of Korean Institute of Communications and Information Sciences, v.41 no.8, 2016년, pp.958 - 964
강우현 (Seoul National University Department of Electrical and Computer Engineering and Institute of New Media and Communications) , 조원익 (Seoul National University Department of Electrical and Computer Engineering and Institute of New Media and Communications) , 강태균 (Seoul National University Department of Electrical and Computer Engineering and Institute of New Media and Communications) , 김남수 (Seoul National University Department of Electrical and Computer Engineering and Institute of New Media and Communications)
In this paper, we propose an i-vector based language recognition system to identify the spoken language of the speaker, which uses multiple discriminative deep neural network (DNN) models analogous to the multi-class support vector machine (SVM) classification system. The proposed model was trained ...
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
i-벡터는 어떤 정보를 포함하고 있어서 정규화 과정을 거쳐야 하는가? | I-벡터는 음성이 가지고 있는 여러 변이성을 표현하기 때문에 화자나 언어에 대한 정보뿐만 아니라 잡음과 같이 언어 인식에서 불필요한 정보도 포함한다. 그렇기에 판별 시스템의 입력으로 사용하기 위해서는 i-벡터가 갖는 불필요한 정보를 제거해주는 정규화 과정을 거쳐야 한다. | |
I-벡터의 장점은 무엇인가? | I-벡터는 현재 화자 인식 및 언어 인식 분야에서 가장 널리 사용되는 특징 중 하나로, 음성이 가지고 있는 다양한 변이성을 낮은 차원의 고정된 크기의 벡터로 표현할 수 있다는 장점을 가지고 있다[12]. Principle component analysis (PCA)나 eigenvoice 분리 기법과 마찬가지로, i-벡터 추출은 행렬 분리 기법으로 볼 수 있으며, 이상적인 GMM 슈퍼벡터와 i-벡터의 관계는 다음과 같은 식으로 정의된다. | |
Within-class covariance normalization의 특징은 무엇인가? | Within-class covariance normalization (WCCN)은 널리 사용되는 특징 보상 기법으로, 같은 군내의 특징들에 대한 공분산을 감소시킴으로써 특징을 판별에 최적화 시켜준다[13]. WCCN의 투영 행렬 A는 아래와 같은 수식으로 구할 수 있다. |
G. Hinton, L. Deng, D. Yu, A. Mohamed, et. al., "Deep neural networks for acoustic modeling in speech recognition," IEEE Sig. Process. Mag., vol. 29, no. 6, pp. 82-97, Nov. 2012.
K. H. Lee, S. J. Kang, W. H. Kang, N. S. Kim, and S. J. Yang, "DNN-based feature compensation using environmental parameter," in Proc. KICS ICC 2015, pp. 72-73, Gangwon, Korea, Jan. 2016.
Y. Lei, N. Scheffer, L. Ferrer, and M. McLaren, "A novel scheme for speaker recognition using a phonetically-aware deep neural network," in Proc. ICASSP 2014, pp. 1714-1718, Florence, Italy, May 2014.
J. Wang, D. Wang, T. F. Zheng, and F. Bie, DNN-based discriminative scoring for speaker recognition based on i-vector, CSLT, Tech. Rep. 20150002, Jan. 2015.
O. Ghahabi and J. Hernando, "Deep belief networks for i-vector based speaker recognition," in Proc. ICASSP 2014, pp. 1700-1704, Florence, Italy, May 2014.
W. H. Kang, K. H. Lee, T. G. Kang, S. J. Kang, N. S. Kim, and K. J. Shin, "Speaker age regression using i-vectors trained with MFCC and pitch," in Proc. KICS ICC 2015, pp. 967-968, Jeju, Korea, Jun. 2015.
W. H. Kang, K. H. Lee, T. G. Kang, and N. S. Kim, "NN based speaker age classification using i-vectors," in Proc. KICS ICC 2015, pp. 589-590, Seoul, Korea, Nov. 2015.
I. Lopez-Moreno, J. Gonzalez-Dominguez, O. Plchot, D. Martinez, et. al., "Automatic language identification using deep neural networks," in Proc. ICASSP 2014, pp. 5374-5378, Florence, Italy, May 2014.
C. Chang and C. Lin, "LIBSVM: a library for support vector machines," ACM TIST, vol. 2, no. 3, pp. 1-39, Apr. 2011.
W. M. Campbell, E. Singer, P. Torres- Carrasquillo, and D. A. Reynolds, "Language recognition with support vector machines," in Proc. Odyssey 2004, pp. 41-44, Toledo, Spain, May-Jun. 2004.
The 2015 Language Recognition i-Vector Machine Learning Challenge(2015), Retrieved Dec. 29, 2015, from http://www.nist.gov/itl/iad/mig/upl oad/lre_ivectorchallenge_rel_v2.pdf
N. Dehak, P. Kenny, R. Dehak, P. Dumouchei, and P. Ouellet, "Front-end factor analysis for speaker verification," IEEE Trans. Audio, Speech, Language Process., vol. 19, no. 4, pp. 788-798, May 2011.
A. O. Hatch, S. S. Kajarekar, and A. Stolcke, "Within-class covariance normalization for SVM-based speaker recognition," in Proc. Interspeech, pp. 2-5, 2006.
D. Reynolds, T. Quatieri, and R. Dunn, "Speaker verification using adapted gaussian mixture models," Digital Sign. Process., vol. 10, pp. 19-41, Jan. 2000.
R. Salakhutdinov, "Learning deep generative models," Ph. D. Dissertation, University of Toronto, 2009.
N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, et. al., "Dropout: a simple way to prevent neural networks from overfitting," JMLR, vol. 15, no. 1, pp. 1929-1958, Jun. 2014.
S. Furui, Speaker recognition(2008), Retrieved Jul., 12, 2016, from http://www.scholarpedia.org/article/Speaker_recognition
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.