$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

I-벡터 기반 오픈세트 언어 인식을 위한 다중 판별 DNN
Multiple Discriminative DNNs for I-Vector Based Open-Set Language Recognition 원문보기

한국통신학회논문지 = The Journal of Korean Institute of Communications and Information Sciences, v.41 no.8, 2016년, pp.958 - 964  

강우현 (Seoul National University Department of Electrical and Computer Engineering and Institute of New Media and Communications) ,  조원익 (Seoul National University Department of Electrical and Computer Engineering and Institute of New Media and Communications) ,  강태균 (Seoul National University Department of Electrical and Computer Engineering and Institute of New Media and Communications) ,  김남수 (Seoul National University Department of Electrical and Computer Engineering and Institute of New Media and Communications)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 여러 개의 이원 support vector machine (binary SVM)을 사용하여 세 개 이상의 클래스를 분류하는 multi-class SVM과 유사하게 다중의 판별 deep neural network (DNN) 모델을 사용하는 i-벡터 기반의 언어 인식 시스템을 제안한다. 제안하는 시스템은 NIST 2015 i-vector Machine Learning Challenge 데이터베이스에 포함된 i-벡터들을 이용하여 학습 및 테스트 되었으며, 오픈 세트에서 기존의 cosine distance, multi-class SVM 및 단일 neural network (NN) 기반의 언어 인식 시스템에 비하여 높은 성능을 보임이 확인되었다.

Abstract AI-Helper 아이콘AI-Helper

In this paper, we propose an i-vector based language recognition system to identify the spoken language of the speaker, which uses multiple discriminative deep neural network (DNN) models analogous to the multi-class support vector machine (SVM) classification system. The proposed model was trained ...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

문제 정의

  • 본 논문에서는 학습 데이터에 포함되있지 않은 언어인 out-of-set (OOS) 언어를 판별하기 위하여 기존의 멀티 클래스 SVM 분류기[9]와 유사한 방식을 따르는 DNN 분류 모델을 제안한다. 제안하는 시스템은 one-vs-all SVM 기반의 언어 분류 시스템[10]과 같이, 입력 i-벡터가 특정 언어를 발화했을 때의 음성으로부터 추출되었을 확률을 출력하는 판별 모델을 분류하고자 하는 모든 언어에 대하여 각각 학습한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
i-벡터는 어떤 정보를 포함하고 있어서 정규화 과정을 거쳐야 하는가? I-벡터는 음성이 가지고 있는 여러 변이성을 표현하기 때문에 화자나 언어에 대한 정보뿐만 아니라 잡음과 같이 언어 인식에서 불필요한 정보도 포함한다. 그렇기에 판별 시스템의 입력으로 사용하기 위해서는 i-벡터가 갖는 불필요한 정보를 제거해주는 정규화 과정을 거쳐야 한다.
I-벡터의 장점은 무엇인가? I-벡터는 현재 화자 인식 및 언어 인식 분야에서 가장 널리 사용되는 특징 중 하나로, 음성이 가지고 있는 다양한 변이성을 낮은 차원의 고정된 크기의 벡터로 표현할 수 있다는 장점을 가지고 있다[12]. Principle component analysis (PCA)나 eigenvoice 분리 기법과 마찬가지로, i-벡터 추출은 행렬 분리 기법으로 볼 수 있으며, 이상적인 GMM 슈퍼벡터와 i-벡터의 관계는 다음과 같은 식으로 정의된다.
Within-class covariance normalization의 특징은 무엇인가? Within-class covariance normalization (WCCN)은 널리 사용되는 특징 보상 기법으로, 같은 군내의 특징들에 대한 공분산을 감소시킴으로써 특징을 판별에 최적화 시켜준다[13]. WCCN의 투영 행렬 A는 아래와 같은 수식으로 구할 수 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (17)

  1. G. Hinton, L. Deng, D. Yu, A. Mohamed, et. al., "Deep neural networks for acoustic modeling in speech recognition," IEEE Sig. Process. Mag., vol. 29, no. 6, pp. 82-97, Nov. 2012. 

  2. K. H. Lee, S. J. Kang, W. H. Kang, N. S. Kim, and S. J. Yang, "DNN-based feature compensation using environmental parameter," in Proc. KICS ICC 2015, pp. 72-73, Gangwon, Korea, Jan. 2016. 

  3. Y. Lei, N. Scheffer, L. Ferrer, and M. McLaren, "A novel scheme for speaker recognition using a phonetically-aware deep neural network," in Proc. ICASSP 2014, pp. 1714-1718, Florence, Italy, May 2014. 

  4. J. Wang, D. Wang, T. F. Zheng, and F. Bie, DNN-based discriminative scoring for speaker recognition based on i-vector, CSLT, Tech. Rep. 20150002, Jan. 2015. 

  5. O. Ghahabi and J. Hernando, "Deep belief networks for i-vector based speaker recognition," in Proc. ICASSP 2014, pp. 1700-1704, Florence, Italy, May 2014. 

  6. W. H. Kang, K. H. Lee, T. G. Kang, S. J. Kang, N. S. Kim, and K. J. Shin, "Speaker age regression using i-vectors trained with MFCC and pitch," in Proc. KICS ICC 2015, pp. 967-968, Jeju, Korea, Jun. 2015. 

  7. W. H. Kang, K. H. Lee, T. G. Kang, and N. S. Kim, "NN based speaker age classification using i-vectors," in Proc. KICS ICC 2015, pp. 589-590, Seoul, Korea, Nov. 2015. 

  8. I. Lopez-Moreno, J. Gonzalez-Dominguez, O. Plchot, D. Martinez, et. al., "Automatic language identification using deep neural networks," in Proc. ICASSP 2014, pp. 5374-5378, Florence, Italy, May 2014. 

  9. C. Chang and C. Lin, "LIBSVM: a library for support vector machines," ACM TIST, vol. 2, no. 3, pp. 1-39, Apr. 2011. 

  10. W. M. Campbell, E. Singer, P. Torres- Carrasquillo, and D. A. Reynolds, "Language recognition with support vector machines," in Proc. Odyssey 2004, pp. 41-44, Toledo, Spain, May-Jun. 2004. 

  11. The 2015 Language Recognition i-Vector Machine Learning Challenge(2015), Retrieved Dec. 29, 2015, from http://www.nist.gov/itl/iad/mig/upl oad/lre_ivectorchallenge_rel_v2.pdf 

  12. N. Dehak, P. Kenny, R. Dehak, P. Dumouchei, and P. Ouellet, "Front-end factor analysis for speaker verification," IEEE Trans. Audio, Speech, Language Process., vol. 19, no. 4, pp. 788-798, May 2011. 

  13. A. O. Hatch, S. S. Kajarekar, and A. Stolcke, "Within-class covariance normalization for SVM-based speaker recognition," in Proc. Interspeech, pp. 2-5, 2006. 

  14. D. Reynolds, T. Quatieri, and R. Dunn, "Speaker verification using adapted gaussian mixture models," Digital Sign. Process., vol. 10, pp. 19-41, Jan. 2000. 

  15. R. Salakhutdinov, "Learning deep generative models," Ph. D. Dissertation, University of Toronto, 2009. 

  16. N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, et. al., "Dropout: a simple way to prevent neural networks from overfitting," JMLR, vol. 15, no. 1, pp. 1929-1958, Jun. 2014. 

  17. S. Furui, Speaker recognition(2008), Retrieved Jul., 12, 2016, from http://www.scholarpedia.org/article/Speaker_recognition 

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로