[논문]I-벡터 기반 오픈세트 언어 인식을 위한 다중 판별 DNN

강우현; 조원익; 강태균; 김남수

doi:10.7840/kics.2016.41.8.958

I-벡터 기반 오픈세트 언어 인식을 위한 다중 판별 DNN
Multiple Discriminative DNNs for I-Vector Based Open-Set Language Recognition 원문보기

한국통신학회논문지 = The Journal of Korean Institute of Communications and Information Sciences, v.41 no.8, 2016년, pp.958 - 964

강우현 (Seoul National University Department of Electrical and Computer Engineering and Institute of New Media and Communications) , 조원익 (Seoul National University Department of Electrical and Computer Engineering and Institute of New Media and Communications) , 강태균 (Seoul National University Department of Electrical and Computer Engineering and Institute of New Media and Communications) , 김남수 (Seoul National University Department of Electrical and Computer Engineering and Institute of New Media and Communications)

초록
AI-Helper

본 논문에서는 여러 개의 이원 support vector machine (binary SVM)을 사용하여 세 개 이상의 클래스를 분류하는 multi-class SVM과 유사하게 다중의 판별 deep neural network (DNN) 모델을 사용하는 i-벡터 기반의 언어 인식 시스템을 제안한다. 제안하는 시스템은 NIST 2015 i-vector Machine Learning Challenge 데이터베이스에 포함된 i-벡터들을 이용하여 학습 및 테스트 되었으며, 오픈 세트에서 기존의 cosine distance, multi-class SVM 및 단일 neural network (NN) 기반의 언어 인식 시스템에 비하여 높은 성능을 보임이 확인되었다.

Abstract ▼ AI-Helper

In this paper, we propose an i-vector based language recognition system to identify the spoken language of the speaker, which uses multiple discriminative deep neural network (DNN) models analogous to the multi-class support vector machine (SVM) classification system. The proposed model was trained and tested using the i-vectors included in the NIST 2015 i-vector Machine Learning Challenge database, and shown to outperform the conventional language recognition methods such as cosine distance, SVM and softmax NN classifier in open-set experiments.

주제어

AI 본문요약
AI-Helper

문제 정의

본 논문에서는 학습 데이터에 포함되있지 않은 언어인 out-of-set (OOS) 언어를 판별하기 위하여 기존의 멀티 클래스 SVM 분류기^[9]와 유사한 방식을 따르는 DNN 분류 모델을 제안한다. 제안하는 시스템은 one-vs-all SVM 기반의 언어 분류 시스템^[10]과 같이, 입력 i-벡터가 특정 언어를 발화했을 때의 음성으로부터 추출되었을 확률을 출력하는 판별 모델을 분류하고자 하는 모든 언어에 대하여 각각 학습한다.

제안 방법

와 유사한 방식을 따르는 DNN 분류 모델을 제안한다. 제안하는 시스템은 one-vs-all SVM 기반의 언어 분류 시스템^[10]과 같이, 입력 i-벡터가 특정 언어를 발화했을 때의 음성으로부터 추출되었을 확률을 출력하는 판별 모델을 분류하고자 하는 모든 언어에 대하여 각각 학습한다. 판별 모델로는 단일 시그모이드 출력 노드를 가진 DNN이 사용되었으며, 모든 DNN은 화자 판별 분야에서 연구된 판별 DNN 학습 기법인 universal deep belief network (UDBN) 방식^[5]을 이용하여 학습되었다.

대상 데이터

본 연구에서는 NIST 2015 i-vector Machine Learning Challenge에 포함된 training, development, test 데이터 셋을 사용하여 학습 및 테스트를 진행하였다. Training 데이터에는 50가지 언어 라벨이 있는 15000개의 i-벡터가 포함되어있으며, development 데이터에는 라벨이 없는 6431개의 i-벡터가 포함되어있다.

데이터처리

데이터 셋에 포함된 모든 i-벡터는 400차원이다. 본 논문에서의 실험들에서는 training set에 포함된 i-벡터들로부터 구한 군내 공분산을 이용 하여 WCCN을 적용한 i-벡터들을 사용하였다.

이론/모형

제안하는 시스템은 one-vs-all SVM 기반의 언어 분류 시스템^[10]과 같이, 입력 i-벡터가 특정 언어를 발화했을 때의 음성으로부터 추출되었을 확률을 출력하는 판별 모델을 분류하고자 하는 모든 언어에 대하여 각각 학습한다. 판별 모델로는 단일 시그모이드 출력 노드를 가진 DNN이 사용되었으며, 모든 DNN은 화자 판별 분야에서 연구된 판별 DNN 학습 기법인 universal deep belief network (UDBN) 방식^[5]을 이용하여 학습되었다. NIST 2015 i-vector Machine Learning Challenge 데이터 셋에 포함된 학습 데이터 및 테스트 데이터^[11]를 이용하여 제안된 알고리즘을 학습하였으며, 기존의 cosine distance, 단일 neural network (NN) 분류기, SVM 기반의 분류 알고리즘에 비하여 OOS 언어를 고려하는 오픈 세트 실험에서 우수한 성능을 보였다.

성능/효과

본 논문에서는 WCCN을 적용한 i-벡터 특징을 입력으로 하는 다중 DNN 기반의 화자 언어 분류 기법을 실험하였다. NIST 2015 i-vector Machine Learning Challenge 데이터 셋을 이용하여 실험해본 결과, 기존의 SVM 및 단일 NN을 사용한 언어 분류 기법에 비하여 오픈 세트 테스트에서 월등한 성능을 보이는 것을 확인할 수 있었다.

질의응답

핵심어	질문	논문에서 추출한 답변
	i-벡터는 어떤 정보를 포함하고 있어서 정규화 과정을 거쳐야 하는가?	I-벡터는 음성이 가지고 있는 여러 변이성을 표현하기 때문에 화자나 언어에 대한 정보뿐만 아니라 잡음과 같이 언어 인식에서 불필요한 정보도 포함한다. 그렇기에 판별 시스템의 입력으로 사용하기 위해서는 i-벡터가 갖는 불필요한 정보를 제거해주는 정규화 과정을 거쳐야 한다.
	I-벡터의 장점은 무엇인가?	I-벡터는 현재 화자 인식 및 언어 인식 분야에서 가장 널리 사용되는 특징 중 하나로, 음성이 가지고 있는 다양한 변이성을 낮은 차원의 고정된 크기의 벡터로 표현할 수 있다는 장점을 가지고 있다[12]. Principle component analysis (PCA)나 eigenvoice 분리 기법과 마찬가지로, i-벡터 추출은 행렬 분리 기법으로 볼 수 있으며, 이상적인 GMM 슈퍼벡터와 i-벡터의 관계는 다음과 같은 식으로 정의된다.
	Within-class covariance normalization의 특징은 무엇인가?	Within-class covariance normalization (WCCN)은 널리 사용되는 특징 보상 기법으로, 같은 군내의 특징들에 대한 공분산을 감소시킴으로써 특징을 판별에 최적화 시켜준다[13]. WCCN의 투영 행렬 A는 아래와 같은 수식으로 구할 수 있다.

참고문헌 (17)

G. Hinton, L. Deng, D. Yu, A. Mohamed, et. al., "Deep neural networks for acoustic modeling in speech recognition," IEEE Sig. Process. Mag., vol. 29, no. 6, pp. 82-97, Nov. 2012.
K. H. Lee, S. J. Kang, W. H. Kang, N. S. Kim, and S. J. Yang, "DNN-based feature compensation using environmental parameter," in Proc. KICS ICC 2015, pp. 72-73, Gangwon, Korea, Jan. 2016.
Y. Lei, N. Scheffer, L. Ferrer, and M. McLaren, "A novel scheme for speaker recognition using a phonetically-aware deep neural network," in Proc. ICASSP 2014, pp. 1714-1718, Florence, Italy, May 2014.
J. Wang, D. Wang, T. F. Zheng, and F. Bie, DNN-based discriminative scoring for speaker recognition based on i-vector, CSLT, Tech. Rep. 20150002, Jan. 2015.
O. Ghahabi and J. Hernando, "Deep belief networks for i-vector based speaker recognition," in Proc. ICASSP 2014, pp. 1700-1704, Florence, Italy, May 2014.
W. H. Kang, K. H. Lee, T. G. Kang, S. J. Kang, N. S. Kim, and K. J. Shin, "Speaker age regression using i-vectors trained with MFCC and pitch," in Proc. KICS ICC 2015, pp. 967-968, Jeju, Korea, Jun. 2015.
W. H. Kang, K. H. Lee, T. G. Kang, and N. S. Kim, "NN based speaker age classification using i-vectors," in Proc. KICS ICC 2015, pp. 589-590, Seoul, Korea, Nov. 2015.
I. Lopez-Moreno, J. Gonzalez-Dominguez, O. Plchot, D. Martinez, et. al., "Automatic language identification using deep neural networks," in Proc. ICASSP 2014, pp. 5374-5378, Florence, Italy, May 2014.
C. Chang and C. Lin, "LIBSVM: a library for support vector machines," ACM TIST, vol. 2, no. 3, pp. 1-39, Apr. 2011.
W. M. Campbell, E. Singer, P. Torres- Carrasquillo, and D. A. Reynolds, "Language recognition with support vector machines," in Proc. Odyssey 2004, pp. 41-44, Toledo, Spain, May-Jun. 2004.
The 2015 Language Recognition i-Vector Machine Learning Challenge(2015), Retrieved Dec. 29, 2015, from http://www.nist.gov/itl/iad/mig/upl oad/lre_ivectorchallenge_rel_v2.pdf
N. Dehak, P. Kenny, R. Dehak, P. Dumouchei, and P. Ouellet, "Front-end factor analysis for speaker verification," IEEE Trans. Audio, Speech, Language Process., vol. 19, no. 4, pp. 788-798, May 2011.

상세보기
A. O. Hatch, S. S. Kajarekar, and A. Stolcke, "Within-class covariance normalization for SVM-based speaker recognition," in Proc. Interspeech, pp. 2-5, 2006.
D. Reynolds, T. Quatieri, and R. Dunn, "Speaker verification using adapted gaussian mixture models," Digital Sign. Process., vol. 10, pp. 19-41, Jan. 2000.

상세보기
R. Salakhutdinov, "Learning deep generative models," Ph. D. Dissertation, University of Toronto, 2009.
N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, et. al., "Dropout: a simple way to prevent neural networks from overfitting," JMLR, vol. 15, no. 1, pp. 1929-1958, Jun. 2014.
S. Furui, Speaker recognition(2008), Retrieved Jul., 12, 2016, from http://www.scholarpedia.org/article/Speaker_recognition

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증