최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기한국음향학회지= The journal of the acoustical society of Korea, v.38 no.5, 2019년, pp.593 - 600
김주호 (서울시립대학교 컴퓨터과학과) , 허희수 (서울시립대학교 컴퓨터과학과) , 정지원 (서울시립대학교 컴퓨터과학과) , 심혜진 (서울시립대학교 컴퓨터과학과) , 김승빈 (서울시립대학교 컴퓨터과학과) , 유하진 (서울시립대학교 컴퓨터과학과)
The similarity in tones between speakers can lower the performance of speaker verification. To improve the performance of speaker verification systems, we propose a multi-task learning technique using deep neural network to learn speaker information and age information. Multi-task learning can impro...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
멀티태스크러닝 기법이란? | 멀티태스크러닝 기법(Multi-Task Learning, MTL)은 하나의 심층신경망에 다수의 출력층을 사용하여 여러 태스크를 동시에 학습시키는 방법[7]으로, 학습 과정에서 각 태스크간의 연관성을 활용하는 방법이다. 다수의 태스크가 하나의 심층신경망을 공유하므로 학습 효율이 증대 될 수 있으며, 은닉층들이 하나 의 태스크에 과적합 되지 않도록 하여 심층신경망의 일반화 성능 향상을 기대할 수 있다. | |
화자 인증 시스템은 어떤 시스템을 기반으로 개발하는가? | 화자인증은 한 사용자가 본인의 아이디와 음성을 입력하였을 때, 음성을 비밀번호 대신 사용하여 본인 인증을 하는 것을 말한다. 이 때 한 사람의 음성을 충분히 수집하여 시스템을 학습시키는 것은 어려우므로, 일반적으로 다수의 사용자 중에 누구의 음성 인지를 구분하는 화자 식별 시스템을 기반으로 하여 화자 인증 시스템을 개발한다. 본 논문에서 활용하는 심층신경망 기반 화자 인증 시스템[3]의 학습 및 평가 과정은 다음과 같다. | |
기존 심층신경망 기반 화자 인증 시스템에서 나이 정보를 추가로 활용하는 기법의 장점은? | 본 논문은 기존 심층신경망 기반 화자 인증 시스템에서 나이 정보를 추가로 활용하는 기법을 제안한다. 입력된 발성으로부터 나이 정보를 활용하면 나이차가 많이 나는 두 화자의 발성을 구별하기 용이하다는 장점이 있다. 구체적인 예시로서, 한 가정 내의 부자간 혹은 모녀간의 발성처럼 같은 성별이면서 음색이 유사하여 분류가 어려운 경우, 나이 정보 분석을 통해 다른 화자의 발성으로 분류가 가능하다. |
G. Heigold, I. Morenono, S. Bengio, and N. Shazeer, "End-to-end text-dependent speaker verification," Proc. IEEE ICASSP, 2-3 (2016).
D. Snyder, D. G. -Romero, G. Sell, D. Povey, and S. Khudanpur, "X-vectors: Robust DNN embeddings for speaker recognition," Proc. IEEE ICASSP, 1-2 (2018).
J. W. Jung, H. S. Heo, I. H. Yang, H. J. Shim, and H. J. Yu, "A complete end-to-end speaker verification system using deep neural networks: From raw signals to verification result," Proc. IEEE ICASSP, 1-3, (2018).
E. Variani, X. Lei, E. McDermott, I. L. Moreno, and J. G. Dominguez, "Deep neural networks for small footprint text-dependent speaker verification," Proc. IEEE ICASSP, 1-2 (2014).
A. Kanervisto, V. Vestman, M. Sahidullah, V. Hautamaki, and T. Kinnunen, "Effects of gender information in text-independent and text-dependent speaker verification," Proc. IEEE ICASSP, 1-3 (2017).
N. Chen, Y. Qian, and K. Yu. "Multi-task learning for text-dependent speaker verification," Proc. Interspeech, 185-189 (2015).
A. Larcher, K. A. Lee, B. Ma, and H. Li, "Textdependent speaker verification: Classifiers, databases and RSR2015," Speech Communication, 60, 56-77 (2014).
K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," Proc. the IEEE Conf. computer vision and pattern recognition, 770-778 (2016).
K. He, X. Zhang, S. Ren, and J. Sun, Identity Mappings in Deep Residual Networks (Springer, Amsterdam, 2016), pp. 1-15.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
오픈액세스 학술지에 출판된 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.