$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

멀티태스크 러닝 심층신경망을 이용한 화자인증에서의 나이 정보 활용
Utilization of age information for speaker verification using multi-task learning deep neural networks 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.38 no.5, 2019년, pp.593 - 600  

김주호 (서울시립대학교 컴퓨터과학과) ,  허희수 (서울시립대학교 컴퓨터과학과) ,  정지원 (서울시립대학교 컴퓨터과학과) ,  심혜진 (서울시립대학교 컴퓨터과학과) ,  김승빈 (서울시립대학교 컴퓨터과학과) ,  유하진 (서울시립대학교 컴퓨터과학과)

초록
AI-Helper 아이콘AI-Helper

화자 간 음색의 유사성은 화자 인증 시스템의 성능을 하락 시킬 수 있는 요인이다. 본 논문은 화자 인증 시스템의 일반화 성능을 향상시키기 위해, 심층신경망멀티태스크 러닝 기법을 적용시켜 발화자의 화자 정보와 나이 정보를 함께 학습 시키는 기법을 제안한다. 멀티태스크 러닝 기법은 은닉층들이 하나의 태스크에 과적합 되지 않도록 하여 심층신경망의 일반화 성능을 향상시킨다고 알려져 있다. 하지만 심층신경망을 멀티태스크 러닝 기법으로 학습시키는 과정에서, 나이 정보에 대한 학습이 효율적으로 수행되지 않는 것을 실험적으로 확인하였다. 이와 같은 현상을 방지하기 위해, 본 논문에서는 심층신경망의 학습 과정 중 화자 식별과 나이 추정 목적 함수의 가중치를 동적으로 변경 하는 기법을 제안한다. 동일 오류율을 기준으로 RSR2015 평가 데이터세트에 대해 화자 인증 성능을 평가한 결과 나이 정보를 활용하지 않은 화자 인증 시스템의 경우 6.91 %, 나이 정보를 활용한 화자 인증 시스템의 경우 6.77 %, 나이 정보를 활용한 화자 인증 시스템에 가중치 변경 기법을 적용한 경우 4.73 %의 오류율을 확인하였다.

Abstract AI-Helper 아이콘AI-Helper

The similarity in tones between speakers can lower the performance of speaker verification. To improve the performance of speaker verification systems, we propose a multi-task learning technique using deep neural network to learn speaker information and age information. Multi-task learning can impro...

주제어

표/그림 (8)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 나이 정보를 활용하여 화자 인증 시스템의 성능을 향상시키는 방안을 제안하였다. 구체적으로, 심층신경망에 멀티태스크 러닝 기법을 적용하여 화자 식별과 나이 추정을 수행하도록 학습 시킨 후, 학습된 심층신경망을 활용하여 화자 인증 을 수행하도록 구성하였다.
  • 본 논문에서는 화자의 나이 정보를 함께 고려할 수 있는 화자 인증 시스템을 제안한다. 제안한 시스템은 화자 특징에 화자 정보뿐만 아니라, 나이 정보를 추가로 포함한다.
  • 본 논문은 기존 심층신경망 기반 화자 인증 시스템에서 나이 정보를 추가로 활용하는 기법을 제안한다. 입력된 발성으로부터 나이 정보를 활용하면 나이차가 많이 나는 두 화자의 발성을 구별하기 용이하다는 장점이 있다.

가설 설정

  • 반면에 태스크의 난이도가 쉽고 데이터가 적은 경우, 학습에 소요되는 시간이 짧을 것이다. 따라서 본 연구에서는 멀티태스크 러닝을 적용해 서로 다른 태스크를 동시에 학습시키는 과정에서 하나의 태스크가 먼저 학습이 될 경우, 학습이 완료된 태스크를 지속적으로 학습시키는 것이 다른 태스크의 학습에 방해를 할 수 있다고 가정하였다. Fig.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
멀티태스크러닝 기법이란? 멀티태스크러닝 기법(Multi-Task Learning, MTL)은 하나의 심층신경망에 다수의 출력층을 사용하여 여러 태스크를 동시에 학습시키는 방법[7]으로, 학습 과정에서 각 태스크간의 연관성을 활용하는 방법이다. 다수의 태스크가 하나의 심층신경망을 공유하므로 학습 효율이 증대 될 수 있으며, 은닉층들이 하나 의 태스크에 과적합 되지 않도록 하여 심층신경망의 일반화 성능 향상을 기대할 수 있다.
화자 인증 시스템은 어떤 시스템을 기반으로 개발하는가? 화자인증은 한 사용자가 본인의 아이디와 음성을 입력하였을 때, 음성을 비밀번호 대신 사용하여 본인 인증을 하는 것을 말한다. 이 때 한 사람의 음성을 충분히 수집하여 시스템을 학습시키는 것은 어려우므로, 일반적으로 다수의 사용자 중에 누구의 음성 인지를 구분하는 화자 식별 시스템을 기반으로 하여 화자 인증 시스템을 개발한다. 본 논문에서 활용하는 심층신경망 기반 화자 인증 시스템[3]의 학습 및 평가 과정은 다음과 같다.
기존 심층신경망 기반 화자 인증 시스템에서 나이 정보를 추가로 활용하는 기법의 장점은? 본 논문은 기존 심층신경망 기반 화자 인증 시스템에서 나이 정보를 추가로 활용하는 기법을 제안한다. 입력된 발성으로부터 나이 정보를 활용하면 나이차가 많이 나는 두 화자의 발성을 구별하기 용이하다는 장점이 있다. 구체적인 예시로서, 한 가정 내의 부자간 혹은 모녀간의 발성처럼 같은 성별이면서 음색이 유사하여 분류가 어려운 경우, 나이 정보 분석을 통해 다른 화자의 발성으로 분류가 가능하다.
질의응답 정보가 도움이 되었나요?

참고문헌 (10)

  1. G. Heigold, I. Morenono, S. Bengio, and N. Shazeer, "End-to-end text-dependent speaker verification," Proc. IEEE ICASSP, 2-3 (2016). 

  2. D. Snyder, D. G. -Romero, G. Sell, D. Povey, and S. Khudanpur, "X-vectors: Robust DNN embeddings for speaker recognition," Proc. IEEE ICASSP, 1-2 (2018). 

  3. J. W. Jung, H. S. Heo, I. H. Yang, H. J. Shim, and H. J. Yu, "A complete end-to-end speaker verification system using deep neural networks: From raw signals to verification result," Proc. IEEE ICASSP, 1-3, (2018). 

  4. E. Variani, X. Lei, E. McDermott, I. L. Moreno, and J. G. Dominguez, "Deep neural networks for small footprint text-dependent speaker verification," Proc. IEEE ICASSP, 1-2 (2014). 

  5. A. Kanervisto, V. Vestman, M. Sahidullah, V. Hautamaki, and T. Kinnunen, "Effects of gender information in text-independent and text-dependent speaker verification," Proc. IEEE ICASSP, 1-3 (2017). 

  6. N. Chen, Y. Qian, and K. Yu. "Multi-task learning for text-dependent speaker verification," Proc. Interspeech, 185-189 (2015). 

  7. R. Caruana, "Multitask learning," Machine learning, 28, 41-75 (1997). 

  8. A. Larcher, K. A. Lee, B. Ma, and H. Li, "Textdependent speaker verification: Classifiers, databases and RSR2015," Speech Communication, 60, 56-77 (2014). 

  9. K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," Proc. the IEEE Conf. computer vision and pattern recognition, 770-778 (2016). 

  10. K. He, X. Zhang, S. Ren, and J. Sun, Identity Mappings in Deep Residual Networks (Springer, Amsterdam, 2016), pp. 1-15. 

저자의 다른 논문 :

LOADING...
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로