[논문]멀티태스크 러닝 심층신경망을 이용한 화자인증에서의 나이 정보 활용

김주호; 허희수; 정지원; 심혜진; 김승빈; 유하진

doi:10.7776/ask.2019.38.5.593

멀티태스크 러닝 심층신경망을 이용한 화자인증에서의 나이 정보 활용
Utilization of age information for speaker verification using multi-task learning deep neural networks 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.38 no.5, 2019년, pp.593 - 600

김주호 (서울시립대학교 컴퓨터과학과) , 허희수 (서울시립대학교 컴퓨터과학과) , 정지원 (서울시립대학교 컴퓨터과학과) , 심혜진 (서울시립대학교 컴퓨터과학과) , 김승빈 (서울시립대학교 컴퓨터과학과) , 유하진 (서울시립대학교 컴퓨터과학과)

초록
AI-Helper

화자 간 음색의 유사성은 화자 인증 시스템의 성능을 하락 시킬 수 있는 요인이다. 본 논문은 화자 인증 시스템의 일반화 성능을 향상시키기 위해, 심층신경망에 멀티태스크 러닝 기법을 적용시켜 발화자의 화자 정보와 나이 정보를 함께 학습 시키는 기법을 제안한다. 멀티태스크 러닝 기법은 은닉층들이 하나의 태스크에 과적합 되지 않도록 하여 심층신경망의 일반화 성능을 향상시킨다고 알려져 있다. 하지만 심층신경망을 멀티태스크 러닝 기법으로 학습시키는 과정에서, 나이 정보에 대한 학습이 효율적으로 수행되지 않는 것을 실험적으로 확인하였다. 이와 같은 현상을 방지하기 위해, 본 논문에서는 심층신경망의 학습 과정 중 화자 식별과 나이 추정 목적 함수의 가중치를 동적으로 변경 하는 기법을 제안한다. 동일 오류율을 기준으로 RSR2015 평가 데이터세트에 대해 화자 인증 성능을 평가한 결과 나이 정보를 활용하지 않은 화자 인증 시스템의 경우 6.91 %, 나이 정보를 활용한 화자 인증 시스템의 경우 6.77 %, 나이 정보를 활용한 화자 인증 시스템에 가중치 변경 기법을 적용한 경우 4.73 %의 오류율을 확인하였다.

Abstract ▼ AI-Helper

The similarity in tones between speakers can lower the performance of speaker verification. To improve the performance of speaker verification systems, we propose a multi-task learning technique using deep neural network to learn speaker information and age information. Multi-task learning can improve generalization performances, because it helps deep neural networks to prevent hidden layers from overfitting into one task. However, we found in experiments that learning of age information does not work well in the process of learning the deep neural network. In order to improve the learning, we propose a method to dynamically change the objective function weights of speaker identification and age estimation in the learning process. Results show the equal error rate based on RSR2015 evaluation data set, 6.91 % for the speaker verification system without using age information, 6.77 % using age information only, and 4.73 % using age information when weight change technique was applied.

주제어

표/그림 (8)

그림 Fig. 1. Learning and evaluation process of conventional speaker verification system using DNN.
그림 Fig. 2. Learning and evaluation process of speaker verification system using age information.
그림 Fig. 3. Loss of speaker identification objective function and age estimation objective function. The solid line shows the loss of the speaker identification for the training data set. The dotted line shows the loss of the age estimation.
그림 Fig. 4. Age information learning trend of speaker verification system using age information. The solid line shows the loss value of the MSE for the training data set. The dotted line shows the age estimation error using the trained DNN for the verification data set.
그림 Fig. 5. Age pyramid of both male (left) and female (right) speakers of the RSR 2015 dataset.
표 Table 1. DNN architecture (‘l’ refers the length of input sequence, ‘Conv’ refers convolution layer, ‘Res’ refers residual block, ‘A_pool’ refers average pooling layer, ‘M_pool’ refers max pooling layer, ‘Con’ refers concatenating layer for ‘A_pool’ and ‘M_pool’.
표 Table 2. Performances of the baseline and the proposed speaker verification system using the evaluation set in terms of EER (%). ‘MTL’ refers to the speaker verification system using age information, ‘WC’ refers to the proposed weight change technique. ‘α’ refers to the initial loss weight of the speaker identification function. ‘β’ refer to the initial loss weight of the age estimation objective function.
표 Table 3. Comparison of the baseline and the proposed model. ‘WC’ refers to the proposed weight change technique.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 나이 정보를 활용하여 화자 인증 시스템의 성능을 향상시키는 방안을 제안하였다. 구체적으로, 심층신경망에 멀티태스크 러닝 기법을 적용하여 화자 식별과 나이 추정을 수행하도록 학습 시킨 후, 학습된 심층신경망을 활용하여 화자 인증 을 수행하도록 구성하였다.
본 논문에서는 화자의 나이 정보를 함께 고려할 수 있는 화자 인증 시스템을 제안한다. 제안한 시스템은 화자 특징에 화자 정보뿐만 아니라, 나이 정보를 추가로 포함한다.
본 논문은 기존 심층신경망 기반 화자 인증 시스템에서 나이 정보를 추가로 활용하는 기법을 제안한다. 입력된 발성으로부터 나이 정보를 활용하면 나이차가 많이 나는 두 화자의 발성을 구별하기 용이하다는 장점이 있다.

가설 설정

반면에 태스크의 난이도가 쉽고 데이터가 적은 경우, 학습에 소요되는 시간이 짧을 것이다. 따라서 본 연구에서는 멀티태스크 러닝을 적용해 서로 다른 태스크를 동시에 학습시키는 과정에서 하나의 태스크가 먼저 학습이 될 경우, 학습이 완료된 태스크를 지속적으로 학습시키는 것이 다른 태스크의 학습에 방해를 할 수 있다고 가정하였다. Fig.

제안 방법

III장에서는 본 논문에서 제안한 기법들을 소개한다. 구체적으로, 나이 정보를 활용한 화자 인증 시스템의 구조와 인증 과정을 설명한 뒤, 실험 결과 분석을 통해 발견한 가중치 변경 기법을 소개한다. IV장은 제안한 기법들을 활용한 화자 인증 실험의 설계 및 실험 결과의 분석을 다루며, 마지막으로 V장에서 결론 및 향후 연구 계획을 보인다.
본 논문에서는 나이 정보를 활용하여 화자 인증 시스템의 성능을 향상시키는 방안을 제안하였다. 구체적으로, 심층신경망에 멀티태스크 러닝 기법을 적용하여 화자 식별과 나이 추정을 수행하도록 학습 시킨 후, 학습된 심층신경망을 활용하여 화자 인증 을 수행하도록 구성하였다. 그리고 나이 정보를 더욱 효과적으로 활용하기 위해 가중치 변경 기법을 제안하였다.
구체적인 예시로서, 한 가정 내의 부자간 혹은 모녀간의 발성처럼 같은 성별이면서 음색이 유사하여 분류가 어려운 경우, 나이 정보 분석을 통해 다른 화자의 발성으로 분류가 가능하다. 그러나 음성으로 사람의 나이를 정확히 추정하는 것은 어려운 일이고, 본 연구의 목적은 화자인증 성능을 향상시키는 것이므로, 멀티태스크 심층신경망에서 화자 정보와 나이 정보를 동시에 학습시키는 방법을 사용하였다. 이때 두 목적 함수의 가중치를 동적으로 변경하여 최종적으로 화자인증의 성능을 향상시키는 기법을 제안하고 실험으로 우수성을 확인하였다.
구체적으로, 심층신경망에 멀티태스크 러닝 기법을 적용하여 화자 식별과 나이 추정을 수행하도록 학습 시킨 후, 학습된 심층신경망을 활용하여 화자 인증 을 수행하도록 구성하였다. 그리고 나이 정보를 더욱 효과적으로 활용하기 위해 가중치 변경 기법을 제안하였다. RSR2015 데이터세트를 이용하여 제안한 기법들의 유효성을 검증하였다.
먼저 학습 데이터세트를 이용하여 심층신경망이 화자 식별과 나이 추정을 동시에 수행하도록 학습시킨다. 그리고 제안한 방법으로 학습된 심층신경망으로부터 화자 정보와 나이 정보가 함께 포함된 특징을 추출하기 위해, 마지막 공유 은닉층의 출력을 화자 특징으로 사용한다. 마지막 공유 은닉층이란, 각 태스크별로 분리된 은닉층의 이전 은닉층을 지칭한다.
뿐만 아니라 최종적으로 수행하고자 하는 태스크는 화자 인증이기 때문에 나이 정보보다는 화자 식별에 더 큰 가중치를 부여하여 학습하는 것이 화자 인증 시스템 성능을 향상시킬 수 있을 것이라 기대하였다. 그리하여 본 논문에서는 각 태스크의 손실 값 크기와 모델의 학습 목적을 고려하여 가중치 변경 기법을 도입하였다.
제안한 시스템은 화자 특징에 화자 정보뿐만 아니라, 나이 정보를 추가로 포함한다. 나이 정보를 동시에 활용하는 과정을 통해, 세대 간의 구분 능력이 생기고, 화자 인증 시스템의 성능 향상을 기대하였다. 제안한 시스템의 학습 및 평가 과정은 다음과 같다.
제안한 화자 인증 시스템은 베이스라인과 동일한 구조의 심층신경망을 활용하였고, 마지막 은닉층과 모델의 학습 방식을 변경해 가며 다양한 화자 인증 시스템의 성능을 동일 오류율(Equal Error Rate, EER)을 기준으로 평가하였다. 동일 화자의 3개 발성으로부터 각각 화자 특징을 추출한 뒤, 이를 평균 내어 화자 모델을 구성 하였다. 한 개의 발성을 사용하는 각 trial에 대해 대상화자의 화자 모델과 평가발성으로부터 추출한 화자 특징간의 코사인 유사도를 계산하였다.
MSE 손실 값이 CCE 손실 값에 비해 크기 때문에, 모델이 나이 정보 학습에 가중되는 것을 실험적으로 발견하였다. 따라서 3.1에서 제안한 나이 정보를 활용한 화자 인증 시스템은 화자 식별과 나이 추정의 목적 함수의 손실 값 크기를 고려하여 가중치를 다양한 값으로 고정시켜 학습을 수행하였다.
따라서 학습이 진행됨에 따라 화자 정보의 학습 비중을 증가시켜 심층신경망이 화자 정보와 나이 정보를 효과적으로 학습할 수 있도록 설계하였다. Eq.
제안한 시스템의 학습 및 평가 과정은 다음과 같다. 먼저 학습 데이터세트를 이용하여 심층신경망이 화자 식별과 나이 추정을 동시에 수행하도록 학습시킨다. 그리고 제안한 방법으로 학습된 심층신경망으로부터 화자 정보와 나이 정보가 함께 포함된 특징을 추출하기 위해, 마지막 공유 은닉층의 출력을 화자 특징으로 사용한다.
본 논문에서 실험에 사용한 심층신경망은 멜-필터 뱅크 에너지 특징을 사용하여 원음성으로부터 음향 특징이 추출된 벡터를 입력 값으로 사용한다. 멜-필터 뱅크 에너지 특징을 추출하는 과정에서 preemphasis를 0.97, window length를 25 ms, shift size를 10 ms, 필터 개수를 40개로 구성하였다. 심층신경망은 Adam 알고리즘을 활용해 학습하였다.
본 논문에서 실험에 사용한 심층신경망은 멜-필터 뱅크 에너지 특징을 사용하여 원음성으로부터 음향 특징이 추출된 벡터를 입력 값으로 사용한다. 멜-필터 뱅크 에너지 특징을 추출하는 과정에서 preemphasis를 0.
예를 들어, 특정 목적 함수의 손실 값이 다른 목적 함수에 비해 지나치게 큰 경우, 하나의 태스크 위주로 네트워크가 학습될 수 있다. 본 연구에서는 멀티태스킹 러닝 기법을 통해, CCE로 정의된 화자 식별 목적 함수와 MSE로 정의된 나이 추정 목적 함 수를 동시에 활용하였다. 두 목적 함수는 정의되는 방식이 다르기 때문에, 동일한 입력에 대해 계산된 결과의 손실 값이 크게 차이날 수 있다.
0001만큼 감쇄시켰다. 심층신경망의 구조는 ResNet34^[9,10] 을 변형시켜 사용하였다. Table 1은 본 논문에서 활용한 심층신경망의 구조를 나타낸다.
그러나 음성으로 사람의 나이를 정확히 추정하는 것은 어려운 일이고, 본 연구의 목적은 화자인증 성능을 향상시키는 것이므로, 멀티태스크 심층신경망에서 화자 정보와 나이 정보를 동시에 학습시키는 방법을 사용하였다. 이때 두 목적 함수의 가중치를 동적으로 변경하여 최종적으로 화자인증의 성능을 향상시키는 기법을 제안하고 실험으로 우수성을 확인하였다.
해당 방식으로 학습된 심층신경망을 화자 인증 시스템에 활용할 경우, 음색이 유사한 화자 간의 발성에 대해 낮은 신뢰도의 화자 인증 결과가 나타날 수 있다. 이와 같은 문제점을 해결하여 화자 인증 성능을 향상시키기 위해, 본 논문에서는 화자 정보 이외의 추가 정보를 활용한다. 기존 연구 중에는 성별 정보^[5]나 문장 정보^[6] 를 추가적으로 활용하여 성능 향상을 확인한 바 있다.
본 논문에서는 화자의 나이 정보를 함께 고려할 수 있는 화자 인증 시스템을 제안한다. 제안한 시스템은 화자 특징에 화자 정보뿐만 아니라, 나이 정보를 추가로 포함한다. 나이 정보를 동시에 활용하는 과정을 통해, 세대 간의 구분 능력이 생기고, 화자 인증 시스템의 성능 향상을 기대하였다.
MTL 과 WC는 각각 나이 정보를 활용한 화자 인증 시스템과 제안한 가중치 변경 기법을 지칭한다. 제안한 시스템의 초기 손실 값 가중치를 변경해가며 실험을 수행하였다. 베이스라인과 MTL의 비교를 통해, 화자 식별과 나이 추정 목적 함수의 손실 값의 크기 차이를 고려하여 학습시킨 제안한 화자 인증 시스템의 성능 향상을 확인하였다.
Table 1은 본 논문에서 활용한 심층신경망의 구조를 나타낸다. 제안한 화자 인증 시스템은 베이스라인과 동일한 구조의 심층신경망을 활용하였고, 마지막 은닉층과 모델의 학습 방식을 변경해 가며 다양한 화자 인증 시스템의 성능을 동일 오류율(Equal Error Rate, EER)을 기준으로 평가하였다. 동일 화자의 3개 발성으로부터 각각 화자 특징을 추출한 뒤, 이를 평균 내어 화자 모델을 구성 하였다.
학습이 완료된 심층신경망은 학습 데이터세트의 화자를 식별하도록 학습 되어있으므로, 출력층의 노드 수는 학습 데이터세트에 포함된 화자 수와 동일하다. 즉, 학습 과정에서 각 발성의 화자 정보를 원-핫 벡터(one-hot vector)의 형태로 표현해 화자 식별이 가능하도록 한다.
동일 화자의 3개 발성으로부터 각각 화자 특징을 추출한 뒤, 이를 평균 내어 화자 모델을 구성 하였다. 한 개의 발성을 사용하는 각 trial에 대해 대상화자의 화자 모델과 평가발성으로부터 추출한 화자 특징간의 코사인 유사도를 계산하였다.
하나의 화자마다 다수의 등록 발성이 존재하는 경우, 화자별로 계산한 화자 특징의 평균값을 화자 모델로 구성한다. 화자 모델과 평가 발성의 화자 특징 간의 코사인 유사도를 계산한 뒤, 이를 기준으로 화자 인증을 수행한다. Fig.
알려져 있지 않은 화자에 대한 발성을 비교하기 위해, 심층신경망에서 화자 식별을 수행하는 출력층을 제거한 후, 심층신경망에 발성이 입력되었을 때 마지막 은닉층의 선형 활성화 값을 화자 특징으로 사용한다. 화자 인증 수행을 위해서는, 먼저 복수의 등록 발성을 심층신경망에 입력하여 화자 특징들을 추출하고, 이를 활용하여 화자 모델을 구성한다. 이후 평가 발성이 입력될 경우, 심층신경망에 입력하여 화자 특징을 추출한 뒤, 대상 화자의 화자 모델과 코사인 유사도를 계산하여 사전에 정의된 임계값을 넘을 경우 동일 화자인 것으로 판별한다.

대상 데이터

를 사용하여 문장 종속환경에서 수행하였다. RSR2015 데이터세트는 300명의 화자로 구성되어 있으며, 총 8시간 분량의 발성으로 구성 되어있다. 화자의 연령대는 17세에서 42세까지 분포 되어있다.
실험을 위해 데이터세트를 다음과 같이 학습 및 검증, 평가 세트로 구분하여 사용하였다. 총 300명 화자 중 194명 화자의 발성을 화자식별기의 학습 데이터세트로 사용하였고, 53명 화자의 발성을 화자 인증 시스템의 검증 데이터세트로 사용하였다. 나머지 53명 화자의 발성은 화자 인증 시스템의 최종 평가를 위해 평가 데이터세트로 사용하였다.
나머지 53명 화자의 발성은 화자 인증 시스템의 최종 평가를 위해 평가 데이터세트로 사용하였다. 학습 시 mini-batch 구성을 위해 발성의 길이는 약4.86 s로 지정하여, 발성이 지정 길이보다 짧을 경우 동일한 발성을 중복하여 늘려서 사용하였고, 지정 길이보다 길 경우 지정 길이만큼 잘라서 사용하였다.

데이터처리

그리고 나이 정보를 더욱 효과적으로 활용하기 위해 가중치 변경 기법을 제안하였다. RSR2015 데이터세트를 이용하여 제안한 기법들의 유효성을 검증하였다. Table 3은 각각의 모델의 성능 비교를 나타내고 있다.
이후 평가 발성이 입력될 경우, 심층신경망에 입력하여 화자 특징을 추출한 뒤, 대상 화자의 화자 모델과 코사인 유사도를 계산하여 사전에 정의된 임계값을 넘을 경우 동일 화자인 것으로 판별한다. 대상 화자들의 평가 발성들로 구성된 평가 데이터세트에 대한 코사인 유사도 점수를 기준으로 동일 오류율을 계산하고 화자 인증 시스템을 평가한다. Fig.

이론/모형

\(L_{spk}\)는 화자 식별의 목적 함수로, CCE(Categorical Cross Entropy)를 활용하였다. \(L_{age}\)는 나이 추정의 목적 함수로, MSE(Mean Squared Error)를 활용하였다.
97, window length를 25 ms, shift size를 10 ms, 필터 개수를 40개로 구성하였다. 심층신경망은 Adam 알고리즘을 활용해 학습하였다. 이때의 학습률은 0.
화자 인증 실험은 RSR2015 데이터세트^[8]를 사용하여 문장 종속환경에서 수행하였다. RSR2015 데이터세트는 300명의 화자로 구성되어 있으며, 총 8시간 분량의 발성으로 구성 되어있다.

성능/효과

3의 그래프는 가중치 1:1로 동일하게 고정하여 모델을 학습 시킬 때, CCE와 MSE의 손실 값을 나타내고 있다. MSE 손실 값이 CCE 손실 값에 비해 크기 때문에, 모델이 나이 정보 학습에 가중되는 것을 실험적으로 발견하였다. 따라서 3.
MTL과 MTL + WC 시스템의 비교를 통해 나이 정보를 활용한 화자 인증 시스템을 학습 시킬 때 가중치 변경 기법을 적용시키는 것이 화자 인증 시스템의 성능 향상에 효과적임을 확인하였다.
Table 3은 각각의 모델의 성능 비교를 나타내고 있다. 기존 심층신경 망을 이용한 화자 인증 시스템에 손실 값 가중치를 10 : 1로 지정하여 나이 정보를 추가로 활용한 결과 동일오류율이 6.91 %에서 6.77 %로 감소함을 확인하였다. 추가적으로 제안한 화자 인증 시스템에 가중치 변경 기법을 적용한 결과, 동일오류율이 6.
제안한 시스템의 초기 손실 값 가중치를 변경해가며 실험을 수행하였다. 베이스라인과 MTL의 비교를 통해, 화자 식별과 나이 추정 목적 함수의 손실 값의 크기 차이를 고려하여 학습시킨 제안한 화자 인증 시스템의 성능 향상을 확인하였다.
73 %로 더욱 감소하는 것을 확인하였다. 위 두 실험 결과를 통해 나이 정보를 추가로 활용하는 제안한 기법의 유효성을 확인하였고, 추가로 제안한 가중치 조절 기법을 통해 더욱 효과적으로 나이 정보를 활용할 수 있음을 확인하였다.
이는 심층신경망이 검증 데이터세트에 대한 나이 추정 성능 향상을 보이지 않음에도 불구하고 나이 정보를 지속적으로 학습하는 것으로 해석할 수 있다. 즉, 제안한 화자 인증 시스템이 지속적으로 나이 정보를 학습 하는 것은 화자 인증 성능 향상에 비효율적일 수 있을 것이라 판단하였다. 뿐만 아니라 최종적으로 수행하고자 하는 태스크는 화자 인증이기 때문에 나이 정보보다는 화자 식별에 더 큰 가중치를 부여하여 학습하는 것이 화자 인증 시스템 성능을 향상시킬 수 있을 것이라 기대하였다.
77 %로 감소함을 확인하였다. 추가적으로 제안한 화자 인증 시스템에 가중치 변경 기법을 적용한 결과, 동일오류율이 6.77 %에 서 4.73 %로 더욱 감소하는 것을 확인하였다. 위 두 실험 결과를 통해 나이 정보를 추가로 활용하는 제안한 기법의 유효성을 확인하였고, 추가로 제안한 가중치 조절 기법을 통해 더욱 효과적으로 나이 정보를 활용할 수 있음을 확인하였다.

후속연구

즉, 제안한 화자 인증 시스템이 지속적으로 나이 정보를 학습 하는 것은 화자 인증 성능 향상에 비효율적일 수 있을 것이라 판단하였다. 뿐만 아니라 최종적으로 수행하고자 하는 태스크는 화자 인증이기 때문에 나이 정보보다는 화자 식별에 더 큰 가중치를 부여하여 학습하는 것이 화자 인증 시스템 성능을 향상시킬 수 있을 것이라 기대하였다. 그리하여 본 논문에서는 각 태스크의 손실 값 크기와 모델의 학습 목적을 고려하여 가중치 변경 기법을 도입하였다.

질의응답

핵심어	질문	논문에서 추출한 답변
	멀티태스크러닝 기법이란?	멀티태스크러닝 기법(Multi-Task Learning, MTL)은 하나의 심층신경망에 다수의 출력층을 사용하여 여러 태스크를 동시에 학습시키는 방법[7]으로, 학습 과정에서 각 태스크간의 연관성을 활용하는 방법이다. 다수의 태스크가 하나의 심층신경망을 공유하므로 학습 효율이 증대 될 수 있으며, 은닉층들이 하나 의 태스크에 과적합 되지 않도록 하여 심층신경망의 일반화 성능 향상을 기대할 수 있다.
	화자 인증 시스템은 어떤 시스템을 기반으로 개발하는가?	화자인증은 한 사용자가 본인의 아이디와 음성을 입력하였을 때, 음성을 비밀번호 대신 사용하여 본인 인증을 하는 것을 말한다. 이 때 한 사람의 음성을 충분히 수집하여 시스템을 학습시키는 것은 어려우므로, 일반적으로 다수의 사용자 중에 누구의 음성 인지를 구분하는 화자 식별 시스템을 기반으로 하여 화자 인증 시스템을 개발한다. 본 논문에서 활용하는 심층신경망 기반 화자 인증 시스템[3]의 학습 및 평가 과정은 다음과 같다.
	기존 심층신경망 기반 화자 인증 시스템에서 나이 정보를 추가로 활용하는 기법의 장점은?	본 논문은 기존 심층신경망 기반 화자 인증 시스템에서 나이 정보를 추가로 활용하는 기법을 제안한다. 입력된 발성으로부터 나이 정보를 활용하면 나이차가 많이 나는 두 화자의 발성을 구별하기 용이하다는 장점이 있다. 구체적인 예시로서, 한 가정 내의 부자간 혹은 모녀간의 발성처럼 같은 성별이면서 음색이 유사하여 분류가 어려운 경우, 나이 정보 분석을 통해 다른 화자의 발성으로 분류가 가능하다.

참고문헌 (10)

G. Heigold, I. Morenono, S. Bengio, and N. Shazeer, "End-to-end text-dependent speaker verification," Proc. IEEE ICASSP, 2-3 (2016).
D. Snyder, D. G. -Romero, G. Sell, D. Povey, and S. Khudanpur, "X-vectors: Robust DNN embeddings for speaker recognition," Proc. IEEE ICASSP, 1-2 (2018).
J. W. Jung, H. S. Heo, I. H. Yang, H. J. Shim, and H. J. Yu, "A complete end-to-end speaker verification system using deep neural networks: From raw signals to verification result," Proc. IEEE ICASSP, 1-3, (2018).
E. Variani, X. Lei, E. McDermott, I. L. Moreno, and J. G. Dominguez, "Deep neural networks for small footprint text-dependent speaker verification," Proc. IEEE ICASSP, 1-2 (2014).
A. Kanervisto, V. Vestman, M. Sahidullah, V. Hautamaki, and T. Kinnunen, "Effects of gender information in text-independent and text-dependent speaker verification," Proc. IEEE ICASSP, 1-3 (2017).
N. Chen, Y. Qian, and K. Yu. "Multi-task learning for text-dependent speaker verification," Proc. Interspeech, 185-189 (2015).
R. Caruana, "Multitask learning," Machine learning, 28, 41-75 (1997).
A. Larcher, K. A. Lee, B. Ma, and H. Li, "Textdependent speaker verification: Classifiers, databases and RSR2015," Speech Communication, 60, 56-77 (2014).

상세보기
K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," Proc. the IEEE Conf. computer vision and pattern recognition, 770-778 (2016).
K. He, X. Zhang, S. Ren, and J. Sun, Identity Mappings in Deep Residual Networks (Springer, Amsterdam, 2016), pp. 1-15.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증