[논문]STFT와 RNN을 활용한 화자 인증 모델

김민서; 문종섭

doi:10.13089/jkiisc.2019.29.6.1393

[국내논문] STFT와 RNN을 활용한 화자 인증 모델
Speaker Verification Model Using Short-Time Fourier Transform and Recurrent Neural Network 원문보기

情報保護學會論文誌 = Journal of the Korea Institute of Information Security and Cryptology, v.29 no.6, 2019년, pp.1393 - 1401

김민서 (고려대학교 정보보호대학원) , 문종섭 (고려대학교 정보보호대학원)

초록
AI-Helper

최근 시스템에 음성 인증 기능이 탑재됨에 따라 화자(Speaker)를 정확하게 인증하는 중요성이 높아지고 있다. 이에 따라 다양한 방법으로 화자를 인증하는 모델이 제시되어 왔다. 본 논문에서는 Short-time Fourier transform(STFT)를 적용한 새로운 화자 인증 모델을 제안한다. 이 모델은 기존의 Mel-Frequency Cepstrum Coefficients(MFCC) 추출 방법과 달리 윈도우 함수를 약 66.1% 오버랩하여 화자 인증 시 정확도를 높일 수 있다. 새로운 화자 인증 모델을 제안한다. 이 때, LSTM 셀을 적용한 Recurrent Neural Network(RNN)라는 딥러닝 모델을 사용하여 시변적 특징을 가지는 화자의 음성 특징을 학습하고, 정확도가 92.8%로 기존의 화자 인증 모델보다 5.5% 정확도가 높게 측정되었다.

Abstract ▼ AI-Helper

Recently as voice authentication function is installed in the system, it is becoming more important to accurately authenticate speakers. Accordingly, a model for verifying speakers in various ways has been suggested. In this paper, we propose a new method for verifying speaker verification using a Short-time Fourier Transform(STFT). Unlike the existing Mel-Frequency Cepstrum Coefficients(MFCC) extraction method, we used window function with overlap parameter of around 66.1%. In this case, the speech characteristics of the speaker with the temporal characteristics are studied using a deep running model called RNN (Recurrent Neural Network) with LSTM cell. The accuracy of proposed model is around 92.8% and approximately 5.5% higher than that of the existing speaker certification model.

주제어

표/그림 (8)

그림 Fig. 1. Mel-Frequency Cepstrum Coefficients Process
그림 Fig. 2. Structure of RNN with LSTM Cell
그림 Fig. 3. Mel-Frequency Cepstrum Coefficients Process
그림 Fig. 4. Hamming Window Function
그림 Fig. 5. Convolution
그림 Fig. 6. RNN-Based Speaker Verification Model
표 Table 1. Dataset for speaker verification
표 Table 2. The comparison of different methods

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 RNN을 활용한 새로운 화자 인증 모델을 제안한다.
본 논문에서는 음성 데이터 전처리 시, 윈도우 함수를 약 66.1% 오버랩하여 STFT를 적용할 경우, 화자의 음성 특징이 손실되는 것을 최소화할 수 있다는 점에 착안하여 RNN 모델을 사용한 화자 인증 모델을 제안하였다. RNN 모델에 LSTM 셀을 적용하여 기존 연구에 비해 화자 인증 시 높은 정확도를 나타내는 것을 확인하였다.

제안 방법

STFT 적용 이후의 과정은 기존의 MFCC 추출 과정과 동일하게 멜 스케일을 가지도록 주파수 축을 변환한 후, 이 스케일에서 동일한 대역폭을 가지는 삼각 필터뱅크를 통해 필터뱅크 별 에너지를 구하여 로그 함수를 취한 다음 DCT를 통해 최종적인 MF CC 값을 구한다[4].
우선 음성 신호로부터 매 프레임 단위로 윈도우 함수를 씌운 다음 Discrete Fourier Transform(DFT) 과정을 통해 시간 영역에서 주파수 영역으로 변환시킨다. 그 다음으로 멜 스케일을 가지도록 주파수 축을 변환한 후, 이 스케일에서 동일한 대역폭을 가지는 삼각 필터뱅크를 통해 필터뱅크 별 에너지를 구한다. 여기에 로그 함수를 취한 다음 Discrete Cosine Transform(DCT)를 통해 최종적인 MFCC 값을 구하게 된다.
정확도 측면에서, 기존의 화자 인증 모델은 일반적인 MFCC 방법을 사용한다[4]. 그러나 본 논문은 화자의 음성 특징 추출 시, 윈도우 함수를 일부분 겹치게 하여 화자의 음성에서 손실되는 정보가 최소화되도록 한 후, STFT를 적용한다.
본 논문에서 제시하는 RNN 모델은 화자의 음성 특징을 담고 있는 프로파일을 생성하고, 임의의 화자의 음성에서 추출한 MFCC 값을 모델이 임베딩한 값과 화자 자신의 음성 프로파일과 비교했을 때, 가장 높은 유사도를 갖도록 학습된다. 이 절에서는 이와 같은 학습을 정형적으로 기술한다.
본 논문에서는 음성 데이터 전처리 시, 윈도우 함수의 길이를 25ms로 설정하고, 화자의 음성 특징이 손실되는 것을 최소화하기 위해 윈도우 함수를 약 66.1%(25ms × 0.661% = 16.525ms ) 오버랩하여 사용하고, STFT를 적용하였다.
일반적으로 화자의 음성 특징 추출 시, 윈도우 함수의 크기에 따라 음성 데이터를 분리하여 특정 구간에서 음성 특징을 추출하기 때문에 음성 데이터에서 화자의 음성 특징이 손실되거나 왜곡되는 현상이 발생한다[8]. 본 논문에서는 이러한 현상을 최소화하기 위해 Fig.5.와 같이 해밍 윈도우 함수를 특정 비율로 오버랩하여 음성 신호와 컨볼루션(convolution) 한다.
본 논문에서는 화자 인증 시, 기존의 MFCC 방법과 달리 시간적인 데이터 단위인 윈도우를 특정 비율로 오버랩하여 화자의 음성을 Short-time Fourier transform(STFT)에 적용하고, 딥 러닝 모델인 Recurrent Neural Network(RNN) 모델을 사용하여 음성 데이터를 학습하여 기존의 텍스트 독립적인 화자 인증 모델보다 높은 정확도를 나타낼 수 있는 화자 인증 모델을 제안한다. 정확도 측면에서, 기존의 화자 인증 모델은 일반적인 MFCC 방법을 사용한다[4].
본 논문에서는 화자의 음성 특징을 추출하기 위해 기존의 MFCC와 달리 윈도우 함수를 특정 비율로 오버랩하고, STFT를 사용하여 화자의 음성 특징을 추출한다. 변경된 부분은 Fig.
실험은 Voxceleb1 데이터 셋에 대한 화자 인증을 수행하고, 이에 대한 정확도를 측정하는 방식으로 진행하였다. 정확도는 인증을 위해 입력으로 들어오는 음성이 등록되어 있는 화자 음성 모델이 맞을 경우 시스템 접근을 허가하고, 등록되어 있는 화자 음성 모델이 아닐 경우 시스템 접근을 거부하도록 측정하였다.
525ms ) 오버랩하여 사용하고, STFT를 적용하였다. 음성 데이터 전처리 완료 후, 화자 음성 모델 학습을 위한 학습은 총 600,000번을 반복하고, 이 때 N 은 4, M 은 5, 러닝 레이트(learning rate)는 10^-2 으로 설정하여 학습을 수행하였다.
정확도는 인증을 위해 입력으로 들어오는 음성이 등록되어 있는 화자 음성 모델이 맞을 경우 시스템 접근을 허가하고, 등록되어 있는 화자 음성 모델이 아닐 경우 시스템 접근을 거부하도록 측정하였다. 이 때 crr는 화자를 정확히 인증하지 못한 경우를 의미하며, 시스템에 등록된 사용자 외 다른 사람을 등록자로 오인하고 인증을 수행하는 오류인 False Acceptance Ratio(FAR)와 시스템에 등록된 사용자가 사용 시 본인임을 확인하지 못하고 인증을 거부하는 오류인 False Rejection Ratio(FRR) 값의 교차점을 사용하였다.
1. 절에서 기술한 것과 같이 생성된 음성 프로파일 c_n과 인증을 위해 새롭게 입력되는 음성 e_l의 유사도를 식(6)과 같이 비교하여 입력된 음성이 등록되어 있는 화자의 프로파일과 일치하는 화자의 음성인지 확인한다.
실험은 Voxceleb1 데이터 셋에 대한 화자 인증을 수행하고, 이에 대한 정확도를 측정하는 방식으로 진행하였다. 정확도는 인증을 위해 입력으로 들어오는 음성이 등록되어 있는 화자 음성 모델이 맞을 경우 시스템 접근을 허가하고, 등록되어 있는 화자 음성 모델이 아닐 경우 시스템 접근을 거부하도록 측정하였다. 이 때 crr는 화자를 정확히 인증하지 못한 경우를 의미하며, 시스템에 등록된 사용자 외 다른 사람을 등록자로 오인하고 인증을 수행하는 오류인 False Acceptance Ratio(FAR)와 시스템에 등록된 사용자가 사용 시 본인임을 확인하지 못하고 인증을 거부하는 오류인 False Rejection Ratio(FRR) 값의 교차점을 사용하였다.
화자의 음성 인증은 생성된 프로파일을 이용과 정규화된 임베딩 값과의 유사도 비교를 통해 진행된다.
화자의 목소리를 등록하는 과정에서는 화자의 음성 데이터에서 화자의 특징을 추출하고, 추출한 특징을 기반으로 화자의 음성 모델을 학습한다. 화자의 음성을 인증하는 과정에서는 인증을 위해 입력으로 들어오는 음성 데이터에서 화자의 음성 특징을 추출한 후, 추출한 특징과 기존에 학습이 완료된 화자의 음성 특징 간의 유사도를 비교하여 화자가 시스템에 등록되어 있는 화자인지 인증한다.

대상 데이터

본 논문은 음성 데이터 전처리와 RNN 학습을 위해 Ubuntu 16.04에서 실험을 진행하였다. 그리고 이때 사용한 딥 러닝 라이브러리 TensorFlow[1 8]의 버전은 1.
실험에 사용한 데이터 셋은 음성 인식 연구에서 많이 사용되는 Voxceleb1[19] 데이터 셋을 사용하였고, 형태는 Table 1.과 같다. Voxceleb1 데이터 셋은 화자의 성별이 균형을 이루고, 다양한 민족과 억양의 음성을 포함하고 있다.
인증을 위한 음성 데이터 셋은 Voxceleb1 데이터 셋의 4,874개 테스트 데이터를 사용하였다. 본 논문에서는 음성 데이터 전처리 시, 윈도우 함수의 길이를 25ms로 설정하고, 화자의 음성 특징이 손실되는 것을 최소화하기 위해 윈도우 함수를 약 66.

이론/모형

본 논문에서는 오디오나 음성 처리에서 가장 많이 사용하는 윈도우 함수인 해밍 윈도우 함수(Hamming Window Function)를 사용한다. 해밍 윈도우 함수는 식(1)과 같고, Fig.
본 논문에서는 위와 같이 계산된 유사도를 이용해 모델을 학습하기 위해 log softmax 손실 함수[14]를 사용한다. log softmax는 기본적인 softmax에 비해 모델의 예측 결과에 민감하므로 학습 소요시간이 감소하여 효율적이다.
본 논문에서는 화자의 음성 특징을 학습하기 위해 LSTM 셀을 사용한 RNN 모델을 활용하며, 이 모델은 일반적인 기계학습이나 딥 러닝 모델과 마찬가지로 학습 과정을 거친 후, 화자 검증에 이용된다. 전체적인 RNN 구조는 Fig.
하지만, 위상 스펙트럼에 관한 Liu[10]과 Paliw al [11] 그리고 Alsteris [12], [13]의 연구를 살펴보면 짧은 시간에서도 위상 스펙트럼이 크기 스펙트럼과 비슷한 명료성을 가지는 것을 보여주기에 본 논문에서는 MFCC의 DFT 과정으로 STFT를 사용한다. 시간, 주파수와 음량 간의 관계를 손실하지 않고 화자의 음성 특징을 추출하기 위해서 시간 구간별로 STFT 알고리즘을 적용하였다.
하지만, 위상 스펙트럼에 관한 Liu[10]과 Paliw al [11] 그리고 Alsteris [12], [13]의 연구를 살펴보면 짧은 시간에서도 위상 스펙트럼이 크기 스펙트럼과 비슷한 명료성을 가지는 것을 보여주기에 본 논문에서는 MFCC의 DFT 과정으로 STFT를 사용한다. 시간, 주파수와 음량 간의 관계를 손실하지 않고 화자의 음성 특징을 추출하기 위해서 시간 구간별로 STFT 알고리즘을 적용하였다.
일반적으로 화자 인증 모델은 화자의 목소리를 등록(enrollment)하는 과정과 화자의 음성을 인증(verification)하는 과정이 필요하다[2]. 화자의 목소리 등록 시, 화자의 음성에서 특징을 추출하기 위해 Linear Predictive Coding(LPC)[3], Mel-Fre quency Cepstrum Coefficients(MFCC) [4], Perceptual Linear Predictive Analysis(PL P)[5] 등의 방법을 사용한다. 화자의 음성 특징 추출 시 많이 사용되는 방법은 MFCC로써, 이 방법은 입력된 신호에서 실제 유효한 소리의 특징을 추출한다.

성능/효과

1% 오버랩하여 STFT를 적용할 경우, 화자의 음성 특징이 손실되는 것을 최소화할 수 있다는 점에 착안하여 RNN 모델을 사용한 화자 인증 모델을 제안하였다. RNN 모델에 LSTM 셀을 적용하여 기존 연구에 비해 화자 인증 시 높은 정확도를 나타내는 것을 확인하였다.
Voxceleb1 데이터 셋은 화자의 성별이 균형을 이루고, 다양한 민족과 억양의 음성을 포함하고 있다. 그리고 유튜브에서 업로드된 비디오에서 추출되었으며 채널 소음, 녹음 등의 다른 노이즈 특성이 특정 비율로 혼합되어 있어본 논문이 제안하는 화자 인증 모델에 적합하다.
본 논문에서 제안한 화자 인증 모델은 화자의 음성 데이터에서 손실되는 화자의 음성 특징을 최소화하여 특징을 추출한 후, 화자의 음성 특징을 학습하였기에 높은 정확도를 나타낸다.

후속연구

하지만 화자 인증 시 화자의 음성과 변조된 화자의 음성을 구분하여 화자를 인증하는 것이 힘들다는 한계점과 기존 화자 인증 시스템에 사용자가 추가되거나 삭제될 경우, 변경 사항을 시스템에 적용할 수 없다는 한계점이 있었다. 이러한 한계점은 향후 연구에서 발전시킬 수 있을 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	RNN의 특징은 무엇인가?	RNN은 인공 신경망의 한 종류로, 유닛 간의 연결이 순환적 구조를 갖는 특징을 갖고 있다. 이러한 구조는 시변적 동적 특징을 모델링 할 수 있도록 신경망 내부에 상태를 저장할 수 있게 해준다.
	MFCC 추출 과정은 어떻게 이루어지는가?	과 같다. 우선 음성 신호로부터 매 프레임 단위로 윈도우 함수를 씌운 다음 Discrete Fourier Transform(DFT) 과정을 통해 시간 영역에서 주파수 영역으로 변환시킨다. 그 다음으로 멜 스케일을 가지도록 주파수 축을 변환한 후, 이 스케일에서 동일한 대역폭을 가지는 삼각 필터뱅크를 통해 필터뱅크 별 에너지를 구한다. 여기에 로그 함수를 취한 다음 Discrete Cosine Transform(DCT)를 통해 최종적인 MFCC 값을 구하게 된다.
	STFT란 무엇인가?	STFT란 시간이 지남에 따라 변화하는 신호의 사인파 주파수와 위상 성분을 결정하는 데 사용되는 푸리에 관련 변환이다[6]. STFT는 시간에 따라 변화하는 긴 신호를 짧은 시간 단위로 분할한 다음에 푸리에 변환을 적용하기에 결과적으로 각 시간 구간마다 어떤 주파수들이 존재하는지 알 수 있다.

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증