[논문]화자인식을 위한 주파수 워핑 기반 특징 및 주파수-시간 특징 평가

최영호; 반성민; 김경화; 김형순

doi:10.13064/ksss.2015.7.1.003

화자인식을 위한 주파수 워핑 기반 특징 및 주파수-시간 특징 평가
Evaluation of Frequency Warping Based Features and Spectro-Temporal Features for Speaker Recognition 원문보기

말소리와 음성과학 = Phonetics and speech sciences, v.7 no.1, 2015년, pp.3 - 10

최영호 (부산대학교) , 반성민 (부산대학교) , 김경화 (대검찰청 음성분석실) , 김형순 (부산대학교)

Abstract ▼ AI-Helper

In this paper, different frequency scales in cepstral feature extraction are evaluated for the text-independent speaker recognition. To this end, mel-frequency cepstral coefficients (MFCCs), linear frequency cepstral coefficients (LFCCs), and bilinear warped frequency cepstral coefficients (BWFCCs) are applied to the speaker recognition experiment. In addition, the spectro-temporal features extracted by the cepstral-time matrix (CTM) are examined as an alternative to the delta and delta-delta features. Experiments on the NIST speaker recognition evaluation (SRE) 2004 task are carried out using the Gaussian mixture model-universal background model (GMM-UBM) method and the joint factor analysis (JFA) method, both based on the ALIZE 3.0 toolkit. Experimental results using both the methods show that BWFCC with appropriate warping factor yields better performance than MFCC and LFCC. It is also shown that the feature set including the spectro-temporal information based on the CTM outperforms the conventional feature set including the delta and delta-delta features.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

실제로 화자별 성도 길이에 따른 화자 특성 차이는 저주파 영역보다 고주파 영역에서 더 강조되는 특성이 있기 때문에, 모든 주파수를 동일하게 대우하는 linear frequency cepstral coefficient(LFCC)가 MFCC보다 화자인식에 더 적합할수 있다[7]. MFCC와 LFCC 이외에 다른 주파수 스케일을 가지는 켑스트럼 특징을 통해 화자인식 성능을 추가적으로 향상시킬 수 있는지 확인하기 위하여, 본 논문에서는 bilinear 변환을 통해 주파수 워핑(warping)을 거친 bilinear warped frequency cepstral coefficient(BWFCC)를 도입해서 화자인식 성능을 비교 평가하도록 한다.
그러나 화자인식에 MFCC보다 LFCC가 유리할 수 있는 개연성은 충분히 높고, 일부 화자인식 실험에서 LFCC가 MFCC보다 성능 면에서 우수하다는 결과들도 보고되고 있다 [7]. 따라서 본 논문에서는 MFCC와 LFCC를 포함하여 다양한 주파수 스케일에 대한 화자인식 실험을 통해 이들의 성능을 비교해 보기로 한다.
Bilinear 변환에 따른 주파수 워핑을 화자인식 연구에 적용한 기존의 사례에서는 단지 5명의 화자로부터 구한 3개의 모음만으로 화자인식 실험을 수행하였다[14]. 따라서 본 연구에서는 보다 큰 규모의 데이터를 통해 주파수 스케일에 따른 화자인식 성능을 평가하고자 한다.
화자인식에 효과적인 주파수 스케일을 찾기 위해서 본 연구에서는 bilinear 변환을 사용하여 다양한 주파수 워핑을 구현하고 이에 따른 켑스트럼 특징을 BWFCC라고 명명하였다.

제안 방법

특징 추출 후 에너지 기반의 음성검출(voice activity detection(VAD))을 적용하여 음성구간에 대해서만 화자인식 실험에 사용하였으며, 채널 왜곡을 보상하기 위해서 cepstral mean variance normalization(CMVN)을 적용하였다. 또한 추가 적으로 화자인식 성능을 향상시키기 위해서 주파수-시간 특징을 켑스트럼-시간 행렬을 이용하여 추출한 후 기존에 주파수-시간 특징으로 사용했던 delta 특징을 대신해서 사용하여 화자 인식 성능을 평가하였다.
본 논문에서는 기존의 화자인식에서 주로 사용된 특징인 MFCC와 모든 주파수를 동일하게 대우하는 LFCC, 그리고 bilinear 변환을 이용하여 warping factor에 따른 주파수 워핑을 적용한 BWFCC를 추출하여 화자인식 성능평가를 실시하였고, 또한 켑스트럼-시간 행렬을 이용한 주파수-시간 특징을 추출하여 켑스트럼 계수들의 delta 및 delta-delta 특징을 대신해서 사용하여 화자인식 성능을 평가하였다.
본 논문에서는 켑스트럼-시간 행렬을 이용하여 추출한 주파수-시간 특징을 MFCC와 같은 정적(static) 특징과 함께 사용하여 화자인식을 수행함으로써 TDCT 특징의 차원 수가 큰 문제점을 보완한다. 켑스트럼-시간 행렬은 2L + 1크기의 연속적인 정적 특징 벡터들에 DCT를 적용하여 다음 식과 같이 구한다 [10].
이 실험에 앞서 우선 GMM-UBM 방식에서 MFCC에 대한 TDCT 특징(180 차원), MFCC + delta + delta-delta 특징(60차원), 본 논문에서 제안하는 MFCC + CTM 특징(60차원), 그리고 참고문헌 [15]와같이 CTM만을 이용하는 특징(60차원)에 대해서 화자인식 성능비교를 수행하였고, 인식성능을 EER로 표현한 결과를 <표 3>에 나타내었다.
4까지를 사용한 BWFCC 특징들을 사용하였다. 이 특징들은 25 ms 크기의 Hamming 윈도우를 씌운 음성 프레임을 10 ms씩 이동시키면서 추출하였고, 추출된 켑스트럼 특징벡터는 에너지 정보를 포함한 20차 특징에 delta 와 delta-delta 특징을 추가하여 총 60차의 특징벡터로 구성하였다. 특징 추출 후 에너지 기반의 음성검출(voice activity detection(VAD))을 적용하여 음성구간에 대해서만 화자인식 실험에 사용하였으며, 채널 왜곡을 보상하기 위해서 cepstral mean variance normalization(CMVN)을 적용하였다.
주파수-시간 특징에 따른 화자인식 실험에서는 MFCC, LFCC, BWFCC의 정적인 특징 20차와 켑스트럼-시간 행렬 (CTM)을 통해 추출한 주파수-시간 특징 40차를 합한 총 60차 특징과 기존 방식인 MFCC, LFCC, BWFCC의 정적인 특징 20차에 delta 및 delta-delta 특징 40차를 합한 총 60차 특징을 사용하여 화자인식 성능평가를 수행하였다. GMM-UBM 방식에 서는 앞선 실험에서 성능이 가장 우수했던 스코어 정규화 방식인 t-norm을 적용하였고, JFA 방식에서는 역시 앞선 실험에서 성능이 가장 우수했던 z-norm을 적용하였다.
화자인식 실험에는 MFCC, LFCC, 그리고 warping factor 값을 0.1 간격으로 -0.1에서 +0.4까지를 사용한 BWFCC 특징들을 사용하였다. 이 특징들은 25 ms 크기의 Hamming 윈도우를 씌운 음성 프레임을 10 ms씩 이동시키면서 추출하였고, 추출된 켑스트럼 특징벡터는 에너지 정보를 포함한 20차 특징에 delta 와 delta-delta 특징을 추가하여 총 60차의 특징벡터로 구성하였다.

대상 데이터

그 중에서 화자모델 훈련에는 약 5분 길이의 발화 616개를 사용하였고, 테스트에는 약 5분 길이의 발화 1174개를 사용하였다.
그 중에서 화자모델 훈련에는 약 5분 길이의 발화 616개를 사용하였고, 테스트에는 약 5분 길이의 발화 1174개를 사용하였다. 또한 UBM 훈련용 DB로는 기존의 NIST SRE 2004 평가와는 달리 mixer 6 DB[18]를 사용하였으며, 그중 GMM-UBM 방식의 화자인식에서는 약 10분 길이의 발화 500개를 사용하였고, JFA 방식의 화자인식에서는 약 10분 길이의 발화 1500개를 사용하여 1024개의 혼합(mixture) 수를 가지는 UBM을 구성하였다.
0을 사용하였다[16]. 평가용 DB로는 미국 National Institute of Standard and Technology(NIST)의 speaker recognition evaluation(SRE) 2004 DB[17] 중 301 명 화자로 구성된 핵심 테스트(core test)용 DB를 사용하였다. 그 중에서 화자모델 훈련에는 약 5분 길이의 발화 616개를 사용하였고, 테스트에는 약 5분 길이의 발화 1174개를 사용하였다.

이론/모형

주파수-시간 특징에 따른 화자인식 실험에서는 MFCC, LFCC, BWFCC의 정적인 특징 20차와 켑스트럼-시간 행렬 (CTM)을 통해 추출한 주파수-시간 특징 40차를 합한 총 60차 특징과 기존 방식인 MFCC, LFCC, BWFCC의 정적인 특징 20차에 delta 및 delta-delta 특징 40차를 합한 총 60차 특징을 사용하여 화자인식 성능평가를 수행하였다. GMM-UBM 방식에 서는 앞선 실험에서 성능이 가장 우수했던 스코어 정규화 방식인 t-norm을 적용하였고, JFA 방식에서는 역시 앞선 실험에서 성능이 가장 우수했던 z-norm을 적용하였다. 이 실험에 앞서 우선 GMM-UBM 방식에서 MFCC에 대한 TDCT 특징(180 차원), MFCC + delta + delta-delta 특징(60차원), 본 논문에서 제안하는 MFCC + CTM 특징(60차원), 그리고 참고문헌 [15]와같이 CTM만을 이용하는 특징(60차원)에 대해서 화자인식 성능비교를 수행하였고, 인식성능을 EER로 표현한 결과를 <표 3>에 나타내었다.
이는 음성 특징의 각 차원별 시간열을 discrete cosine transform (DCT)를 통해 표현하는 방법인데, delta 특징들의 시간열마저도 DCT로 표현하다 보니 추출되는 특징의 차원수가 많아지고 정보의 중복에 의한 비효율성 문제가 있다. 본 논문에서는 TDCT의 단점을 극복하기 위해, 정적인 켑스트럼의 시간열에 대해서만 DCT를 통해 동적인 특성을 표현하는 방법으로 켑스트럼-시간 행렬(cepstral-time matrix (CTM))을 사용하였다[10].
본 논문에서는 기존에 화자인식에서 널리 사용되는 GMM-UBM 방식과 최신의 화자인식 방식 중 하나인 JFA 방식을 사용하여 화자인식 실험을 수행하였으며, 이들 두 방식 모두 화자인식용 open-source toolkit인 ALIZE 3.0을 사용하였다[16].
성능평가 척도로는 사칭자를 등록자로 잘못 인식하는 오검출율(false alarm probability)과 등록자를 사칭자로 잘못 인식하는 누락율(miss probability)의 trade-off 관계를 표현하는 receiver operating characteristics(ROC) 곡선에서 이들 두 확률이 동일한 값을 가질 때의 오류확률인 equal error rate(EER)을 측정하여 사용하였다.
이 특징들은 25 ms 크기의 Hamming 윈도우를 씌운 음성 프레임을 10 ms씩 이동시키면서 추출하였고, 추출된 켑스트럼 특징벡터는 에너지 정보를 포함한 20차 특징에 delta 와 delta-delta 특징을 추가하여 총 60차의 특징벡터로 구성하였다. 특징 추출 후 에너지 기반의 음성검출(voice activity detection(VAD))을 적용하여 음성구간에 대해서만 화자인식 실험에 사용하였으며, 채널 왜곡을 보상하기 위해서 cepstral mean variance normalization(CMVN)을 적용하였다. 또한 추가 적으로 화자인식 성능을 향상시키기 위해서 주파수-시간 특징을 켑스트럼-시간 행렬을 이용하여 추출한 후 기존에 주파수-시간 특징으로 사용했던 delta 특징을 대신해서 사용하여 화자 인식 성능을 평가하였다.

성능/효과

GMM-UBM 방식에서 정규화 방식으로 t-norm을 사용하고, warping factor가 0.1일 때의 BWFCC + CTM 특징이 12.07%의 EER로 가장 좋은 성능을 나타내었고, JFA 방식에서는 정규화 방식으로 z-norm을 사용하고 warping factor가 0.1일 때의 BWFCC + CTM 특징이 9.26%의 EER로 가장 좋은 성능을 나타내었다.
GMM-UBM 방식에서 주파수 워핑 기반 특징에 따른 화자 인식 성능을 EER로 표현한 결과는 <표 1>과 같고, JFA 방식에서의 결과는 <표 2>와 같다. GMM-UBM 방식에서의 실험 결과를 보면 일관성 있게 기존에 화자인식에 널리 사용되는 MFCC보다 LFCC의 성능이 우수함을 확인할 수 있고, 주파수 스케일을 적절히 워핑한 BWFCC가 LFCC보다도 더 나은 성능을 나타내는 것을 알 수 있다. 그 중에서도 정규화 방식으로 t-norm을 사용하고, warping factor가 0.
57%의 EER로 가장 우수한 성능을 나타내었다. JFA 방식에서의 실험결과를 보면 GMM-UBM 방식보다 화자인식 성능이 더 우수한 것을 볼 수 있고, GMM-UBM 방식에서와는 달리 MFCC가 LFCC보다 성능이 우수하지만, 주파수 스케일을 적절히 워핑한 BWFCC가 가장 우수한 성능을 나타낸다는 점은 동일하였다. JFA 방식의 경우 정규화 방식으로 z-norm을 사용하고, warping factor가 0.
JFA 방식의 경우 정규화 방식으로 z-norm을 사용하고, warping factor가 0.2일 때의 BWFCC의 성능이 9.64%의 EER로 가장 우수한 성능을 나타내었다.
NIST SRE 2004 DB를 이용한 실험 결과, MFCC와 LFCC보다 주파수 스케일을 적절히 워핑한 BWFCC가 더 우수한 화자 인식 성능을 나타내는 것을 확인하였고, 또한 켑스트럼-시간 행렬을 통해 추출한 주파수-시간 특징을 사용함으로써 delta 및 delta-delta 특징을 사용할 때 보다 화자인식 성능이 향상되는 것을 확인할 수 있었다.
GMM-UBM 방식에서의 실험 결과를 보면 일관성 있게 기존에 화자인식에 널리 사용되는 MFCC보다 LFCC의 성능이 우수함을 확인할 수 있고, 주파수 스케일을 적절히 워핑한 BWFCC가 LFCC보다도 더 나은 성능을 나타내는 것을 알 수 있다. 그 중에서도 정규화 방식으로 t-norm을 사용하고, warping factor가 0.1인 BWFCC의 성능이 12.57%의 EER로 가장 우수한 성능을 나타내었다. JFA 방식에서의 실험결과를 보면 GMM-UBM 방식보다 화자인식 성능이 더 우수한 것을 볼 수 있고, GMM-UBM 방식에서와는 달리 MFCC가 LFCC보다 성능이 우수하지만, 주파수 스케일을 적절히 워핑한 BWFCC가 가장 우수한 성능을 나타낸다는 점은 동일하였다.
이 실험에 앞서 우선 GMM-UBM 방식에서 MFCC에 대한 TDCT 특징(180 차원), MFCC + delta + delta-delta 특징(60차원), 본 논문에서 제안하는 MFCC + CTM 특징(60차원), 그리고 참고문헌 [15]와같이 CTM만을 이용하는 특징(60차원)에 대해서 화자인식 성능비교를 수행하였고, 인식성능을 EER로 표현한 결과를 <표 3>에 나타내었다. 실험 결과 TDCT 특징은 MFCC + delta + delta-delta 특징 및 MFCC + CTM 특징과 비교해서 차원 수는 더 많음에도 불구하고 성능은 오히려 저조함을 확인할 수 있었고, CTM 특징만을 사용했을 경우에는 MFCC + delta + delta-delta 특징보다 정규화 이전(No norm.)에는 약간 우수하나 t-norm 적용시 오히려 성능이 약간 떨어지는 것을 확인할 수있다. 이에 따라 이후 실험에서는 TDCT 특징과 CTM 특징만을 사용하는 경우는 제외하였다.
GMM-UBM 방식에서 주파수-시간 특징에 따른 화자인식 성능을 EER로 표현한 결과는 <표 4>와 같고, JFA 방식의 결과는 <표 5>와 같다. 실험 결과 두 방식 모두에서 기존 주파수-시간 특징으로 사용한 delta 특징보다 켑스트럼-시간 행렬을 통해 추출한 주파수-시간 특징을 사용했을 때 성능이 일관성 있게 더 우수하게 나옴을 확인할 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	문장독립 화자인식에 사용되는 인식 방식에는 무엇이 있는가?	문장독립 화자인식에 사용되는 인식 방식으로는 Gaussian mixture model-universal background model(GMM-UBM) 방식[2], support vector machine(SVM) 방식[3], joint factor analysis(JFA) 방식[4], 그리고 i-vector 방식[5] 등이 있다. 이들 방식 모두 화자 특성을 잘 표현해 주는 특징 추출 과정을 필요로 한다.
	화자인 식은 어떻게 분류할 수 있는가?	화자인식은 음성으로부터 발성 화자가 누구인지 인식하는 기술을 말하며, 범죄과학수사, PC 및 스마트폰 보안 소프트웨어, 출입통제 시스템 등 여러 분야에서 사용되고 있다. 화자인 식은 입력 음성이 등록된 화자의 음성인지를 확인하는 화자확인(speaker verification)과 다수의 등록자 중 누구의 음성인지를 판단하는 화자식별(speaker identification)의 두 가지 부류로 크게 구분된다. 또한 발성 내용에 따라, 정해진 구문의 발성을 대상으로 하는 문장종속(text-dependent) 화자인식과 자유롭게 아무 말을 하더라도 인식이 가능한 문장독립(text-independent) 화자인식으로 나눌 수 있다.
	화자인식및 음성인식에서 temporal discrete cosine transform의 문제점은 무엇인가?	Delta 특징 이외에 음성의 주파수-시간 특성을 보다 잘 표현해 주고자 하는 시도들 중에 temporal discrete cosine transform(TDCT) 방법이 있다[9]. 이는 음성 특징의 각 차원별 시간열을 discrete cosine transform (DCT)를 통해 표현하는 방법인데, delta 특징들의 시간열마저도 DCT로 표현하다 보니 추출되는 특징의 차원수가 많아지고 정보의 중복에 의한 비효율성 문제가 있다. 본 논문에서는 TDCT의 단점을 극복하기 위해, 정적인 켑스트럼의 시간열에 대해서만 DCT를 통해 동적인 특성을 표현하는 방법으로 켑스트럼-시간 행렬(cepstral-time matrix (CTM))을 사용하였다[10].

참고문헌 (18)

Kinnunen, T. & Li, H. (2010). An overview of text-independent speaker recognition: From features to supervectors. Speech Commun, Vol. 52, No. 1, 12-40.

상세보기
Reynolds, D., Quatieri, T., Dunn, R. (2000). Speaker verification using adapted gaussian mixture models. Digital Signal Process, Vol. 10, No. 1, 19-41.

상세보기
Campbell, W., Campbell, J., Reynolds, D., Singer, E., Torres-Carrasquillo, P. (2006). Support vector machines for speaker and language recognition. Computer Speech & Language, Vol. 20, No. 2-3, 210-229.

상세보기
Kenny, P. (2006). Joint factor analysis of speaker and session variability: Theory and algorithms. http://www.crim.ca/perso/patrick.kenny/
Senoussaoui, M., Kenny, P., Dehak, N., Dumouchel, P. (2010). An i-vector extractor suitable for speaker recognition with both microphone and telephone speech. Proc. Odyssey Speaker and Language Recognition Workshop, 28-33.
Davis, S., Mermelstein, P. (1980). Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. IEEE Trans. Acoustics, Speech Signal Process, Vol. 28, No. 4, 357-366.

상세보기
Zhou, X., Garcia-Romero, D., Duraiswami, R., Espy-Wilson, C., Shamma, S. (2011). Linear versus mel frequency cepstral coefficients for speaker recognition. Proc. ASRU Workshop, 559-564.
Furui, S. (1981). Cepstral analysis technique for automatic speaker verification. IEEE Trans. Acoustics, Speech Signal Process, Vol. 29, No. 2, 254-272.

상세보기
Kinnunen, T., Koh, C., Wang, L., Li, H., Chng, E. (2006). Temporal discrete cosine transform: Towards longer term temporal features for speaker verification. Proc. ISCSLP, 547-558.
Milner, B. P., Vaseghi, S. V. (1995). An analysis of cepstral-time feature matrices for noise and channel robust speech recognition. Proc. Eurospeech, 519-522.
Stevens, S., Volkman, J., Newman, E. B. (1937). A scale for the measurement of the psychological magnitude pitch. Journal of the Acoustical Society of America, Vol. 8, No. 3, 185-190.

상세보기
Wolfel, M., McDonough, J., Waibel, A. (2003). Warping and scaling of the minimum variance distortionless response. Proc. ASRU Workshop, 387-392.
Choi, Y. H., Ban, S. M., Lee, G. H., Kim, K. H. Kim, H. S. (2014). Performance comparison of different frequency scales in feature extraction for speaker recognition. Proceedings of 2014 Fall Conference of Korean Society of Speech Sciences, 195-196. (최영호, 반성민, 이가희, 김경화, 김형순 (2014). 화자인식 특징추출을 위한 주파수 스케일 성능 비교. 2014 한국음성학회 가을 학술대회 발표 논문집, 195-196.)
Kumar, P., Rao, P. (2004). A study of frequency-scale warping for speaker recognition. Proc. NCC 2004, 203-207.
Zhang, W. Q., Deng, Y., He, L., Liu, J. (2010). Variant time-frequency cepstral features for speaker recognition. Proc. Interspeech, 2122-2125.
Larcher, A., Bonastre, J. F., Fauve, B., Lee, K. A., Levy, C., Li, H., Mason, J. S., Parfait, J. Y. (2013). ALIZE 3.0 - open source toolkit for state-of-the-art speaker recognition. Proc. Interspeech, 2768-2773.
The evaluation plan of NIST 2004 speaker recognition evaluation campaign. http://www.itl.nist.gov/iad/mig/tests/spk/2004/SRE-04_evalplan-v1a.pdf.
Brandschain, L., Graff, D., Cieri, C., Walker, K., Caruso, C., Neely, A. (2010). The mixer 6 corpus: Resources for cross-channel and text independent speaker recognition. Proc. LREC 2010, 2441-2444.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증