[논문]채널에 강인한 화자 인식을 위한 채널 정규화 피치 동기 켑스트럼에 관한 연구

김유진; 정재호

문제 정의

모든 실험은 비교를 위해 기존 단구간 분석법과 제안된 피치 동기 분석법에 대해서 각각수행되었으며 또한각분석법 에 의한 음성 특징 추출 알고리즘의 영향을 고찰하기 위해 널리 사용되는 LPCC와 MFOC를 실험, 비교하였다. 다시 말해 실험은 기본적으로 단구간 분석과의 화자 식별 성능을 비교하는 동시에 채널 환경과 음성 특징에 따른 영향을 고찰하기 위해 구성되었다.
따라서 본 논문에서는 좀 더 효과적인 포먼트 성분의 검출 및 채널 켑스트럼의 추정을 위해서 피치 동기 켑스 트럼을 이용하는 개선된 FECMS를 제안하였다. 피치 동 기 켑스트럼과 FBCMS가 결합된 포먼트 평활화 피치 동 기 (Formant-Broadened Pitch Synchronous) CMS는 다음과 같은 효과를 얻을 수 있다.
본 논문에서는 이러한 목적을 이루기 위해 최대피치를 고려한 주요 피치 검출과 세부 피치 검출의 2단계로 구성된 알고리즘을 제안하였다.
본 논문에서는 이러한 목적을 이루기 위해 최대피치를 고려한 주요 피치 검출과 세부 피치 검출의 2단계로 구성된 알고리즘을 제안하였다.
본 논문에서는 화자 인식 에서 새로운 음성 특징을 제안 하기보다는, 기존 단구간 분석이 지닌 한계를 극복하고 음성 특징으로서 켑스트럼의 효과를유지할 수 있는 피치 동기 켑스트럼 추출 방법을 제안하였다. 제안된 추출 방법은 문맥과 화자에 따라 변화하는 피치를 효과적으로 검출하기 위하여 제안된 2단계 피치 검출 알고리즘과 검 출된 피치 구간에 종속적이고 효과적인 켑스트럼 추출하기 위한 방법으로 구성된다.
본 논문에서는 화자 인식 에서 새로운 음성 특징을 제안 하기보다는, 기존 단구간 분석이 지닌 한계를 극복하고 음성 특징으로서 켑스트럼의 효과를유지할 수 있는 피치 동기 켑스트럼 추출 방법을 제안하였다. 제안된 추출 방법은 문맥과 화자에 따라 변화하는 피치를 효과적으로 검출하기 위하여 제안된 2단계 피치 검출 알고리즘과 검 출된 피치 구간에 종속적이고 효과적인 켑스트럼 추출하기 위한 방법으로 구성된다.
본 연구에서는 피치 검출 알고리즘의 정확도에 대한 평가 및 인식 성능의 오차를 줄이려는 목적에서 기존에 제안된 알고리즘 가운데 비교적 적은 연산량으로 정확한 피치 검출이 가능한 방법을 선택하였다. Medan에 의해 제안된 상호 상관도를 이용한 피치 검출 알고리즘은 잡음 환경에서도 다른 방법에 비해 상대적으로 우세한 성능을 나타내었으며, 복잡도의 측면에서도 SIFT방법과 웨이블 릿을 이용한 주파수 분석법에 비해 높지 않아 인식 시스템의 전처리부에 결합되었을 때 연산량을 크게 증가시키 지 않는 것으로 나타났다B6].
피치 동기 분석의 목적은 피치를 정확하게 검출하여 피치에 종속적인 가변 길이의 특징 추출을 위한분석창을 구성하는 것이다. 그러나 일반적으로 피치는 화자 및 문 맥에 따라 최대 25% 정도의 변이를 보이는 것으로 알려졌 으몌16], 묵음 및 무성음 구간에서는 이론적으로 존재하 지 않는다.

가설 설정

지금까지의 화자 인식을 위한 음성 특징 및 분석 방법은 대부분 단구간 (short-time) 분석법에 기반을 두고 있다. 단구간 분석법은 10-30 msec의 짧은 구간의 음성이 비교적 안정된 특성을 보인다고 가정하고 고정된 분석 율과 분석 길이를 적용한다. 따라서 단구간 분석법은 문 맥 또는 화자에 따라 변화하는 피치를 반영하지 못하고, 고정된 길이의 피치를 가정하는 일률적인 분석의 결과를 낳게 된다.
식 (10) 및 (11)2] 계산은 n=nk 인 위치를 기준으로 주요 피치의 변이를 고려하여 4를 변화시키며 수행된다. 본 연구에서는 <5를 5 샘플로 정하였다. 그림 3은 식 (10) 및 (11)의 계산 과정을 나타낸 그림 이다.

제안 방법

3장의 피치 동기 분석 방법의 전개를돕기 위해 간단히 Medan의 피치 검출 알고리즘의 기본적인 수식을 요약하 고자 한다.
따라서 사용된 음성 데이터는 TIMIT과 NTIMIT의 훈련용 데이터이며, 총 8 지역의 여자 56명과 남자 112명으로서 구성된 총 168명에 대해서 각각 10회의 발성들로 구성되어 있다. 각 화자는 2회의 동일한 문장과 8회의 서로 다른 문장을 발성하여 녹음하였으며, 실험에서는 모든 음성을 8 Khz로 다운 샘플링하여 사용하였다. 발성 회수를 변화 시키는 실험을 제외한 기본적인 실험에서 동일한 발성 2회를포함최대 7회의 발성을(168x7= 1176회) 훈련에 사용하였고, 나머지를 (168 x 3 = 504회) 인식에 사용하 였다 [11].
따라서 주요 피치 검출 알고리즘은 20 msec의 최대 피 치의 두 배에 해당하는 40 msec의 구간에 대해서 수행된다. 40 msec의 길이는 전이 구간과함께 안정 구간을 포함 할 수 있는 충분한 길이이므로 비교적 안정된 피치를 검 출할 수 있으며, 항상 최대 피치 20 m昭ec를 고려하므로 피치의 급격한 변화에도 적응할 수 있다.
제안된 추출 방법은 문맥과 화자에 따라 변화하는 피치를 효과적으로 검출하기 위하여 제안된 2단계 피치 검출 알고리즘과 검 출된 피치 구간에 종속적이고 효과적인 켑스트럼 추출하기 위한 방법으로 구성된다. 또한 본 논문에서는 채널 환경에 대한 강인함을 특징에 추가하기 위하여 제안된 피치 동기 켑스트럼과 채널 정규화 방법으로서 개선된 포먼트 평활 화 켑스트랄 평균 차감법 (Formant-Broadened CMS; FBCMS)을 결합하였다.
제안된 추출 방법은 문맥과 화자에 따라 변화하는 피치를 효과적으로 검출하기 위하여 제안된 2단계 피치 검출 알고리즘과 검 출된 피치 구간에 종속적이고 효과적인 켑스트럼 추출하기 위한 방법으로 구성된다. 또한 본 논문에서는 채널 환경에 대한 강인함을 특징에 추가하기 위하여 제안된 피치 동기 켑스트럼과 채널 정규화 방법으로서 개선된 포먼트 평활 화 켑스트랄 평균 차감법 (Formant-Broadened CMS; FBCMS)을 결합하였다.
음성 특징 추출 알고리즘은 LPC기반의 LPCC와 FFT기반 의 MFCC를 사용하였으며 각각 12차 계수를 추출하여 특 징 벡터를 구성하였다. 또한 전화선 환경에서의 강인함 을 비교하기 위해 일반적인 전화선 채널의 통과대역 300~3400 Hz만을 고려한 대역 제한 MFCC를 추출하여 실험에 적용하였다[11].
본 논문에서는 문맥과 화자에 종속적인 피치에 동기된 음성 구간만을 고려한 피치 동기 분석 방법을 제안하고 화자 식별을 통해 성능을 비교하였다. 켑스트럼과 로그 피치를 추가한 켑스트럼을 비교한 실험에서는 분석 방법에 관계없이 피치에 의해 큰 향상을 나타내었다.
식 (3)는 상호 상관도의 계산 구간이 변수 ㈣ 의해 변화되지만, 식 ⑻은 계산 구간이 尸吋로 고정되고 인접된 피치 구간의 중첩 길이가, 에 의해 변화 된다. 본 연구에서는 巳両과 巳吟값을 각각 2.5 msec, 20 msec 로 정하였다. 그림 2는 식 ⑻ 및 ⑼의 계산 과정을 나타낸 그림이다.
그러나 구현 방법의 차이에 의해서 동일한 효과를 얻을 수는 없는 것으로 알려져 있다[17]. 본 연구에서는 다중 피치 분석창을구성하여 가변 길이에 대한 영향을 최소화 하고 불가피한 경우 필터뱅크를 새롭게 적용하였다.
한편 6는 검출된 피치의 신뢰도를 결정하며 동시에 연 속된 피치가 더 이상 나타나지 않는 무성음 구간으로의 전이를 검출하기 위해 사용된다. 본 연구에서는 문턱값 0.4와 비교하여 클 경우 지속적인 유성음 구간으로 판단 하고 검출된 피치를 이용하여 특징 추출을 위한 분석 프 레임을 구성하고, 다음 세부 피치 검출을 위해 们E와 4 를 결정한다. 문턱값보다 낮을 경우 검출 구간은 무성음 구간으로의 전이 구간으로 판단하고 다시 유성음 구간을 찾기 위해 주요 피치 검출 과정으로 돌아간다.
이러한 문 제점은 짧은 피치의 음성에서 더욱 두드러지게 된다. 이러한 문제점들을 해결하기 위해 최대 피치의 2배를 고려한 길이의 구간에서 /七血^左巳睡의 길이인 주요 피치를 검출한다. 따라서 주요 피치 는 다음 식에 의해서 결정된다.
이를 검증하기 위해 피치 동기 분석에서의 특징 추출 분석창의 길이를 단구간 분석과 동일하게 20 msec로 고 정시켜 실험하였다. 이 실험을 통해서 고정 길이 분석창 과 가변 길이 분석창의 FFT 분석에 의한 차이를 고찰할 수 있다.
따라서 FFT기반의 스펙트럼은 물론 UP기반의 스펙트럼 추정이 부정확해지는 문제점이 발 생한다. 이를 해결하기 위해서 분석창의 길이가 지나치 게 짧은 경우 피치 구간을추가함으로써, 이른바 다중 피 치 분석창을 구성하여 보완하였다.
본 논문에서는 화자 인식 에서 새로운 음성 특징을 제안 하기보다는, 기존 단구간 분석이 지닌 한계를 극복하고 음성 특징으로서 켑스트럼의 효과를유지할 수 있는 피치 동기 켑스트럼 추출 방법을 제안하였다. 제안된 추출 방법은 문맥과 화자에 따라 변화하는 피치를 효과적으로 검출하기 위하여 제안된 2단계 피치 검출 알고리즘과 검 출된 피치 구간에 종속적이고 효과적인 켑스트럼 추출하기 위한 방법으로 구성된다. 또한 본 논문에서는 채널 환경에 대한 강인함을 특징에 추가하기 위하여 제안된 피치 동기 켑스트럼과 채널 정규화 방법으로서 개선된 포먼트 평활 화 켑스트랄 평균 차감법 (Formant-Broadened CMS; FBCMS)을 결합하였다.
본 논문에서는 화자 인식 에서 새로운 음성 특징을 제안 하기보다는, 기존 단구간 분석이 지닌 한계를 극복하고 음성 특징으로서 켑스트럼의 효과를유지할 수 있는 피치 동기 켑스트럼 추출 방법을 제안하였다. 제안된 추출 방법은 문맥과 화자에 따라 변화하는 피치를 효과적으로 검출하기 위하여 제안된 2단계 피치 검출 알고리즘과 검 출된 피치 구간에 종속적이고 효과적인 켑스트럼 추출하기 위한 방법으로 구성된다. 또한 본 논문에서는 채널 환경에 대한 강인함을 특징에 추가하기 위하여 제안된 피치 동기 켑스트럼과 채널 정규화 방법으로서 개선된 포먼트 평활 화 켑스트랄 평균 차감법 (Formant-Broadened CMS; FBCMS)을 결합하였다.
제안된 피치 동기 분석 및 특징 추출에 의한화자 인식 성능을 확인하기 위해 TIMIT 데이터베이스와 이를 실제 전화선 채널에 통과시켜 구축된 NTIMIT 데이터베이스를 이용한 문장 독립 폐집단 화자 식별을 수행하였다. 모든 실험은 비교를 위해 기존 단구간 분석법과 제안된 피치 동기 분석법에 대해서 각각수행되었으며 또한각분석법 에 의한 음성 특징 추출 알고리즘의 영향을 고찰하기 위해 널리 사용되는 LPCC와 MFOC를 실험, 비교하였다.
한편 피치에 의한 인식률 향상 및 분석법에 따른 영향을 고찰하기 위해 로그 함수를 거친 피치를 기본 특징 벡터에 추가하여 13차 특징 벡터를 구성하였다. 기존 단 구간 분석에서는 주요 피치로부터 평탄화된 피치를 사용 하였고, 피치 동기 분석에서는 세부 피치를 각각 사용하였다.
그림 7은 2종류의 데이터베이스와 3종류의 음성 특징 에 대해서 12차 기본 특징 벡터와 로그 피치를 추가한 13 차 특징 벡터를 추출하고 화자 식별을 수행한 결과이다. 화자 모델의 훈련과 인식을 위해 각각 7회와 3회의 발성 을 사용하였다. 실험 결과는 기본 12차 음성 특징에 로그 함수를 거친 피치를 추가한 특징 벡터를 사용한 경우 최대 12.
화자 식별을 위한 인식 시스템은 HTK 3.1 을 기반으로 구성되었으며 각 화자 모델은 32개의 독립된 가우시안 분포로 구성된 GMM으로 표현하였다. 화자 모델은 음성 의 레이블 정보를 이용하여 묵음을 제외한음성 구간만을 선택하여 일반적인 EM (Expectation and Maximization) 알고리즘을 통해 훈련되었다.

대상 데이터

훈련 및 인식용 데이터는 신뢰할 수 있는 실험결과를 얻기 위해 기존의 연구결과를 바탕으로 구성되었다. 따라서 사용된 음성 데이터는 TIMIT과 NTIMIT의 훈련용 데이터이며, 총 8 지역의 여자 56명과 남자 112명으로서 구성된 총 168명에 대해서 각각 10회의 발성들로 구성되어 있다. 각 화자는 2회의 동일한 문장과 8회의 서로 다른 문장을 발성하여 녹음하였으며, 실험에서는 모든 음성을 8 Khz로 다운 샘플링하여 사용하였다.
각 화자는 2회의 동일한 문장과 8회의 서로 다른 문장을 발성하여 녹음하였으며, 실험에서는 모든 음성을 8 Khz로 다운 샘플링하여 사용하였다. 발성 회수를 변화 시키는 실험을 제외한 기본적인 실험에서 동일한 발성 2회를포함최대 7회의 발성을(168x7= 1176회) 훈련에 사용하였고, 나머지를 (168 x 3 = 504회) 인식에 사용하 였다 [11].

데이터처리

제안된 피치 동기 분석 및 특징 추출에 의한화자 인식 성능을 확인하기 위해 TIMIT 데이터베이스와 이를 실제 전화선 채널에 통과시켜 구축된 NTIMIT 데이터베이스를 이용한 문장 독립 폐집단 화자 식별을 수행하였다. 모든 실험은 비교를 위해 기존 단구간 분석법과 제안된 피치 동기 분석법에 대해서 각각수행되었으며 또한각분석법 에 의한 음성 특징 추출 알고리즘의 영향을 고찰하기 위해 널리 사용되는 LPCC와 MFOC를 실험, 비교하였다. 다시 말해 실험은 기본적으로 단구간 분석과의 화자 식별 성능을 비교하는 동시에 채널 환경과 음성 특징에 따른 영향을 고찰하기 위해 구성되었다.

이론/모형

한편 피치 동기 분석에서 일부 남자의 경우 두 주기 피치의 조건으로 인해 20 msec 이상의 음성 구간을 포함하는 경우도 발생되었다. 음성 특징 추출 알고리즘은 LPC기반의 LPCC와 FFT기반 의 MFCC를 사용하였으며 각각 12차 계수를 추출하여 특 징 벡터를 구성하였다. 또한 전화선 환경에서의 강인함 을 비교하기 위해 일반적인 전화선 채널의 통과대역 300~3400 Hz만을 고려한 대역 제한 MFCC를 추출하여 실험에 적용하였다[11].
1 을 기반으로 구성되었으며 각 화자 모델은 32개의 독립된 가우시안 분포로 구성된 GMM으로 표현하였다. 화자 모델은 음성 의 레이블 정보를 이용하여 묵음을 제외한음성 구간만을 선택하여 일반적인 EM (Expectation and Maximization) 알고리즘을 통해 훈련되었다.

성능/효과

Medane 유성음 구간의 준 주기적인 패턴, 즉 피치 구 간을 정규화된 상호 상관도에 의한 유사도 모델을 통해 검출할 수 있음을 보여주었다. 음성 신호 s[徃]의 샘플 也= 处°에서 피치 검출을위한인접한길이 /의 음성 신호 X t[n, n이과 ", 力0]는 다음과 같이 정의되며
한편 기존의 CMS의 경우 정규화 과정에서 화자의 정보가 동시에 제거되어 성능을 저하시키고, 이를 보완하기 위해 채널 성분의 추정과정에서 포먼트 성분을 감쇄시키 는 PFCMS, FBPSCMS 등의 정규화 방법이 큰 성능 개선을 나타내는 것으로 확인되었다. 王한 피치 동기분석은 포먼 트성분을감쇄시키는PFCMS와MFBCMS의 처리의 정확도를 향상시키는 것으로 확인되었다. 그러나 FBPSCMS 는 PFCMS에 비해 두드러진 성능 차이를 보이지 못했으며, 이는 충분히 긴 음성의 장구간 평균에 의해 MFBCMS 의 효과가 드러나지 않은 것으로 추정된다.
그림에서 연속된 피치 구간 에 대한 스펙트럼이 변화되는 것으로 나타났으며, 단구 간 스펙트럼은 피치 구간 스펙트라의 평균된 형태인 것으로 나타났다. 결과적으로 단구간 분석에 의한 스펙트럼 은 짧은 음성 구간에서 변화하는 화자의 특징을 효과적으로 추출하지 못하며, 특히 화자의 정보를 많이 포함한 유 성음 구간에서의 포먼트 정보를 정확하게 표현하지 못하는 단점을 확인할 수 있다.
그림에서 연속된 피치 구간 에 대한 스펙트럼이 변화되는 것으로 나타났으며, 단구 간 스펙트럼은 피치 구간 스펙트라의 평균된 형태인 것으로 나타났다. 결과적으로 단구간 분석에 의한 스펙트럼 은 짧은 음성 구간에서 변화하는 화자의 특징을 효과적으로 추출하지 못하며, 특히 화자의 정보를 많이 포함한 유 성음 구간에서의 포먼트 정보를 정확하게 표현하지 못하는 단점을 확인할 수 있다.
또한 2000년에 Ezzadi는 피치 동기 분 석에 의해 포먼트의 포락선과 순시 주파수 (instantaneous frequency)를 추출하였으며, 역시 기존 MFCC와와 결 합하여 성능이 향상됨을 제시하였다. 결과적으로 이들 연구는 피치 동기 분석에 기반을 두어 제안된 특징들이 단구간 분석법에 의한 스펙트랄 포락선을 표현하는 기존 MFCC를 능가하지 못하고, 기존 켑스트럼의 정보가 매우 효과적임을 역설적으로 보여주었다[13, 14].
또한 2000년에 Ezzadi는 피치 동기 분 석에 의해 포먼트의 포락선과 순시 주파수 (instantaneous frequency)를 추출하였으며, 역시 기존 MFCC와와 결 합하여 성능이 향상됨을 제시하였다. 결과적으로 이들 연구는 피치 동기 분석에 기반을 두어 제안된 특징들이 단구간 분석법에 의한 스펙트랄 포락선을 표현하는 기존 MFCC를 능가하지 못하고, 기존 켑스트럼의 정보가 매우 효과적임을 역설적으로 보여주었다[13, 14].
그리고 기존 단 구간 분석과의 비교 실험에서는 남자에 비해 여 자의 결과가 그리고 TIMIT에 비해 NTIMIT의 결과가 우 세한 것으로 나타났다. 결론적으로 피치 동기 분석은 기존 단구간 분석에 비해 화자에 종속적 인 특징을 추출하는 것으로 확인되었으며, 특히 채널 환경에서 감쇄된 피치 정보를 보상해주는 것으로 나타났다.
이것은 채널의 영향으로 감쇄된 스펙트럼을 보상하는 효과에 의한 것으로 판단되며, 기존의 연구 결과와 일치하는 것이라 할 수 있다[3, 13, 14]. 구체적으로 말해 특징 추출을 위한 고정 길이 분석창을 사용하는 단구간 분석은 채널에 의해 성도 모델의 스펙트 럼, 특히 기본 주파수가 일정하게 감쇄되지만, 제안된 피 치 동기 분석 및 특징 구성은 채널의 영향에 의해 감쇄된 피치 정보를 보상하는 것으로 사료된다. 따라서 안정된 피치 검출이 가능하다면 피치에 동기된 분석법은 채널 영향에 민감한 성도의 스펙트럼 정보를 보완할 수 있는 효과를 얻을 수 있는 것으로 사료된다.
구체적으로 말해서, 전체 발성 횟수에 대한 에러 감소 율의 평균에서 LPCC를 사용한 실험은 TIMIT과 NTIMIT 에서 각각 5.7%, 7.7%의 단구간 분석법에 대한 향상을 보여주었다. 상대적으로 TIMIT의 MFCC에 의한 결과는 오히려 기존 단구간분석법에 비해 11.
1995년 Jankowsky는 피치 동기 분석을 바탕으로 포먼트의 '미 세구조 (fine-structure)'를 표현한 포먼트 AM, FM를 제 안하였다. 그러나 제안된 특징만으로는 향상된 결과를 제시하지 못했으며 기존 MFCC와 결합하여 부분적인 향 상을 보여주었다. 또한 2000년에 Ezzadi는 피치 동기 분 석에 의해 포먼트의 포락선과 순시 주파수 (instantaneous frequency)를 추출하였으며, 역시 기존 MFCC와와 결 합하여 성능이 향상됨을 제시하였다.
켑스트럼과 로그 피치를 추가한 켑스트럼을 비교한 실험에서는 분석 방법에 관계없이 피치에 의해 큰 향상을 나타내었다. 그리고 기존 단 구간 분석과의 비교 실험에서는 남자에 비해 여 자의 결과가 그리고 TIMIT에 비해 NTIMIT의 결과가 우 세한 것으로 나타났다. 결론적으로 피치 동기 분석은 기존 단구간 분석에 비해 화자에 종속적 인 특징을 추출하는 것으로 확인되었으며, 특히 채널 환경에서 감쇄된 피치 정보를 보상해주는 것으로 나타났다.
한편 그림 6은 유성음 구간 에서 FBRSCMS에 의한 켑스트럼과 기존 채널 정규화 방법에 의한 스펙트럼을 비교한 것이다. 극점 필터링된 켑 스트럼과 비교할 때, 세 번째 포먼트에서의 감쇄가 두드 러지고 전체적으로 향상된 평탄화 결과를 보이는 것을 확인할 수 있다.
표 2는 훈련을 위한 발성 횟수를 증가시 키 면서 각 데 이 터베이스와 음성 특징에 대해서 피치를 추가한 특징벡터 를 추출하고 화자 식별 실험을 수행한 결과이다. 기존 단 구간 분석과 제안된 피치 동기 분석의 인식률과 함께 성 능 비교를 위해 단구간 분석에 대한 피치 동기 분석의 에 러 감소율을 나타내었다. 실험 결과로부터 피치 동기 분 석에 의한 성능은 LPCC을시용한 NmMIT에서의 실험 결과가 상대적으로 뛰어남을 알 수 있다.
첫째 피치 동기 분석의 유무성음 정보를 이용하여 유성음 구간에서만 포먼트를 평탄화시킴으로써 장구간 평균 켑스트럼에 나타나는 포 먼트 성분에 의한 편향을 효과적으로 감쇄시킬 수 있다. 둘째 피치 동기 분석을 통해 유성음의 성도 모델 추정이 정확해지고, 따라서 포먼트 추정 및 평탄화가 정확해 진 다. 마지막으로 추정된 근의 오류 등으로 인한 불완전한 스펙트럼의 평탄화를 간단한 PFCMS- Z 방법에 의해 보 완할 수 있다.
둘째, 두주기의 피치 구간을 고려할 때, 여자 화자의 경우 최소 5~6.25 msec (40~50 샘플)의 매우 짧은 분석 길이를 가지게 된다. 따라서 FFT기반의 스펙트럼은 물론 UP기반의 스펙트럼 추정이 부정확해지는 문제점이 발 생한다.
둘째, 실제 피치는 짧은 시간 내에서도 변화하므로 연 속된 두 주기의 피치를 고려할 때 변화를 지속적으로 고 려해야 한다. 따라서 두 주기 피치구간의 분석창을 구성 하기 위해서는 두 번째 피치를 검출한 후, 첫 번째 피치와 연결시켜야한다.
기존 단구간 분석은 최대 피치를 고려한 40 msec의 분석창 에서 검출된 주요 피치를 사용하고 일정하게 20 msec의 음성 특징 분석창을 고려하지만, 피치 동기 분석은 인접 한 세부 피치를 검출하고 해당하는 길이에 음성 특징 분 석창을 동기 시키기 때문이다. 따라서 이러한 결과는 제안된 피치 동기 분석이 피치의 민감한 변화를 검출할 수 있고 그에 따라 보다 정확히 성도 모델을 표현함을 보여 준다고 할 수 있다.
이러한 문제에 대한 가장 이상적인 해결책은 이산 푸리에 변환 (DFT; Discrete Fourier TrMsform)을 적용한 후 동일한 해상도로 표본화 (decimation) 하거나 보간 (inter- polation)하는 것이지만 연산량이 크게 증가하는 단점이 있다(2). 또한 LPC기반의 분석에서 쌍일차 (bilinear) 변 환을 적용한 Mel-LP 켑스트럼을 사용함으로써, FFT를 사용하지 않고 Mel 주파수 분석의 효과를 거둘 수 있다. 그러나 구현 방법의 차이에 의해서 동일한 효과를 얻을 수는 없는 것으로 알려져 있다[17].
또한 모든 실험에서 LPOC의 결과가 뛰어난 향상을 보인 반면, FFT 기반의 MFCC는 피치 정보를 포함하는 장점을 가졌지만 채널 잡음의 영향에 매우 민감한 것으로 나타났다. 채널의 통과대역만을 고려한 MFCC의 경우 채널 잡음과 함께 피치 정보도 감쇄되므로 성능이 저하되는 것으로 나타났다.
표 2의 결과에서 TIMIT과 NTIMIT의 에러 감소율 평균 을 비교호].면, LPCC, MFCC 그리고 BLMF의 결과가 각각 2%, 12.3% 그리고 15.6% 씩 높게 나타남으로써, 채널 환 경에서 로그 피치 및 피치 동기 분석에 의한 향상이 두드 러진 것을 알 수 있다. 이것은 채널의 영향으로 감쇄된 스펙트럼을 보상하는 효과에 의한 것으로 판단되며, 기존의 연구 결과와 일치하는 것이라 할 수 있다[3, 13, 14].
유무성음 구간의 판단은 정규화된 상호 상관도값 a에 따라 결정된다. 본 연구에서는 문턱값 0.55와 비교하여 낮을 경우 검출된 피치는 무성음 구간에서 검출된 것으로 판단하였다. 문턱값보다 클 경우 유성음 구간으로 판단 하고 검출된 피치를 이용하여 세부 피치를 검출한다.
7%의 단구간 분석법에 대한 향상을 보여주었다. 상대적으로 TIMIT의 MFCC에 의한 결과는 오히려 기존 단구간분석법에 비해 11.3% 저하되는 것으로 나타났다. 이는 4.
셋째, 화자 인식을 위한 대표적인 특징인 켑스트럼은 L死에 의한 전극점 모델로부터 유도되는 LPCG와 FFT기 반의 로그 스펙트럼으로부터 유도되는 MFCC으로 나눌 수 있다. 가변 길이 분석창에 의해서 LPC 기반의 LPCC는 큰 변화가 없지만, MFW는 가변 길이에 따라FFT의 크기가 변화하고, 그에 따른 필터뱅크가 바뀌어야한다.
화자 모델의 훈련과 인식을 위해 각각 7회와 3회의 발성 을 사용하였다. 실험 결과는 기본 12차 음성 특징에 로그 함수를 거친 피치를 추가한 특징 벡터를 사용한 경우 최대 12.2%의 에러 감소율을보여주었다. 이는 알려진 대로 피치가 화자 고유의 정보를 포함하는 중요한 특징임을 보여주는 결과라고 할 수 있다.
기존 단 구간 분석과 제안된 피치 동기 분석의 인식률과 함께 성 능 비교를 위해 단구간 분석에 대한 피치 동기 분석의 에 러 감소율을 나타내었다. 실험 결과로부터 피치 동기 분 석에 의한 성능은 LPCC을시용한 NmMIT에서의 실험 결과가 상대적으로 뛰어남을 알 수 있다.
실험 결과에 의해 기존 CMS는 채널 정규화 이후 오히려 인식률이 낮아지는 것으로 나타났으며, 이는 화자의 정보가 함께 제거되었음을 보여주는 결과로 사료된다. 한편 단구간 분석에 비해 피치 동기 분석에 적용된 채널 정규화방법이 거의 모든 7값에 대해서 우세한 것으로 나타났다.
무성음인 경우 켑스트럼에 직접 적용하는 스펙트럼 평탄화 과정만을 수 행하므로 기존 FBCC에 비해서 연산량이 크게 감소된다. 유성음 구간에서는 기존 F能8의 과정을 거친 후, 스펙트 럼 평탄화를 통해서 포먼트 검출 오류에 의한 부정확성을 줄이는 효과를 얻을 수 있다. 한편 그림 6은 유성음 구간 에서 FBRSCMS에 의한 켑스트럼과 기존 채널 정규화 방법에 의한 스펙트럼을 비교한 것이다.
또한 음성 특징에 따른 차이는 FFT기반의 MFCC가 화 자의 피치 정보, 즉 기본 주파수, 를 포함하기 때문에 피치 추가 후에 LPCC에 비해 상대적으로 적은 향상을 보이는 것으로 판단된다. 이는 피치를 추가하기전의 에러 율에서 MPCC가 LTOC에 비해 TIMIT에서 분석법에 따라 각각 최대 1.7%, 1.5% 낮은 것을 통해 확인할 수 있다. 그러나 NITMIT에서는 MFCC의 에러율이 오히려 높게 나 타난다.
채널의 통과대역만을 고려한 MFCC의 경우 채널 잡음과 함께 피치 정보도 감쇄되므로 성능이 저하되는 것으로 나타났다. 전체적으로 로그 피치와 결합된 LPCC 는 피치 동기 분석에 가장 적합한 음성 특징으로 판단된다.
정규화된 상호 상관도 및 피치 검출 Medan은 유성음 구간의 준 주기적인 패턴, 즉 피치 구 간을 정규화된 상호 상관도에 의한 유사도 모델을 통해 검출할 수 있음을 보여주었다.
또한 모든 실험에서 LPOC의 결과가 뛰어난 향상을 보인 반면, FFT 기반의 MFCC는 피치 정보를 포함하는 장점을 가졌지만 채널 잡음의 영향에 매우 민감한 것으로 나타났다. 채널의 통과대역만을 고려한 MFCC의 경우 채널 잡음과 함께 피치 정보도 감쇄되므로 성능이 저하되는 것으로 나타났다. 전체적으로 로그 피치와 결합된 LPCC 는 피치 동기 분석에 가장 적합한 음성 특징으로 판단된다.
피치 동 기 켑스트럼과 FBCMS가 결합된 포먼트 평활화 피치 동 기 (Formant-Broadened Pitch Synchronous) CMS는 다음과 같은 효과를 얻을 수 있다. 첫째 피치 동기 분석의 유무성음 정보를 이용하여 유성음 구간에서만 포먼트를 평탄화시킴으로써 장구간 평균 켑스트럼에 나타나는 포 먼트 성분에 의한 편향을 효과적으로 감쇄시킬 수 있다. 둘째 피치 동기 분석을 통해 유성음의 성도 모델 추정이 정확해지고, 따라서 포먼트 추정 및 평탄화가 정확해 진 다.
첫째, 분석창의 길이가 가변적이므로 창함수는 항상 새롭게 적용되어야 하며, 분석창의 이동률 또한 가변적 이므로 동일한 길이의 음성 신호로부터 다른 길이의 특징 벡터가 구성된다. 따라서 동일한 문장을 동일한 길이로 발성해도 피치 변화에 따라 특징 벡터의 길이가 달라질 수 있다.
피치 추가 후의 에러 감소율을 나타낸 표 1의 결과에 의하면, NTIMIT보다는 TIMIT, MFOC보다는 LPCC 그리고 기존 단구간 분석법보다는 피치 동기 분석법에서의 향상 정도가 상대적으로 큰 것으로 나타났다.
한편 유성음 구간에 대해서 극점 필터링 처리를 추가 한 FBPSCMS는 PFCMS에 비해 두드러진 향상을 보이지 않았다. 하지만 4차 다항식으로 표현한 추세선에서 나타 나듯이 PFCMS에 비해 안정된 성능을 나타내었다.
7%로 오히려 큰 폭으로 감소함을 볼 수 있다. 한편 NEMIT에서는 분석창 길이의 변화가 큰 영향을 미치지 않는 것으로 나타났으며, 결론적으로 제안된 피 치 동기 분석은 FFT기반의 MFOC보다는 LPC기반의 LPCC에 적합한 것으로 사료된다.
한편 기존의 CMS의 경우 정규화 과정에서 화자의 정보가 동시에 제거되어 성능을 저하시키고, 이를 보완하기 위해 채널 성분의 추정과정에서 포먼트 성분을 감쇄시키 는 PFCMS, FBPSCMS 등의 정규화 방법이 큰 성능 개선을 나타내는 것으로 확인되었다. 王한 피치 동기분석은 포먼 트성분을감쇄시키는PFCMS와MFBCMS의 처리의 정확도를 향상시키는 것으로 확인되었다.
실험 결과에 의해 기존 CMS는 채널 정규화 이후 오히려 인식률이 낮아지는 것으로 나타났으며, 이는 화자의 정보가 함께 제거되었음을 보여주는 결과로 사료된다. 한편 단구간 분석에 비해 피치 동기 분석에 적용된 채널 정규화방법이 거의 모든 7값에 대해서 우세한 것으로 나타났다. 이는 피치 동기 분석이 유성음과 무성음 그리고 전 이구간 등을 구별하여 처 리하고, 결과적으로 성도 스펙트 럼을 정확하게 표현하기 때문에 PFCMS 및 FBPSCMS의 포먼트를 감쇄시키는 처리가 정확해지는 것으로 사료된다.
이는 피치 동기 분석이 유성음과 무성음 그리고 전 이구간 등을 구별하여 처 리하고, 결과적으로 성도 스펙트 럼을 정확하게 표현하기 때문에 PFCMS 및 FBPSCMS의 포먼트를 감쇄시키는 처리가 정확해지는 것으로 사료된다. 한편 유성음 구간에 대해서 극점 필터링 처리를 추가 한 FBPSCMS는 PFCMS에 비해 두드러진 향상을 보이지 않았다. 하지만 4차 다항식으로 표현한 추세선에서 나타 나듯이 PFCMS에 비해 안정된 성능을 나타내었다.

후속연구

구체적으로 말해 특징 추출을 위한 고정 길이 분석창을 사용하는 단구간 분석은 채널에 의해 성도 모델의 스펙트 럼, 특히 기본 주파수가 일정하게 감쇄되지만, 제안된 피 치 동기 분석 및 특징 구성은 채널의 영향에 의해 감쇄된 피치 정보를 보상하는 것으로 사료된다. 따라서 안정된 피치 검출이 가능하다면 피치에 동기된 분석법은 채널 영향에 민감한 성도의 스펙트럼 정보를 보완할 수 있는 효과를 얻을 수 있는 것으로 사료된다.
마지막으로 피치 추가 후 기존 단구간 분석에 비해 피 치 동기 분석의 성능 향상이 큰 이유는 추가된 피치와음성 특징 분석창의 동기 여부에 의한 것으로 판단된다. 기존 단구간 분석은 최대 피치를 고려한 40 msec의 분석창 에서 검출된 주요 피치를 사용하고 일정하게 20 msec의 음성 특징 분석창을 고려하지만, 피치 동기 분석은 인접 한 세부 피치를 검출하고 해당하는 길이에 음성 특징 분 석창을 동기 시키기 때문이다.
따라서 짧은 음성 또는 실시간 채널 정규화 방법에서의 효과를 고찰할 필요가 있는 것으로 판단된다. 앞으로 화자확인 실험에 적용하여 성능을 검증하고, 잡음 환경에서의 성능 향상을 위한 피치 동기 분석 방법을 연구할 예정이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

채널에 강인한 화자 인식을 위한 채널 정규화 피치 동기 켑스트럼에 관한 연구
A Study on the Channel Normalized Pitch Synchronous Cepstrum for Speaker Recognition 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

채널에 강인한 화자 인식을 위한 채널 정규화 피치 동기 켑스트럼에 관한 연구 A Study on the Channel Normalized Pitch Synchronous Cepstrum for Speaker Recognition 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

김유진 (7) 정재호 (30)

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

채널에 강인한 화자 인식을 위한 채널 정규화 피치 동기 켑스트럼에 관한 연구
A Study on the Channel Normalized Pitch Synchronous Cepstrum for Speaker Recognition 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper