음성은 특성에 따라 고음성분이 강한 음성과 저음성분이 강한 음성으로 구분할 수 있다. 그러나 이제까지 음성인식의 연구에 있어서는 이러한 특성을 고려하지 않고, 인식기를 구성함으로써 상대적으로 낮은 인식률과 인식모델을 구성할 때 많은 데이터를 필요로 하고 있다. 본 논문에서는 화자의 이러한 특성을 포만트 주파수를 이용하여 구분할 수 있는 방법을 제안하고, 화자음성의 고음과 저음특성을 반영하여 인식모델을 구성한 후 인식하는 방법을 제안한다. 한국어에서 가능한 47개의 모노폰을 이용하여 인식모델을 구성하였으며, 여성과 남성 각각 20명의 음성을 이용하여 인식모델을 학습시켰다. 포만트 주파수를 추출하여 구성한 포만트 주파수 테이불과 피치 정보값을 이용하여 음성의 특성을 구분한 후, 음성특성에 따라 학습된 인식모델을 이용하여 인식을 수행하였다. 본 논문에서 제안한 시스템을 이용하여 실험한 결과 기존의 방법보다 인식률이 향상됨을 보였다.
음성은 특성에 따라 고음성분이 강한 음성과 저음성분이 강한 음성으로 구분할 수 있다. 그러나 이제까지 음성인식의 연구에 있어서는 이러한 특성을 고려하지 않고, 인식기를 구성함으로써 상대적으로 낮은 인식률과 인식모델을 구성할 때 많은 데이터를 필요로 하고 있다. 본 논문에서는 화자의 이러한 특성을 포만트 주파수를 이용하여 구분할 수 있는 방법을 제안하고, 화자음성의 고음과 저음특성을 반영하여 인식모델을 구성한 후 인식하는 방법을 제안한다. 한국어에서 가능한 47개의 모노폰을 이용하여 인식모델을 구성하였으며, 여성과 남성 각각 20명의 음성을 이용하여 인식모델을 학습시켰다. 포만트 주파수를 추출하여 구성한 포만트 주파수 테이불과 피치 정보값을 이용하여 음성의 특성을 구분한 후, 음성특성에 따라 학습된 인식모델을 이용하여 인식을 수행하였다. 본 논문에서 제안한 시스템을 이용하여 실험한 결과 기존의 방법보다 인식률이 향상됨을 보였다.
We can devide the speech into high frequency speech and low frequency speech according to the feature of the speech, However so far the construction of the recognizer without concerning this feature causes low recognition rate relatively and the needs of an amount of data in the research on the spee...
We can devide the speech into high frequency speech and low frequency speech according to the feature of the speech, However so far the construction of the recognizer without concerning this feature causes low recognition rate relatively and the needs of an amount of data in the research on the speech recognition. In this paper, we propose the method that can devide this feature of speaker's speech using the Formant frequency, and the method that can recognize the speech after constructing the recognizer model reflecting the feature of the high and low frequency of the speaker's speech, For the experiment we constructed the recognizer model using 47 mono-phone of Korean and trained the recognizer model using 20 women's and men's speech respectively. We divided the feature of speech using the Formant frequency Table, that had been consisted of the Formant frequency, and the value of pitch, and then We performed recognition using the trained model according to the feature of speech The proposed system outperformed the existing method in the recognition rate, as the result.
We can devide the speech into high frequency speech and low frequency speech according to the feature of the speech, However so far the construction of the recognizer without concerning this feature causes low recognition rate relatively and the needs of an amount of data in the research on the speech recognition. In this paper, we propose the method that can devide this feature of speaker's speech using the Formant frequency, and the method that can recognize the speech after constructing the recognizer model reflecting the feature of the high and low frequency of the speaker's speech, For the experiment we constructed the recognizer model using 47 mono-phone of Korean and trained the recognizer model using 20 women's and men's speech respectively. We divided the feature of speech using the Formant frequency Table, that had been consisted of the Formant frequency, and the value of pitch, and then We performed recognition using the trained model according to the feature of speech The proposed system outperformed the existing method in the recognition rate, as the result.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
구분할 수 있는 방법이 필요하다. 본 논문에서는 주로 1차 변성기를 지난 남성과 여성음성을 저음특성과 고음 특성으로 구분하였는데, 사람의 목소리는 성대의 퇴화로 인하여 나이별로 다른 특성을 보이고 있다. 이런 특성을 반영하여 성별과 연령별 특성을 구분할 수 있다면 보다 높은 인식률을 얻을 수 있고, 화자 인식 분야에도 응용할 수 있으리라 생각된다.
본 논문에서는 포만트 주파수를 이용하여 화자의 특성올 구분할 수 있는 방법을 제안하고, 화자음성의 고음과 저음 특성을 반영하여 인식모델을 구성한 후 인식하는 방법을 제안하였다. 실험결과 남성음성이 저음성분이 강하고, 여성음성이 고음성분이 강하다는 것이 확인되었다.
dden Maikov Model)을 이용한 방법에서도 화자의 특성에 따라 구분할 수 있음에도 불구하고 이를 구별하지 않고 하나의 인식모델로 구성함으로써 이에 따라 상대적으로 낮은 인식률과 학습과정에 많은 데이터를 필요로 하고 있다. 본 논문에서는 화자의 고음과, 저음 특성을 구분할 수 있는 방법으로 포만트 주파수와 피치 정보를 이용하는 방법을 제안한다.
이제까지 음성의 고음과 저음 특성을 구별할 수 있는 포만트 주파수에 대해서 알아보았다. 이러한 내용을 적용하여, 본 논문에서 설계하고 구현한 시스템 구성도는 그림 4와 같으며 세부단계의 작업과정은 다음과 같다.
제안 방법
남녀 40명이 8개의 단모음 “}.广!, 丄, 丁, -, 를 조용한 실험실 환경에서 정확한 구강 구조를 유지하면서 3초 동안 발음하게 하였고, 각 모음별로 5번씩 발음하게 하였다. 1600개의 단모음에 대해서 정확한 모음구간만을 샘플링 하여 포만트 주파수 추출 알고리즘을 적용하여 주파수를 추출하였다.
广!, 丄, 丁, -, 를 조용한 실험실 환경에서 정확한 구강 구조를 유지하면서 3초 동안 발음하게 하였고, 각 모음별로 5번씩 발음하게 하였다. 1600개의 단모음에 대해서 정확한 모음구간만을 샘플링 하여 포만트 주파수 추출 알고리즘을 적용하여 주파수를 추출하였다. 포만트 주파수 테이블작성을 위해서 추출한 포만트 주파수의 값은 표 3과 같다.
MFCC1 표 2에서 정의한 PLU로 HMM을 구성하는데 그림 6에서와같이 수집한 음성을 남성음성과 여성음성으로 나누어서 HMM을 구성한다.
매 프레임을고속퓨리에 변환(FFT)을 하여 주파수 영역에서 파워 스팩트럼을 구하고, 그 스팩트럼에 melscaled 삼각 필터링을 수행하여 26개의 필터 뱅크 출력을 얻는다. 그리고 각각의 필터 뱅크 출력의 log값을 Discrete Cosine Transform(DCT) 하여 12차의 MFCC를 구한다.
97zT인 1차 디지털 필터로 선강조를 한 후 길이가 20msec 이고 10msec 씩 중첩되는 프레임 단위로 나눈 다음, 각각의 프레임에 해밍창을 씌운다. 매 프레임을고속퓨리에 변환(FFT)을 하여 주파수 영역에서 파워 스팩트럼을 구하고, 그 스팩트럼에 melscaled 삼각 필터링을 수행하여 26개의 필터 뱅크 출력을 얻는다. 그리고 각각의 필터 뱅크 출력의 log값을 Discrete Cosine Transform(DCT) 하여 12차의 MFCC를 구한다.
본 시스템에서는 절대 에너지와 영교차율을 같이 이용해서 음성 구간을 검출한다. 음성신호의 주파수 스팩트럼은 일정하지 않고, 주파수 값이 높을수록 그 성분이 작아지게 되어 주파수가 2 배가 되면 약 6(dB)의 기울기로 그 파워의 진폭 특성이 작아진다.
본 연구에서는 인식모델의 수가 적고 확장성도 우수한 모노폰을 이용한 인식단위를 이용하였다. 모노폰의 인식단위를 이용할 경우 47개의 경우의 수가 나온다.
샘플링 비율은 16000 bit, 양자화 해상도는 16bit로 하였고, 266MHz 폔티엄 pc 와 UltraTO spare II 333MHz올 이용하여 인식을 수행하였다. 포만트주파수 추출을 위해서 20대 이상으로 구성된 남성 20명과 여성20이 단모음에 대해서 5번씩 발화한 음성을 이용했다.
실험은 음성의 저음 특성을 주로 가지고 있는 남성화자와 고음 특성을 가지고 있는 여성화자 각각 20명이 50개의 실험대상에 대해 발화한 음성을 이용하여 인식률을 계산하였다. 실험 방법은 화자의 음성에 대해서 기존의 인식 방법인 전체 HMM으로 구성하였을 때와 각각 화자의 특성에 따라 구분하여 HMM을 구성하였을 때를 실험하였다.
실험은 음성의 저음 특성을 주로 가지고 있는 남성화자와 고음 특성을 가지고 있는 여성화자 각각 20명이 50개의 실험대상에 대해 발화한 음성을 이용하여 인식률을 계산하였다. 실험 방법은 화자의 음성에 대해서 기존의 인식 방법인 전체 HMM으로 구성하였을 때와 각각 화자의 특성에 따라 구분하여 HMM을 구성하였을 때를 실험하였다.
단모음에 대한 포만트주파수 테이블을 구성하고 포만트 주파수 테이블과 자기상관계수로 구한 피치정보를 이용해서 음성의 특성올 구별하는 고음 저음 결정 알고리즘을 적용한다. 이렇게 구별된 특성에 따라 47 개의 모노폰으로 구성된 인식모델과 인식을 수행한다.
최대값을 갖는 위치에서 다시 최대 값을 갖는 위치를 찾으면 피치 값을 구할 수 있다. 인식을 위해 입력된 음성의 특징 벡터 열과 피치정보 포만트 주파수 값을 구했다.
제안된 전체 시스템은 크게 두 단계로 나뉘어지는데 입력 음성에 대하여 인식을 하기 위한 처리 과정과 음성특성을 분석하기 위한 과정으로 구분된다. 인식을 위한 과정에서는 전체음성 구간을 MFOC변환을 하여 특징 벡터열을 추출한다.
창함수를 씌운다. 창함 수의 종류에는 사각 창(Rectangular window), 바틀레트창(Bartlet window), 해밍창(Hamming window), 블래크만창(Black window)가 있는데 본 연구에서는 해밍창을 이용한다. 해밍창은 분석구간의 가장자리로 갈수록 신호자료의 크기를 점차 줄여나감으로서 양끝 부분의 날카로운 잡음 성분의 발생을 방지시켜 준다[9].
이 값과 미리 작성된 포만트 주파수 테이블을 비교하기 위해서, 입력음성의 포만트 값과 테이블 값의 차를 계산한 후 가장 작은 값을 가지는 테이블의 번호를 선택한다. 포만트 주파수 테이블은 0~7번까지 고음성분음성, 8~15까지는 저음성분음성의 포만트 주파수로 구성하였다.
포만트 주파수 테이블을 작성하기 위해 변성과정을 거친 20대 이상의 화자 중에서 저음 특성을 가지고 있는 남성과 고음 특성을 가지고 있는 여성 각각 20명이 단모음에 대해 5번씩 발음한 음성을 이용해서 포만트 주파수 테이블을 작성한다.
대상 데이터
실험은 먼저 포만트 주파수 테이블 구성을 위해서 남녀 40명이 8개의 단모음 “}.广!, 丄, 丁, -, 를 조용한 실험실 환경에서 정확한 구강 구조를 유지하면서 3초 동안 발음하게 하였고, 각 모음별로 5번씩 발음하게 하였다.
음성데이터 수집을 위해서 펜티엄 300MHz 휴대용 컴퓨터를 이용하여 수집하였다. 샘플링 비율은 16000 bit, 양자화 해상도는 16bit로 하였고, 266MHz 폔티엄 pc 와 UltraTO spare II 333MHz올 이용하여 인식을 수행하였다.
포만트주파수 추출을 위해서 20대 이상으로 구성된 남성 20명과 여성20이 단모음에 대해서 5번씩 발화한 음성을 이용했다. 음성인식 대상으로는 임의로 50명의 이름을 작성하여 인식대상으로 사용하였다.
샘플링 비율은 16000 bit, 양자화 해상도는 16bit로 하였고, 266MHz 폔티엄 pc 와 UltraTO spare II 333MHz올 이용하여 인식을 수행하였다. 포만트주파수 추출을 위해서 20대 이상으로 구성된 남성 20명과 여성20이 단모음에 대해서 5번씩 발화한 음성을 이용했다. 음성인식 대상으로는 임의로 50명의 이름을 작성하여 인식대상으로 사용하였다.
이론/모형
각 모노폰에 대한 모델은 그림 5와 같이 5개의 상태를 갖는 Simple Left-Right HMM으로 구성하였고, 인식을 하기 위한 음성의 특징 벡터로 MFCC(Mel-Scale Frequency Cepstrum Coefhcient)를 추가된다. 인식모델과 비교를 하기 위해 처리된 특징 벡터열은 포만트 주파수 값과 피치 정보에 의해서 입력된 음성의 특성이 고음인지 저음인지 결정된 후 각각 분리해서 학습시킨 HMM과 인식을 수행한다.
본 논문에서는 포만트 주파수를 구하기 위해서 LPC로부터 Root solvin叩과 Peak picking 방법을 이용했다[1][2][3]. 단모음에 대한 포만트주파수 테이블을 구성하고 포만트 주파수 테이블과 자기상관계수로 구한 피치정보를 이용해서 음성의 특성올 구별하는 고음 저음 결정 알고리즘을 적용한다. 이렇게 구별된 특성에 따라 47 개의 모노폰으로 구성된 인식모델과 인식을 수행한다.
이러한 정보 값으로 음성의 특성을 구분하여 HMM을 구성할 때 음성의 고음과 저음에 따라 구분하여 학습한 후 인식과정에서 음성 특성에 따라 고음의 특성이 강한 음성은 고음성분HMM 과 저음의 특성이 강한 음성은 저음 성분 HMM과 인식을 수행하는 방법을 적용함으로써 적은 양의 학습데이타로 높은 인식률을 얻을 수 있었다. 본 논문에서는 포만트 주파수를 구하기 위해서 LPC로부터 Root solvin叩과 Peak picking 방법을 이용했다[1][2][3]. 단모음에 대한 포만트주파수 테이블을 구성하고 포만트 주파수 테이블과 자기상관계수로 구한 피치정보를 이용해서 음성의 특성올 구별하는 고음 저음 결정 알고리즘을 적용한다.
모음 구간이 검출되면 포만트 주파수 추출을 위한 과정과 피치 추출을 위한 과정을 거친다. 포만트 주파수 추출법은 1장에서 언급한 것과 같이 Root solving1} Peak picking 방법을 이용해서 추출한다. 이와 동시에 피치 추출과정을 수행하는데 음성신호에서 피치를 이용하면 같은 파형이 반복되는 주기를 결정할 수 있다.
성능/효과
남성화 자의 경우 저음 특성을 가지고 있기 때문에 저음성분HMM 에 인식을 하였을 때 평균 5.6% 인식률 향상되었고 여성화 자의 경우는 기존시스템 보다 5.4% 향상되었다. 또한, 저음 특성이 강한 남성화 자의 음성을 고음성분HMM에 인식하였을 때 와 고음 특성이 강한 여성화자의 음성을 저음성분HMM에 인식을 할 경우에는 평균 19.
4% 향상되었다. 또한, 저음 특성이 강한 남성화 자의 음성을 고음성분HMM에 인식하였을 때 와 고음 특성이 강한 여성화자의 음성을 저음성분HMM에 인식을 할 경우에는 평균 19.2%의 저조한 인식률을 보인다. 이제 까지 실험으로 화자의 특성을 구분하여 인식모델을 구성하면 인식률올 향상시킬 수 있다는 것이 확인되었다.
이러한 특성은 제1, 제2, 제 3포만트 주파수로 구분할 수 있는데, 여성음성인 경우 남성음성보다 평균 100~200Hz 정도 높은 값을 보였다. 본 논문에서 제안한 시스템을 이용하여 실험한 결과 저음 특성을 가지고 있는 남성화자의 경우 저음성분 HMM에 인식을 수행하였을 경우 인식률이 평균 5.6% 향상되었고, 고음특성을 가지고 있는 여성화 자의 경우 고음성분HMM에 인식을 수행하였을 때 평균 5.4% 향상된 결과를 보였다.
제안하였다. 실험결과 남성음성이 저음성분이 강하고, 여성음성이 고음성분이 강하다는 것이 확인되었다. 이러한 특성은 제1, 제2, 제 3포만트 주파수로 구분할 수 있는데, 여성음성인 경우 남성음성보다 평균 100~200Hz 정도 높은 값을 보였다.
이와 같은 특성은 모음의포만트 주파수와 피치 값의 차이로 나타난다. 이러한 정보 값으로 음성의 특성을 구분하여 HMM을 구성할 때 음성의 고음과 저음에 따라 구분하여 학습한 후 인식과정에서 음성 특성에 따라 고음의 특성이 강한 음성은 고음성분HMM 과 저음의 특성이 강한 음성은 저음 성분 HMM과 인식을 수행하는 방법을 적용함으로써 적은 양의 학습데이타로 높은 인식률을 얻을 수 있었다. 본 논문에서는 포만트 주파수를 구하기 위해서 LPC로부터 Root solvin叩과 Peak picking 방법을 이용했다[1][2][3].
2%의 저조한 인식률을 보인다. 이제 까지 실험으로 화자의 특성을 구분하여 인식모델을 구성하면 인식률올 향상시킬 수 있다는 것이 확인되었다.
또한 'T와 '丄'를 비교해 볼 때 제1 포만 트는 '丄' 가 높지만 제 2 포만트와 제 3 포만 트는 너 '가 높은 수치를 보였다. 전체적으로 저음 특성화 자의 포만트와 고음 특성화 자의 포만트는 100~200Hz 정도의 차이를 보였다.
포만트 주파수는 실험 결과 중설 저모음'卜'의경우 제 1 포만트가 700 ~900Hz로 가장 높게 나타났고, 전설 고모음인 의 제 1 포만트가가장 낮은 결과를 보였다. 또한 'T와 '丄'를 비교해 볼 때 제1 포만 트는 '丄' 가 높지만 제 2 포만트와 제 3 포만 트는 너 '가 높은 수치를 보였다.
후속연구
본 논문에서는 주로 1차 변성기를 지난 남성과 여성음성을 저음특성과 고음 특성으로 구분하였는데, 사람의 목소리는 성대의 퇴화로 인하여 나이별로 다른 특성을 보이고 있다. 이런 특성을 반영하여 성별과 연령별 특성을 구분할 수 있다면 보다 높은 인식률을 얻을 수 있고, 화자 인식 분야에도 응용할 수 있으리라 생각된다.
향후 연구 과제는 화자의 특성을 보다 세분하여 구분할 수 있는 방법이 필요하다. 본 논문에서는 주로 1차 변성기를 지난 남성과 여성음성을 저음특성과 고음 특성으로 구분하였는데, 사람의 목소리는 성대의 퇴화로 인하여 나이별로 다른 특성을 보이고 있다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.