[논문]음성특성 학습 모델을 이용한 음성인식 시스템의 성능 향상

송점동

문제 정의

구분할 수 있는 방법이 필요하다. 본 논문에서는 주로 1차 변성기를 지난 남성과 여성음성을 저음특성과 고음 특성으로 구분하였는데, 사람의 목소리는 성대의 퇴화로 인하여 나이별로 다른 특성을 보이고 있다. 이런 특성을 반영하여 성별과 연령별 특성을 구분할 수 있다면 보다 높은 인식률을 얻을 수 있고, 화자 인식 분야에도 응용할 수 있으리라 생각된다.
본 논문에서는 포만트 주파수를 이용하여 화자의 특성올 구분할 수 있는 방법을 제안하고, 화자음성의 고음과 저음 특성을 반영하여 인식모델을 구성한 후 인식하는 방법을 제안하였다. 실험결과 남성음성이 저음성분이 강하고, 여성음성이 고음성분이 강하다는 것이 확인되었다.
dden Maikov Model)을 이용한 방법에서도 화자의 특성에 따라 구분할 수 있음에도 불구하고 이를 구별하지 않고 하나의 인식모델로 구성함으로써 이에 따라 상대적으로 낮은 인식률과 학습과정에 많은 데이터를 필요로 하고 있다. 본 논문에서는 화자의 고음과, 저음 특성을 구분할 수 있는 방법으로 포만트 주파수와 피치 정보를 이용하는 방법을 제안한다.
이제까지 음성의 고음과 저음 특성을 구별할 수 있는 포만트 주파수에 대해서 알아보았다. 이러한 내용을 적용하여, 본 논문에서 설계하고 구현한 시스템 구성도는 그림 4와 같으며 세부단계의 작업과정은 다음과 같다.

제안 방법

남녀 40명이 8개의 단모음 “}.广!, 丄, 丁, -, 를 조용한 실험실 환경에서 정확한 구강 구조를 유지하면서 3초 동안 발음하게 하였고, 각 모음별로 5번씩 발음하게 하였다. 1600개의 단모음에 대해서 정확한 모음구간만을 샘플링 하여 포만트 주파수 추출 알고리즘을 적용하여 주파수를 추출하였다.
广!, 丄, 丁, -, 를 조용한 실험실 환경에서 정확한 구강 구조를 유지하면서 3초 동안 발음하게 하였고, 각 모음별로 5번씩 발음하게 하였다. 1600개의 단모음에 대해서 정확한 모음구간만을 샘플링 하여 포만트 주파수 추출 알고리즘을 적용하여 주파수를 추출하였다. 포만트 주파수 테이블작성을 위해서 추출한 포만트 주파수의 값은 표 3과 같다.
MFCC₁ 표 2에서 정의한 PLU로 HMM을 구성하는데 그림 6에서와같이 수집한 음성을 남성음성과 여성음성으로 나누어서 HMM을 구성한다.
매 프레임을고속퓨리에 변환(FFT)을 하여 주파수 영역에서 파워 스팩트럼을 구하고, 그 스팩트럼에 melscaled 삼각 필터링을 수행하여 26개의 필터 뱅크 출력을 얻는다. 그리고 각각의 필터 뱅크 출력의 log값을 Discrete Cosine Transform(DCT) 하여 12차의 MFCC를 구한다.
97zT인 1차 디지털 필터로 선강조를 한 후 길이가 20msec 이고 10msec 씩 중첩되는 프레임 단위로 나눈 다음, 각각의 프레임에 해밍창을 씌운다. 매 프레임을고속퓨리에 변환(FFT)을 하여 주파수 영역에서 파워 스팩트럼을 구하고, 그 스팩트럼에 melscaled 삼각 필터링을 수행하여 26개의 필터 뱅크 출력을 얻는다. 그리고 각각의 필터 뱅크 출력의 log값을 Discrete Cosine Transform(DCT) 하여 12차의 MFCC를 구한다.
본 시스템에서는 절대 에너지와 영교차율을 같이 이용해서 음성 구간을 검출한다. 음성신호의 주파수 스팩트럼은 일정하지 않고, 주파수 값이 높을수록 그 성분이 작아지게 되어 주파수가 2 배가 되면 약 6(dB)의 기울기로 그 파워의 진폭 특성이 작아진다.
본 연구에서는 인식모델의 수가 적고 확장성도 우수한 모노폰을 이용한 인식단위를 이용하였다. 모노폰의 인식단위를 이용할 경우 47개의 경우의 수가 나온다.
샘플링 비율은 16000 bit, 양자화 해상도는 16bit로 하였고, 266MHz 폔티엄 pc 와 UltraTO spare II 333MHz올 이용하여 인식을 수행하였다. 포만트주파수 추출을 위해서 20대 이상으로 구성된 남성 20명과 여성20이 단모음에 대해서 5번씩 발화한 음성을 이용했다.
실험은 음성의 저음 특성을 주로 가지고 있는 남성화자와 고음 특성을 가지고 있는 여성화자 각각 20명이 50개의 실험대상에 대해 발화한 음성을 이용하여 인식률을 계산하였다. 실험 방법은 화자의 음성에 대해서 기존의 인식 방법인 전체 HMM으로 구성하였을 때와 각각 화자의 특성에 따라 구분하여 HMM을 구성하였을 때를 실험하였다.
실험은 음성의 저음 특성을 주로 가지고 있는 남성화자와 고음 특성을 가지고 있는 여성화자 각각 20명이 50개의 실험대상에 대해 발화한 음성을 이용하여 인식률을 계산하였다. 실험 방법은 화자의 음성에 대해서 기존의 인식 방법인 전체 HMM으로 구성하였을 때와 각각 화자의 특성에 따라 구분하여 HMM을 구성하였을 때를 실험하였다.
단모음에 대한 포만트주파수 테이블을 구성하고 포만트 주파수 테이블과 자기상관계수로 구한 피치정보를 이용해서 음성의 특성올 구별하는 고음 저음 결정 알고리즘을 적용한다. 이렇게 구별된 특성에 따라 47 개의 모노폰으로 구성된 인식모델과 인식을 수행한다.
최대값을 갖는 위치에서 다시 최대 값을 갖는 위치를 찾으면 피치 값을 구할 수 있다. 인식을 위해 입력된 음성의 특징 벡터 열과 피치정보 포만트 주파수 값을 구했다.
제안된 전체 시스템은 크게 두 단계로 나뉘어지는데 입력 음성에 대하여 인식을 하기 위한 처리 과정과 음성특성을 분석하기 위한 과정으로 구분된다. 인식을 위한 과정에서는 전체음성 구간을 MFOC변환을 하여 특징 벡터열을 추출한다.
창함수를 씌운다. 창함 수의 종류에는 사각 창(Rectangular window), 바틀레트창(Bartlet window), 해밍창(Hamming window), 블래크만창(Black window)가 있는데 본 연구에서는 해밍창을 이용한다. 해밍창은 분석구간의 가장자리로 갈수록 신호자료의 크기를 점차 줄여나감으로서 양끝 부분의 날카로운 잡음 성분의 발생을 방지시켜 준다[9].
이 값과 미리 작성된 포만트 주파수 테이블을 비교하기 위해서, 입력음성의 포만트 값과 테이블 값의 차를 계산한 후 가장 작은 값을 가지는 테이블의 번호를 선택한다. 포만트 주파수 테이블은 0~7번까지 고음성분음성, 8~15까지는 저음성분음성의 포만트 주파수로 구성하였다.
포만트 주파수 테이블을 작성하기 위해 변성과정을 거친 20대 이상의 화자 중에서 저음 특성을 가지고 있는 남성과 고음 특성을 가지고 있는 여성 각각 20명이 단모음에 대해 5번씩 발음한 음성을 이용해서 포만트 주파수 테이블을 작성한다.

대상 데이터

실험은 먼저 포만트 주파수 테이블 구성을 위해서 남녀 40명이 8개의 단모음 “}.广!, 丄, 丁, -, 를 조용한 실험실 환경에서 정확한 구강 구조를 유지하면서 3초 동안 발음하게 하였고, 각 모음별로 5번씩 발음하게 하였다.
음성데이터 수집을 위해서 펜티엄 300MHz 휴대용 컴퓨터를 이용하여 수집하였다. 샘플링 비율은 16000 bit, 양자화 해상도는 16bit로 하였고, 266MHz 폔티엄 pc 와 UltraTO spare II 333MHz올 이용하여 인식을 수행하였다.
포만트주파수 추출을 위해서 20대 이상으로 구성된 남성 20명과 여성20이 단모음에 대해서 5번씩 발화한 음성을 이용했다. 음성인식 대상으로는 임의로 50명의 이름을 작성하여 인식대상으로 사용하였다.
샘플링 비율은 16000 bit, 양자화 해상도는 16bit로 하였고, 266MHz 폔티엄 pc 와 UltraTO spare II 333MHz올 이용하여 인식을 수행하였다. 포만트주파수 추출을 위해서 20대 이상으로 구성된 남성 20명과 여성20이 단모음에 대해서 5번씩 발화한 음성을 이용했다. 음성인식 대상으로는 임의로 50명의 이름을 작성하여 인식대상으로 사용하였다.

이론/모형

각 모노폰에 대한 모델은 그림 5와 같이 5개의 상태를 갖는 Simple Left-Right HMM으로 구성하였고, 인식을 하기 위한 음성의 특징 벡터로 MFCC(Mel-Scale Frequency Cepstrum Coefhcient)를 추가된다. 인식모델과 비교를 하기 위해 처리된 특징 벡터열은 포만트 주파수 값과 피치 정보에 의해서 입력된 음성의 특성이 고음인지 저음인지 결정된 후 각각 분리해서 학습시킨 HMM과 인식을 수행한다.
본 논문에서는 포만트 주파수를 구하기 위해서 LPC로부터 Root solvin叩과 Peak picking 방법을 이용했다[1][2][3]. 단모음에 대한 포만트주파수 테이블을 구성하고 포만트 주파수 테이블과 자기상관계수로 구한 피치정보를 이용해서 음성의 특성올 구별하는 고음 저음 결정 알고리즘을 적용한다. 이렇게 구별된 특성에 따라 47 개의 모노폰으로 구성된 인식모델과 인식을 수행한다.
이러한 정보 값으로 음성의 특성을 구분하여 HMM을 구성할 때 음성의 고음과 저음에 따라 구분하여 학습한 후 인식과정에서 음성 특성에 따라 고음의 특성이 강한 음성은 고음성분HMM 과 저음의 특성이 강한 음성은 저음 성분 HMM과 인식을 수행하는 방법을 적용함으로써 적은 양의 학습데이타로 높은 인식률을 얻을 수 있었다. 본 논문에서는 포만트 주파수를 구하기 위해서 LPC로부터 Root solvin叩과 Peak picking 방법을 이용했다[1][2][3]. 단모음에 대한 포만트주파수 테이블을 구성하고 포만트 주파수 테이블과 자기상관계수로 구한 피치정보를 이용해서 음성의 특성올 구별하는 고음 저음 결정 알고리즘을 적용한다.
모음 구간이 검출되면 포만트 주파수 추출을 위한 과정과 피치 추출을 위한 과정을 거친다. 포만트 주파수 추출법은 1장에서 언급한 것과 같이 Root solving1} Peak picking 방법을 이용해서 추출한다. 이와 동시에 피치 추출과정을 수행하는데 음성신호에서 피치를 이용하면 같은 파형이 반복되는 주기를 결정할 수 있다.

성능/효과

남성화 자의 경우 저음 특성을 가지고 있기 때문에 저음성분HMM 에 인식을 하였을 때 평균 5.6% 인식률 향상되었고 여성화 자의 경우는 기존시스템 보다 5.4% 향상되었다. 또한, 저음 특성이 강한 남성화 자의 음성을 고음성분HMM에 인식하였을 때 와 고음 특성이 강한 여성화자의 음성을 저음성분HMM에 인식을 할 경우에는 평균 19.
4% 향상되었다. 또한, 저음 특성이 강한 남성화 자의 음성을 고음성분HMM에 인식하였을 때 와 고음 특성이 강한 여성화자의 음성을 저음성분HMM에 인식을 할 경우에는 평균 19.2%의 저조한 인식률을 보인다. 이제 까지 실험으로 화자의 특성을 구분하여 인식모델을 구성하면 인식률올 향상시킬 수 있다는 것이 확인되었다.
이러한 특성은 제1, 제2, 제 3포만트 주파수로 구분할 수 있는데, 여성음성인 경우 남성음성보다 평균 100~200Hz 정도 높은 값을 보였다. 본 논문에서 제안한 시스템을 이용하여 실험한 결과 저음 특성을 가지고 있는 남성화자의 경우 저음성분 HMM에 인식을 수행하였을 경우 인식률이 평균 5.6% 향상되었고, 고음특성을 가지고 있는 여성화 자의 경우 고음성분HMM에 인식을 수행하였을 때 평균 5.4% 향상된 결과를 보였다.
제안하였다. 실험결과 남성음성이 저음성분이 강하고, 여성음성이 고음성분이 강하다는 것이 확인되었다. 이러한 특성은 제1, 제2, 제 3포만트 주파수로 구분할 수 있는데, 여성음성인 경우 남성음성보다 평균 100~200Hz 정도 높은 값을 보였다.
이와 같은 특성은 모음의포만트 주파수와 피치 값의 차이로 나타난다. 이러한 정보 값으로 음성의 특성을 구분하여 HMM을 구성할 때 음성의 고음과 저음에 따라 구분하여 학습한 후 인식과정에서 음성 특성에 따라 고음의 특성이 강한 음성은 고음성분HMM 과 저음의 특성이 강한 음성은 저음 성분 HMM과 인식을 수행하는 방법을 적용함으로써 적은 양의 학습데이타로 높은 인식률을 얻을 수 있었다. 본 논문에서는 포만트 주파수를 구하기 위해서 LPC로부터 Root solvin叩과 Peak picking 방법을 이용했다[1][2][3].
2%의 저조한 인식률을 보인다. 이제 까지 실험으로 화자의 특성을 구분하여 인식모델을 구성하면 인식률올 향상시킬 수 있다는 것이 확인되었다.
또한 'T와 '丄'를 비교해 볼 때 제1 포만 트는 '丄' 가 높지만 제 2 포만트와 제 3 포만 트는 너 '가 높은 수치를 보였다. 전체적으로 저음 특성화 자의 포만트와 고음 특성화 자의 포만트는 100~200Hz 정도의 차이를 보였다.
포만트 주파수는 실험 결과 중설 저모음'卜'의경우 제 1 포만트가 700 ~900Hz로 가장 높게 나타났고, 전설 고모음인 의 제 1 포만트가가장 낮은 결과를 보였다. 또한 'T와 '丄'를 비교해 볼 때 제1 포만 트는 '丄' 가 높지만 제 2 포만트와 제 3 포만 트는 너 '가 높은 수치를 보였다.

후속연구

본 논문에서는 주로 1차 변성기를 지난 남성과 여성음성을 저음특성과 고음 특성으로 구분하였는데, 사람의 목소리는 성대의 퇴화로 인하여 나이별로 다른 특성을 보이고 있다. 이런 특성을 반영하여 성별과 연령별 특성을 구분할 수 있다면 보다 높은 인식률을 얻을 수 있고, 화자 인식 분야에도 응용할 수 있으리라 생각된다.
향후 연구 과제는 화자의 특성을 보다 세분하여 구분할 수 있는 방법이 필요하다. 본 논문에서는 주로 1차 변성기를 지난 남성과 여성음성을 저음특성과 고음 특성으로 구분하였는데, 사람의 목소리는 성대의 퇴화로 인하여 나이별로 다른 특성을 보이고 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국내논문] 음성특성 학습 모델을 이용한 음성인식 시스템의 성능 향상
Improvement of Speech Recognition System Using the Trained Model of Speech Feature 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국내논문] 음성특성 학습 모델을 이용한 음성인식 시스템의 성능 향상 Improvement of Speech Recognition System Using the Trained Model of Speech Feature 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[국내논문] 음성특성 학습 모델을 이용한 음성인식 시스템의 성능 향상
Improvement of Speech Recognition System Using the Trained Model of Speech Feature 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper