[논문]MCE 학습 알고리즘을 이용한 문장독립형 화자식별의 성능 개선

김태진; 최재길; 권철홍

문제 정의

MCE 학습 방법은 인식오류를 최소화하는 학습방법으로 이는 최소 인식오류 확률 값을 정확히 구하는 대신 인식 오류에 발생하는 비용함수를 최소화하는 방법으로, 본 논문에서는 이 방법이 화자식별에 유효한 방법인가를 검증하고자 하였다. 화자식별 분야에서 기존에 성능이 좋다고 알려져 있는 시스템인, UBM 이라는 배경화자 모델을 만들고 이 모델에 화자적응을 통하여 각 화자의 모델을 생성하는 방식과 성능을 비교하였다.
실험결과를 보면 MCE를 적용한 방식이 UBM-adapted GMM 방식 보다 화자식별 오류율이 54% 정도 감소됐음을 알 수 있다. 따라서 본 논문에서는 화자식별에서 MCE 알고리즘과 같은 변별적인 학습 방법의 우수성을 입증하였다.
본 논문에서는 MCE 를 화자식별에 적용하여 인식 실험을 수행하고 기존 GMM(Gaussian Mixture Models) 방식과 성능을 비교하여 MCE 방식의 우수성을 확인하고자 한다. 본 논문의 구성은, 서론에 이어 2장에서 제안한 MCE 학습 방식을 설명하고, 3장에서 실험 방법 및 결과를 논하고, 그리고 4장에서 결론 및 향후 연구과제에 대하여 기술한다.
문장독립형은 인식을 위해 사용하는 어휘를 임의로 자유롭게 발성하므로 문장종속형 보다는 녹취 등의 유출에 더 효과적으로 대처할 수 있다. 본 논문에서는 문장독립형 화자식별을 다룬다.
본 논문에서는 문장독립형 화자식별의 성능 개선을 위하여 MCE 학습 방법을 제안하였다. MCE 학습 방법은 인식오류를 최소화하는 학습방법으로 이는 최소 인식오류 확률 값을 정확히 구하는 대신 인식 오류에 발생하는 비용함수를 최소화하는 방법으로, 본 논문에서는 이 방법이 화자식별에 유효한 방법인가를 검증하고자 하였다.
본 논문에서는 화자식별을 다루는데, 이는 신원을 청구한 화자의 음성을 입력으로 하여 등록된 화자의 모든 성문모델과 비교하여 유사도가 가장 높은 화자를 선택하는 시스템이다. 화자인식은 인식대상이 되는 음성의 발성 방법에 따라 문장종속형과 문장독립형으로 나뉜다[1].
화자 식별 실험의 통일성 및 신뢰성을 위해서 본 논문에서는 mixture 수를 결정하기 위한 실험을 하였다. 남녀 50명에 대해 화자별로 GMM 모델(앞으로는 이방 식을 화자별 GMM이라고 언급한다.

제안 방법

UBM-adapted GMM 방식에서, UBM을 만들기 위해 50명의 화자가 최초 발성한 10개의 단어 등 총 500개의 단어를, 화자적응을 위해서는 화자별로 10개의 단어를 사용하였다. 남녀 50명의 화자가 발성한 10개의 단문으로 화자 식별한 결과는<표 2>와 같다.
우선 남녀 각각 25명의 DB를 이용하여 mixture 32를 갖는 남녀 UBM을 만들었다. 그리고 각각의 남녀 UBM 모델에서 mixture weight를 정규화 과정을 통하여 수정한 후 두 모델을 합하여 하나의 UBM을 만들었다. 두 모델을 단순히 합하면 mixture weight의 합이 2가되므로 정규화를 통하여 그 합이 1이 되도록 조정하였다.
그리고 다음을 차례로 구하여 UBM의 mean(%)으로부터, 화자모델의 meanQ)을 갱신한다.
위한 실험을 하였다. 남녀 50명에 대해 화자별로 GMM 모델(앞으로는 이방 식을 화자별 GMM이라고 언급한다.)을 만들고 mixture 수를 2, 4, 8, 16, 32, 64, 128, 256으로 늘리면서 화자 식별 실험을 하였다. 화자별 GMM 모델은 화자별로 10개의 단어를 사용하여 만들었다.
이 통합된 UBM의 mixture 수는 64가 된다. 다음에는 UBM으로부터 각 화자의 음성 DB를 이용하여 적응방법을 통하여 각각의 화자모델을 생성한다. 이 방식은 적은 학습 자료로 높은 인식 성능을 얻기 위한 방법이다.
본 논문에서 UBM을 생성한 방법은 다음과 같다[5]. 먼저 성별로 각각 모델을 생성한 다음 이들을 조합하여 하나의 UBM을 만들었다. 우선 남녀 각각 25명의 DB를 이용하여 mixture 32를 갖는 남녀 UBM을 만들었다.
여기에서 re 실험값으로 16을 사용하였다. 본 논문에서는 mean, variance, mixture weight 중에서 mean 만을 갱신하여 화자모델을 생성하였다[5].
이 중에서 본 논문에서 실험에 사용한 것은 문장음성으로, 문장의 발성목록은 개인정보와 관련된 10개의 단어와 3어절 이내로 구성된 단문 10개 등 20문장으로 구성되어 있고, 한 화자 당한 차수에 동일한 목록을 5회 발성하고, 주차 간격으로 20명의 화자가, 월차 간격으로 다른 20명의 화자가, 3개월차 간격으로 다른 10명의 화자가 20문장을 각각 4 회 반복하여 녹음 수집한 것이다. 본 논문에서는 훈련용으로 50명의 화자가 발성한 10개의 단어를 사용하였고, 테스트용으로 3어절 이내로 구성된 10개의 단문을 사용하여 문장 독립형 화자식별의 성능을 실험하였다.
<그림 1>은 MCE 학습 방법의 전체 개요를 보여준다. 수집한 음성 DB에서 특징계수를 추출하고 기존 MLE(Maximum Likelihood Estimation) 방식으로 생성된 GMM 화자모델을 이용하여 비터비 디코딩을 수행하여 인식결과를 구한다. 인식 결과에서 오인식 정도를 추정하고 MCE 학습 방법을 이용하여 만들어진 새로운 파라미터 값으로 보정된 GMM 화자모델로 최종인식을 수행한다.
음성신호를 매 10msec 마다 25msec의 Hamming 창함수를 사용하여 분석하였는데, 음성의 특징 파라미터로 MFCC(Mel Frequency Cepstrum Coefficients)를 사용하여 12차 MFCC, delta coefficients, acceleration coefficients, 에너지, delta 에너지, acceleration 에너지 등 총 39차를 추출하였고, HMM의 구조는 1-state GMM으로 화자별 음향모델을 생성하였다.
수집한 음성 DB에서 특징계수를 추출하고 기존 MLE(Maximum Likelihood Estimation) 방식으로 생성된 GMM 화자모델을 이용하여 비터비 디코딩을 수행하여 인식결과를 구한다. 인식 결과에서 오인식 정도를 추정하고 MCE 학습 방법을 이용하여 만들어진 새로운 파라미터 값으로 보정된 GMM 화자모델로 최종인식을 수행한다. 학습을 반복하는 경우에 인식률이 증가하다 감소하는데 인식률이 더 이상 증가하지 않으면 반복 학습을 중단한다.
MCE 학습 방법은 인식오류를 최소화하는 학습방법으로 이는 최소 인식오류 확률 값을 정확히 구하는 대신 인식 오류에 발생하는 비용함수를 최소화하는 방법으로, 본 논문에서는 이 방법이 화자식별에 유효한 방법인가를 검증하고자 하였다. 화자식별 분야에서 기존에 성능이 좋다고 알려져 있는 시스템인, UBM 이라는 배경화자 모델을 만들고 이 모델에 화자적응을 통하여 각 화자의 모델을 생성하는 방식과 성능을 비교하였다. 실험결과를 보면 MCE를 적용한 방식이 UBM-adapted GMM 방식 보다 화자식별 오류율이 54% 정도 감소됐음을 알 수 있다.

대상 데이터

2%로 가장 좋은 결과를 보였다. 따라서 본 논문에서의 모든 실험은 mixture 수를 64로 하였다.<표 1>에서 mixture 수가 256 이상 증가하면 인식률이 급격히 감소하는데, 이는 학습단어 수가 적기 때문에 나타난 결과라고 생각된다.
화자인식용 DB를 사용하였다. 본 DB는 사무실 PC 환경에서 중가의 PC 마이크 (모델명: Shenheiser MD425)를 이용하여 남자 25명, 여자 25명 등 총 50명의 화자가 발성한 2연 숫자, 4연 숫자, 문장으로 구성되어 있다. 이 중에서 본 논문에서 실험에 사용한 것은 문장음성으로, 문장의 발성목록은 개인정보와 관련된 10개의 단어와 3어절 이내로 구성된 단문 10개 등 20문장으로 구성되어 있고, 한 화자 당한 차수에 동일한 목록을 5회 발성하고, 주차 간격으로 20명의 화자가, 월차 간격으로 다른 20명의 화자가, 3개월차 간격으로 다른 10명의 화자가 20문장을 각각 4 회 반복하여 녹음 수집한 것이다.
실험에 사용한 음성 DB는 ETRI의 음성정보연구센터에서 구축한 비영리 목적의 화자인식용 DB를 사용하였다. 본 DB는 사무실 PC 환경에서 중가의 PC 마이크 (모델명: Shenheiser MD425)를 이용하여 남자 25명, 여자 25명 등 총 50명의 화자가 발성한 2연 숫자, 4연 숫자, 문장으로 구성되어 있다.
먼저 성별로 각각 모델을 생성한 다음 이들을 조합하여 하나의 UBM을 만들었다. 우선 남녀 각각 25명의 DB를 이용하여 mixture 32를 갖는 남녀 UBM을 만들었다. 그리고 각각의 남녀 UBM 모델에서 mixture weight를 정규화 과정을 통하여 수정한 후 두 모델을 합하여 하나의 UBM을 만들었다.
본 DB는 사무실 PC 환경에서 중가의 PC 마이크 (모델명: Shenheiser MD425)를 이용하여 남자 25명, 여자 25명 등 총 50명의 화자가 발성한 2연 숫자, 4연 숫자, 문장으로 구성되어 있다. 이 중에서 본 논문에서 실험에 사용한 것은 문장음성으로, 문장의 발성목록은 개인정보와 관련된 10개의 단어와 3어절 이내로 구성된 단문 10개 등 20문장으로 구성되어 있고, 한 화자 당한 차수에 동일한 목록을 5회 발성하고, 주차 간격으로 20명의 화자가, 월차 간격으로 다른 20명의 화자가, 3개월차 간격으로 다른 10명의 화자가 20문장을 각각 4 회 반복하여 녹음 수집한 것이다. 본 논문에서는 훈련용으로 50명의 화자가 발성한 10개의 단어를 사용하였고, 테스트용으로 3어절 이내로 구성된 10개의 단문을 사용하여 문장 독립형 화자식별의 성능을 실험하였다.

이론/모형

UBM-adapted GMM 방식으로 생성한 화자 모델에 MCE를 적용하여 화자 모델을 갱신하였다. MCE 학습에 사용된 음성, DB는, 단어수를 달리하면서 실험한 결과 화자별로 20개 단어(10개의 단어 X 2회 발성)에서 가장 좋은 성능을 보였다.
본 논문에서는 화자 모델 GMM이 인식의 기본적인 단위로서 사용된다.j번째상태에서 관측벡터 re 의 출력확률 밀도함수는 식 (1)과 같다.

성능/효과

갱신하였다. MCE 학습에 사용된 음성, DB는, 단어수를 달리하면서 실험한 결과 화자별로 20개 단어(10개의 단어 X 2회 발성)에서 가장 좋은 성능을 보였다. <표 3>을 보면, MCE를 적용한 방식의 오류율이 2.
화자식별 분야에서 기존에 성능이 좋다고 알려져 있는 시스템인, UBM 이라는 배경화자 모델을 만들고 이 모델에 화자적응을 통하여 각 화자의 모델을 생성하는 방식과 성능을 비교하였다. 실험결과를 보면 MCE를 적용한 방식이 UBM-adapted GMM 방식 보다 화자식별 오류율이 54% 정도 감소됐음을 알 수 있다. 따라서 본 논문에서는 화자식별에서 MCE 알고리즘과 같은 변별적인 학습 방법의 우수성을 입증하였다.
MCE 학습에 사용된 음성, DB는, 단어수를 달리하면서 실험한 결과 화자별로 20개 단어(10개의 단어 X 2회 발성)에서 가장 좋은 성능을 보였다. <표 3>을 보면, MCE를 적용한 방식의 오류율이 2.4%이고 UBM-adapted GMM 방식이 5.2%로 상대 오류율이 54% 정도 개선됐음을 알 수 있다.
남녀 50명의 화자가 발성한 10개의 단문으로 화자 식별한 결과는<표 1>과 같다.<표 1>을 보면, 실험 결과 mixture 수가 64일 때 인식률이 92.2%로 가장 좋은 결과를 보였다. 따라서 본 논문에서의 모든 실험은 mixture 수를 64로 하였다.
남녀 50명의 화자가 발성한 10개의 단문으로 화자 식별한 결과는<표 2>와 같다. 화자별 GMM 방식의 오류율은 7.8%이고 UBM-adapted GMM 방식은 5.2%로 줄어 33% 정도의 상대 오류율 감소를 보여준다.

후속연구

향후 연구에서는 화자식별의 성능 개선을 위하여 다른 기계학습 기법인 SVM 을 실험할 예정이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

MCE 학습 알고리즘을 이용한 문장독립형 화자식별의 성능 개선
Performance Improvement of a Text-Independent Speaker Identification System Using MCE Training 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

MCE 학습 알고리즘을 이용한 문장독립형 화자식별의 성능 개선 Performance Improvement of a Text-Independent Speaker Identification System Using MCE Training 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

최재길 (1) 권철홍 (29)

관련 콘텐츠

원문 보기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

MCE 학습 알고리즘을 이용한 문장독립형 화자식별의 성능 개선
Performance Improvement of a Text-Independent Speaker Identification System Using MCE Training 원문보기

AI 본문요약
AI-Helper