[논문]최신 기계학습 기반 음성인식 기술 동향

박현신; 김성웅; 진민호; 유창동

문제 정의

또 다른 방법으로 minimum phone error(MPE)^[5] 기준에 의한 방법이 있다. MCE는 단어 단위의 오인식률을 최소화 했던 것과 비교해, MPE는 음소 단위의 오인식률을 최소화 하는 것을 목적으로 음향모델을 학습한다.
지금까지 음성신호로부터 특징을 추출하고 음향모델을 학습하는 방법에 대해서 알아봤다. 이제 학습된 음향모델이 주어지고, 미지의 음성신호가 들어왔을 때, 이를 인식하는 알고리즘에 대해서 알아본다.
지금까지 음성신호로부터 특징을 추출하고 음향모델을 학습하는 방법에 대해서 알아봤다. 이제 학습된 음향모델이 주어지고, 미지의 음성신호가 들어왔을 때, 이를 인식하는 알고리즘에 대해서 알아본다.

가설 설정

반면, 최근에 많이 사용되는 <그림 5>와 같은 깊은 신경망을 이용한 DBN-DNN (Deep Belief Network - Deep Neural Network) 시스템의 경우 , 긴 구간의 음성 특징 (long-term characteristics)이 비선형적으로 한 상태의 관측 확률에 기여한다는 가정하에 모수(parameter) 들이 훈련된다. 반면, 기존의 음성 인식 시스템에서는 각각의 프레임들이 겹침(overlap)이 있음에도 불구하고 각 프레임이 연관이 없으며 (uncorrelated), 서로 다른 차원의 음성 특징 벡터들의 연관은 거의 0에 가깝다고 가정하여 대각 행렬로 분산을 모사하였다. 그렇기 때문에 DBN-DNN의 가정과 같이 비선형적인 결합이 실제 현상을 보다 잘 설명한다면, 보다 적은 수의 모수로 통계 모델을 정확하게 표현할 수 있고, 이러한 특징이 뒤에서 나올 DBN-DNN 시스템의 성능 향상에 기여한다고 볼 수 있다.

제안 방법

음성인식의 일반적인 특징추출, 음향모델, 음향모델의 학습과 인식기술에 대해서 알아본 뒤 심화기술인 변별학습, SMM, GPDS, 깊은신경망 등에 대해서 알아보았다. 스마트 기기의 보급으로 인해 대중들이 음성인식기술을 쉽게 접하고 있으나, 아직까지 만족할 만한 성능을 제공하고 있다고 보기 어렵고, 심화 기술들이 실제로 쓰이기 위해서는 대용량 어휘 연속음성인식에 대한 성능평가가 더욱 이루어져야 한다.
판별함수의 파라미터 w 는 구조적 예측을 위한 마진이 크도록 훈련하는 기법, 즉, structured support vector machine을 이용하여 추정한다. 이러한 파라미터 추정 기법은 곧 많은 제약 조건을 가지는 아래와 같은 최적화 문제로 바뀌고, 이 논문에서는 이 최적화 문제를 추계적 경사 추적법을 이용하여 아래와 같이 푼다.
주어진 음성특징벡터 계열 중 t번째 음성특징벡터가 GMM k번째 정규분포에 대해 어느 정도 영향을 받는 지를 나타내는 척도를 현재까지 추정된 파라미터를 사용해서 다음과 같이 계산한다.
학습데이터에 대한 HMM의 은닉상태 계열이 주어졌을 때, 특정 은닉 상태에서의 GMM 파라미터 추정을 위한 EM 알고리즘은 다음 두 스텝을 번갈아 가면서 수행한다.

이론/모형

GPDS 음향모델의 학습은, 위에서 언급한 커널함수의 하이퍼파라미터를 찾는 것으로서, 학습데이터에 대한 GPDS의 우도함수를 변분적 추론(variational inference)을 통해 얻고 이 우도함수를 최대화하는 하이퍼파라미터를 찾기위해 경사법(gradient method)을 사용한다.
참고문헌 [6]에서는 음소 인식을 위한 마진이 큰 차별적 (large margin, LM) SMM을 제안하였다. 이 논문에서 사용하는 LMSMM 프레임워크는 다음과 같이 장기적 상관성을 고려한 특징 맵에 선형적인 비확률적 판별 함수에 기반한다.
일반 ㄹ적으로 음성 신호를 10 ms 마다 25 ms 구간으로 STFT (short-time Fourier transform)를 수행한 뒤, 인각의 청각 모델을 모방한 mel-scale filterbank를 통해서 각 대역의 에너지들을 얻는다. 이 에너지의 log 값에 DCT (discrete cosine transform)을 수행하여, 최종적으로 MFCCs (mel frequency cepstral coefficients)를 얻는다. MFCCs 로 이루어진 특징벡터는 주로 13차의 기본 계수와 그 계수들의 1차 미분, 2차 미분 값을 추가하여 얻은 39차의 특정벡터를 일반적으로 사용한다.
이 후, 차별적 미세 조정 과정에서는 먼저 별도의 음성 인식 시스템 (예를 들여 GMM-HMM시스템)을 통해 먼저 상태 순열 정보를 얻어 낸다. 이 후, DBN-DNN 을 만들기 위해 깊은 신경망의 마지막 층에 각 상태의 사후 확률을 모사하도록 미리 추정된 상태 순열 정보를 정답으로 하여 일반적인 신경망과 같이 흔히 역전파 (back propagation) 알고리즘을 이용하여 훈련된다.

성능/효과

<표 2>는 [9]등의 문헌에 있는 여러 시스템들의 성능 비교표이다. 보는 바와 같이 기존의 GMM-HMM 기본 (baseline) 시스템에 비해서 DBN-DNN 시스템이 비교적 낮은 오차를 보여 주고 있다. 이러한 DBN-DNN은 특징의 구성 (MFCC/Filterbank/etc) 또는 DBN의 구조 설정 등을 통해 다양한 변이가 가능하기 때문에 아직까지도 많은 추가 연구가 필요하다.
정규과정동적시스템의 음향모델로서의 성능을 검증하기 위해서, 영어음성 데이터베이스인 TIMIT를 사용해서 모델을 학습하고 TIMIT의 core test set에 대해 음소인식실험을 수행한 결과, 비슷한 조건의 HMM모델이 57.8 %의 성능을 보인 것에 비해 GPDS모델이 61.5%의 성능을 보여 GPDS의 음향모델로서의 가능성을 보였다.
제안된 LMSMM은 에서와 같이 TIMIT 음소 실험에서 기존의 HMM에 비해 더 나은 성능을 보인다.

후속연구

스마트 기기의 보급으로 인해 대중들이 음성인식기술을 쉽게 접하고 있으나, 아직까지 만족할 만한 성능을 제공하고 있다고 보기 어렵고, 심화 기술들이 실제로 쓰이기 위해서는 대용량 어휘 연속음성인식에 대한 성능평가가 더욱 이루어져야 한다. 앞으로 더욱 더 좋은 음성인식 기술들이 나와 일반 사용자들이 만족할 수 있는 시스템이 개발되기를 기대하는 바이다.
보는 바와 같이 기존의 GMM-HMM 기본 (baseline) 시스템에 비해서 DBN-DNN 시스템이 비교적 낮은 오차를 보여 주고 있다. 이러한 DBN-DNN은 특징의 구성 (MFCC/Filterbank/etc) 또는 DBN의 구조 설정 등을 통해 다양한 변이가 가능하기 때문에 아직까지도 많은 추가 연구가 필요하다.
현재 GPDS기반 음향모델은 학습시간이 HMM에 비해서 오래 걸린다는 점과, HMM-GMM와 같은 출력분포를 모델링하기위한 혼합모델이 없다는 점이 한계점으로 남아있고 앞으로 이를 해결해야 음성인식시스템에 사용될 수 있을 것으로 보인다.

핵심어	질문	논문에서 추출한 답변
	음성인식이란?	일반적으로 음성인식이란 입력된 음성을 기계가 문자열로 전환하는 것을 말하고 음성이해는 전환된 문자열의 의미를 출력하는 것을 의미한다. <그림 1>은 음성인식 기술을 간단히 나타내는 순서도다.
	음성신호에는 어떠한 정보가 포함되어 있는가?	음성신호에는 언어적 의미　뿐만 아니라 잡음, 잔향, 개별화자의 특징 등 다양한 정보가 포함되어 있다. 이러한 음성신호에서 언어적 의미만 추출하기 위한 방법으로, 다양한 전처리 기술들이 이용되고 있다.
	maximum mutual information 기준으로 학습하는 방법이란?	다른 방법으로는 maximum mutual information (MMI)[4] 기준으로 학습하는 방법이 있다. 이는 음성 데이터와 레퍼런스인 단어 계열간의 상호정보량을 최대화 하는 방법이다. 이는 위의 MCE 추정에 있어 negative MCE와 밀접한 관련이 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

최신 기계학습 기반 음성인식 기술 동향 원문보기

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

최신 기계학습 기반 음성인식 기술 동향 원문보기

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

유창동 (4)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

AI 본문요약
AI-Helper