[논문]음성 특성 지표를 이용한 음성 인식 성능 예측

지승은; 김우일

doi:10.6109/jkiice.2016.20.3.471

문제 정의

본 저자의 선행 연구에서는 다양한 특성 지표를 여러 방법으로 조합, 추가하여 더 효과적인 음성 인식 성능 지표를 생성하기 위해 진행 된 실험 결과를 소개하였다[3-6]. 본 논문에서는 연구를 통해 생성한 지표가 음성 인식 성능을 판단하는데 의미 있는 지표인지를 증명한 후, 조합에 사용된 음성 특성 지표들로 특징 벡터를 만들어 오염된 음성 데이터베이스의 인식 성능을 예측하는 실험을 소개한다.
본 논문에서는 음성의 특성 지표를 이용한 음성 인식성능 예측 실험의 결과를 소개하였다. 예측 실험에 사용한 음성 특징 지표를 설명하고, 음성 특징 지표를 이용한 음성 인식용 데이터베이스 검증 시스템의 개발 내용을 소개하였다.
본 논문의 선행 연구에서, 앞에 기술한 문제를 해결할 수 있는 윈도우즈 기반의 음성 인식용 데이터베이스 검증 시스템을 개발하였다. 본 시스템은 입력된 음성신호에서 추출할 수 있는 여러 가지 음성 특성 지표를 이용해 새로운 지표를 생성하여 인식 성능을 검증한다.
본 논문의 선행 연구에서, 앞에 기술한 문제를 해결할 수 있는 윈도우즈 기반의 음성 인식용 데이터베이스 검증 시스템을 개발하였다. 본 시스템은 입력된 음성신호에서 추출할 수 있는 여러 가지 음성 특성 지표를 이용해 새로운 지표를 생성하여 인식 성능을 검증한다. 이외에도 효과적인 음성 인식 성능 지표를 생성하기 위해 다수의 선행 연구가 진행되어 왔다[1, 2].
본 논문에서는 음성의 특성 지표를 이용한 음성 인식성능 예측 실험의 결과를 소개하였다. 예측 실험에 사용한 음성 특징 지표를 설명하고, 음성 특징 지표를 이용한 음성 인식용 데이터베이스 검증 시스템의 개발 내용을 소개하였다. 선행 연구에서부터 단어 오인식률과 상관도가 높은 여러 가지 특성 지표들을 채택, 조합하여 새로운 성능 지표를 제안하였다.

제안 방법

인식 성능 예측을 위해 각 음성 데이터는 위의 음성특징으로 특징 벡터를 생성하였다. 각 데이터는 단어오인식률 별로 분류 범위를 나누어 모델을 훈련, 구축하고 이를 기준으로 예측 결과를 분류하여 음성 인식의성능 검증 결과를 확인하였다. 자세한 실험 환경은 다음 장에서 설명한다.
본 실험에서는 분류 모델의 훈련과 예측에 HTK를 이용하였다. 각 음성 데이터는 채택한 네 가지의 음성 특성지표로 4차원 벡터를 생성하고 GMM 기반의 음성인식성능 예측기를 구축하였다. 인식기의 예측 타겟은 0~100%의 값을 가지는 각 데이터의 단어 오인식률을 네개의 범위로 나누어 지정하여 훈련 및 예측하였다.
하지만 가우시안 요소가 필요 이상으로 혼합되면 계산량이 많아지며 오버 피팅이될 수 있기 때문에 적절한 개수로 가우시안 요소를 실험을 통해 설정해야 한다. 또, 음성 데이터베이스의 babble잡음, 자동차 잡음에 오염된 정도(dB)별로 예측 성공률이 어느 정도 차이를 보이는지 확인하였다.
표 1은 실제 MOS 기법의 평가 기준을 나타낸다. 본 시스템에서는 UTD(University of Texas at Dallas)에서 윈도우즈 환경의 MATLAB을 이용해 오픈소스로 제공되는 스크립트[8]를 사용하여 오염된 음성의 PESQ 값을 구하였다. 제공된 스크립트는 평가를 위한 깨끗한 레퍼런스 음성 파일과 평가 받을 음성 파일, 샘플링 주파수를 입력하면 내부 알고리즘에 의해 PESQ 값이 자동으로 계산되며 본 실험에서는 이를 함수로 사용하여, 제작한 데이터베이스 검증 시스템에 출력 가능한 형식으로 정보를 출력하는 배치 파일을 만든 후 자동추출하였다.
식 (2)는 가우시안 음향 모델 확률 값을 표현한 식으로평균 μ과 분산 σ²을 갖는 가우시안 모델에서 입력된 특징 x의 우도에 로그를 취한 GMM 모델 확률 값의 식이다. 본 시스템에서는 깨끗한 음성 데이터베이스를 이용하여 HTK(Hidden Markov Model Toolkit)[9]로 GMM모델을 훈련하고 입력 음성의 GMM 모델 확률 값을 구하였다.
제안한 새로운 지표는 각 음성 특성 지표를 단독으로 사용할 때보다 단어 오인식률과 높은 상관도를 나타내어 음성 인식 성능을 예측하는데 효과적임을 확인하였다. 본 실험에서는 이 결과를 근거로 오인식률과 높은 상관도를 나타내는 음성 특성 지표를 채택하여 4차원 특징 벡터를 생성하고 GMM 기반 의 분류기를 구축하여 음성 인식 성능 예측 실험을 진행하였다. 가우시안 요소를 증가시키며 실험한 결과 가우시안 요소가 2개일 때 평균 예측 성공률이 가장 높으며,특히 낮은 SNR 환경에서 단어 오인식 정도를 높은 정확도로 예측하는 것을 확인하였다.
이외에도 효과적인 음성 인식 성능 지표를 생성하기 위해 다수의 선행 연구가 진행되어 왔다[1, 2]. 본 연구에서는 기존의 대표적인 인식 성능 지표인 단어 오인식률(Word Error Rate, WER)과 상관관계(Correlation)가 높은 음성 특성 지표를 분석한 후 조합하여 새로운 음성 인식 성능 지표를 생성하였다. 본 저자의 선행 연구에서는 다양한 특성 지표를 여러 방법으로 조합, 추가하여 더 효과적인 음성 인식 성능 지표를 생성하기 위해 진행 된 실험 결과를 소개하였다[3-6].
표 2는 선행 연구에서 채택한 음성 특성 지표들과 단어 오인식률의 상관도(Correlation Coefficient)와 이를 조합하여 생성한 새로운 성능 지표와 단어 오인식률의 상관도를 보여준다. 새로운 음성 인식 성능 지표는 각음성 특성 지표를 0~1의 범위로 정규화하고 단어 오인식률과 상관도에 비례하는 가중치를 적용하여 생성하였다. 아래의 식 (3)은 오인식률과의 상관도에 비례하는가중치 w_i의 계산식을 나타내며, 식 (4)는 새로운 성능지표 I를 구하는 식이다.
표 2는 선행 연구에서 채택한 음성 특성 지표들과 단어 오인식률의 상관도(Correlation Coefficient)와 이를 조합하여 생성한 새로운 성능 지표와 단어 오인식률의 상관도를 보여준다. 새로운 음성 인식 성능 지표는 각음성 특성 지표를 0~1의 범위로 정규화하고 단어 오인식률과 상관도에 비례하는 가중치를 적용하여 생성하였다. 아래의 식 (3)은 오인식률과의 상관도에 비례하는가중치 w_i의 계산식을 나타내며, 식 (4)는 새로운 성능지표 I를 구하는 식이다.
선행 실험으로 단어 오인식률과 상관도가 높은 음성특성 지표를 알아내기 위해 다양한 음성 특성 지표를 분석하였으며, 그 중 GMM 음향 모델 확률 값, SNR,PESQ, MFCC 계수 유사도를 채택하여 새로운 음성 인식 성능 지표를 생성하였다. 새로운 음성 인식 성능 지표는 각 음성 특성 지표를 0~1의 범위로 정규화하고 단어 오인식률과 상관도에 비례하는 가중치를 적용하여생성하였다.
예측 실험에 사용한 음성 특징 지표를 설명하고, 음성 특징 지표를 이용한 음성 인식용 데이터베이스 검증 시스템의 개발 내용을 소개하였다. 선행 연구에서부터 단어 오인식률과 상관도가 높은 여러 가지 특성 지표들을 채택, 조합하여 새로운 성능 지표를 제안하였다. 제안한 새로운 지표는 각 음성 특성 지표를 단독으로 사용할 때보다 단어 오인식률과 높은 상관도를 나타내어 음성 인식 성능을 예측하는데 효과적임을 확인하였다.
이 결과를 통하여 여러 특성 지표의 조합이 단독 지표보다 음성 성능 검증에 적합한 것을 증명하였으며 이러한 결과를 근거로 하여 위의 네 가지의 음성 특성 지표를 사용하여 오염된 음성 데이터베이스의 음성 인식성능 예측 실험을 진행하였다. 성능 예측의 기준은 음성 인식 성능 지표인 단어 오인식률으로 정하였으며 가우시안 혼합 모델을 사용하여 분류기를 구축하였다. 식 (5)은 관찰 값 x의 확률 밀도 함수를 K개의 가우시안요소를 사용한 가우시안 혼합 모델을 표현한 식이다.
각 오염 환경 당 360개의 데이터 중 300개는 훈련에, 60개는테스트에 사용하였으며 단어 오인식률을 보다 정확하게 예측하기 위해 교차 검증(N-fold cross validation)1)을 적용하여 모든 데이터가 훈련과 테스트에 참여하게하였다. 실험에 대한 결과는 가우시안 혼합 모델의 가우시안 요소를 증가시키며 예측 성능을 관찰하였다. 가우시안 모델은 데이터 분포를 평균과 분산을 이용한 확률밀도 함수로 표현한다.
이 결과를 통하여 여러 특성 지표의 조합이 단독 지표보다 음성 성능 검증에 적합한 것을 증명하였으며 이러한 결과를 근거로 하여 위의 네 가지의 음성 특성 지표를 사용하여 오염된 음성 데이터베이스의 음성 인식성능 예측 실험을 진행하였다. 성능 예측의 기준은 음성 인식 성능 지표인 단어 오인식률으로 정하였으며 가우시안 혼합 모델을 사용하여 분류기를 구축하였다.
생성한 지표는 각 음성 특성 지표를 단독으로 사용할 때보다 월등한 상관도를 보였다. 이러한 결과를 근거로 하여 위의 네 가지의 음성 특성 지표를 사용하여 단어 오인식률 예측 실험을 진행하였다.
기본적인 가우시안 확률 밀도 함수는 평균 μ와 분산 Σ로 표현되며 가우시안 혼합 모델은 서로 다른 가중치 w를 준 K개의 가우시안 확률 밀도 함수의 합으로 나타낸다. 인식 성능 예측을 위해 각 음성 데이터는 위의 음성특징으로 특징 벡터를 생성하였다. 각 데이터는 단어오인식률 별로 분류 범위를 나누어 모델을 훈련, 구축하고 이를 기준으로 예측 결과를 분류하여 음성 인식의성능 검증 결과를 확인하였다.
각 음성 데이터는 채택한 네 가지의 음성 특성지표로 4차원 벡터를 생성하고 GMM 기반의 음성인식성능 예측기를 구축하였다. 인식기의 예측 타겟은 0~100%의 값을 가지는 각 데이터의 단어 오인식률을 네개의 범위로 나누어 지정하여 훈련 및 예측하였다. 각 오염 환경 당 360개의 데이터 중 300개는 훈련에, 60개는테스트에 사용하였으며 단어 오인식률을 보다 정확하게 예측하기 위해 교차 검증(N-fold cross validation)1)을 적용하여 모든 데이터가 훈련과 테스트에 참여하게하였다.
본 시스템에서는 UTD(University of Texas at Dallas)에서 윈도우즈 환경의 MATLAB을 이용해 오픈소스로 제공되는 스크립트[8]를 사용하여 오염된 음성의 PESQ 값을 구하였다. 제공된 스크립트는 평가를 위한 깨끗한 레퍼런스 음성 파일과 평가 받을 음성 파일, 샘플링 주파수를 입력하면 내부 알고리즘에 의해 PESQ 값이 자동으로 계산되며 본 실험에서는 이를 함수로 사용하여, 제작한 데이터베이스 검증 시스템에 출력 가능한 형식으로 정보를 출력하는 배치 파일을 만든 후 자동추출하였다.

대상 데이터

본 실험에서는 Babble 잡음, 자동차 잡음이 각각 5,10, 15dB의 SNR로 오염된 TIMIT 음성 데이터베이스[10]를 사용하였다. TIMIT 데이터베이스는 630명의 서로 다른 화자가 발음한 영어 낭독체 문장이 녹음된 6,300개의 음성 샘플로 구성되어 있으며 이는 약 5.6시간 길이의 녹음 분량에 해당된다. 단어 오인식률의 신뢰도를 위해 음성 파일 하나 당 발화하는 단어의 수가 많은 상위 120개의 파일을 채택하여 오염된 잡음 별로360개씩 총 720개의 음성 데이터를 사용하였다.
6시간 길이의 녹음 분량에 해당된다. 단어 오인식률의 신뢰도를 위해 음성 파일 하나 당 발화하는 단어의 수가 많은 상위 120개의 파일을 채택하여 오염된 잡음 별로360개씩 총 720개의 음성 데이터를 사용하였다.
본 실험에서는 Babble 잡음, 자동차 잡음이 각각 5,10, 15dB의 SNR로 오염된 TIMIT 음성 데이터베이스[10]를 사용하였다. TIMIT 데이터베이스는 630명의 서로 다른 화자가 발음한 영어 낭독체 문장이 녹음된 6,300개의 음성 샘플로 구성되어 있으며 이는 약 5.
본 연구에서 개발한 음성 인식용 데이터베이스 검증시스템은 윈도우즈 기반의 그래픽 사용자 인터페이스(Graphic User Interface, GUI)와 윈도우즈, 리눅스 환경에서 작성된 특징 추출 스크립트로 구성되어 있다.

데이터처리

인식기의 예측 타겟은 0~100%의 값을 가지는 각 데이터의 단어 오인식률을 네개의 범위로 나누어 지정하여 훈련 및 예측하였다. 각 오염 환경 당 360개의 데이터 중 300개는 훈련에, 60개는테스트에 사용하였으며 단어 오인식률을 보다 정확하게 예측하기 위해 교차 검증(N-fold cross validation)1)을 적용하여 모든 데이터가 훈련과 테스트에 참여하게하였다. 실험에 대한 결과는 가우시안 혼합 모델의 가우시안 요소를 증가시키며 예측 성능을 관찰하였다.

이론/모형

본 실험에서는 분류 모델의 훈련과 예측에 HTK를 이용하였다. 각 음성 데이터는 채택한 네 가지의 음성 특성지표로 4차원 벡터를 생성하고 GMM 기반의 음성인식성능 예측기를 구축하였다.
따라서 SNR이 큰 음성일수록 음성의 인식 성능이 좋을 거라 표현할 수 있다. 식(1)은 SNR의 일반적인 수식이며 선행 실험에서, SNR은 NIST에서 제공하는 STNR 기법[7]을 이용하여 계산하였다.

성능/효과

본 실험에서는 이 결과를 근거로 오인식률과 높은 상관도를 나타내는 음성 특성 지표를 채택하여 4차원 특징 벡터를 생성하고 GMM 기반 의 분류기를 구축하여 음성 인식 성능 예측 실험을 진행하였다. 가우시안 요소를 증가시키며 실험한 결과 가우시안 요소가 2개일 때 평균 예측 성공률이 가장 높으며,특히 낮은 SNR 환경에서 단어 오인식 정도를 높은 정확도로 예측하는 것을 확인하였다. 선행 연구에서는 조합한 지표가 단어 오인식률의 상관도가 높았기 때문에 단어 오인식률을 대신하여 음성 성능 지표로 활용할 수 있을 것을 확인했으며 본 실험으로 직접 조합에 쓰인 음성특성 지표 벡터로 단어 오인식률을 예측함으로써 본 논문에서 제안하는 음성 인식 성능 예측 방식이 부가적인음성 인식기를 사용하지 않고 음성 인식 성능을 예측하는 용도에 효과적일 수 있음을 보다 명확히 입증한다.
새로운 음성 인식 성능 지표는 각 음성 특성 지표를 0~1의 범위로 정규화하고 단어 오인식률과 상관도에 비례하는 가중치를 적용하여생성하였다. 생성한 지표는 각 음성 특성 지표를 단독으로 사용할 때보다 월등한 상관도를 보였다. 이러한 결과를 근거로 하여 위의 네 가지의 음성 특성 지표를 사용하여 단어 오인식률 예측 실험을 진행하였다.
가우시안 요소를 증가시키며 실험한 결과 가우시안 요소가 2개일 때 평균 예측 성공률이 가장 높으며,특히 낮은 SNR 환경에서 단어 오인식 정도를 높은 정확도로 예측하는 것을 확인하였다. 선행 연구에서는 조합한 지표가 단어 오인식률의 상관도가 높았기 때문에 단어 오인식률을 대신하여 음성 성능 지표로 활용할 수 있을 것을 확인했으며 본 실험으로 직접 조합에 쓰인 음성특성 지표 벡터로 단어 오인식률을 예측함으로써 본 논문에서 제안하는 음성 인식 성능 예측 방식이 부가적인음성 인식기를 사용하지 않고 음성 인식 성능을 예측하는 용도에 효과적일 수 있음을 보다 명확히 입증한다.
두 경우 모두 SNR이 낮은 데이터가 월등이 높은 예측 성공률을 보이는 것을 알 수 있다. 이 결과로 구축한 GMM 기반 음성 인식 성능 예측기가 잡음에 많이노출된 음성 데이터일수록 단어 오인식률을 높은 확률로 예측하는 것을 확인하였다.
선행 연구에서부터 단어 오인식률과 상관도가 높은 여러 가지 특성 지표들을 채택, 조합하여 새로운 성능 지표를 제안하였다. 제안한 새로운 지표는 각 음성 특성 지표를 단독으로 사용할 때보다 단어 오인식률과 높은 상관도를 나타내어 음성 인식 성능을 예측하는데 효과적임을 확인하였다. 본 실험에서는 이 결과를 근거로 오인식률과 높은 상관도를 나타내는 음성 특성 지표를 채택하여 4차원 특징 벡터를 생성하고 GMM 기반 의 분류기를 구축하여 음성 인식 성능 예측 실험을 진행하였다.

핵심어	질문	논문에서 추출한 답변
	본 연구에서 개발한 음성 인식용 데이터베이스 검증시스템의 구성 요소는 무엇인가?	본 연구에서 개발한 음성 인식용 데이터베이스 검증시스템은 윈도우즈 기반의 그래픽 사용자 인터페이스(Graphic User Interface, GUI)와 윈도우즈, 리눅스 환경에서 작성된 특징 추출 스크립트로 구성되어 있다.
	MFCC 특징 추출 기법의 과정은 어떻게 되는가?	MFCC 특징 추출 기법은 현재 음성 인식 시스템의특징 추출 기법으로 가장 널리 사용되고 있는 방법이다.우선 음성 데이터의 아날로그 신호를 푸리에 변환을 통해 주파수 스펙트럼으로 변환한다. 그 후 인간의 청각시스템을 모방한 주파수 스케일인 Mel-filter Bank 분석을 통해 얻은 계수에 로그를 취한다. 마지막으로 이산코사인 변환(Discrete Cosine Transform, DCT)을 적용함으로써 Cepstrum 계수로 변환한다. 그림 1은 MFCC특징 추출 과정을 표현한 다이어그램이다.
	SNR이란 무엇인가?	SNR(Signal-to-Noise Ratio, SNR)은 음성의 인식 성능을 판단할 때 대표적으로 쓰이는 음성 특성 지표로서 듣고자 하는 주변 잡음 크기에 대한 음성 신호 크기의 상대적인 비율을 표현한 값이다. SNR은 음성 신호의 크기를 잡음 신호의 크기로 나눈 것에 로그를 취해준 값으로 SNR이 양수일 경우 잡음 신호 보다 음성 신호의 크기가 크다는 뜻이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

음성 특성 지표를 이용한 음성 인식 성능 예측
Speech Recognition Accuracy Prediction Using Speech Quality Measure 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

음성 특성 지표를 이용한 음성 인식 성능 예측 Speech Recognition Accuracy Prediction Using Speech Quality Measure 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

지승은 (3) 김우일 (23)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

음성 특성 지표를 이용한 음성 인식 성능 예측
Speech Recognition Accuracy Prediction Using Speech Quality Measure 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper