[논문]잡음 환경에서 음성인식을 위한 스펙트럼 기울기의 효과적인 보상 방법

조정호

doi:10.7236/jiibc.2017.17.1.199

초록
AI-Helper

환경 잡음은 음성인식 시스템의 성능을 떨어뜨릴 수 있다. 이 논문은 인식 시스템이 잡음에 강인하도록 만들기 위하여, 켑스트럼에 기초한 특징 보상을 수행하는 과정을 제시한다. 이 방법은 부가적인 잡음의 영향을 제거하기 위한 직접적인 스펙트럼 기울기 보상에 기초를 둔다. 잡음 보상 방법은 로그 전력 스펙트럼의 스펙트럼 기울기 계산에 의하여 캡스트럼 영역에서 동작한다. 스펙트럼 보상은 SNR에 의존하는 켑스트럼 평균 보상 방법과 함께 사용된다. 백색 가우스 잡음, 지하철 잡음 및 자동차 잡음에 있는 조건에서, 실험 결과는 제안한 보상 방법이 여러 SNR에서 인식률을 상당히 개선한다는 것을 보여준다.

Abstract ▼ AI-Helper

Environmental noise can degrade the performance of speech recognition system. This paper presents a procedure for performing cepstrum based feature compensation to make recognition system robust to noise. The approach is based on direct compensation of spectral tilt to remove effects of additive noi...

Environmental noise can degrade the performance of speech recognition system. This paper presents a procedure for performing cepstrum based feature compensation to make recognition system robust to noise. The approach is based on direct compensation of spectral tilt to remove effects of additive noise. The noise compensation scheme operates in the cepstral domain by means of calculating spectral tilt of the log power spectrum. Spectral compensation is applied in combination with SNR-dependent cepstral mean compensation. Experimental results, in the presence of white Gaussian noise, subway noise and car noise, show that the proposed compensation method achieves substantial improvements in recognition accuracy at various SNR's.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 잡음이 있는 환경에서 스펙트럼 기울기의 보상 방법을 제시하였다. 이 방법은 잡음에 왜곡된 음성신호에 대해 켑스트럼에 기초한 특징 벡터 보상을 수행하는 것으로 스펙트럼 기울기 보상과 켑스트럼 평균 보상에 기초를 둔다.
부가적인 잡음이 있는 음성신호는 깨끗한 음성신호의 음성신호에 비해, 스펙트럼 기울기(spectral tilt)와 켑스트럼 평균(cepstral mean)이 다르다. 본 논문은 잡음이 있는 음성인식 환경에서 스펙트럼 기울기의 효과적인 보상 방법을 제시한다. 이 방법은 잡음에 왜곡된 음성신호에 대해 켑스트럼에 기초한 특징 벡터 보상을 수행하는 것으로, 스펙트럼 기울기 보상(spectral tilt compensation)과 켑스트럼 평균 보상(cepstral mean compensation)으로 이루어져 있다.

가설 설정

예측계수 a_i는 짧은 구간의 프레임에서 계산된다. 이 구간에서 성도 구조는 안정된 상태(stationary)로 가정한다. LP 켑스트럼 계수(linear prediction cepstral coefficient) c(k) (k≥1)은 다음과 같이 예측계수 a_i에서 직접 구할 수 있다.

제안 방법

스펙트럼 기울기 보상과 켑스트럼 평균 보상 방법의 성능을 평가하기 위하여 이산 HMM(discrete hidden Markov model)을 구성하고 화자독립 고립단어 인식시스템을 구현하였다.
제안한 방법은 잡음과 음성의 평균 로그 에너지에 따라 스펙트럼 기울기와 켑스트럼 평균 보상의 강도를 다르게 하므로, 효과적인 스펙트럼 보상이 가능하다. 제안한 방법의 타당성을 확인하기 위하여 백색 가우스 잡음(white Gaussian noise), 지하철 잡음 및 자동차 잡음에 대해 음성인식 실험을 수행하고 그 결과를 보인다. 본 논문의 구성은 다음과 같다: 2장에서 음성신호의 자기회귀 모델과 스펙트럼 기울기에 대해 소개하고, 3장에서는 스펙트럼 기울기 보상과 4장에서는 켑스트럼 평균 보상에 대해 각각 설명하고, 5장에서 실험 및 결과를 요약하여 6장에서 결론을 맺는다.
제안한 방법의 타당성을 확인하기 위하여 인식실험을 수행하였다. 성능개선의 기준은 오인식률(recognition error rate)의 감소여부이다.

대상 데이터

실험에 사용한 어휘는 한국어 숫자 10가지(0∼9)와 도시 명 30가지로 구성된 40개의 고립 단어이다. 벡터 양자화기(vector quantizer)의 생성과 HMM의 훈련에는 성인남성 10명이 각 단어를 20회씩 발음한 8,000개의 데이터를 사용하였고, 인식실험에는 훈련에 참가하지 않은 성인남성 5명이 각 단어를 20회씩 발음한 4,000개의 데이터를 사용하였다. 잡음이 섞인 음성은 백색 가우스 잡음, 지하철 잡음 및 승용차 잡음을 인식용 음성 데이터에 부가하여 만든 것이다.
실험에 사용한 어휘는 한국어 숫자 10가지(0∼9)와 도시 명 30가지로 구성된 40개의 고립 단어이다.

이론/모형

특징추출 과정에서 각 음성프레임은 16차 선형예측 분석을 거쳐 LPC-켑스트럼 계수로 변환한다. 다음으로, 잡음 환경에서 음성인식을 위하여 스펙트럼 기울기 보상과 켑스트럼 평균 보상 과정을 거치고, 마지막으로 1차 전역통과 필터(all-pass filter)^[12][13]를 이용하여 mel-스케일(mel-scale)의 켑스트럼으로 변환한다. 원래의 주파수 ω와 멜-스케일로 변환된 주파수 #의 관계는

성능/효과

표 2는 지하철 잡음이 있는 환경에서 오인식률을 비교한 것이다. 기울기가 보상된 켑스트럼 c_T(t,k)은 오인식률을 크게 낮추지는 못하나 평균이 보상된 켑스트럼 c_M(t,k)은 오인식률을 소폭 줄이는 효과를 보였다. SNR이 15 dB 이하인 경우 c_T,M(t,k)는 오인식률을 1/5 정도 줄인다.
백색 가우스 잡음, 지하철 잡음 및 자동차 잡음에 대해 음성인식 실험을 수행한 결과, 제안한 방법은 원래의 켑스트럼을 사용한 경우에 비해 오인식률을 1/10 ∼ 1/2 정도 줄였다.
특히 SNR이 15 dB 이하인 백색 가우스 잡음 환경에서도 오인식률을 1/3 ∼ 1/2 정도 줄였다. 이 논문에서 제시한 방법은 켑스트럼 영역에서 스펙트럼을 보상을 하므로, 켑스트럼 영역에서 동작하는 대부분의 음성 인식기에 쉽게 활용할 수 있다.
켑스트럼 평균 보상은 음성 신호의 평균 스펙트럼을 주변 잡음의 평균 스펙트럼에 맞추는 과정이다. 제안한 방법은 잡음과 음성의 평균 로그 에너지에 따라 스펙트럼 기울기와 켑스트럼 평균 보상의 강도를 다르게 하므로, 효과적인 스펙트럼 보상이 가능하다. 제안한 방법의 타당성을 확인하기 위하여 백색 가우스 잡음(white Gaussian noise), 지하철 잡음 및 자동차 잡음에 대해 음성인식 실험을 수행하고 그 결과를 보인다.

질의응답

핵심어	질문	논문에서 추출한 답변
	잡음 음성인식이란?	잡음 음성인식은 잡음으로 인해 저하된 음성인식 시스템의 성능을 향상시키는 기술로서, 다양한 방법으로 잡음의 영향을 최소화하는 연구가 발표되고 있다[1-4]. 잡음이 섞인 음성에서 잡음을 필터링하거나 깨끗한 음성의 파라미터를 추정하는 방법에는 Wiener 필터링[5], Kalman 필터링[6], 스펙트럼 차감(spectral subtraction)[7] 및 켑스트럼 평균 차감(CMS: cepstral mean subtraction)[8] 등의 방법이 있다.
	음성인식 시스템의 성능을 떨어뜨리는 음향학적 왜곡의 중요한 원인은?	음성인식 시스템의 성능을 떨어뜨리는 음향학적 왜곡(acoustical distortion)은 여러 가지가 있다. 그 중 가장 중요한 원인은 부가적인 잡음이다. 음성인식 시스템의 훈련과정이나 인식과정에서 잡음환경이 서로 같으면 음성 인식기는 가장 좋은 인식 성능을 가진다.
	스펙트럼 차감은 어디에 이용되는가?	잡음이 섞인 음성에서 잡음을 필터링하거나 깨끗한 음성의 파라미터를 추정하는 방법에는 Wiener 필터링[5], Kalman 필터링[6], 스펙트럼 차감(spectral subtraction)[7] 및 켑스트럼 평균 차감(CMS: cepstral mean subtraction)[8] 등의 방법이 있다. 특히 스펙트럼 차감은 배경 잡음의 차감에 효과적이며 음성인식, 음성 향상(speech enhancement) 및 화자 확인(speaker verification)에 널리 이용된다.

참고문헌 (13)

P. J. Moreno, Speech Recognition in Noisy Environments, Ph. D, Dissertation, Carnegie Mellon University, 1996.
H. Hermansky, "RASTA processing of speech," IEEE Trans. Speech Audio processing, vol. 2, pp. 578-589, Oct. 1994. DOI: https://doi.org/10.1109/89.326616

상세보기
M. J. Gales, S. Young, "Robust speech recognition using parallel model combination," IEEE Trans. Speech Audio processing, vol. 4. pp. 352-359, Sep. 1996.

상세보기
J. Y. Ahn, Y. S. Kim, S. H. Kim, K. I. Hur, "A Study on Voice Recognition Pattern matching level for vehicle ECU control," The Journal of The Institute of Internet, Broadcasting and Communication (JIIBC), Vol. 10, No. 1, pp.75-80, Feb. 2010.
S. V. Vaseghi and B. P. Milner, "Noise compensation methods for hidden Markov model speech recognition in adverse environments," IEEE Trans. Speech and Audio Processing, vol. 5, No. 1, pp. 11-21, Jan. 1997.

상세보기
D. C. Popescu and I. Zeljkovic, "Kalman filtering of colored noise for speech enhancement," ICSLP'96, Philadelphia, vol. 1, pp.426-429, Oct. 1996.
S. F. Boll, "Suppression of acoustic noise in speech using spectral subtraction," IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-27, no. 2, pp. 113-120, Apr. 1979.
D. Naik, "Pole-filtered cepstral mean subtraction," ICSLP'95, Detroit, vol. 1, pp. 157-160, May, 1995.
L. R. Rabiner and R. W. Schafer, Digital Processing of Speech Signals, Prentice-Hall, 1978.
J. Deller, Jr, J. Proakis and J. Hansen, Discrete-Time Processing of Speech Signals, Macmillan Publishing Co, New York, 1993.
V. Goncharoff, E. VonColln, and R. Morris, "Efficient calculation of spectral tilt from various LPC parameters," Proc. IASTED, pp. 60-63, Nov. 1995.
A. Oppenheim and D. Johnson, "Discrete representation of signals," Proc. of IEEE, vol. 60, no. 6, pp. 681-691, June, 1972.

상세보기
P. A. Regalia, S. K. Mitra and P. P. Vaidyanathan, "The digital all-pass filter: A versatile signal processing building block," Proc. of IEEE, vol. 76, no. 1, pp. 19-37, Jan. 1988.

상세보기

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

잡음 환경에서 음성인식을 위한 스펙트럼 기울기의 효과적인 보상 방법
Efficient Compensation of Spectral Tilt for Speech Recognition in Noisy Environment 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

참고문헌 (13)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

잡음 환경에서 음성인식을 위한 스펙트럼 기울기의 효과적인 보상 방법 Efficient Compensation of Spectral Tilt for Speech Recognition in Noisy Environment 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

참고문헌 (13)

이 논문을 인용한 문헌

저자의 다른 논문 :

조정호 (1)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

잡음 환경에서 음성인식을 위한 스펙트럼 기울기의 효과적인 보상 방법
Efficient Compensation of Spectral Tilt for Speech Recognition in Noisy Environment 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper