[논문]잡음환경에서 음성인식 성능향상을 위한 바이너리 마스크를 이용한 스펙트럼 향상 방법

최갑근; 김순협

doi:10.7776/ask.2010.29.7.468

초록
AI-Helper

음성인식의 실용화에 가장 저해되는 요소는 배경잡음과 채널잡음에 의한 왜곡이다. 일반적으로 배경잡음은 음성인식 시스템의 성능을 저하시키고 이로 인해 사용 장소의 제약을 받게 한다. DSR (Distributed Speech Recognition) 기반의 음성인식 역시 이와 같은 문제로 성능 향상에 어려움을 겪고 있다. 이러한 문제를 해결하기 위해 다양한 잡음제거 알고리듬이 사용되고 있으나 낮은 SNR환경에서 부정확한 잡음추정으로 발생하는 스펙트럼 손상과 잔존 잡음은 음성인식기의 인식환경과 학습 환경의 불일치를 만들게 되어 인식률을 저하시키는 원인이 된다. 본 논문에서는 이와 같은 문제를 해결하기 위해 잡음제거 알고리듬으로 MMSE-STSA 방법을 사용하였고 손상된 스펙트럼을 보상하기 위해 Ideal Binary Mask를 이용하였다. 잡음환경 (SNR 15 ~ 0 dB)에 따른 실험결과 제안된 방법을 사용했을 때 향상된 스펙트럼을 얻을 수 있었고 향상된 인식성능을 확인했다.

Abstract ▼ AI-Helper

The major factor that disturbs practical use of speech recognition is distortion by the ambient and channel noises. Generally, the ambient noise drops the performance and restricts places to use. DSR (Distributed Speech Recognition) based speech recognition also has this problem. Various noise cance...

The major factor that disturbs practical use of speech recognition is distortion by the ambient and channel noises. Generally, the ambient noise drops the performance and restricts places to use. DSR (Distributed Speech Recognition) based speech recognition also has this problem. Various noise cancelling algorithms are applied to solve this problem, but loss of spectrum and remaining noise by incorrect noise estimation at low SNR environments cause drop of recognition rate. This paper proposes methods for speech enhancement. This method uses MMSE-STSA for noise cancelling and ideal binary mask to compensate damaged spectrum. According to experiments at noisy environment (SNR 15 dB ~ 0 dB), the proposed methods showed better spectral results and recognition performance.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 음성향상 후 제안된 IBM (Ideal Binary Mask)을 이용한 스펙트럼 향상 성능을 알아보기 위해 MMSE-STSA 알고리듬에 의해 음성 향상된 출력과 제안된 MMSE-STSA와 IBM을 함께 사용한 출력을 스펙트로 그램과 바이너리 비트 마스크등으로 비교해 보았다. 사용된 잡음의 종류는 Buccaneer, destroyerengine, f16, factory, hfchannel, pink, volvo이고, 잡음조건은 SNR 15 dB ~ 0 dB를 사용하여 성능을 측정하였다.
본 논문은 잡음환경에서 음성인식 시스템의 성능을 보완하기 위해 음성의 특징추출을 하는 전처리 부분에 잡음을 제거하기 위한 음성향상 알고리듬을 이용하여 인식성능을 개선하는 연구를 하였다. 음성향상을 위해 사용한 MMSE-STSA는 통계기반의 비교적 우수한 성능의 알고 리듬으로 알려져 있으나 잡음을 제거한 후 발생하는 잔존 잡음과 음악잡음 등은 잘못된 음성의 검출과 왜곡된 특징을 추출하게 되는 이유가 된다.
따라서 의도하지 않은 잡음 성분이 남은 상태에서 마스크를 사용하면 오히려 성능이 나빠질 수 도 있다. 이러한 문제를 해결하기 위해서 본 논문에서는 기본주파수 (F₀)와 하모닉스가 존재하는 영역에 바이너리 인덱스를 조사하여 잔존잡음과 스펙트럼 왜곡을 보정한다. 식 (10)은 기본주파수 (F₀)와 하모닉스 존재여부를 조사한다.

제안 방법

온라인 실험을 위해서는 표 1에서 보여주는 주파수 응답 평탄도가 높은 모니터 스피커와 파워 앰프를 이용하였으며 인식 실험을 위한 마이크는 Sony vaio note book VGN-CR35L에 내장된 콘덴서 마이크를 이용하였다 [8]. SNR의 측정을 위해 잡음과 음성을 따로 녹음하며 입력 이득 값을 설정하였고 스피커와 마이크간의 거리는 1 m 로 설정하였다. 인식실험을 위한 어휘는 한국어 숫자음을 사용하였다.
스펙트럴 에너지를 기반으로 하는 VAD 알고리듬들은 특히 잔존잡음으로 인하여 안정된 문턱값을 획득하는데 어려움이 있다. 본 논문에서 제안된 방법은 음성을 향상한후에 잔존잡음을 최대한 제거하고 음성검출을 시도하여 안정된 문턱 값을 설정하는데 도움을 준다.
음성향상을 위해 사용한 MMSE-STSA는 통계기반의 비교적 우수한 성능의 알고 리듬으로 알려져 있으나 잡음을 제거한 후 발생하는 잔존 잡음과 음악잡음 등은 잘못된 음성의 검출과 왜곡된 특징을 추출하게 되는 이유가 된다. 본 논문에서는 성능향상을 위해 음성향상을 한 후에 IBM (Ideal Binary Mask)를 이용하여 잔존잡음과 음악잡음을 최대한 제거하였다. 하지만 비교적 높은 SNR (15 dB ~ 10 dB)에서는 우수한 성능을 갖는 IBM이 비안정적 잡음을 갖는 낮은 SNR (5 dB ~ 0 dB)에서는 잔존잡음 제거에는 효과적이나 인식성능 향상을 위해 스펙트럼을 향상 시키고 보상 하는 효과는 한계가 있었다.
IBM은 시간주파수 공간에서 약한 신호는 강한신호에 마스킹 된다고 보고 마스킹 임계값을 정한 후 에 목표한 신호는 1을 주고 그 외의 간섭신호에 대해 0을 주어 마스킹 공간을 만든다. 본 논문에서는 이와 같은 마스킹공간을 잡음이 제거된 음성향상 신호에 곱해주어 불필요한 잔존잡음과 스펙트럼 왜곡을 최소화 시킬 수 있도록 스펙트럼을 보상하였다[5-7].
음성인식 실험을 위해서는 HMM (Hidden Markov Model)모델을 이용하였고, 훈련을 위해서는 Baum-Welch reestimation 알고리듬을 이용하였으며 본 연구를 위해 직접 제작된 인식기를 사용하였다. 잡음 데이타 베이스는 전술한 잡음의 종류를 갖고 있는 NOISEX-92를 사용하였으며 잡음 음성은 clean 음성에 잡음을 인위적으로 부가하여 사용하였으며 특별히 라우드 스피커를 이용하여 잡음을 재생하며 인식실험을 하는 온라인 방식의 실험을 실시하였다. 온라인 실험을 위해서는 표 1에서 보여주는 주파수 응답 평탄도가 높은 모니터 스피커와 파워 앰프를 이용하였으며 인식 실험을 위한 마이크는 Sony vaio note book VGN-CR35L에 내장된 콘덴서 마이크를 이용하였다 [8].
MMSE-STSA (Minimum Mean Square Error Short-Time Spectral Amplitude) 예측기는 음성과 잡음에 대해 통계적으로 독립가우시안 확률변수 요소로 모델링한 것에 기반 한다. 향상된 음성은 잡음 신호의 원 위상을 혼합한 MMSE-STSA 예측기를 사용하여 구성된다. 주파수 영역과 FFT를 이용한 신호스펙트럼 예측으로 분석 된다 [4].

대상 데이터

본 논문에서는 음성향상 후 제안된 IBM (Ideal Binary Mask)을 이용한 스펙트럼 향상 성능을 알아보기 위해 MMSE-STSA 알고리듬에 의해 음성 향상된 출력과 제안된 MMSE-STSA와 IBM을 함께 사용한 출력을 스펙트로 그램과 바이너리 비트 마스크등으로 비교해 보았다. 사용된 잡음의 종류는 Buccaneer, destroyerengine, f16, factory, hfchannel, pink, volvo이고, 잡음조건은 SNR 15 dB ~ 0 dB를 사용하여 성능을 측정하였다. 또한 스펙트럼이 향상된 상태에서 음성인식을 실시하여 음성향상만 이용하여 인식한 결과와 비교 실험을 실시하였다.
잡음 데이타 베이스는 전술한 잡음의 종류를 갖고 있는 NOISEX-92를 사용하였으며 잡음 음성은 clean 음성에 잡음을 인위적으로 부가하여 사용하였으며 특별히 라우드 스피커를 이용하여 잡음을 재생하며 인식실험을 하는 온라인 방식의 실험을 실시하였다. 온라인 실험을 위해서는 표 1에서 보여주는 주파수 응답 평탄도가 높은 모니터 스피커와 파워 앰프를 이용하였으며 인식 실험을 위한 마이크는 Sony vaio note book VGN-CR35L에 내장된 콘덴서 마이크를 이용하였다 [8]. SNR의 측정을 위해 잡음과 음성을 따로 녹음하며 입력 이득 값을 설정하였고 스피커와 마이크간의 거리는 1 m 로 설정하였다.
SNR의 측정을 위해 잡음과 음성을 따로 녹음하며 입력 이득 값을 설정하였고 스피커와 마이크간의 거리는 1 m 로 설정하였다. 인식실험을 위한 어휘는 한국어 숫자음을 사용하였다.

데이터처리

사용된 잡음의 종류는 Buccaneer, destroyerengine, f16, factory, hfchannel, pink, volvo이고, 잡음조건은 SNR 15 dB ~ 0 dB를 사용하여 성능을 측정하였다. 또한 스펙트럼이 향상된 상태에서 음성인식을 실시하여 음성향상만 이용하여 인식한 결과와 비교 실험을 실시하였다. 음성인식 실험을 위해서는 HMM (Hidden Markov Model)모델을 이용하였고, 훈련을 위해서는 Baum-Welch reestimation 알고리듬을 이용하였으며 본 연구를 위해 직접 제작된 인식기를 사용하였다.

이론/모형

본 논문에서는 잡음제거 후 발생하는 잔존잡음과 음악 잡음, 스펙트럼 왜곡 등을 보상하기 위해 Hu, Wang이 소개한 CASA (Computational Auditory Scene Analysis) 기반 IBM (Ideal Bit Mask)를 이용하였다. IBM은 시간주파수 공간에서 약한 신호는 강한신호에 마스킹 된다고 보고 마스킹 임계값을 정한 후 에 목표한 신호는 1을 주고 그 외의 간섭신호에 대해 0을 주어 마스킹 공간을 만든다.
또한 스펙트럼이 향상된 상태에서 음성인식을 실시하여 음성향상만 이용하여 인식한 결과와 비교 실험을 실시하였다. 음성인식 실험을 위해서는 HMM (Hidden Markov Model)모델을 이용하였고, 훈련을 위해서는 Baum-Welch reestimation 알고리듬을 이용하였으며 본 연구를 위해 직접 제작된 인식기를 사용하였다. 잡음 데이타 베이스는 전술한 잡음의 종류를 갖고 있는 NOISEX-92를 사용하였으며 잡음 음성은 clean 음성에 잡음을 인위적으로 부가하여 사용하였으며 특별히 라우드 스피커를 이용하여 잡음을 재생하며 인식실험을 하는 온라인 방식의 실험을 실시하였다.
음성향상 알고리듬 중에서 일반적으로 널리 사용되고 있는 알고리듬은 Wiener 필터 방식이며, 음성신호의 스펙트럼에 대한 MMSE (Minimum Mean Square Error) 추정 기반의 필터가 사용된다. 이보다 개선된 것은 음성신호와 잡음신호의 스펙트럼에 대한 사전 확률분포를 가정하고 통계모델에 근거하여 음성신호의 스펙트럼의 크기를 추정하는 MMSE-STSA (Short Time Spectral Amplitude) 방법이 좋은 성능을 보이나 음성통신에서 음성품질향상을 목표로 연구된 알고리듬으로 인식상황에 적합하지 않을 수 있으며 특히 잡음제거 후 음악잡음과 잔존잡음이 남아 인식률을 저하시키게 되어 음성인식을 위해서는 적절한 알고리듬의 선택이 필요하다 [3, 4].

성능/효과

하지만 비교적 높은 SNR (15 dB ~ 10 dB)에서는 우수한 성능을 갖는 IBM이 비안정적 잡음을 갖는 낮은 SNR (5 dB ~ 0 dB)에서는 잔존잡음 제거에는 효과적이나 인식성능 향상을 위해 스펙트럼을 향상 시키고 보상 하는 효과는 한계가 있었다. 본 연구에 의하여 음성향상 알고리듬을 이용하여 잡음을 제거한 후에 IBM을 함께 사용하여 음성의 스펙트럼을 향상시키면 개선된 성능을 확인할 수 있으나 잡음의 종류가 SSN (Speech Shape Noise)이면서 비안정적이고 낮은 SNR에서는 인식성능 개선에 어려움이 있었다. 이것은 손상된 스펙트럼이 많아 충분히 보상되지 않은 것이 원인으로 보인다.
낮은 SNR상황에서 잡음의 종류가 무색잡음이고 안정적 잡음이면 잡음제거 효과는 탁월하다. 하지만 잡음의 종류가 SSN (Speech Shape Noise)의 특징을 가지게 되고 비안정적이며 낮은 SNR이면 여전히 잡음으로 인하여 마스크의 LC값 설정이 곤란하지만 단순히 음성향상만을 수행한 결과보다는 잔존잡음과 중요 스텍트럼 요소를 향상시키는 것을 확인 할 수 있다. 그림 3에서 보여지는 잡음의 종류는 f16잡음이 사용되었다.

질의응답

핵심어	질문	논문에서 추출한 답변
	음성향상 알고리듬 중에서 일반적으로 널리 사용되고 있는 알고리듬은 무엇인가?	음성향상 알고리듬 중에서 일반적으로 널리 사용되고 있는 알고리듬은 Wiener 필터 방식이며, 음성신호의 스펙트럼에 대한 MMSE (Minimum Mean Square Error) 추정 기반의 필터가 사용된다. 이보다 개선된 것은 음성신호와 잡음신호의 스펙트럼에 대한 사전 확률분포를 가정하고 통계모델에 근거하여 음성신호의 스펙트럼의 크기를 추정하는 MMSE-STSA (Short Time Spectral Amplitude) 방법이 좋은 성능을 보이나 음성통신에서 음성품질향상을 목표로 연구된 알고리듬으로 인식상황에 적합하지 않을 수 있으며 특히 잡음제거 후 음악잡음과 잔존잡음이 남아 인식률을 저하시키게 되어 음성인식을 위해서는 적절한 알고리듬의 선택이 필요하다 [3, 4].
	음성인식의 실용화에 가장 저해되는 요소는 무엇인가?	음성인식의 실용화에 가장 저해되는 요소는 배경잡음과 채널잡음에 의한 왜곡이다. 일반적으로 배경잡음은 음성인식 시스템의 성능을 저하시키고 이로 인해 사용 장소의 제약을 받게 한다.
	통계 기반 잡음 추정을 이용한 음성향상 알고리듬은 어떤 문제점이 있는가?	통계 기반 잡음 추정을 이용한 음성향상 알고리듬들은 일반적으로 각각의 프레임에서 음성의 존재여부를 계산하고 잡음을 제거한다. 따라서 프레임 내에서 변화하는 잡음의 크기를 정확하게 추정하지 못하면 잔존잡음과 음악잡음에 의해 스펙트럼을 손상시키게 되며 이 같은 문제는 비안정적 잡음신호가 부가된 경우 더욱 심각해진다. 본 논문에서는 변화하는 잡음을 최대한 제거하기 위해긴 구간에서 식 (9)와 같이 각각의 주파수 빈에 대한 평균 값을 계산한다.

참고문헌 (8)

ETSI standard document, Speech Processing, Transmission and Quality aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithms, ETSI ES 201 108 v.1.1.1 (2000-02), Feb. 2002.
ETSI standard document, Speech Processing, Transmission and Quality aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithms, ETSI ES 201 108 v.1.1.1 (2000-02), Feb. 2002.
R. Flynn, E jones, "Robust Distributed Speech Recognition using Speech Enhancement", IEEE Tansactions on Consumer Electronics, vol. 54, no. 3, pp. 1267-1273, 2008. 8.

상세보기
Ephraim, Y., Malah, D. "Speech enhancement Using a minimum mean square error short-time spectral amplitude estimator", IEEE Trans. Acoust., Speech Signal Process., vol. 32, pp. 1109- 1121, 1984.

상세보기
A. S. Bregman, Auditory Scene Analysis. Cambridge, MA: MIT Press, 1990.
N. Roman, D. L. Wang, and G. J. Brown, "Speech segregation based on sound localization," Journal of the Acoustical Society of America, vol. 114, no. 4, pp. 2236？2252, 2003.

상세보기
R. Lyon, "A computational model of filtering, detection, and compression in the cochlea," in Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP'82., vol. 7, pp. 1282-1285, 1982.
A. Varga and H. J. M. Steeneken, "Assessment for automatic speech recognition: II. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems," Speech Communication, vol. 12, no. 3, pp. 247-251, July 1993.

상세보기

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

잡음환경에서 음성인식 성능향상을 위한 바이너리 마스크를 이용한 스펙트럼 향상 방법
Method for Spectral Enhancement by Binary Mask for Speech Recognition Enhancement Under Noise Environment 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

참고문헌 (8)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

잡음환경에서 음성인식 성능향상을 위한 바이너리 마스크를 이용한 스펙트럼 향상 방법 Method for Spectral Enhancement by Binary Mask for Speech Recognition Enhancement Under Noise Environment 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

참고문헌 (8)

이 논문을 인용한 문헌

저자의 다른 논문 :

최갑근 (6) 김순협 (53)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

잡음환경에서 음성인식 성능향상을 위한 바이너리 마스크를 이용한 스펙트럼 향상 방법
Method for Spectral Enhancement by Binary Mask for Speech Recognition Enhancement Under Noise Environment 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper