$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

잡음환경에서 음성인식 성능향상을 위한 바이너리 마스크를 이용한 스펙트럼 향상 방법
Method for Spectral Enhancement by Binary Mask for Speech Recognition Enhancement Under Noise Environment 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.29 no.7, 2010년, pp.468 - 474  

최갑근 (광운대학교 대학원 컴퓨터공학과) ,  김순협 (광운대학교 대학원 컴퓨터공학과)

초록
AI-Helper 아이콘AI-Helper

음성인식의 실용화에 가장 저해되는 요소는 배경잡음과 채널잡음에 의한 왜곡이다. 일반적으로 배경잡음은 음성인식 시스템의 성능을 저하시키고 이로 인해 사용 장소의 제약을 받게 한다. DSR (Distributed Speech Recognition) 기반의 음성인식 역시 이와 같은 문제로 성능 향상에 어려움을 겪고 있다. 이러한 문제를 해결하기 위해 다양한 잡음제거 알고리듬이 사용되고 있으나 낮은 SNR환경에서 부정확한 잡음추정으로 발생하는 스펙트럼 손상과 잔존 잡음은 음성인식기의 인식환경과 학습 환경의 불일치를 만들게 되어 인식률을 저하시키는 원인이 된다. 본 논문에서는 이와 같은 문제를 해결하기 위해 잡음제거 알고리듬으로 MMSE-STSA 방법을 사용하였고 손상된 스펙트럼을 보상하기 위해 Ideal Binary Mask를 이용하였다. 잡음환경 (SNR 15 ~ 0 dB)에 따른 실험결과 제안된 방법을 사용했을 때 향상된 스펙트럼을 얻을 수 있었고 향상된 인식성능을 확인했다.

Abstract AI-Helper 아이콘AI-Helper

The major factor that disturbs practical use of speech recognition is distortion by the ambient and channel noises. Generally, the ambient noise drops the performance and restricts places to use. DSR (Distributed Speech Recognition) based speech recognition also has this problem. Various noise cance...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 음성향상 후 제안된 IBM (Ideal Binary Mask)을 이용한 스펙트럼 향상 성능을 알아보기 위해 MMSE-STSA 알고리듬에 의해 음성 향상된 출력과 제안된 MMSE-STSA와 IBM을 함께 사용한 출력을 스펙트로 그램과 바이너리 비트 마스크등으로 비교해 보았다. 사용된 잡음의 종류는 Buccaneer, destroyerengine, f16, factory, hfchannel, pink, volvo이고, 잡음조건은 SNR 15 dB ~ 0 dB를 사용하여 성능을 측정하였다.
  • 본 논문은 잡음환경에서 음성인식 시스템의 성능을 보완하기 위해 음성의 특징추출을 하는 전처리 부분에 잡음을 제거하기 위한 음성향상 알고리듬을 이용하여 인식성능을 개선하는 연구를 하였다. 음성향상을 위해 사용한 MMSE-STSA는 통계기반의 비교적 우수한 성능의 알고 리듬으로 알려져 있으나 잡음을 제거한 후 발생하는 잔존 잡음과 음악잡음 등은 잘못된 음성의 검출과 왜곡된 특징을 추출하게 되는 이유가 된다.
  • 따라서 의도하지 않은 잡음 성분이 남은 상태에서 마스크를 사용하면 오히려 성능이 나빠질 수 도 있다. 이러한 문제를 해결하기 위해서 본 논문에서는 기본주파수 (F0)와 하모닉스가 존재하는 영역에 바이너리 인덱스를 조사하여 잔존잡음과 스펙트럼 왜곡을 보정한다. 식 (10)은 기본주파수 (F0)와 하모닉스 존재여부를 조사한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
음성향상 알고리듬 중에서 일반적으로 널리 사용되고 있는 알고리듬은 무엇인가? 음성향상 알고리듬 중에서 일반적으로 널리 사용되고 있는 알고리듬은 Wiener 필터 방식이며, 음성신호의 스펙트럼에 대한 MMSE (Minimum Mean Square Error) 추정 기반의 필터가 사용된다. 이보다 개선된 것은 음성신호와 잡음신호의 스펙트럼에 대한 사전 확률분포를 가정하고 통계모델에 근거하여 음성신호의 스펙트럼의 크기를 추정하는 MMSE-STSA (Short Time Spectral Amplitude) 방법이 좋은 성능을 보이나 음성통신에서 음성품질향상을 목표로 연구된 알고리듬으로 인식상황에 적합하지 않을 수 있으며 특히 잡음제거 후 음악잡음과 잔존잡음이 남아 인식률을 저하시키게 되어 음성인식을 위해서는 적절한 알고리듬의 선택이 필요하다 [3, 4].
음성인식의 실용화에 가장 저해되는 요소는 무엇인가? 음성인식의 실용화에 가장 저해되는 요소는 배경잡음과 채널잡음에 의한 왜곡이다. 일반적으로 배경잡음은 음성인식 시스템의 성능을 저하시키고 이로 인해 사용 장소의 제약을 받게 한다.
통계 기반 잡음 추정을 이용한 음성향상 알고리듬은 어떤 문제점이 있는가? 통계 기반 잡음 추정을 이용한 음성향상 알고리듬들은 일반적으로 각각의 프레임에서 음성의 존재여부를 계산하고 잡음을 제거한다. 따라서 프레임 내에서 변화하는 잡음의 크기를 정확하게 추정하지 못하면 잔존잡음과 음악잡음에 의해 스펙트럼을 손상시키게 되며 이 같은 문제는 비안정적 잡음신호가 부가된 경우 더욱 심각해진다. 본 논문에서는 변화하는 잡음을 최대한 제거하기 위해긴 구간에서 식 (9)와 같이 각각의 주파수 빈에 대한 평균 값을 계산한다.
질의응답 정보가 도움이 되었나요?

참고문헌 (8)

  1. ETSI standard document, Speech Processing, Transmission and Quality aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithms, ETSI ES 201 108 v.1.1.1 (2000-02), Feb. 2002. 

  2. ETSI standard document, Speech Processing, Transmission and Quality aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithms, ETSI ES 201 108 v.1.1.1 (2000-02), Feb. 2002. 

  3. R. Flynn, E jones, "Robust Distributed Speech Recognition using Speech Enhancement", IEEE Tansactions on Consumer Electronics, vol. 54, no. 3, pp. 1267-1273, 2008. 8. 

  4. Ephraim, Y., Malah, D. "Speech enhancement Using a minimum mean square error short-time spectral amplitude estimator", IEEE Trans. Acoust., Speech Signal Process., vol. 32, pp. 1109- 1121, 1984. 

  5. A. S. Bregman, Auditory Scene Analysis. Cambridge, MA: MIT Press, 1990. 

  6. N. Roman, D. L. Wang, and G. J. Brown, "Speech segregation based on sound localization," Journal of the Acoustical Society of America, vol. 114, no. 4, pp. 2236?2252, 2003. 

  7. R. Lyon, "A computational model of filtering, detection, and compression in the cochlea," in Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP'82., vol. 7, pp. 1282-1285, 1982. 

  8. A. Varga and H. J. M. Steeneken, "Assessment for automatic speech recognition: II. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems," Speech Communication, vol. 12, no. 3, pp. 247-251, July 1993. 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로