$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

음성구간검출을 위한 비정상성 잡음에 강인한 특징 추출
Robust Feature Extraction for Voice Activity Detection in Nonstationary Noisy Environments 원문보기

말소리와 음성과학 = Phonetics and speech sciences, v.5 no.1, 2013년, pp.11 - 16  

홍정표 (한국과학기술원, 전기 및 전자공학과) ,  박상준 (한국과학기술원, 전기 및 전자공학과) ,  정상배 (경상대학교, 전자공학과(공학연구원)) ,  한민수 (한국과학기술원, 전기 및 전자공학과)

Abstract AI-Helper 아이콘AI-Helper

This paper proposes robust feature extraction for accurate voice activity detection (VAD). VAD is one of the principal modules for speech signal processing such as speech codec, speech enhancement, and speech recognition. Noisy environments contain nonstationary noises causing the accuracy of the VA...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 따라서 본 연구에서는 비정상성 잡음이 존재하는 SNR이 낮은 환경에서도 음성의 구간을 검출하기 위해 주기성 (harmonicity)에 주목하였다. 음성의 70% 이상이 유성음으로 구성되어 있기 때문에 유성음에 초점을 맞추어 유성음 구간을 정확히 검출하기 위한 특징 추출 방법으로 harmonicity를 파라미터화한 harmonic-to-noise ratio (HNR)을 프레임 에너지에가 중하여 harmonic-weighted 에너지를 추출한다.
  • 시간영역, 주파수영역, 켑스트럼 영역에서 다양하게 구할 수 있으나 구현 복잡도 및 정확도를 감안했을 때 시간영역에서 입력 신호의 자기상관도(autocorrelation)를 이용한 방법을 일반적으로 사용한다[5]. 본 논문에서는 잡음의 개입에 의해 음성 입력신호를 이용한 피치 검출의 성능이 저하되기 때문에, 보다 정확한 피치 검출을 위해 음성의 엔벨로프(envelop)를 제거한 여기신호(LP residual)의 자기상관도를 이용하여 피치를 검출하였다. 또한, 인간의 피치는 표본화율(sampling rate)이 56~571 Hz의 범위를 가진다는 사실을 적용하였다[5].
  • 본 논문은 비정상성 잡음이 존재하는 환경에서 음성구간검출의 성능을 향상시킬 수 있는 특징추출 방법에 대한 연구를 수행하였다. 기존의 특징 추출 방법인 에너지와 영교차율을 이용한 방법, spectral entropy를 이용한 방법, mean delta function을 이용한 방법 등과 ROC 커브, EER 결과를 비교해 본 결과 제안한 harmonic-weighted 에너지의 성능이 가장 높았다.
  • 기존의 음성인식 전처리 단은 정확한 음성구간 검출을 위해 잡음제거 단을 필수적으로 수반한다. 하지만 본 논문에서는 잡음 제거의 관점이 아닌 비정상성 잡음이 존재하는 상황에서 비정상성 잡음에 강인한 특징을 추출하는 것을 목표로 한다. 기존의 특징추출 방법 중, 가장 대표적인 방법인 에너지와 영교차율 (zero crossing rate, ZCR)을 이용한 특징 추출 방법은 잡음의 개입에 매우 취약하다.

가설 설정

  • 최근 각광받고 있는 특징 추출 방법 중에 하나로, SNR이 낮은 환경에서도 스펙트럼의 크기는 음성구간이 잡음구간보다 조직적으로 나타난다는 가정을 기본으로 한다. 이런 스펙트럼의 “조직적인 정도 (measure of organization)”를 Shannon 의 정보의 엔트로피를 이용하여 표현하고자 한데서 비롯되었다[2].
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
프레임 에너지와 영교차율을 이용한 EPD 방법은 무엇인가? 그중 가장 간단하면서도 효과적인 방법이 프레임 에너지와 영교차율을 이용한 EPD 방법이다. 이 방법은 음성의 시작과 끝에서 영교차율이 급격히 증가하는 현상, 유성음(voiced speech), 무성음(unvoiced speech), 묵음 (silence) 간의 에너지 차이가 크다는 점을 활용하여 효과적으로 음성의 시작점과 끝점을 검출하는 방법이다 [1].
정확한 음성인식 결과를 얻기 위해서 중요한 것은? 정확한 음성인식 결과를 얻기 위해서는 음성구간을 정확히 찾아서 입력하는 것이 중요하다. 음성 구간 검출 (voice activity detection, VAD)이 음성 부호화기, 잡음제거, 음성인식기의 성능에 직접적인 영향을 미치기 때문에 정확한 음성구간 검출을 위한 연구가 지난 수십 년간 활발히 수행되었다[1-5].
정상성 잡음이 음성인식에 큰 문제가 되지 않는 이유는? 잡음은 에어컨, PC 팬 등에서 유발하는 정상적인(stationary) 잡음과 그밖에 TV, 음악, 사람 목소리 등 시간에 따라 상태가 급격히 변하는 비정상성(nonstationary) 잡음으로 나뉜다. 정상성 잡음은 위너필터(Wiener filter) 와 칼만 필터(Kalman filter) 에 의해 충분히 제거 할 수 있기 때문에 음성인식에 큰 문제가 되지 않는다[6-7]. 그러나 비정상성 잡음의 경우, 잡음의 종류가 다양하고, 잡음의 주파수 특성이 시간에 따라 급격히 변하기 때문에 잡음의 스펙트럼 파워 추정이 쉽지 않다.
질의응답 정보가 도움이 되었나요?

참고문헌 (10)

  1. Rabiner, L.R. (1975). An algorithm for determining the endpoints of isolated utterances. The Bell System Technical Journal, Vol. 54, No. 2, 297-315. 

  2. Zoltan, T. (2005). Robust voice activity detection based on the entropy of noise-suppressed spectrum. Interspeech, 245-248. 

  3. Ouzounov, A. (2004). A robust feature for speech detection. Cybernetics and information technologies, Vol. 4, No. 2, 3-14. 

  4. Kondoz, A.M. (1994). Digital speech: coding for low bit rate communication system. UK: John Wiley & Sons. 

  5. Rabiner, L.R. (1978). Digital processing of speech signals. USA: Prentice-Hall. 

  6. Jeong, S. (2001). Speech quality and recognition rate improvement in car noise environments. Electronics Letters, Vol. 37, No. 12, 801-802. 

  7. ETSI Std. (2005). Speech processing, transmission and quality aspects (STQ); distributed speech recognition; extended advanced front-end feature extraction algorithm; compression algorithm; back-end speech reconstruction algorithm. ES 202212 V1.1.2. 

  8. Brandstein, M. (2001). Microphone arrays: signal processing techniques and applications. Berlin: Springer. 

  9. Qi, Y. (1997). Temporal and spectral estimations of harmonics-to-noise ratio in human voice signals. Journal of Acoustical Society of America. Vol. 102, No. 1, 537-543. 

  10. Hirsch, H. (2000). The aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions. ISCA ITRW ASR2000. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로