[논문]음성구간검출을 위한 비정상성 잡음에 강인한 특징 추출

홍정표; 박상준; 정상배; 한민수

doi:10.13064/ksss.2013.5.1.011

문제 정의

따라서 본 연구에서는 비정상성 잡음이 존재하는 SNR이 낮은 환경에서도 음성의 구간을 검출하기 위해 주기성 (harmonicity)에 주목하였다. 음성의 70% 이상이 유성음으로 구성되어 있기 때문에 유성음에 초점을 맞추어 유성음 구간을 정확히 검출하기 위한 특징 추출 방법으로 harmonicity를 파라미터화한 harmonic-to-noise ratio (HNR)을 프레임 에너지에가 중하여 harmonic-weighted 에너지를 추출한다.
시간영역, 주파수영역, 켑스트럼 영역에서 다양하게 구할 수 있으나 구현 복잡도 및 정확도를 감안했을 때 시간영역에서 입력 신호의 자기상관도(autocorrelation)를 이용한 방법을 일반적으로 사용한다[5]. 본 논문에서는 잡음의 개입에 의해 음성 입력신호를 이용한 피치 검출의 성능이 저하되기 때문에, 보다 정확한 피치 검출을 위해 음성의 엔벨로프(envelop)를 제거한 여기신호(LP residual)의 자기상관도를 이용하여 피치를 검출하였다. 또한, 인간의 피치는 표본화율(sampling rate)이 56~571 Hz의 범위를 가진다는 사실을 적용하였다[5].
본 논문은 비정상성 잡음이 존재하는 환경에서 음성구간검출의 성능을 향상시킬 수 있는 특징추출 방법에 대한 연구를 수행하였다. 기존의 특징 추출 방법인 에너지와 영교차율을 이용한 방법, spectral entropy를 이용한 방법, mean delta function을 이용한 방법 등과 ROC 커브, EER 결과를 비교해 본 결과 제안한 harmonic-weighted 에너지의 성능이 가장 높았다.
기존의 음성인식 전처리 단은 정확한 음성구간 검출을 위해 잡음제거 단을 필수적으로 수반한다. 하지만 본 논문에서는 잡음 제거의 관점이 아닌 비정상성 잡음이 존재하는 상황에서 비정상성 잡음에 강인한 특징을 추출하는 것을 목표로 한다. 기존의 특징추출 방법 중, 가장 대표적인 방법인 에너지와 영교차율 (zero crossing rate, ZCR)을 이용한 특징 추출 방법은 잡음의 개입에 매우 취약하다.

가설 설정

최근 각광받고 있는 특징 추출 방법 중에 하나로, SNR이 낮은 환경에서도 스펙트럼의 크기는 음성구간이 잡음구간보다 조직적으로 나타난다는 가정을 기본으로 한다. 이런 스펙트럼의 “조직적인 정도 (measure of organization)”를 Shannon 의 정보의 엔트로피를 이용하여 표현하고자 한데서 비롯되었다[2].

제안 방법

제안한 특징 추출 방법의 성능을 검증하기 위해 깨끗한 음성으로 PBW (Phonetically Balanced Word) 452 단어 4세트에 babble, car, restaurant, subway, train 등의 5가지 AURORA 잡음 [10]을 0, 5, 10, 15, 20 dB의 5가지 SNR에 맞춰 인위적으로 합성하였다 (총 45200 = 452 x 4 x 5 x 5 개의 잡음 샘플). False alarm rate를 측정하기 위해서 음성구간 이전과 이후에 1 초씩 순수 잡음 구간을 추가하였다. 단구간 신호처리를 위해한 프레임의 크기는 20 ms 단위로 50% 씩 중첩 (overlap) 하였다.
제안한 특징 추출 방법을 보다 객관적으로 평가하기 위해서 ROC 커브를 측정하였다. 각 피쳐의 ROC 커브는 피쳐 도메인에서 잡음구간, 음성구간의 피쳐 분포에서 문턱치(threshold) 값을 옮겨가면서 True acceptance rate(TAR)와 False acceptance rate(FAR)을 측정한다. 음성구간의 피쳐 값의 평균이 잡음구간의 피쳐 값의 평균보다 크다고 가정했을 때, TAR은 음성구간의 피쳐 값이 특정 문턱치 보다 큰 경우, FAR은 잡음구간의 피쳐 값이 특정 문턱치 보다 큰 경우라고 할 수 있다.
검출된 Pitch를 이용하여 Harmonic 정점 (peak) 의 위치와 해당 harmonics의 amplitude를 구하고, 구해진 harmonic 정점 값들을 이용하여, 인접한 정점의 위치 평균값을 harmonic 정점 사이의 저점(valley)의 위치로 추정하였다. harmonic 정점과 저점은 각각 다음과 같이 표현된다.
논문의 구성은 다음과 같다. 기존의 특징 추출 방법을 소개하고, 제안한 특징 추출 방법을 자세히 설명한 후에 실험 및 결과를 분석하고 최종 결론을 맺고자 한다.
False alarm rate를 측정하기 위해서 음성구간 이전과 이후에 1 초씩 순수 잡음 구간을 추가하였다. 단구간 신호처리를 위해한 프레임의 크기는 20 ms 단위로 50% 씩 중첩 (overlap) 하였다. 주파수 분석을 위한 FFT 크기는 512로 설정하였고, 합성된 음성샘플은 8 kHz로 표본화 되었고, 16 bit의 해상도를 가진다.
영교차율은 잡음의 개입 시기에 급격히 늘어 날 수 있으며, 특히, 비정상성 잡음이 존재할 경우, 잡음의 크기가 음성의 크기만큼 또는 그 이상 클 경우에는 false alarm이 증가한다. 따라서, 비정상성 잡음이 존재하는 환경에서 에너지를 보완할 수 있는 효과적인 특징추출 방법으로 harmonic-weighted 에너지를 제안하였다. <그림 1>는 제안한 특징추출 방법에 대한 전체적인 블록도이다.
본 논문에서는 잡음의 개입에 의해 음성 입력신호를 이용한 피치 검출의 성능이 저하되기 때문에, 보다 정확한 피치 검출을 위해 음성의 엔벨로프(envelop)를 제거한 여기신호(LP residual)의 자기상관도를 이용하여 피치를 검출하였다. 또한, 인간의 피치는 표본화율(sampling rate)이 56~571 Hz의 범위를 가진다는 사실을 적용하였다[5].
<그림 3> 과 <표 1>를 보면 제안한 특징 추출 방법이 가장 좋은 성능을 보였다. 보다 성능에 신빙성을 더하기 위해 EER을 측정하였다. EER은 피쳐 도메인에서 음성을 잡음으로 잘못 검출하는 비율 (False reject rate, FRR)과 잡음을 음성으로 잘못 검출하는 비율 (False acceptance rate, FAR)이 같을 때의 에러 값으로 그 값이 낮을수록 변별력 있는 특징이라 할 수 있다.
원래 HNR은 장애 음성 분야에서 장애도를 측정하는데 활용되는 개념으로 잡음을 추정하는 방법에 따라 다양한 방법이 있다[9]. 본 논문에서는 잡음을 harmonic 정점 사이의 저점 값의 합으로 추정하였다. HNR은 다음과 같이 표현된다.
따라서 본 연구에서는 비정상성 잡음이 존재하는 SNR이 낮은 환경에서도 음성의 구간을 검출하기 위해 주기성 (harmonicity)에 주목하였다. 음성의 70% 이상이 유성음으로 구성되어 있기 때문에 유성음에 초점을 맞추어 유성음 구간을 정확히 검출하기 위한 특징 추출 방법으로 harmonicity를 파라미터화한 harmonic-to-noise ratio (HNR)을 프레임 에너지에가 중하여 harmonic-weighted 에너지를 추출한다. 제안한 특징 추출 방법을 receiver operating characteristic (ROC) 커브와 equal error rate (EER)를 통해 비교하여 성능의 우수성을 증명하였다.
제안한 특징 추출 방법의 성능을 검증하기 위해 깨끗한 음성으로 PBW (Phonetically Balanced Word) 452 단어 4세트에 babble, car, restaurant, subway, train 등의 5가지 AURORA 잡음 [10]을 0, 5, 10, 15, 20 dB의 5가지 SNR에 맞춰 인위적으로 합성하였다 (총 45200 = 452 x 4 x 5 x 5 개의 잡음 샘플). False alarm rate를 측정하기 위해서 음성구간 이전과 이후에 1 초씩 순수 잡음 구간을 추가하였다.

대상 데이터

단구간 신호처리를 위해한 프레임의 크기는 20 ms 단위로 50% 씩 중첩 (overlap) 하였다. 주파수 분석을 위한 FFT 크기는 512로 설정하였고, 합성된 음성샘플은 8 kHz로 표본화 되었고, 16 bit의 해상도를 가진다. 선형 예측 부호화를 위한 차수는 16, 하모닉 정점의 개수, N_p 는 7로 설정 하였다.

데이터처리

그림 3. 잡음 환경 별 여러 가지 특징추출 방법의 ROC 커브 비교. (a) babble, (b) car, (c) subway.
제안한 특징 추출 방법을 보다 객관적으로 평가하기 위해서 ROC 커브를 측정하였다. 각 피쳐의 ROC 커브는 피쳐 도메인에서 잡음구간, 음성구간의 피쳐 분포에서 문턱치(threshold) 값을 옮겨가면서 True acceptance rate(TAR)와 False acceptance rate(FAR)을 측정한다.

이론/모형

위 과정을 통해 얻은 HNR을 기반으로 harmonic-weight를 계산하기 위해서 sigmoid function을 이용하였다. 본 논문에서 제안한 harmonic-weighted 에너지는 다음과 같이 프레임 에너지와 harmonic-weight의 곱으로 나타낼 수 있다.
선형 예측 부호화 분석은 음성 샘플 간의 단구간 상관도(formants)를 모델링하고 필터링을 통해 엔벨로프(envelope)를 효과적으로 제거 할 수 있는 분석 방법이다[7]. 입력신호의 엔벨로프(envelope)를 제거하기 위해 Durbin의 자기상관도 (autocorrelation)을 이용한 재귀적 방법 (recursive method)을 활용하였다[5].
주기성의 정도를 산술적으로 나타내기 위해서 harmonicto-noise ratio (HNR)의 개념을 활용하였다. 원래 HNR은 장애 음성 분야에서 장애도를 측정하는데 활용되는 개념으로 잡음을 추정하는 방법에 따라 다양한 방법이 있다[9].

성능/효과

52 의 EER을 보였다. ROC 커브와 EER 측정 결과를 보면, 다양한 잡음환경 및 전체 SNR에서 제안한 harmonic-weighted 에너지의 성능이 가장 높았다는 것을 알 수 있다. SE의 성능이 눈에 띄게 낮은 이유는 nonstationary 잡음에 harmonicity가 큰 경우가 포함되어 있을 뿐만 아니라, 특히 엔트로피가 잡음의 종류에 민감한 특성이 있다[3].
과 를 보면 제안한 특징 추출 방법이 가장 좋은 성능을 보였다.
본 논문은 비정상성 잡음이 존재하는 환경에서 음성구간검출의 성능을 향상시킬 수 있는 특징추출 방법에 대한 연구를 수행하였다. 기존의 특징 추출 방법인 에너지와 영교차율을 이용한 방법, spectral entropy를 이용한 방법, mean delta function을 이용한 방법 등과 ROC 커브, EER 결과를 비교해 본 결과 제안한 harmonic-weighted 에너지의 성능이 가장 높았다. 향후 연구 계획으로는 제안한 특징추출 방법을 EPD 결정룰 (decision rule)과 결합하여 EPD를 수행하고, 음성인식률을 측정하여 제안한 특징 추출 방법의 성능을 검증할 계획이다.
음성의 70% 이상이 유성음으로 구성되어 있기 때문에 유성음에 초점을 맞추어 유성음 구간을 정확히 검출하기 위한 특징 추출 방법으로 harmonicity를 파라미터화한 harmonic-to-noise ratio (HNR)을 프레임 에너지에가 중하여 harmonic-weighted 에너지를 추출한다. 제안한 특징 추출 방법을 receiver operating characteristic (ROC) 커브와 equal error rate (EER)를 통해 비교하여 성능의 우수성을 증명하였다.
<표 1> 은 다섯 가지 잡음에 대한 각 특징의 AUROC 값을 정리한 것이다. 제안한 특징, STE, HNR, MDF, SE가 평균적으로 0.9006, 0.8745, 0.7779, 0.8518, 0.6870을 나타내었다. <그림 3> 과 <표 1>를 보면 제안한 특징 추출 방법이 가장 좋은 성능을 보였다.
<표 2>는 다섯 가지 잡음환경에서 EER을 측정한 것이다. 평균적으로 제안한 특징, STE, HNR, MDF, SE 순으로 평균 19.32, 22.12, 29.86, 24.18, 36.52 의 EER을 보였다. ROC 커브와 EER 측정 결과를 보면, 다양한 잡음환경 및 전체 SNR에서 제안한 harmonic-weighted 에너지의 성능이 가장 높았다는 것을 알 수 있다.

후속연구

기존의 특징 추출 방법인 에너지와 영교차율을 이용한 방법, spectral entropy를 이용한 방법, mean delta function을 이용한 방법 등과 ROC 커브, EER 결과를 비교해 본 결과 제안한 harmonic-weighted 에너지의 성능이 가장 높았다. 향후 연구 계획으로는 제안한 특징추출 방법을 EPD 결정룰 (decision rule)과 결합하여 EPD를 수행하고, 음성인식률을 측정하여 제안한 특징 추출 방법의 성능을 검증할 계획이다.

핵심어	질문	논문에서 추출한 답변
	프레임 에너지와 영교차율을 이용한 EPD 방법은 무엇인가?	그중 가장 간단하면서도 효과적인 방법이 프레임 에너지와 영교차율을 이용한 EPD 방법이다. 이 방법은 음성의 시작과 끝에서 영교차율이 급격히 증가하는 현상, 유성음(voiced speech), 무성음(unvoiced speech), 묵음 (silence) 간의 에너지 차이가 크다는 점을 활용하여 효과적으로 음성의 시작점과 끝점을 검출하는 방법이다 [1].
	정확한 음성인식 결과를 얻기 위해서 중요한 것은?	정확한 음성인식 결과를 얻기 위해서는 음성구간을 정확히 찾아서 입력하는 것이 중요하다. 음성 구간 검출 (voice activity detection, VAD)이 음성 부호화기, 잡음제거, 음성인식기의 성능에 직접적인 영향을 미치기 때문에 정확한 음성구간 검출을 위한 연구가 지난 수십 년간 활발히 수행되었다[1-5].
	정상성 잡음이 음성인식에 큰 문제가 되지 않는 이유는?	잡음은 에어컨, PC 팬 등에서 유발하는 정상적인(stationary) 잡음과 그밖에 TV, 음악, 사람 목소리 등 시간에 따라 상태가 급격히 변하는 비정상성(nonstationary) 잡음으로 나뉜다. 정상성 잡음은 위너필터(Wiener filter) 와 칼만 필터(Kalman filter) 에 의해 충분히 제거 할 수 있기 때문에 음성인식에 큰 문제가 되지 않는다[6-7]. 그러나 비정상성 잡음의 경우, 잡음의 종류가 다양하고, 잡음의 주파수 특성이 시간에 따라 급격히 변하기 때문에 잡음의 스펙트럼 파워 추정이 쉽지 않다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

음성구간검출을 위한 비정상성 잡음에 강인한 특징 추출
Robust Feature Extraction for Voice Activity Detection in Nonstationary Noisy Environments 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

음성구간검출을 위한 비정상성 잡음에 강인한 특징 추출 Robust Feature Extraction for Voice Activity Detection in Nonstationary Noisy Environments 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

박상준 (1) 정상배 (14)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

음성구간검출을 위한 비정상성 잡음에 강인한 특징 추출
Robust Feature Extraction for Voice Activity Detection in Nonstationary Noisy Environments 원문보기

AI 본문요약
AI-Helper