[논문]적응형 문턱값을 가지는 2차 조건 사후 최대 확률을 이용한 통계적 모델 기반의 음성 검출기

김상균; 장준혁

doi:10.7776/ask.2010.29.1.076

문제 정의

본 논문에서는 음성의 통계적 모델에 기반한 음성 검출기의 성능 향상을 위해 2차 조건 사후 최대 확률 기법을 적용한 우도비 테스트를 제안하였다. 음성의 활동은 인접 프레임 간에 강력한 상호 연관성이 있다는 성질을 기존의 MAP 기준에 적용하여 직전 2 프레임에서 음성의 존재와 부재에 대한 조건에 따라 적응형 문턱값을 적용한 우도비 기반의 음성검출 결정법을 제안하였다.

가설 설정

[2-9], 다시 말해 위의 방법은 음성에 대한 통계모델을 가우시안 분포로 가정하였으며 decision-directed (DD) 기법을 적용하여 음성의 존재와 부재에 대한 우도비 (likelihood ratio, LR)를 기하평균 한판 별식으로부터 음성 존재여부를 판단한다.
그중 Ephraim과 Malah의 연구에서 시작된 imnimum mean square error (MMSE) 기반의 음성 향상 기법에 사용된 음성의 존재와 부재에 대한 통계적 모델을 우도비 테스트 (likelihood ratio test, LRT)에 적용한 음성 검출기의 성능이 매우 우수한 것으로 알려져 있다 [2-9].다시 말해 위의 방법은 음성에 대한 통계모델을 가우시안 분포로 가정하였으며 decision-directed (DD) 기법을 적용하여 음성의 존재와 부재에 대한 우도비 (likelihood ratio, LR)를 기하평균한 판별식으로부터 음성존재여부를 판단한다 [4].하지만 일반적으로, 음성의 활동은 인접한 프레임들과 강력한 상호 연관성이 있으므로 음성이 활동하는 프레임의 바로 전 프레임이나 바로 다음 프레임은 음성이 활동할 가능성이 높다고 할 수 있고, 그 반대 경우도 성립한다.
5으로 설정 하였다. 입력 음성의 특성상 처음 0.04초를 노이즈로 가정하기 때문에 초기 값은 이전 프레임과 이전 2프레임이 노이즈인 12.5를 문턱값으로 정하였다.

제안 방법

때문에 우리는 전체 성능을 올리기 위해 4°가 약간 증가하더라도 环를감소하도록 하였다.
이것은 전체 검출성능을 뜻하는 P_e를 살펴보면 알 수 있다. 때문에 우리는 전체 성능을 올리기 위해 P_fa가 약간 증가하더라도 P_m를 감소하도록 하였다. 그리고 모든 조건에서 기존의 음성검출기 보다 성능이 향상된 것을 알 수 있다.
실험에 사용된 데이터는 기존의 음성 검출 알고리즘에서 성능 평가 비교를 위해 사용된 음성 데이터의 길이를 고려하여 각각 4 명의 남성, 여성화자가 말한 총 456초의 음성을 8 kHz로 셈플링하였다. 또한 평가를 위해 깨끗한 음성 데이터에 음성과 비음성 부분을 10 ms마다 수동으로 표시하였다. 분류된 음성데이터의 음성 구간은 총 58.
본 논문에서 제안된 2차 조건 사후 최대 확률 기반의 음성 검출기의 성능을 평가하기 위해 기존의 통계적 모델에 기반한 음성 검출기, CMAP 기반의 음성 검출기와 음성 검줄 성능과 receiver operating characteristics (ROC) 곡선을 비교하였다 [10], 실험에 사용된 데이터는 기존의 음성 검출 알고리즘에서 성능 평가 비교를 위해 사용된 음성 데이터의 길이를 고려하여 각각 4 명의 남성, 여성화자가 말한 총 456초의 음성을 8 kHz로 셈플링하였다.
본 논문에서 제안된 2차 조건 사후 최대 확률 기반의 음성 검출기의 성능을 평가하기 위해 기존의 통계적 모델에 기반한 음성 검출기, CMAP 기반의 음성 검출기와 음성 검줄 성능과 receiver operating characteristics (ROC) 곡선을 비교하였다 [10].실험에 사용된 데이터는 기존의 음성 검출 알고리즘에서 성능 평가 비교를 위해 사용된 음성 데이터의 길이를 고려하여 각각 4 명의 남성, 여성화자가 말한 총 456초의 음성을 8 kHz로 셈플링하였다.
본 논문에서는 CMAP 기반의 음성 검출기에서 제안한 직전 프레임의 음성 부재 확률에 따라 고정된 문턱값을 부여하여 우도비 테스트하는 방법대신, 직전 2 프레임에서 음성의 존재와 부재에 대한 조건부 확률을 실시간으로 부여한 적응형 문턱값을 적용한 우도비 기반의 음성검출 결정법 (decision rule)을 제안한다. 제안된 음성 검출 기법은 비정상 (non-stationary)잡음환경에서 기존의 통계적 모델에 기반한 음성 검출기, CMAP 기반의 음성 검출기와 비교하였으며, 향상된 성능을 보였다.
본 논문에서는 음성의 통계적 모델에 기반한 음성 검출기의 성능 향상을 위해 2차 조건 사후 최대 확률 기법을 적용한 우도비 테스트를 제안하였다. 음성의 활동은 인접 프레임 간에 강력한 상호 연관성이 있다는 성질을 기존의 MAP 기준에 적용하여 직전 2 프레임에서 음성의 존재와 부재에 대한 조건에 따라 적응형 문턱값을 적용한 우도비 기반의 음성검출 결정법을 제안하였다. 제안된알고리즘의 성능 평가를 위해 P_e, P_m 그리고 P_fa 값을 표 1에서 비교하였고 ROC 곡선을 그림 1과 그림 2에서 보여주었다.
본 논문에서는 음성의 통계적 모델에 기반한 음성 검출기의 성능 향상을 위해 2차 조건 사후 최대 확률 기법을 적용한 우도비 테스트를 제안하였다. 음성의 활동은 인접 프레임 간에 강력한 상호 연관성이 있다는 성질을 기존의 MAP 기준에 적용하여 직전 2 프레임에서 음성의 존재와 부재에 대한 조건에 따라 적응형 문턱값을 적용한 우도비 기반의 음성검출 결정법을 제안하였다. 제안된알고리즘의 성능 평가를 위해 P_e, P_m 그리고 P_fa 값을 표 1에서 비교하였고 ROC 곡선을 그림 1과 그림 2에서 보여주었다.
하지만 우리는 직전 프레임만을 고려하여 고정된 문턱값을 사용한 CMAP 대신 직전 2 프레임에서 음성의 존재와 부재에 대한 조건에 따라 적응형 문턱값을 적용한 우도비 기반의 음성검출 결정법을 제안한다. 음성 활동에서 프레임간의 강력한 상호 연관성에 기반 하여 다음과 같이 표현할 수 있다.
하지만 우리는 직전 프레임만을 고려하여 고정된 문턱값을 사용한 CMAP 대신 직전 2 프레임에서 음성의 존재와 부재에 대한 조건에 따라 적응형 문턱값을 적용한 우도비 기반의 음성검출 결정법을 제안한다. 음성 활동에서 프레임간의 강력한 상호 연관성에 기반 하여 다음과 같이 표현할 수 있다.

대상 데이터

본 논문에서 제안된 2차 조건 사후 최대 확률 기반의 음성 검출기의 성능을 평가하기 위해 기존의 통계적 모델에 기반한 음성 검출기, CMAP 기반의 음성 검출기와 음성 검줄 성능과 receiver operating characteristics (ROC) 곡선을 비교하였다 [10].실험에 사용된 데이터는 기존의 음성 검출 알고리즘에서 성능 평가 비교를 위해 사용된 음성 데이터의 길이를 고려하여 각각 4 명의 남성, 여성화자가 말한 총 456초의 음성을 8 kHz로 셈플링하였다. 또한 평가를 위해 깨끗한 음성 데이터에 음성과 비음성 부분을 10 ms마다 수동으로 표시하였다.

데이터처리

제안된 알고리즘의 성능 평가를 위해 Pe, Pm 그리고 P}a 값을 표 1에서 비교하였고 ROC 곡선을 그림 1과 그림 2에서 보여주었다.
음성의 활동은 인접 프레임 간에 강력한 상호 연관성이 있다는 성질을 기존의 MAP 기준에 적용하여 직전 2 프레임에서 음성의 존재와 부재에 대한 조건에 따라 적응형 문턱값을 적용한 우도비 기반의 음성검출 결정법을 제안하였다. 제안된알고리즘의 성능 평가를 위해 P_e, P_m 그리고 P_fa 값을 표 1에서 비교하였고 ROC 곡선을 그림 1과 그림 2에서 보여주었다. 모든 결과에서 알 수 있듯이 제안된 음성 검출 방법이 우수하다는 것을 알 수 있다.

이론/모형

음성 부재 구간에서 갱신되는 잡음 신호로부터 구한 잡음 분산을 이용하여 a posteriori SNR γ(k,n)을 추정하며, 또한 a priori SNR ξ(k,n)은 decision-directed (DD) 기법을 이용하여 아래와 같이 추정한다 [2].

성능/효과

3 프레임 이상의 음성 검출 결과를 이용하여 CMAP을 구성 하였을 경우는 성능 향상의 효과가 크지 않았다. 그 이유는 CMAP의 효과가 큰 음성의 꼬리 (tail) 부분에서는 에너지가 지속적으로 감소하여 소멸하므로 3 프레임 이상의 적용은 효과적이지 않다고 추측할 수 있다 [13].
3 프레임 이상의 음성 검출 결과를 이용하여 CMAP을 구성 하였을 경우는 성능 향상의 효과가 크지 않았다. 그 이유는 CMAP의 효과가 큰 음성의 꼬리 (tail) 부분에서는 에너지가 지속적으로 감소하여 소멸하므로 3 프레임 이상의 적용은 효과적이지 않다고 추측할 수 있다 [13].
때문에 우리는 전체 성능을 올리기 위해 P_fa가 약간 증가하더라도 P_m를 감소하도록 하였다. 그리고 모든 조건에서 기존의 음성검출기 보다 성능이 향상된 것을 알 수 있다.
때문에 우리는 전체 성능을 올리기 위해 P_fa가 약간 증가하더라도 P_m를 감소하도록 하였다. 그리고 모든 조건에서 기존의 음성검출기 보다 성능이 향상된 것을 알 수 있다.
4%로 구성되었다. 또한 기존의 음성검출 평가에 사용된 car, street, office 잡음을 5, 10 dB 그리고 20 dB SNR로 부과되었다. logα_i,j의 값은 각각 logα_0,0= 12.
제안된알고리즘의 성능 평가를 위해 P_e, P_m 그리고 P_fa 값을 표 1에서 비교하였고 ROC 곡선을 그림 1과 그림 2에서 보여주었다. 모든 결과에서 알 수 있듯이 제안된 음성 검출 방법이 우수하다는 것을 알 수 있다.
그림 3에 (b)는 테스트 파일의 매뉴얼이며 0은 노이즈, 1은 무성음 그리고 2는 유성음을 뜻한다. 보시는 바와 같이 기존의 CMAP보다 고정된 2차 CMAP이음성의 시작과 끝에서 더 정확하게 문턱값을 조절하는 것을 알 수 있다. 하지만 음성 중간의 짧은 무음 구간에서는 문턱값이 따라가지 못하는것을 볼 수 있다.
또한 평가를 위해 깨끗한 음성 데이터에 음성과 비음성 부분을 10 ms마다 수동으로 표시하였다. 분류된 음성데이터의 음성 구간은 총 58.2%로 유성음 44.5%, 무성음 13.4%로 구성되었다. 또한 기존의 음성검출 평가에 사용된 car, street, office 잡음을 5, 10 dB 그리고 20 dB SNR로 부과되었다. logα_i,j의 값은 각각 logα_0,0= 12.
또한 평가를 위해 깨끗한 음성 데이터에 음성과 비음성 부분을 10 ms마다 수동으로 표시하였다. 분류된 음성데이터의 음성 구간은 총 58.2%로 유성음 44.5%, 무성음 13.4%로 구성되었다. 또한 기존의 음성검출 평가에 사용된 car, street, office 잡음을 5, 10 dB 그리고 20 dB SNR로 부과되었다.
제안된 방법은 고정된 2차 CMAP보다 적응적으로 변화하기 때문에 주로 음성의 전이 구간에서 음성검출을 보다 정확하게 할 수 있다. 실험결과에서 보여주는 것처럼 기존의 방법보다 제안된 음성 검출 방법이 우수하다.
제안된 방법은 고정된 2차 CMAP보다 적응적으로 변화하기 때문에 주로 음성의 전이 구간에서 음성검출을 보다 정확하게 할 수 있다. 실험결과에서 보여주는 것처럼 기존의 방법보다 제안된 음성 검출 방법이 우수하다.
그림 1은 office 잡음 환경 5 dB SNR에서의 ROC 곡선이고 그림 2는 street 잡음 환경 15 dB SNR에서의 ROC 곡선이다. 이 두 그림에서 보는 바와 같이 제안된 음성 검출 방법이 기존의 방법보다 우수하다는 것을 보여준다.
하지만 일반적으로, 음성의 활동은 인접한 프레임들과 강력한 상호 연관성이 있으므로 음성이 활동하는 프레임의 바로 전 프레임이나 바로 다음 프레임은 음성이 활동할 가능성이 높다고 할 수 있고, 그 반대 경우도 성립한다. 이러한 조건을 음성 검출기에 적용한 것이 최근에 제안된 조건사후 최대 확률 (conditional maximum a posteriori, CMAP) 기반의 음성검출 알고리즘이며 우수한 성능을 보였다 [10].또한 최근 Ramirez의 연구에서 과거, 현재 그리고 미래의 데이터를 모두 사용한 우도비 테스트가 고려되었다 [11].
하지만 음성 중간의 짧은 무음 구간에서는 문턱값이 따라가지 못하는것을 볼 수 있다. 제안된 방법은 고정된 2차 CMAP보다 적응적으로 변화하기 때문에 주로 음성의 전이 구간에서 음성검출을 보다 정확하게 할 수 있다. 실험결과에서 보여주는 것처럼 기존의 방법보다 제안된 음성 검출 방법이 우수하다.
하지만 음성 중간의 짧은 무음 구간에서는 문턱값이 따라가지 못하는것을 볼 수 있다. 제안된 방법은 고정된 2차 CMAP보다 적응적으로 변화하기 때문에 주로 음성의 전이 구간에서 음성검출을 보다 정확하게 할 수 있다. 실험결과에서 보여주는 것처럼 기존의 방법보다 제안된 음성 검출 방법이 우수하다.
본 논문에서는 CMAP 기반의 음성 검출기에서 제안한 직전 프레임의 음성 부재 확률에 따라 고정된 문턱값을 부여하여 우도비 테스트하는 방법대신, 직전 2 프레임에서 음성의 존재와 부재에 대한 조건부 확률을 실시간으로 부여한 적응형 문턱값을 적용한 우도비 기반의 음성검출 결정법 (decision rule)을 제안한다. 제안된 음성 검출 기법은 비정상 (non-stationary)잡음환경에서 기존의 통계적 모델에 기반한 음성 검출기, CMAP 기반의 음성 검출기와 비교하였으며, 향상된 성능을 보였다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

적응형 문턱값을 가지는 2차 조건 사후 최대 확률을 이용한 통계적 모델 기반의 음성 검출기
Statistical Model-Based Voice Activity Detection Using the Second-Order Conditional Maximum a Posteriori Criterion with Adapted Threshold 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

참고문헌 (13)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

적응형 문턱값을 가지는 2차 조건 사후 최대 확률을 이용한 통계적 모델 기반의 음성 검출기 Statistical Model-Based Voice Activity Detection Using the Second-Order Conditional Maximum a Posteriori Criterion with Adapted Threshold 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

참고문헌 (13)

이 논문을 인용한 문헌

저자의 다른 논문 :

김상균 (5) 장준혁 (40)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

적응형 문턱값을 가지는 2차 조건 사후 최대 확률을 이용한 통계적 모델 기반의 음성 검출기
Statistical Model-Based Voice Activity Detection Using the Second-Order Conditional Maximum a Posteriori Criterion with Adapted Threshold 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper