[논문]잡음 환경에서 짧은 발화 인식 성능 향상을 위한 선택적 극점 필터링 기반의 특징 정규화

최보경; 반성민; 김형순

doi:10.13064/ksss.2017.9.2.103

문제 정의

본 논문에서는 MFCC 특징의 발화 단위 평균 정규화에 극점 필터링 개념을 적용하여 짧은 발화에 대한 특징 정규화의 문제점을 완화시킴으로써, 잡음 환경에서의 음성인식 성능을 개선하고자 하였다.
극점 필터링 기반의 특징 정규화 시, 추정된 켑스트럼 평균에 포함된 음성 성분을 보다 정확하게 감쇠시켜 주기 위해서는, 음성 구간과 비음성 구간을 모두 포함하는 발화 전체에서의 켑스트럼 평균에 극점 필터링을 적용해주는 것보다, 음성 구간에 대한 켑스트럼 평균에만 극점 필터링을 적용해주는 것이 더 효과적이라고 판단된다. 본 논문에서는 발화 내 음성 구간과 비음성 구간을 구분하여, 음성 구간의 켑스트럼 평균에만 선택적으로 극점 필터링을 적용 해주는 특징 정규화 방식을 제안한다. 이와 관련된 연구로, 음성/비음성 평균을 따로 추정하여 특징을 정규화 하는 augmented CMN 방식이 제안된 바 있다[11].

제안 방법

먼저 극점 필터링을 이용한 특징 정규화 방식이 특히 짧은 발화에 대해 더 효과적인지를 확인하기 위해, 발화의 길이 별로 테스트 데이터를 분류하여 인식 실험을 수행한 결과, 발화의 길이가 짧을수록 성능이 향상되는 것을 확인하였다. 그 다음으로 극점 필터링에 의한 성능개선 효과를 극대화하기 위해 음성 구간에 대해서만 선별적으로 극점 필터링을 적용하는 새로운 방식을 제안하였다. AURORA 2 DB의 clean-condition 훈련 환경에서의 평가 결과, 본 논문에서 제안한 SPFCMN 및 SPFCMVN 방식이 기존의 CMN 및 CMVN 방식 대비 각각 24.
그 다음으로 본 논문에서 제안한 선택적 극점 필터링 방식과 이전 논문[6],[7]에서 제안한 기존의 극점 필터링 방식에 의한 잡음 환경 특징 정규화 성능을 비교 평가하였다. <표 3>에 기존의 CMN/CMVN 평균 정규화 과정에 극점 필터링(PF)을 적용한 방식인 PFCMN/PFCMVN과 선택적 극점 필터링(SPF)을 적용한 방식인 SPFCMN/SPFCMVN 각각에 대한 성능을 나타내었다.
다만 선행 연구에서는 음성 구간과 비음성 구간을 모두 포함한 발화 전체에 대해 극점 필터링을 적용하였는데, 극점 필터링이 켑스트럼 평균의 제거 과정에서 음성 성분의 제거를 줄이는 역할을 하는 것을 감안하여, 본 논문에서는 비음성 구간은 제외하고 음성 구간에 대해서만 선택적으로 극점 필터링을 적용함으로써 특징 정규화의 성능을 향상시키는 방안을 제안한다.
본 연구의 제한점은 다음과 같다. 본 논문에서는 음성/비음성 구분을 위해 프레임별 로그 에너지 특징을 사용하였는데, SNR 0 dB 이하에서는 로그 에너지로 음성/비음성 구분이 용이하지 않아서, 그런 경우에 대해서만 3 장에서 이미 언급한 바와 같이 ETSI AFE 전처리 방식을 통해 잡음 제거된 음성의 로그 에너지를 사용하였다. ETSI AFE의 계산량이 아주 많은 것은 아니나, 본 논문에서 다루고자 하는 보다 경량의 특징 정규화 방식에 도구로 사용되기는 적합하지 않으며, 잡음 환경에 강인하면서도 보다 경량의 음성검출 기술을 사용하는 것이 바람직하다고 판단된다.
SPP 추정의 신뢰도를 높이기 위해 프레임별 로그 에너지의 시간열을 평활화(smoothing)하여 GMM 훈련에 사용한다. 본 논문에서는 창 크기가 11 인 이동 평균(moving average) 함수를 통해 평활화 과정을 수행하였다.
상기 두 가지 방식으로 음성 구간과 비음성 구간에 대한 켑스트럼 평균을 구한 다음, 본 논문에서는 음성 구간의 켑스트럼 평균인 μS(\(i\))에만 선택적 극점 필터링(selective pole filtering, SPF)를 적용하여 CMN과 CMVN을 구현하는 방식을 제안하며, 이들을 각각 Selectively Pole-Filtered CMN(SPFCMN) 및 Selectively Pole-Filtered CMVN (SPFCMVN)이라 명명한다.
상기 수식과 같이, 기존 특징 정규화 방식들의 평균 정규화 과정에 극점 필터링을 적용하는 것이 짧은 발화에 대해 더 효과적인지 검토하기 위하여, 에 극점 필터링 적용 여부에 따른 켑스트럼 평균의 역변환 결과인 멜-필터뱅크(Mel-filterbank) 출력 값들을 발화별로 중첩하여 나타내었다.
본 논문의 구성은 다음과 같다. 서론에 이어 2 장에서는 짧은 발화에 대한 기존의 특징 정규화 방법들의 문제점과 극점 필터링을 통해 이 문제점을 어떻게 완화시킬 수 있는지에 관한 검토 내용을 다루고, 3 장에서는 극점 필터링 기반 특징 정규화의 추가적인 성능 향상을 위해 음성 구간에 대해서만 선택적으로 극점 필터링을 적용하는 방법을 제안한다. 4 장에서는 실험 및 결과에 대해 기술하고, 마지막으로 5 장에서 결론을 맺는다.
다만 발화의 길이가 매우 짧은 경우, 정규화로 인한 음성 정보의 손실이 커서 성능 개선을 제한하거나 오히려 성능을 떨어뜨리는 문제점이 있다. 이 문제의 개선을 위해 본 논문의 선행연구에서는 음성인식에 가장 널리 사용되는 특징인 멜-주파수 켑스트럼 계수(Mel-Frequency Cepstral Coefficient, MFCC)를 기반으로 한 평균 정규화 방식에 극점 필터링 개념을 적용하여 잡음 환경에서 음성인식 성능을 개선시켰다[6],[7]. 극점 필터링(Pole Filtering, PF)은 원래 화자인식 분야에서 선형예측 켑스트럼 계수(Linear Predictive Cepstral Coefficient, LPCC)에 평균 정규화를 적용 할 때 채널 성분 추정의 정확도 향상을 위해 제안된 방법 인데[8], 이 아이디어를 MFCC 특징에도 적용할 수 있고 결과적으로 잡음 환경의 보상에도 효과적임을 확인하였다.
LPCC의 값을 결정하는 전극 모델(all-pole model)의 협대역 극점(pole)은 스펙트럼 상에서 현저한 포먼트(formant)를 나타내고, 이는 유용한 음성 성분의 특성을 가지기 때문에 LPCC를 기반으로 추정된 켑스트럼 평균에는 채널 성분과 음성 성분이 함께 존재하는 문제점이 있다. 이러한 문제 해결을 위해 제안된 극점 필터링은 전극 모델에 속한 협대역 극점의 대역폭을 확장, 포먼트를 평활화 함으로써 유용한 음성 성분의 영향을 감쇠시켜 이후 LPCC 켑스트럼 평균에 포함되는 음성 성분의 비중을 줄여주는 역할을 한다.
이전 논문[6],[7]에서 제안한 극점 필터링 기반의 특징 정규화 방식이 특히 짧은 발화에 대해 더 효과적인지를 확인하기 위해, 발화의 길이 별로 테스트 데이터를 분류하여 인식하는 실험을 수행하였다. 1~7 자리의 연속 숫자로 구성된 전체 발화를 음향 모델에 인식한 결과는 <표 1>의 (a)와 같고, 5~7 자리의 연속 숫자로 구성된 상대적으로 긴 발화, 3~4 자리의 연속 숫자로 구성 된 중간 발화, 그리고 1~2 자리의 연속 숫자로 구성된 짧은 발화를 인식한 결과는 각각 <표 1>의 (b), (c), (d)에 나타내었다.

대상 데이터

특징 벡터는 스펙트럼 크기(magnitude spectrum)로부터 구해진 12 차 MFCC와 로그 에너지, 그리고 그 각각에 대한 델타, 델타-델타 파라미터를 포함한 총 39 차 특징을 사용하였다. 음향 모델은 AURORA 2 베이스라인 시스템과 동일하게 단어 단위의 은닉 마르코프 모델(Hidden Markov Model, HMM)로 16 개 상태의 left-to-right 모델을 사용하였고, 각 상태 당 가우스 혼합의 수는 3 개이다.

이론/모형

다양한 특징 정규화 방식들의 성능을 평가하기 위해 잡음과 채널 왜곡의 영향이 반영된 AURORA 2 평가 환경을 그대로 사용하였다[10]. AURORA 2 DB는 미국인 화자가 발성한, 1~7자리의 연속 숫자로 구성된 clean TIdigit DB에 실제 환경의 SNR별 잡음을 더한 뒤, International Telecommunication Union(ITU)에서 정의한 두 개의 채널인 G.
표로부터 경판정보다 연판정에 의한 음성/비음성 평균 추정 방법이 더 효과적임을 확인 할 수 있다. 따라서 이후 실험에서는 연판정에 의한 음성/비음성 평균 추정 방법을 사용하였다.
ETSI AFE의 계산량이 아주 많은 것은 아니나, 본 논문에서 다루고자 하는 보다 경량의 특징 정규화 방식에 도구로 사용되기는 적합하지 않으며, 잡음 환경에 강인하면서도 보다 경량의 음성검출 기술을 사용하는 것이 바람직하다고 판단된다. 또한, 본 본문에서는 음성인식 방식으로 전통적인 GMM-HMM 방식을 사용했으나, 현재 음성인식 방식의 주류는 심층신경망(Deep Neural Network, DNN) 기반 방식이다. 실제로 심층신경망 기반의 음성인식에서도 발화 단위의 특징 정규화가 널리 사용되고 있기 때문에[15], 본 논문의 아이디어가 짧은 발화의 인식 성능 개선에 도움이 될 수 있을 것이라 판단되며, 이 부분은 추후 연구를 통해 검증하고자 한다.
음성 구간과 비음성 구간을 구분하는 방법으로는 여러 방식들이 제안되었지만, 본 논문에서는 프레임별 로그 에너지 값들의 분포를 음성과 비음성에 해당하는 정규분포들의 가중합 형태인 가우스 혼합 모델(Gaussian Mixture Model, GMM)로 모델링 한 후[12], 이로부터 구한 각 프레임별 음성존재확률(Speech Presence Probability, SPP)을 이용하여 음성과 비음성을 구분하는 방식을 사용한다[12],[13]. 통상적으로 로그 에너지 값이 음성특징 벡터의 0 번째 차원이므로, \(x\)_t(0), \(t\)=1,2,.
음향 모델은 AURORA 2 베이스라인 시스템과 동일하게 단어 단위의 은닉 마르코프 모델(Hidden Markov Model, HMM)로 16 개 상태의 left-to-right 모델을 사용하였고, 각 상태 당 가우스 혼합의 수는 3 개이다. 음향 모델 훈련에는 AURORA 2 DB에 정의된 clean-condition DB를 사용하였다.
특징 벡터는 스펙트럼 크기(magnitude spectrum)로부터 구해진 12 차 MFCC와 로그 에너지, 그리고 그 각각에 대한 델타, 델타-델타 파라미터를 포함한 총 39 차 특징을 사용하였다. 음향 모델은 AURORA 2 베이스라인 시스템과 동일하게 단어 단위의 은닉 마르코프 모델(Hidden Markov Model, HMM)로 16 개 상태의 left-to-right 모델을 사용하였고, 각 상태 당 가우스 혼합의 수는 3 개이다. 음향 모델 훈련에는 AURORA 2 DB에 정의된 clean-condition DB를 사용하였다.

성능/효과

<표 3>의 (a)와 (b) 각각의 맨 아래 행에는 CMN/CMVN, PFCMN/PFCMVN 및 SPFCMN/SPFCMVN 각각에 대한 베이스 라인 방식 대비 오류 감소율, 그리고 PFCMN/PFCMVN 및 SPFCMN/SPFCMVN 각각에 대해 CMN/CMVN 대비 오류 감소율을 나타내었다. 베이스라인 방식과 비교해서 CMN/CMVN은 각각 19.
1~7 자리의 연속 숫자로 구성된 전체 발화를 음향 모델에 인식한 결과는 <표 1>의 (a)와 같고, 5~7 자리의 연속 숫자로 구성된 상대적으로 긴 발화, 3~4 자리의 연속 숫자로 구성 된 중간 발화, 그리고 1~2 자리의 연속 숫자로 구성된 짧은 발화를 인식한 결과는 각각 <표 1>의 (b), (c), (d)에 나타내었다. <표 1>의 (e)에 (a)~(d) 결과의 평균 인식률을 요약하여 정리하였으며, 이로부터 극점 필터링 방식을 통한 개선효과가 크지는 않으나 일률적인 성능향상이 얻어지며, 특히 발화의 길이가 짧을수록 개선효과가 증대되는 것을 확인할 수 있다.
그 다음으로 극점 필터링에 의한 성능개선 효과를 극대화하기 위해 음성 구간에 대해서만 선별적으로 극점 필터링을 적용하는 새로운 방식을 제안하였다. AURORA 2 DB의 clean-condition 훈련 환경에서의 평가 결과, 본 논문에서 제안한 SPFCMN 및 SPFCMVN 방식이 기존의 CMN 및 CMVN 방식 대비 각각 24.0% 및 28.7%의 오류 감소율을 보였고, 선행 연구 결과인 PFCMN 및 PFCMVN 방식에 비해서도 각각 21.8% 및 25.0%의 성능향상을 얻었다.
본 논문에서는 음성/비음성 구분을 위해 프레임별 로그 에너지 특징을 사용하였는데, SNR 0 dB 이하에서는 로그 에너지로 음성/비음성 구분이 용이하지 않아서, 그런 경우에 대해서만 3 장에서 이미 언급한 바와 같이 ETSI AFE 전처리 방식을 통해 잡음 제거된 음성의 로그 에너지를 사용하였다. ETSI AFE의 계산량이 아주 많은 것은 아니나, 본 논문에서 다루고자 하는 보다 경량의 특징 정규화 방식에 도구로 사용되기는 적합하지 않으며, 잡음 환경에 강인하면서도 보다 경량의 음성검출 기술을 사용하는 것이 바람직하다고 판단된다. 또한, 본 본문에서는 음성인식 방식으로 전통적인 GMM-HMM 방식을 사용했으나, 현재 음성인식 방식의 주류는 심층신경망(Deep Neural Network, DNN) 기반 방식이다.
<표 3>에 기존의 CMN/CMVN 평균 정규화 과정에 극점 필터링(PF)을 적용한 방식인 PFCMN/PFCMVN과 선택적 극점 필터링(SPF)을 적용한 방식인 SPFCMN/SPFCMVN 각각에 대한 성능을 나타내었다. PFCMN/PFCMVN 방식들과 SPFCMN/SPFCMVN 방식들 모두 clean 환경을 제외한 모든 잡음 레벨에 대해 CMN/CMVN 대비 일률적인 성능향상을 보이며, 특히 SPFCMN/SPFCMVN 방식들의 성능 향상 폭이 큰 것을 알 수 있다.
85에서 최적의 인식률을 보인다. 그리고 PFCMVN의 경우 제한된 r범위에 대해서만 기존의 CMVN보다 개선된 성능을 나타낸 반면에, SPFCMVN은 도시된 모든 r범위에 대해 CMVN보다 훨씬 우수한 성능을 보임을 알 수 있다.
극점 필터링 기반의 특징 정규화 시, 추정된 켑스트럼 평균에 포함된 음성 성분을 보다 정확하게 감쇠시켜 주기 위해서는, 음성 구간과 비음성 구간을 모두 포함하는 발화 전체에서의 켑스트럼 평균에 극점 필터링을 적용해주는 것보다, 음성 구간에 대한 켑스트럼 평균에만 극점 필터링을 적용해주는 것이 더 효과적이라고 판단된다. 본 논문에서는 발화 내 음성 구간과 비음성 구간을 구분하여, 음성 구간의 켑스트럼 평균에만 선택적으로 극점 필터링을 적용 해주는 특징 정규화 방식을 제안한다.
이 문제의 개선을 위해 본 논문의 선행연구에서는 음성인식에 가장 널리 사용되는 특징인 멜-주파수 켑스트럼 계수(Mel-Frequency Cepstral Coefficient, MFCC)를 기반으로 한 평균 정규화 방식에 극점 필터링 개념을 적용하여 잡음 환경에서 음성인식 성능을 개선시켰다[6],[7]. 극점 필터링(Pole Filtering, PF)은 원래 화자인식 분야에서 선형예측 켑스트럼 계수(Linear Predictive Cepstral Coefficient, LPCC)에 평균 정규화를 적용 할 때 채널 성분 추정의 정확도 향상을 위해 제안된 방법 인데[8], 이 아이디어를 MFCC 특징에도 적용할 수 있고 결과적으로 잡음 환경의 보상에도 효과적임을 확인하였다.
먼저 극점 필터링을 이용한 특징 정규화 방식이 특히 짧은 발화에 대해 더 효과적인지를 확인하기 위해, 발화의 길이 별로 테스트 데이터를 분류하여 인식 실험을 수행한 결과, 발화의 길이가 짧을수록 성능이 향상되는 것을 확인하였다. 그 다음으로 극점 필터링에 의한 성능개선 효과를 극대화하기 위해 음성 구간에 대해서만 선별적으로 극점 필터링을 적용하는 새로운 방식을 제안하였다.
<표 3>의 (a)와 (b) 각각의 맨 아래 행에는 CMN/CMVN, PFCMN/PFCMVN 및 SPFCMN/SPFCMVN 각각에 대한 베이스 라인 방식 대비 오류 감소율, 그리고 PFCMN/PFCMVN 및 SPFCMN/SPFCMVN 각각에 대해 CMN/CMVN 대비 오류 감소율을 나타내었다. 베이스라인 방식과 비교해서 CMN/CMVN은 각각 19.30%, 24.01%의 오류 감소율, PFCMN/PFCMVN은 각각 21.51%, 27.72%의 오류 감소율, 그리고 SPFCMN/SPFCMVN은 각각 38.63%, 45.82%의 오류 감소율을 얻어, 본 논문에서 제안한 선택적 극점 필터링을 이용한 방식이 가장 뛰어난 성능을 나타냄을 확인 할 수 있다.
를 곱해줌으로써 구현된다. 본 논문에서의 극점 필터링은 이 방식으로 구현되었으며, 이 방식은 협대역 극점의 대역폭만을 선별적으로 변경하지는 못하지만, 켑스트럼 영역에서 간단하게 구현 가능하여 계산량이 적게 소요되며, 무엇보다도 LPCC가 아닌 다른 켑스트럼, 즉, MFCC 등에도 그대로 적용할 수 있다는 장점이 있다.
본 연구의 선행연구에서 음성인식에 가장 널리 사용되는 MFCC 특징에 극점 필터링을 적용함으로써, 잡음 환경에서의 짧은 발화 특징 정규화의 성능이 개선됨을 확인하였다[6],[7]. 실제로 켑스트럼 특징 정규화 방법인 CMN 및 CMVN 각각의 평균 정규화 과정에 극점 필터링을 적용하는 방식으로 구현되었으며, 이들은 각각 Pole-Filtered CMN(PFCMN)과 Pole-Filtered CMVN(PFCMVN)이라고 명명되었다.
그 다음으로 본 논문에서 제안한 선택적 극점 필터링 방식과 이전 논문[6],[7]에서 제안한 기존의 극점 필터링 방식에 의한 잡음 환경 특징 정규화 성능을 비교 평가하였다. <표 3>에 기존의 CMN/CMVN 평균 정규화 과정에 극점 필터링(PF)을 적용한 방식인 PFCMN/PFCMVN과 선택적 극점 필터링(SPF)을 적용한 방식인 SPFCMN/SPFCMVN 각각에 대한 성능을 나타내었다. PFCMN/PFCMVN 방식들과 SPFCMN/SPFCMVN 방식들 모두 clean 환경을 제외한 모든 잡음 레벨에 대해 CMN/CMVN 대비 일률적인 성능향상을 보이며, 특히 SPFCMN/SPFCMVN 방식들의 성능 향상 폭이 큰 것을 알 수 있다.
<표 2>에 이들 두 가지 평균 추정 방법에 따른 제안 방식들의 성능을 비교해서 나타내었다. 표로부터 경판정보다 연판정에 의한 음성/비음성 평균 추정 방법이 더 효과적임을 확인 할 수 있다. 따라서 이후 실험에서는 연판정에 의한 음성/비음성 평균 추정 방법을 사용하였다.

후속연구

또한, 본 본문에서는 음성인식 방식으로 전통적인 GMM-HMM 방식을 사용했으나, 현재 음성인식 방식의 주류는 심층신경망(Deep Neural Network, DNN) 기반 방식이다. 실제로 심층신경망 기반의 음성인식에서도 발화 단위의 특징 정규화가 널리 사용되고 있기 때문에[15], 본 논문의 아이디어가 짧은 발화의 인식 성능 개선에 도움이 될 수 있을 것이라 판단되며, 이 부분은 추후 연구를 통해 검증하고자 한다.
앞으로 심층신경망 기반의 음성인식에 제안된 방식의 아이디어를 적용하여 추가적인 성능 향상을 도모하는 연구를 계속 진행할 예정이다.

핵심어	질문	논문에서 추출한 답변
	음성인식에서 인식 성능 저하의 문제를 해결하기위한 방법론은 무엇인가?	음성인식에서 훈련 환경과 인식 환경의 불일치 문제는 인식 성능 저하의 주된 요인이며, 이 문제의 해결을 위한 방법론은 크게 특징 영역 접근법과 모델 영역 접근법으로 분류할 수 있다 [1]. 특징 영역 접근법은 모델 영역 접근법에 비해 계산량이 적고 인식엔진에 독립적이라는 장점이 있다.
	특징 정규화 방법이란 무엇인가?	특징 영역 접근법은 모델 영역 접근법에 비해 계산량이 적고 인식엔진에 독립적이라는 장점이 있다. 특징 영역 접근법의 일종인 특징 정규화 방법은 음성 특징 파라미터들의 통계적 특성의 정규화를 통해 환경 불일치를 감소시키는 방법으로서, Cepstral Mean Normalization (CMN)[2], Cepstral Mean Variance Normalization(CMVN)[3], Cepstral Mean Scale Normalization (CMSN)[4], Histogram Equalization(HE)[5] 등 켑스트럼 정규화 방법들이 대표적인 예이다. 특히 CMN과 CMVN은 매우 적은 계산량으로 효과적인 환경 보상이 가능하기 때문에 음성인식 및 화자인식 분야에 널리 사용되고 있다.
	음성인식 성능 저하 문제를 해결하기위한 특징 영역 접근법은 장점은 무엇인가?	음성인식에서 훈련 환경과 인식 환경의 불일치 문제는 인식 성능 저하의 주된 요인이며, 이 문제의 해결을 위한 방법론은 크게 특징 영역 접근법과 모델 영역 접근법으로 분류할 수 있다 [1]. 특징 영역 접근법은 모델 영역 접근법에 비해 계산량이 적고 인식엔진에 독립적이라는 장점이 있다. 특징 영역 접근법의 일종인 특징 정규화 방법은 음성 특징 파라미터들의 통계적 특성의 정규화를 통해 환경 불일치를 감소시키는 방법으로서, Cepstral Mean Normalization (CMN)[2], Cepstral Mean Variance Normalization(CMVN)[3], Cepstral Mean Scale Normalization (CMSN)[4], Histogram Equalization(HE)[5] 등 켑스트럼 정규화 방법들이 대표적인 예이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

잡음 환경에서 짧은 발화 인식 성능 향상을 위한 선택적 극점 필터링 기반의 특징 정규화
Selective pole filtering based feature normalization for performance improvement of short utterance recognition in noisy environments 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

잡음 환경에서 짧은 발화 인식 성능 향상을 위한 선택적 극점 필터링 기반의 특징 정규화 Selective pole filtering based feature normalization for performance improvement of short utterance recognition in noisy environments 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

최보경 (1) 김형순 (72)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

잡음 환경에서 짧은 발화 인식 성능 향상을 위한 선택적 극점 필터링 기반의 특징 정규화
Selective pole filtering based feature normalization for performance improvement of short utterance recognition in noisy environments 원문보기

AI 본문요약
AI-Helper