[논문]잡음 환경에서의 음성 감정 인식을 위한 특징 벡터 처리

박정식; 오영환

문제 정의

이 방법을 감정 인식에 적용하면 심한 잡음으로 인해 감정 정보가 손실된 프레임을 선별하고 그렇지 않은 프레임, 즉 고유의 감정 정보를 지닌 프레임만으로 모델을 구축함으로써, 잡음에 강인한 감정 모델을 생성하는데 기여할 것으로 판단된다. 따라서 본 연구에서는 기존의 특징 벡터 선별 기법을 감정 인식에 적용하는 방법을 제안한다.
향후 연구에서는 문장 단위의 감정 음성 자료에 대하여 제안한 방법의 유효성을 검증하며, 특징 벡터 선별 기법을 HMM 기반의 시스템에 적용하고자 한다. 또한 위너 필터링, MMSE-LSA 등 다양한 잡음 제거 기법과의 성능 비교를 통해 제안한 방법의 유효성을 검증하고자 한다.
본 연구에서는 개선된 콤 필터링을 수행한 음성에 대하여 특징 벡터 선별 기법을 통해 강인한 감정 모델을 구축하는 방법을 함께 제안하였으며, 이와 관련된 실험 결과는 과 같다.
앞서 설명한 바와 같이, 잡음이 심한 음성의 경우 잘못 측정된 피치 정보에 의한 콤 필터링이 오히려 음성 신호의 왜곡을 야기할 수 있다. 본 연구에서는 음성 존재 확률을 이용하여 콤 필터의 주파수 응답을 조정함으로써 이 같은 왜곡 문제를 해결한다.
또한, 입력되는 잡음의 종류 및 크기(dB)가 지속적으로 바뀌는 경우, 콤 필터링 후에도 제거되지 않은 잡음 성분으로 인해 음성에 포함된 감정 정보가 훼손된 프레임이 존재할 수 있다. 본 연구에서는 이 같은 문제를 해결하기 위해 필터링 과정 후 감정 정보가 손실된 프레임을 선별한 뒤 해당 프레임을 인식 단계에서 제외하는 방법을 제안한다.
또한 음질 개선 후에도 고유의 감정 특성이 훼손된 특징 벡터가 훈련 단계에 포함되지 않도록 처리하는 것 또한 인식 성능 향상에 기여할 것으로 판단된다. 본 연구에서는 이를 위해 기본 주파수 정보를 이용하여 잡음을 제거하는 콤 필터링 기법을 사용하고, 극심한 잡음에 의해 본래의 감정 특성이 훼손된 특징 벡터를 선별하기 위하여 화자 식별 분야에 사용된 바 있는 특징 벡터 선별 기법을 적용하는 방법을 제안한다.
본 연구에서는 잡음 환경에서 감정 인식 성능을 개선하기 위한 특징 벡터 처리 방법을 제안하였다. 제안한 방법은 콤 필터링을 기반으로 잡음 제거를 수행하며, 잡음 제거 후 추출한 특징 벡터를 대상으로 특징 벡터 선별 기법을 적용하여 잡음에 강인한 감정 모델을 구축한다.
본 연구에서는 잡음 환경에서의 감정 인식 성능을 향상시키기 위해 잡음 제거에 유용한 콤 필터링을 적용하여 특징 파라미터를 개선하고, 또한 특징 벡터 선별 기법을 적용하여 잡음 환경에 강인한 감정 모델을 구축하는 방법을 제안한다. 감정 특성을 가장 잘 나타내는 대표적인 특징 파라미터는 피치 주기(pitch period)이며, 콤 필터링은 음성의 기본 주파수, 즉 피치 주기를 사용하여 잡음을 제거하는 대표적인 방법이다.
잡음이 심한 환경에서 발생하는 이 같은 문제점을 해결하기 위해 본 연구에서는 기존의 콤 필터의 주파수 응답 및 필터 계수(αk)를 개선하고자 한다.

제안 방법

또한 ‘boredom’과 ‘sadness’ 감정이 추가되어 다섯 가지 감정을 인식하는데 사용되며, 이 같은 조합은 5-클래스 감정 인식에서 주로 사용되어 왔다[2],[5],[13]. GMM 기반의 식별 기법을 인식에 사용했으며, 제안한 특징 벡터 처리 기법의 유효성을 중점적으로 평가하기 위해 mixture 수는 1로 제한을 두고 감정 모델을 구축하였다.
다음으로 각 감정의 특징 벡터를 이용하여 감정마다 GMM (λe ; e = 1,...,E)을 구축한다.
첫째, 묵음 구간을 검출한 후 잡음 성분을 추정할 필요가 없는 콤 필터링과 달리 묵음 구간 검출 및 잡음 성분 추정 과정이 요구되는 대표적인 잡음 제거 기법으로서 주파수 차감법을 선정하였다. 둘째, 감정 인식에 가장 유용하게 사용되는 고조파 정보 또는 기본 주파수(즉, 피치 주기)를 잡음 음성으로부터 정확히 추정하는 것은 한계가 있으며, 본 연구는 잡음 음성에서 고조파 정보를 개선하기 위한 방법으로서 콤 필터링의 개선을 제안하였다. 따라서 기본 주파수의 추정과 무관한 기존의 잡음 제거 기법 중 가장 널리 알려진 주파수 차감법을 성능 평가에 사용하였다.
심한 잡음으로 인해 잘못 측정된 피치에 의해 발생하는 콤 필터링의 문제점을 해결하기 위하여 음성 존재 확률을 이용하여 콤 필터의 주파수 응답 및 필터 계수를 개선하였다. 또한 잡음에 의해 감정 정보가 훼손된 프레임을 선별하기 위해 특징 벡터 선별 기법을 적용하였으며, 고유의 감정 특성을 지닌 특징 벡터로부터 감정 모델을 구축함으로써 기존의 감정 모델을 개선하였다. LDC의 감정 음성 자료 및 NoiseX-92의 잡음 자료를 이용하여 감정 인식 실험을 수행한 결과, 제안한 콤 필터링은 주파수 차감법 및 기존의 콤 필터링에 비하여 향상된 성능을 나타냈다.
제안한 콤 필터링의 성능을 평가하기 위해 기존의 콤 필터링 및 주파수 차감법([10])을 적용한 음성을 사용하여 감정 인식 성능을 비교하였다. 또한 특징 벡터 선별 기법을 추가로 적용하여 프레임 선별이 인식 성능 향상에 미치는 영향을 조사하였다.
모델 훈련에 사용된 각각의 특징 벡터 xe,t를 각 GMM에 적용하여 로그-우도를 계산한 다음, xe,t가 자신에 해당하는 감정 모델인 λe에서 최대 우도를 보이는 경우 이 벡터를 '비중첩 벡터 (non-overlapped vector)'로 분류한다.
본 연구에서 제안한 특징 벡터 처리 기법의 유효성을 검증하기 위하여 잡음 자료 및 감정 음성 자료를 사용하여 감정 인식 실험을 수행하였다. 제안한 콤 필터링의 성능을 평가하기 위해 기존의 콤 필터링 및 주파수 차감법([10])을 적용한 음성을 사용하여 감정 인식 성능을 비교하였다.
본 연구에서는 LDC의 감정 음성 코퍼스(‘Emotional Prosody Speech and Transcripts’)를 이용하여 감정 인식 실험을 수행하였다[11].
전체 스펙트럼 대역에서 주파수 응답이 일정하게 반복되는 콤 필터링의 문제점을 해결하기 위해 Minimum Mean Squared Error-Log Spectral Amplitude (MMSE-LSA) 기법에서 사용된 추정값을 이용하는 방법이 연구된 바 있다[7]. 본 연구에서는 이 방법에서 사용된 각 주파수 대역별 음성 존재 확률을 이용하여 콤 필터의 주파수 응답을 변형한 후 이를 역 푸리에 변환시켜 얻은 임펄스 응답으로부터 새로운 필터 계수를 얻는다.
본 연구에서는 개선된 콤 필터링을 수행한 음성에 대하여 특징 벡터 선별 기법을 통해 강인한 감정 모델을 구축하는 방법을 함께 제안하였으며, 이와 관련된 실험 결과는 <표 3>과 같다. 세 가지 잡음 수준(clean, 10dB, 5dB)에 대하여 5-클래스의 감정 인식 실험을 수행하였으며, 성능 평가를 위해 가공되지 않은 본래 음성(Baseline), 개선된 콤 필터링을 적용한 음성(ACF), 그리고 이 음성에 대하여 특징 벡터 선별 기법(Feature Vector Classification; FVC)에 기반한 모델 학습을 적용한 후 (ACF+FVC)의 인식 성능을 비교하였다. 실험 결과 실험실 환경(Clean)의 경우 콤 필터링을 적용한 후 인식 성능이 오히려 저하됨을 확인하였는데, 이는 콤 필터링에 의해 음성 신호에 왜곡이 발생하였기 때문인 것으로 판단된다.
제안한 방법은 콤 필터링을 기반으로 잡음 제거를 수행하며, 잡음 제거 후 추출한 특징 벡터를 대상으로 특징 벡터 선별 기법을 적용하여 잡음에 강인한 감정 모델을 구축한다. 심한 잡음으로 인해 잘못 측정된 피치에 의해 발생하는 콤 필터링의 문제점을 해결하기 위하여 음성 존재 확률을 이용하여 콤 필터의 주파수 응답 및 필터 계수를 개선하였다. 또한 잡음에 의해 감정 정보가 훼손된 프레임을 선별하기 위해 특징 벡터 선별 기법을 적용하였으며, 고유의 감정 특성을 지닌 특징 벡터로부터 감정 모델을 구축함으로써 기존의 감정 모델을 개선하였다.
인식 단계에서 활용되는 식별 방법으로는 음성 인식 및 화자 인식 등에서 사용되는 Gaussian Mixture Model (GMM), Hidden Markov Model (HMM), Support Vector Machine (SVM), Artificial Neural Network (ANN) 등이 적용되었으며, 이 중 GMM 기반의 식별 방법이 피치나 MFCC와 같은 단구간 특징 파라미터에 적합하다는 연구결과가 있었다[2],[5]. 이 같은 연구 내용을 기반으로 본 연구에서는 단구간 특징 파라미터 및 GMM 기반의 감정 인식 시스템을 사용한다.
본 연구에서는 LDC의 감정 음성 코퍼스(‘Emotional Prosody Speech and Transcripts’)를 이용하여 감정 인식 실험을 수행하였다[11]. 이 음성 자료는 잡음이 없는 실험실에서 녹음된 것으로, 잡음 환경에서의 감정 인식 성능을 평가하기 위해 NoiseX-92에서 추출한 백색 잡음과 군중 잡음, 공장 잡음을 LDC의 감정 음성 자료에 추가하였다[12]. LDC 감정 음성 자료는 일곱 명의 전문 배우들이 날짜 및 숫자의 조합으로 구성된 어휘를 총 15개의 감정 종류별로 연기하여 녹음된 자료로, 한 화자 당 각 감정마다 평균적으로 20개의 어휘가 녹음되었다.
본 연구에서는 잡음 환경에서 감정 인식 성능을 개선하기 위한 특징 벡터 처리 방법을 제안하였다. 제안한 방법은 콤 필터링을 기반으로 잡음 제거를 수행하며, 잡음 제거 후 추출한 특징 벡터를 대상으로 특징 벡터 선별 기법을 적용하여 잡음에 강인한 감정 모델을 구축한다. 심한 잡음으로 인해 잘못 측정된 피치에 의해 발생하는 콤 필터링의 문제점을 해결하기 위하여 음성 존재 확률을 이용하여 콤 필터의 주파수 응답 및 필터 계수를 개선하였다.
제안한 콤 필터링에 의한 잡음 제거 및 피치 주기의 개선에 대한 유효성을 평가하기 위하여, 특징 벡터 선별 기법을 적용하지 않은, 즉 잡음 처리의 결과 음성으로부터 모델 학습 및 인식 실험을 수행하였다. 잡음이 추가되지 않은 실험실 환경의 LDC 음성 자료를 사용하여 평가한 5-클래스 감정에 대한 인식률은 53.
제안한 콤 필터링에 의해 피치 주기가 효과적으로 개선되는지의 여부를 확인하기 위하여 피치 주기를 포함한 특징 파라미터의 종류를 변화시키며 인식 성능을 조사하였다. <그림 8>은 0dB, 5dB, 10dB의 잡음 수준에서 평가한 5-클래스 감정 인식의 평균 인식률로, 감정 인식에 사용한 특징 파라미터의 종류에 따른 인식률의 변화를 나타낸다.
감정 인식 결과의 신뢰도를 향상시키기 위하여 7-fold cross-validation 기법을 사용하여 성능을 평가하였다. 즉, 한 화자의 음성 자료를 실험 자료로 사용하고 나머지 여섯 화자의 음성 자료를 학습 자료로 사용하였으며, 실험 자료로 사용되는 화자를 순차적으로 교체함으로써 총 7차례의 성능 평가를 시행하였다. 인식에 사용한 특징 파라미터는 피치 주기, 로그 에너지 및 영점 교차율 그리고 12차 MFCC이며, 40ms 단위의 프레임을 대상으로 특징 파라미터를 추출하였다.
다양한 잡음 제거 기법 가운데 주파수 차감법을 성능 비교의 대상으로 선정한 이유는 다음과 같다. 첫째, 묵음 구간을 검출한 후 잡음 성분을 추정할 필요가 없는 콤 필터링과 달리 묵음 구간 검출 및 잡음 성분 추정 과정이 요구되는 대표적인 잡음 제거 기법으로서 주파수 차감법을 선정하였다. 둘째, 감정 인식에 가장 유용하게 사용되는 고조파 정보 또는 기본 주파수(즉, 피치 주기)를 잡음 음성으로부터 정확히 추정하는 것은 한계가 있으며, 본 연구는 잡음 음성에서 고조파 정보를 개선하기 위한 방법으로서 콤 필터링의 개선을 제안하였다.
특징 벡터 선별 과정을 통해 각 감정마다 구축된 두 개의 모델(즉, 개선된 GMM과 중첩 모델)을 이용하여 입력 음성에 대한 인식 과정을 수행한다. 입력 음성 역시 심한 잡음에 의해 감정 정보가 손실된 프레임이 존재할 수 있으며 이 같은 프레임이 인식에 사용된다면 오인식을 야기할 수 있으므로, 입력 음성에 대해서도 특징 벡터 선별 과정이 필요하다.

대상 데이터

이 음성 자료는 잡음이 없는 실험실에서 녹음된 것으로, 잡음 환경에서의 감정 인식 성능을 평가하기 위해 NoiseX-92에서 추출한 백색 잡음과 군중 잡음, 공장 잡음을 LDC의 감정 음성 자료에 추가하였다[12]. LDC 감정 음성 자료는 일곱 명의 전문 배우들이 날짜 및 숫자의 조합으로 구성된 어휘를 총 15개의 감정 종류별로 연기하여 녹음된 자료로, 한 화자 당 각 감정마다 평균적으로 20개의 어휘가 녹음되었다. 감정 인식 결과의 신뢰도를 향상시키기 위하여 7-fold cross-validation 기법을 사용하여 성능을 평가하였다.
즉, 한 화자의 음성 자료를 실험 자료로 사용하고 나머지 여섯 화자의 음성 자료를 학습 자료로 사용하였으며, 실험 자료로 사용되는 화자를 순차적으로 교체함으로써 총 7차례의 성능 평가를 시행하였다. 인식에 사용한 특징 파라미터는 피치 주기, 로그 에너지 및 영점 교차율 그리고 12차 MFCC이며, 40ms 단위의 프레임을 대상으로 특징 파라미터를 추출하였다. 지나치게 짧은 구간에서는 정확한 피치 주기를 측정하기 어려우므로 프레임의 길이를 40ms로 정하였으며, 이 같은 길이는 “참고문헌[13]” 등에서 사용된 바 있다.

데이터처리

본 연구에서 제안한 특징 벡터 처리 기법의 유효성을 검증하기 위하여 잡음 자료 및 감정 음성 자료를 사용하여 감정 인식 실험을 수행하였다. 제안한 콤 필터링의 성능을 평가하기 위해 기존의 콤 필터링 및 주파수 차감법([10])을 적용한 음성을 사용하여 감정 인식 성능을 비교하였다. 또한 특징 벡터 선별 기법을 추가로 적용하여 프레임 선별이 인식 성능 향상에 미치는 영향을 조사하였다.

이론/모형

LDC 감정 음성 자료는 일곱 명의 전문 배우들이 날짜 및 숫자의 조합으로 구성된 어휘를 총 15개의 감정 종류별로 연기하여 녹음된 자료로, 한 화자 당 각 감정마다 평균적으로 20개의 어휘가 녹음되었다. 감정 인식 결과의 신뢰도를 향상시키기 위하여 7-fold cross-validation 기법을 사용하여 성능을 평가하였다. 즉, 한 화자의 음성 자료를 실험 자료로 사용하고 나머지 여섯 화자의 음성 자료를 학습 자료로 사용하였으며, 실험 자료로 사용되는 화자를 순차적으로 교체함으로써 총 7차례의 성능 평가를 시행하였다.
둘째, 감정 인식에 가장 유용하게 사용되는 고조파 정보 또는 기본 주파수(즉, 피치 주기)를 잡음 음성으로부터 정확히 추정하는 것은 한계가 있으며, 본 연구는 잡음 음성에서 고조파 정보를 개선하기 위한 방법으로서 콤 필터링의 개선을 제안하였다. 따라서 기본 주파수의 추정과 무관한 기존의 잡음 제거 기법 중 가장 널리 알려진 주파수 차감법을 성능 평가에 사용하였다.
입력 음성 역시 심한 잡음에 의해 감정 정보가 손실된 프레임이 존재할 수 있으며 이 같은 프레임이 인식에 사용된다면 오인식을 야기할 수 있으므로, 입력 음성에 대해서도 특징 벡터 선별 과정이 필요하다. 본 연구에서는 이 과정에서 중첩 모델을 이용하며, 중첩 모델은 일종의 garbage 모델로서 기능한다. 즉, 입력 음성의 각 특징 벡터를 감정별 GMM #와 중첩 모델에 적용하여 로그-우도를 계산한 다음 중첩 모델에서 최대 우도를 보이는 경우 해당 특징 벡터를 ‘중첩 벡터’로 분류하여 인식 과정에서는 제외시킨다.
음성 존재 확률 계산을 위해 MMSE-LSA 기법에서 사용되는 Gain 함수(식 (5))를 적용한다.

성능/효과

하지만, ‘ACF+FVC’의 경우 오히려 Baseline보다 성능이 향상되는 결과를 보였는데 이는 특징 벡터 선별 기법에 의해 모호한 감정 특성을 지니는 특징 벡터가 제외되고 고유 감정 특성을 지닌 벡터만으로 구축된 감정 모델의 결과에 기인한 것으로 판단된다. 10dB 및 5dB의 잡음 환경 역시 콤 필터링과 특징 벡터 선별 기법을 함께 적용함으로써 성능이 향상됨을 보였다. 잡음 환경(10dB 및 5dB)에서 평가한 평균 인식 성능은 baseline에 비해 5%의 에러감소율을 보였으며, 표에서는 확인되지 않으나 백색 잡음을 제외한 군중 잡음과 공장 잡음만을 대상으로 평가한 경우 약 13%의 향상률을 보였다.
또한 잡음에 의해 감정 정보가 훼손된 프레임을 선별하기 위해 특징 벡터 선별 기법을 적용하였으며, 고유의 감정 특성을 지닌 특징 벡터로부터 감정 모델을 구축함으로써 기존의 감정 모델을 개선하였다. LDC의 감정 음성 자료 및 NoiseX-92의 잡음 자료를 이용하여 감정 인식 실험을 수행한 결과, 제안한 콤 필터링은 주파수 차감법 및 기존의 콤 필터링에 비하여 향상된 성능을 나타냈다. 또한 특징 벡터 선별 기법을 함께 적용한 결과 baseline에 비해 4.
10dB SNR의 잡음 자료(백색, 군중, 공장 잡음)를 대상으로 실험한 결과이며 성능 비교의 대상으로 사용된 방법은 <그림 6>,<그림 7>에서와 동일하다. 감정의 종류가 증가할수록 인식률이 저하됨을 확인할 수 있다. 앞서 살펴본 5-클래스의 결과처럼 2-클래스 및 3-클래스의 경우 역시 잡음이 추가되지 않은 음성 자료의 성능과 비교했을 때 10dB 수준의 잡음 환경에서 각각 15%와 13%의 성능 저하를 나타냈다.
기존의 콤 필터링의 문제를 해결하기 위해 제안한 방법은 주파수 대역별로 추정한 음성 존재 확률을 이용하여 콤 필터의 주파수 응답을 원음성에 적합하게 조정하고 필터 계수를 개선하는 방법이며, 이 같은 필터링을 수행한 음성의 경우 피치 및 고조파 정보가 개선되는 결과를 얻는다. 이들 정보는 감정 인식에 유용한 특징 파라미터로써, 제안한 방법에 의해 개선된 특징 파라미터는 감정 인식 성능 향상에 크게 기여할 것으로 판단된다.
주파수 차감법의 경우 묵음 구간에서 추정한 잡음 성분이 음성 구간에 포함된 잡음 성분과 상이할 때 잡음 성분이 정확하게 차감되지 않는 문제점이 발생하는 반면, 제안한 콤 필터링의 경우 음성 구간에서 직접 추정한 정보를 사용하므로 비정적 잡음에 대해 성능이 크게 향상된 것으로 파악된다. 두 종류의 잡음 수준(10dB과 5dB)에서 평가된 제안한 콤 필터링 기법의 평균 인식 성능은 37.1%를 보였으며, 이는 Baseline에 비해 5.3%, 그리고 SS와 CCF에 비해 각각 3.7%와 3.2% 성능이 개선되었음을 나타낸다.
LDC의 감정 음성 자료 및 NoiseX-92의 잡음 자료를 이용하여 감정 인식 실험을 수행한 결과, 제안한 콤 필터링은 주파수 차감법 및 기존의 콤 필터링에 비하여 향상된 성능을 나타냈다. 또한 특징 벡터 선별 기법을 함께 적용한 결과 baseline에 비해 4.3%의 에러감소율을 보였다. 향후 연구에서는 문장 단위의 감정 음성 자료에 대하여 제안한 방법의 유효성을 검증하며, 특징 벡터 선별 기법을 HMM 기반의 시스템에 적용하고자 한다.
세 가지 잡음 수준(clean, 10dB, 5dB)에 대하여 5-클래스의 감정 인식 실험을 수행하였으며, 성능 평가를 위해 가공되지 않은 본래 음성(Baseline), 개선된 콤 필터링을 적용한 음성(ACF), 그리고 이 음성에 대하여 특징 벡터 선별 기법(Feature Vector Classification; FVC)에 기반한 모델 학습을 적용한 후 (ACF+FVC)의 인식 성능을 비교하였다. 실험 결과 실험실 환경(Clean)의 경우 콤 필터링을 적용한 후 인식 성능이 오히려 저하됨을 확인하였는데, 이는 콤 필터링에 의해 음성 신호에 왜곡이 발생하였기 때문인 것으로 판단된다. 하지만, ‘ACF+FVC’의 경우 오히려 Baseline보다 성능이 향상되는 결과를 보였는데 이는 특징 벡터 선별 기법에 의해 모호한 감정 특성을 지니는 특징 벡터가 제외되고 고유 감정 특성을 지닌 벡터만으로 구축된 감정 모델의 결과에 기인한 것으로 판단된다.
<그림 6>은 신호대 잡음비(Signal to Noise Ratio) 즉 SNR이 10dB인 경우, <그림 7>은 5dB인 경우의 결과를 나타낸다. 잡음 제거 기법을 수행하지 않은 음성(Baseline)의 성능이 가장 좋지 않았으며, 군중 잡음 및 공장 잡음 환경의 경우 주파수 차감법이 적용된 음성(Spectral Subtraction; SS), 기존의 콤 필터링이 적용된 음성(Conventional Comb Filtering; CCF), 그리고 개선된 콤 필터링이 적용된 음성(Advanced Comb Filtering; ACF) 순으로 인식률이 향상됨을 보였다. 하지만, 백색 잡음 환경의 결과에서는 주파수 차감법이 콤 필터링보다 높은 성능을 나타냈다.
10dB 및 5dB의 잡음 환경 역시 콤 필터링과 특징 벡터 선별 기법을 함께 적용함으로써 성능이 향상됨을 보였다. 잡음 환경(10dB 및 5dB)에서 평가한 평균 인식 성능은 baseline에 비해 5%의 에러감소율을 보였으며, 표에서는 확인되지 않으나 백색 잡음을 제외한 군중 잡음과 공장 잡음만을 대상으로 평가한 경우 약 13%의 향상률을 보였다. 이 같은 결과는 특징 벡터 선별 기법이 잡음 환경에서의 감정 인식에 유용하게 적용될 수 있음을 뜻한다.
제안한 콤 필터링에 의한 잡음 제거 및 피치 주기의 개선에 대한 유효성을 평가하기 위하여, 특징 벡터 선별 기법을 적용하지 않은, 즉 잡음 처리의 결과 음성으로부터 모델 학습 및 인식 실험을 수행하였다. 잡음이 추가되지 않은 실험실 환경의 LDC 음성 자료를 사용하여 평가한 5-클래스 감정에 대한 인식률은 53.3%로, 동일한 음성 자료 및 식별 방법에 의해 평가된 기존의 연구 결과([5],[13])와 비슷하거나 다소 높은 성능을 보였다. 이와 반대로 잡음의 영향으로 인식률이 크게 저하되었음이 확인되었다.
앞서 살펴본 5-클래스의 결과처럼 2-클래스 및 3-클래스의 경우 역시 잡음이 추가되지 않은 음성 자료의 성능과 비교했을 때 10dB 수준의 잡음 환경에서 각각 15%와 13%의 성능 저하를 나타냈다. 잡음이 포함된 음성 (Baseline)은 주파수 차감법, 기존의 콤 필터링, 제안한 콤 필터링에 의해 평균적으로 각각 2%, 3%, 5.7%의 에러감소율 (Error rate reduction)을 보였다. 특히 표에서는 확인되지 않지만, 백색 잡음을 제외한 군중 잡음과 공장 잡음만을 대상으로 평가했을 경우 제안한 콤 필터링은 약 10%의 성능 개선을 나타냈다.
전체 스펙트럼 대역에서 기본 주파수에 따라 일정하게 반복되는 기존의 콤 필터()와 달리 변형된 콤 필터는 음성 존재 확률에 따라 스펙트럼 특성이 재조정된 모습을 보이며, 이에 따라 음성 존재 확률이 높은 대역은 에너지가 상대적으로 강조되는 반면 음성이 존재하는 않는 대역의 에너지는 감쇄하는 결과를 나타낸다.
반면, 군중 잡음이나 공장 잡음과 같은 비정적 잡음 환경에 대해서는 제안한 콤 필터링 기법을 적용한 후 성능이 크게 개선되었다. 주파수 차감법의 경우 묵음 구간에서 추정한 잡음 성분이 음성 구간에 포함된 잡음 성분과 상이할 때 잡음 성분이 정확하게 차감되지 않는 문제점이 발생하는 반면, 제안한 콤 필터링의 경우 음성 구간에서 직접 추정한 정보를 사용하므로 비정적 잡음에 대해 성능이 크게 향상된 것으로 파악된다. 두 종류의 잡음 수준(10dB과 5dB)에서 평가된 제안한 콤 필터링 기법의 평균 인식 성능은 37.
이 같은 결과는 특징 벡터 선별 기법이 잡음 환경에서의 감정 인식에 유용하게 적용될 수 있음을 뜻한다. 즉, 특징 벡터 선별 기법을 통해 심한 잡음에 의해 변이가 발생한 특징 벡터 및 모호한 감정 특성을 보이는 벡터를 효과적으로 제거함으로써 보다 강인한 감정 모델을 구축하는데 기여하는 것으로 판단된다.
지금까지 살펴본 인식 성능을 통해 제안한 콤 필터링이 비정적 잡음 환경에서 감정 인식의 성능 개선에 효과적임을 확인하였다. 본 연구에서는 개선된 콤 필터링을 수행한 음성에 대하여 특징 벡터 선별 기법을 통해 강인한 감정 모델을 구축하는 방법을 함께 제안하였으며, 이와 관련된 실험 결과는 <표 3>과 같다.
<그림 8>은 0dB, 5dB, 10dB의 잡음 수준에서 평가한 5-클래스 감정 인식의 평균 인식률로, 감정 인식에 사용한 특징 파라미터의 종류에 따른 인식률의 변화를 나타낸다. 특징 파라미터로 MFCC 정보만을 사용한 경우 인식률이 거의 변화하지 않는 반면, 피치 주기가 포함된 경우 제안한 방법에 의해 성능이 눈에 띄게 향상됨을 보였으며, 이 같은 결과는 제안한 콤 필터링에 의해 피치 정보가 효과적으로 개선되었음을 나타낸다.
7%의 에러감소율 (Error rate reduction)을 보였다. 특히 표에서는 확인되지 않지만, 백색 잡음을 제외한 군중 잡음과 공장 잡음만을 대상으로 평가했을 경우 제안한 콤 필터링은 약 10%의 성능 개선을 나타냈다.

후속연구

잡음에 인한 음성 인식 성능 저하 문제를 해결하기 위해 주파수 차감법, MMSE-LSA 등 다양한 음질 개선 기법이 연구되었고 이들에 대한 성능 평가가 수행되었다[4]. 그러나 감정 인식과 음성 인식에서 가장 유용하게 사용되는 특징 파라미터의 종류가 각기 다르기 때문에, 명료성 및 음질 개선을 목표로 한 잡음 제거보다는 잡음에 의해 변이가 발생한 특징 파라미터를 감정 인식에 유용하도록 개선하는 방법이 연구될 필요가 있다.
그러나 스펙트럼 포락이나 켑스트럼 특성보다는 피치 정보, 에너지 등의 정보에 의해 인식 성능이 좌우되는 감정 인식의 경우 음질 개선뿐만 아니라 잡음에 의해 변이가 발생하는 특징 파라미터를 개선하는 것이 함께 고려되어야 한다. 또한 음질 개선 후에도 고유의 감정 특성이 훼손된 특징 벡터가 훈련 단계에 포함되지 않도록 처리하는 것 또한 인식 성능 향상에 기여할 것으로 판단된다. 본 연구에서는 이를 위해 기본 주파수 정보를 이용하여 잡음을 제거하는 콤 필터링 기법을 사용하고, 극심한 잡음에 의해 본래의 감정 특성이 훼손된 특징 벡터를 선별하기 위하여 화자 식별 분야에 사용된 바 있는 특징 벡터 선별 기법을 적용하는 방법을 제안한다.
즉, 해당 화자의 특성이 뚜렷하게 나타나지 않는 프레임을 제외하고 그렇지 않은 프레임을 사용하여 새롭게 구축된 화자 모델은 특정 화자에 고유한 정보들로 표현된 모델이라는 사실에 기반한 방법이다. 이 방법을 감정 인식에 적용하면 심한 잡음으로 인해 감정 정보가 손실된 프레임을 선별하고 그렇지 않은 프레임, 즉 고유의 감정 정보를 지닌 프레임만으로 모델을 구축함으로써, 잡음에 강인한 감정 모델을 생성하는데 기여할 것으로 판단된다. 따라서 본 연구에서는 기존의 특징 벡터 선별 기법을 감정 인식에 적용하는 방법을 제안한다.
기존의 콤 필터링의 문제를 해결하기 위해 제안한 방법은 주파수 대역별로 추정한 음성 존재 확률을 이용하여 콤 필터의 주파수 응답을 원음성에 적합하게 조정하고 필터 계수를 개선하는 방법이며, 이 같은 필터링을 수행한 음성의 경우 피치 및 고조파 정보가 개선되는 결과를 얻는다. 이들 정보는 감정 인식에 유용한 특징 파라미터로써, 제안한 방법에 의해 개선된 특징 파라미터는 감정 인식 성능 향상에 크게 기여할 것으로 판단된다. 하지만, 콤 필터링은 피치 정보를 갖는 유성음에 대해서만 적용이 가능하므로 잡음 처리 후 무성음 프레임과 유성음 프레임 간의 에너지 차이가 발생할 수 있으며, 이는 에너지 정보가 유용하게 사용되는 감정 인식에서 중요하게 고려될 필요가 있다.
3%의 에러감소율을 보였다. 향후 연구에서는 문장 단위의 감정 음성 자료에 대하여 제안한 방법의 유효성을 검증하며, 특징 벡터 선별 기법을 HMM 기반의 시스템에 적용하고자 한다. 또한 위너 필터링, MMSE-LSA 등 다양한 잡음 제거 기법과의 성능 비교를 통해 제안한 방법의 유효성을 검증하고자 한다.
인간의 삶의 질을 향상시키기 위한 목적으로 끝없이 진보해온 인공지능 기술은 이제 인간과 기계 사이의 거리를 좁히기 위해 다양한 방법을 시도하고 있다. 휴대폰, 내비게이션과 같은 생활필수품은 손을 이용하는 인터페이스를 거쳐 음성으로 구동되는 형태로 진화하고 있으며, 굴러다니는 로봇 청소기의 모습은 향후 몇 십 년 내에 휴먼 로봇의 형태로 인간과 눈높이를 맞추게 될 것이다. 이처럼 인간-기계 인터페이스는 사용자 편의(user-friendly)를 향상시키는 것에서 나아가 사용자를 이해하는(user-comprehensive) 수준으로 발전하고 있다.

핵심어	질문	논문에서 추출한 답변
	감정 특성을 잘 나타내는 대표적 특징 파라미터는?	본 연구에서는 잡음 환경에서의 감정 인식 성능을 향상시키기 위해 잡음 제거에 유용한 콤 필터링을 적용하여 특징 파라미터를 개선하고, 또한 특징 벡터 선별 기법을 적용하여 잡음 환경에 강인한 감정 모델을 구축하는 방법을 제안한다. 감정 특성을 가장 잘 나타내는 대표적인 특징 파라미터는 피치 주기(pitch period)이며, 콤 필터링은 음성의 기본 주파수, 즉 피치 주기를 사용하여 잡음을 제거하는 대표적인 방법이다. 콤 필터링에 의해 처리된 음성은 스펙트럼 상에서 고조파(harmonics) 성분이 강조된 특성을 보이므로 이 음성으로부터 추출된 피치 정보는 감정 인식에 유용하게 사용될 수 있다.
	잡음에 인한 음성 인식 성능 저하 문제 해결을 위해 어떤 연구가 있었나?	잡음에 인한 음성 인식 성능 저하 문제를 해결하기 위해 주파수 차감법, MMSE-LSA 등 다양한 음질 개선 기법이 연구되었고 이들에 대한 성능 평가가 수행되었다[4]. 그러나 감정 인식과 음성 인식에서 가장 유용하게 사용되는 특징 파라미터의 종류가 각기 다르기 때문에, 명료성 및 음질 개선을 목표로 한 잡음 제거보다는 잡음에 의해 변이가 발생한 특징 파라미터를 감정 인식에 유용하도록 개선하는 방법이 연구될 필요가 있다.
	음성 감정 인식 시스템에 주로 사용되는 파타미터는?	음성 감정 인식은 감정 특성을 잘 표현하는 특징 파라미터 및 감정 분류에 유용한 식별 방법이 중점적으로 연구되고 있다. 피치, 에너지, 지속 길이, MFCC 등 비교적 짧은 구간에서 추출된 음향 특징 파라미터들이 감정 인식 시스템에 주로 사용되며, 이 중 피치 정보는 감정 정보를 표현하는데 효과적인 특징 파라미터로 알려졌다[2]. 인식 단계에서 활용되는 식별 방법으로는 음성 인식 및 화자 인식 등에서 사용되는 Gaussian Mixture Model (GMM), Hidden Markov Model (HMM), Support Vector Machine (SVM), Artificial Neural Network (ANN) 등이 적용되었으며, 이 중 GMM 기반의 식별 방법이 피치나 MFCC와 같은 단구간 특징 파라미터에 적합하다는 연구결과가 있었다[2],[5].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

잡음 환경에서의 음성 감정 인식을 위한 특징 벡터 처리
Feature Vector Processing for Speech Emotion Recognition in Noisy Environments 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

잡음 환경에서의 음성 감정 인식을 위한 특징 벡터 처리 Feature Vector Processing for Speech Emotion Recognition in Noisy Environments 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

박정식 (2) 오영환 (39)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

잡음 환경에서의 음성 감정 인식을 위한 특징 벡터 처리
Feature Vector Processing for Speech Emotion Recognition in Noisy Environments 원문보기

AI 본문요약
AI-Helper