[논문]히스토그램 등화와 데이터 증강 기법을 이용한 개선된 음성 감정 인식

허운행; 권오욱

doi:10.13064/ksss.2017.9.2.077

문제 정의

이러한 현상을 막기 위해서 파형 유사도 중첩 가산(waveform similarity overlap add; WSOLA) 알고리듬[9]을 이용한다. 본 논문에서는 WSOLA 알고리듬을 이용하는 SoX 프로그램[10]으로 발화 속도 기반 데이터 증강을 하였다.
본 논문에서는 감정 인식을 위해 화자 간의 특성 차이를 줄이기 위한 방법을 제시했다. 화자의 발화 속도 차이로 인한 학습 모델의 오차를 줄이기 위해 데이터를 증강하였고, 화자 특징의 분포와 분포 범위 오차를 줄여주기 위해 히스토그램 등화를 적용했다.
본 논문에서는 화자간의 특성 차이에서 발생하는 오차를 줄여 감정 인식 성능을 향상하고자 한다. 화자간의 특성에는 발화 속도, 음의 높이, 발화 크기 등이 있다.
추가된 블록인 발화 속도 기반 데이터 증강은 발화 속도를 변환하여 여러 발화 속도를 고려한 데이터를 만들기 위한 것이다. 증강된 데이터는 여러 발화 속도를 가지므로 이 데이터를 이용한 학습 모델은 발화 속도에 강인한 모델이 된다.

제안 방법

발화 속도 기반 데이터 증강 기법에 사용할 발화 속도를 결정해야한다. Baseline에 발화 속도 기반 데이터 증강 기법을 적용하여 발화 속도 종류에 따른 인식 성능을 비교해보았다. 이 실험은 <그림 2>에서 히스토그램 등화 블록이 제거된 구조를 가진다.
각 데이터베이스는 화자 교차 검증법을 통해 실험을 진행하였고, 각 감정의 혼동 행렬을 통해 가중치 인식률(weighted accuracy; WA)[16]과 비가중치 인식률(unweighted accuracy; UWA)[16]로 결과를 나타낸다. 가중치 인식률은 전체 시스템의 인식률을 나타내는 것이고, 비가중치 인식률은 각 감정에 대한 인식률의 평균, 즉 혼동행렬의 주대각선의 평균을 나타낸 것이다.
데이터베이스에 따른 실험 성능을 비교해보기 위해 KRN-DB와 eNTERFACE-DB에 대해 추가 실험을 하였다. 앞의 실험과 같은 IS09 384차 특징 벡터와 동일한 설정의 SVM을 이용하였다.
화자간의 특성에는 발화 속도, 음의 높이, 발화 크기 등이 있다. 먼저, 화자간의 발화 속도 차이에서 기인하는 학습 모델의 오차를 줄이기 위해서 다양한 발화 속도를 갖는 데이터들로 증강하여 학습하는 데이터 증강(data augmentation; DA) 기법[2]을 적용함으로써 학습 모델의 발화 속도에 대한 강인성을 높여준다. 음의 높이, 발화 크기 등의 화자 간 특징 분포 차이를 줄이기 위하여, 히스토그램 등화(histogram equalization; HE) 기법[3]을 이용하여 데이터베이스 각 화자의 분포를 학습 데이터 전체 화자들의 분포에 맞춰준다.
모델 학습 시, <그림 1>의 구조에 음영 블록인 발화 기반 데이터 증강과 히스토그램 등화가 추가되었다. 발화 속도 기반 데이터 증강을 통해 학습 데이터를 증강시키고 특징을 추출한다. 히스토그램 등화 모델은 각 화자 데이터에 대한 화자별 히스토그램의 누적분포함수(cumulative distribution function; CDF)와 테스트 화자를 제외한 모든 화자의 학습 데이터들에 대한 누적분포함수로 구성된다.
실험은 총 3가지 방식으로 구성된다. 실험 방식은 베이스라인(Baseline), Baseline+히스토그램 등화(HE) 실험, 제안 방법인 Baseline+HE+데이터 증강(DA) 실험 3가지이다. Baseline은 <그림 1>과 같은 구조를 가지고 Baseline+HE 실험은 <그림 1>의 특징 추출 블록 다음 부분에 히스토그램 등화 블록이 추가된 구조를 가진다.
위의 실험에서 발화 속도 기반 DA를 통해 Baseline보다 감정인식 성능을 개선시킬 수 있다는 것을 알 수 있었고, 각 감정 모델의 경계선을 가장 잘 표현하는 D3과 D6 발화 속도 종류에 대해 HE와 같이 적용하여 제안 방법 실험을 하였다.
특징 추출 부분에서는 openSMILE 프로그램[6]을 이용하여 발화에서 MFCC 1~12차 계수, 피치, 에너지, ZCR, 하모닉대잡음비(harmonic-to-noise ratio; HNR)로 구성되는 총 16개의 특징을 추출한다. 특징을 추출할 때 사용한 환경 설정 파일(config file)은 INTERSPEECH 2009 (IS09) emotion challenge[7]에서 사용했던 IS09 384차 특징 벡터의 환경 설정 파일의 통계치 추출 부분인 low-level descriptors (LLD)를 삭제하여 재설정하였다.
특징 추출 부분에서는 openSMILE 프로그램[6]을 이용하여 발화에서 MFCC 1~12차 계수, 피치, 에너지, ZCR, 하모닉대잡음비(harmonic-to-noise ratio; HNR)로 구성되는 총 16개의 특징을 추출한다. 특징을 추출할 때 사용한 환경 설정 파일(config file)은 INTERSPEECH 2009 (IS09) emotion challenge[7]에서 사용했던 IS09 384차 특징 벡터의 환경 설정 파일의 통계치 추출 부분인 low-level descriptors (LLD)를 삭제하여 재설정하였다. 윈도우 크기는 25 ms이고 10 ms씩 프레임을 이동하였다.
이러한 통계치를 연결함으로써 한 발화를 하나의 특징벡터로 표현한다. 학습 모델을 만들 때는 학습 데이터의 특징 벡터들을 SVM 패턴 분류기의 입력으로 넣어 각 감정 모델을 만들고, 테스트할 때는 입력 음성의 특징 벡터를 SVM 패턴 분류기의 감정 모델과 비교하여 감정들을 분류한다.
본 논문에서는 감정 인식을 위해 화자 간의 특성 차이를 줄이기 위한 방법을 제시했다. 화자의 발화 속도 차이로 인한 학습 모델의 오차를 줄이기 위해 데이터를 증강하였고, 화자 특징의 분포와 분포 범위 오차를 줄여주기 위해 히스토그램 등화를 적용했다.
히스토그램 등화는 2,000개의 히스토그램 계급 구간을 이용하였고, 발화 속도 기반 데이터 증강은 의 D3 발화 속도를 이용하였다.

대상 데이터

eNTERFACE-DB는 6개의 감정(행복, 슬픔, 놀람, 화남, 두려움, 역겨움)을 영어로 발성한 파일들로 구성되어 있다. DB의 화자는 14개 서로 다른 국적의 34명의 남성과 8명의 여성 일반인들이다. 발성 내용은 짧은 이야기에 대한 여러 반응이 대본으로 주어진다.
EMO-DB는 7개의 감정(화남, 중립, 두려움, 지루함, 행복, 슬픔, 역겨움)을 독일어로 발성한 파일들로 구성되어 있다. DB의 화자는 5명의 남성과 5명의 여성의 독일인 전문 배우들이다. 발성 내용은 녹음 전에 제공된 것으로 10개 종류의 대사로 녹음되었다.
DB의 화자는 5명의 남성과 5명의 여성의 독일인 전문 배우들이다. 발성 내용은 녹음 전에 제공된 것으로 10개 종류의 대사로 녹음되었다. 각 대사는 평균적으로 9 어절 이상을 포함하는 한 문장으로 이뤄져있다.
발화 길이는 2~3초 정도이다. 본 논문에서는 7개의 감정 중 감정 인식 실험에서 주로 쓰이는 4개의 감정(화남, 행복, 슬픔, 중립)을 선정하였다[14][15]. 실험에 쓰인 총 파일개수는 339개이다.
본 논문에서는 과 같이 2,000개 이상의 히스토그램 계급 구간에서 일정한 성능을 보여, 2,000개의 히스토그램 계급 구간을 이용하였다.
본 논문에서는 7개의 감정 중 감정 인식 실험에서 주로 쓰이는 4개의 감정(화남, 행복, 슬픔, 중립)을 선정하였다[14][15]. 실험에 쓰인 총 파일개수는 339개이다.
이 데이터베이스에서도 마찬가지로 4개의 감정(화남, 행복, 슬픔, 중립)을 선정하였다. 실험에 쓰인 총 파일개수는 6,058개이다.
음성 데이터베이스는 독일어 데이터베이스(EMO-DB)[11], 한국어 데이터베이스(KRN-DB)[12], eNTERFACE 데이터베이스[13]을 이용했다.
발화 길이는 2~3초 정도이다. 이 데이터베이스는 중립의 감정을 포함하지 않아 6개의 감정에 대해 실험을 진행하였고, 실험에 쓰인 파일개수는 1,233개이다.
발화 길이는 평균적으로 1초 이내이다. 이 데이터베이스에서도 마찬가지로 4개의 감정(화남, 행복, 슬픔, 중립)을 선정하였다. 실험에 쓰인 총 파일개수는 6,058개이다.

데이터처리

SVM을 사용하려면 발화 당 하나의 특징벡터가 필요하다. 음성 신호에서 프레임 별 특징을 추출하여 통계치(최댓값, 최솟값, 평균, 표준편차, 첨도, 회귀계수 등)를 계산한다. 이러한 통계치를 연결함으로써 한 발화를 하나의 특징벡터로 표현한다.
이때 커널 함수는 radial basis 함수[8]를 사용하였다. 추출된 특징들을 SVM 패턴 분류기의 입력으로 사용하기 위해서 변화량 및 통계치를 계산한다. 변화량과 <표 1>의 통계치를 계산해 384차 특징 벡터를 얻어서 SVM의 입력으로 사용한다.

이론/모형

감정 인식 시, 학습된 히스토그램 등화 모델과 감정 모델을 이용한다. 먼저 테스트 음성의 특징을 추출한다.
패턴 분류기로는 Gaussian mixture model (GMM), support vector machine (SVM), deep neural network (DNN)이 사용된다[5]. 본 논문에서는 패턴분류기로 SVM을 사용하였다. 이는 SVM은 GMM보다 패턴 분류 정확도가 높고, 본 연구에서와 같이 데이터베이스의 크기가 작은 경우에는 DNN보다 더 나은 성능을 보이기 때문이다.
먼저, 화자간의 발화 속도 차이에서 기인하는 학습 모델의 오차를 줄이기 위해서 다양한 발화 속도를 갖는 데이터들로 증강하여 학습하는 데이터 증강(data augmentation; DA) 기법[2]을 적용함으로써 학습 모델의 발화 속도에 대한 강인성을 높여준다. 음의 높이, 발화 크기 등의 화자 간 특징 분포 차이를 줄이기 위하여, 히스토그램 등화(histogram equalization; HE) 기법[3]을 이용하여 데이터베이스 각 화자의 분포를 학습 데이터 전체 화자들의 분포에 맞춰준다. 히스토그램 등화를 통해 데이터베이스의 모든 화자는 각 특징마다 동일한 특징 분포를 가진다.
SVM 패턴 분류기는 커널 함수를 이용해 비선형 분류를 한다. 이때 커널 함수는 radial basis 함수[8]를 사용하였다. 추출된 특징들을 SVM 패턴 분류기의 입력으로 사용하기 위해서 변화량 및 통계치를 계산한다.
발화 속도를 변환할 때, 단순히 시간 축을 늘이거나 줄이면 주파수 영역에서 왜곡이 생겨 피치가 바뀌게 되어 음성이 변조된 것처럼 들린다. 이러한 현상을 막기 위해서 파형 유사도 중첩 가산(waveform similarity overlap add; WSOLA) 알고리듬[9]을 이용한다. 본 논문에서는 WSOLA 알고리듬을 이용하는 SoX 프로그램[10]으로 발화 속도 기반 데이터 증강을 하였다.
테스트는 화자 교차 검증법을 통해 진행된다. 그러므로 학습 시, 각 테스트 화자에 따른 히스토그램 등화 모델과 감정 모델을 각 테스트 화자마다 별도로 생성해주어야 한다.
감정인식 특징들을 이용하여 감정을 분류하기 위해 패턴 분류기를 사용한다. 패턴 분류기로는 Gaussian mixture model (GMM), support vector machine (SVM), deep neural network (DNN)이 사용된다[5]. 본 논문에서는 패턴분류기로 SVM을 사용하였다.

성능/효과

5% 비가중치 인식률 결과로 가장 높은 인식 성능을 보였다. Baseline 실험 결과보다 34.7% 상대적 가중치 인식률 개선과 33.8% 비가중치 인식률 개선 결과를 얻었다.
본 논문에서는 <그림 7>과 같이 2,000개 이상의 히스토그램 계급 구간에서 일정한 성능을 보여, 2,000개의 히스토그램 계급 구간을 이용하였다. Baseline+ HE 실험에서는 88.5% 가중치 인식률과 88.7% 비가중치 인식률 결과로, Baseline 실험 결과보다 29.1% 상대적 가중치 인식률 개선 결과와 29.0% 상대적 비가중치 인식률 개선 결과를 얻었다. 제안 방법인 Baseline+HE+DA 실험 결과는 D3의 발화속도 종류에서 89.
<표 5>는 KRN-DB와 eNTERFACE-DB에서 Baseline, Baseline+HE, Baseline+HE+DA 3가지 실험에 대한 결과표이다. KRN-DB에서 Baseline+HE 실험 결과는 Baseline 실험 결과보다 21.0% 상대적 가중치 인식률 개선과 20.8%의 상대적 비가중치 인식률 개선 결과를 얻었다. 제안 방법인 Baseline+HE+DA 실험결과는 Baseline 실험 결과 보다 23.
eNTERFACE-DB에서 Baseline+HE 실험 결과는 Base- line 실험 결과보다 24.2% 상대적 가중치 인식률 개선과 24.2% 상대적 비가중치 인식률 개선 결과를 얻었다. 제안 방법인 Baseline+HE+DA 실험 실험 결과는 Baseline 실험 결과보다 28.
히스토그램 등화를 이용했을 때, 독일어 데이터베이스와 다른 데이터베이스에서 평균적으로 25% 상대적 인식률 개선이 있었다. 발화 속도 기반 데이터 증강과 히스토그램 등화를 이용한 제안 방법을 이용하여 가장 높은 감정 인식 결과를 얻을 수 있었고, 독일어 데이터베이스와 다른 데이터베이스에서 평균적으로 28.5% 상대적 인식률 개선이 있었다. 제안된 방법을 통해 화자의 특성을 줄여 줌으로써 성능을 개선할 수 있음을 확인하였다.
히스토그램 등화는 모든 데이터베이스에서 인식 성능이 많이 개선되었지만, 발화 속도 기반 데이터 증강은 데이터베이스에 따라 성능 개선 정도가 달랐다. 발화 속도 기반 데이터 증강은 EMO-DB에서는 많은 성능 개선 효과를 보였고 다른 두 DB에 대해서는 적은 효과를 보였다.
발화 속도 기반 데이터 증강을 통한 성능 개선은 독일어 데이터베이스와 다르게, 위의 두 데이터베이스에서는 성능이 많이 개선되지 않았다. EMO-DB에서는 화자가 10명이라 감정 모델에 여러 발화 속도가 고려될 수 없었고, 다른 두 DB는 화자 수가 30, 42명으로 상대적으로 많은 수의 화자로 구성되어 있어서 감정 모델에 여러 발화 속도가 고려되어 효과가 낮은 것으로 생각된다.
02배속 변환 폭으로 커지는 데이터가 중첩으로 쌓여 최대 11배까지 데이터 증강을 한다. <표 3>의 Baseline보다 모든 발화 속도 종류에서 향상된 성능을 보이고, 특히, D3과 D6 발화 속도 종류에서 가장 높은 성능을 보인다.
0% 상대적 비가중치 인식률 개선 결과를 얻었다. 제안 방법인 Baseline+HE+DA 실험 결과는 D3의 발화속도 종류에서 89.4% 가중치 인식률과 89.5% 비가중치 인식률 결과로 가장 높은 인식 성능을 보였다. Baseline 실험 결과보다 34.
2% 상대적 비가중치 인식률 개선 결과를 얻었다. 제안 방법인 Baseline+HE+DA 실험 실험 결과는 Baseline 실험 결과보다 28.1% 상대적 가중치 인식률 개선과 28.1% 상대적 비가중치 인식률 개선 결과를 얻었다.
8%의 상대적 비가중치 인식률 개선 결과를 얻었다. 제안 방법인 Baseline+HE+DA 실험결과는 Baseline 실험 결과 보다 23.7% 상대적 가중치 인식률 개선과 23.8% 비가중치 인식률 개선 결과를 얻었다.
5% 상대적 인식률 개선이 있었다. 제안된 방법을 통해 화자의 특성을 줄여 줌으로써 성능을 개선할 수 있음을 확인하였다.
히스토그램 등화는 모든 데이터베이스에서 인식 성능이 많이 개선되었지만, 발화 속도 기반 데이터 증강은 데이터베이스에 따라 성능 개선 정도가 달랐다. 발화 속도 기반 데이터 증강은 EMO-DB에서는 많은 성능 개선 효과를 보였고 다른 두 DB에 대해서는 적은 효과를 보였다.
히스토그램 등화를 이용했을 때, 독일어 데이터베이스와 다른 데이터베이스에서 평균적으로 25% 상대적 인식률 개선이 있었다. 발화 속도 기반 데이터 증강과 히스토그램 등화를 이용한 제안 방법을 이용하여 가장 높은 감정 인식 결과를 얻을 수 있었고, 독일어 데이터베이스와 다른 데이터베이스에서 평균적으로 28.

후속연구

KRN-DB에서는 화남, 중립, 행복 모델 사이의 감정 인식 오류가 크다. EMO-DB와 마찬가지로 화자간의 특성을 줄여 줌으로써 성능을 개선함과 동시에 혼동 행렬에 나타난 특정 감정 모델 사이의 오류를 줄일 수 있다면 감정 인식 시스템의 성능을 더욱 높일 수 있을 것이다.
대표적인 예로, 화자의 성별에 따라 피치 분포 범위가 크게 달라진다. 이러한 화자별 특성 차이를 줄인다면, 각 화자에 따른 감정 모델의 차이로부터 야기되는 인식오류도 줄일 수 있을 것이다.
화남의 오류는 행복에서 나타나고, 행복의 오류는 화남에서 나타는 것으로 보아, 화남과 행복 모델 사이의 인식 오류가 크다. 화자 간의 특성을 줄여 줌으로써 성능을 개선함과 동시에 화남과 행복 감정 모델 사이의 오류를 줄일 수 있다면 감정 인식 시스템의 성능을 더욱 높일 수 있을 것이다.

핵심어	질문	논문에서 추출한 답변
	EMO-DB의 구성은 무엇인가?	EMO-DB는 7개의 감정(화남, 중립, 두려움, 지루함, 행복, 슬픔, 역겨움)을 독일어로 발성한 파일들로 구성되어 있다. DB의 화자는 5명의 남성과 5명의 여성의 독일인 전문 배우들이다.
	음성 신호에서 감정을 찾기위한 감정 인식에 흔히 쓰는 특징 들은 무엇인가?	예를 들어, 감정이 격해지면 목소리가 커지고 음의 높이 변화가 생기는 것을 직관적으로 알 수 있다. 감정 인식에서 흔히 쓰는 특징들은 피치(pitch), 에너지(energy), mel-frequency cepstral coefficient (MFCC), 지터(jitter), 쉬머(shimmer), 영 교차율(zero crossing rate; ZCR) 등이 있다[4].
	음성의 특징은 무엇인가?	음성은 말의 의미뿐만 아니라 사람의 감정도 전달할 수 있다. 보통 감정 인식을 할 때 음성신호에서 감정 인식에 영향을 주는 특징들을 입력 신호로부터 추출하여 이것을 파라미터로 설정해 모델을 도출해낸다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

히스토그램 등화와 데이터 증강 기법을 이용한 개선된 음성 감정 인식
Improved speech emotion recognition using histogram equalization and data augmentation techniques 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (17)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

히스토그램 등화와 데이터 증강 기법을 이용한 개선된 음성 감정 인식 Improved speech emotion recognition using histogram equalization and data augmentation techniques 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (17)

이 논문을 인용한 문헌

저자의 다른 논문 :

허운행 (2) 권오욱 (41)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

히스토그램 등화와 데이터 증강 기법을 이용한 개선된 음성 감정 인식
Improved speech emotion recognition using histogram equalization and data augmentation techniques 원문보기

AI 본문요약
AI-Helper