[논문]감정 인식을 위한 음성 특징 도출

권철홍; 송승규; 김종열; 김근호; 장준수

doi:10.13064/ksss.2012.4.2.073

감정 인식을 위한 음성 특징 도출
Extraction of Speech Features for Emotion Recognition 원문보기

말소리와 음성과학 = Phonetics and speech sciences, v.4 no.2, 2012년, pp.73 - 78

권철홍 (대전대학교) , 송승규 (대전대학교) , 김종열 (한국한의학연구원) , 김근호 (한국한의학연구원) , 장준수 (한국한의학연구원)

Abstract ▼ AI-Helper

Emotion recognition is an important technology in the filed of human-machine interface. To apply speech technology to emotion recognition, this study aims to establish a relationship between emotional groups and their corresponding voice characteristics by investigating various speech features. The speech features related to speech source and vocal tract filter are included. Experimental results show that statistically significant speech parameters for classifying the emotional groups are mainly related to speech sources such as jitter, shimmer, F0 (F0_min, F0_max, F0_mean, F0_std), harmonic parameters (H1, H2, HNR05, HNR15, HNR25, HNR35), and SPI.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 음성의 여러 특징 파라미터 중에서 감정을 구분하는 데 관련이 깊은 변수를 찾아내고자 한다.
본 논문에서는 음성의 여러 특징 파라미터 중에서 감정을 인식하는데 관련이 깊은 변수를 찾아내고자 한 연구이다. 연구에 사용한 음성 특징은 음원정보와 관련된 파라미터와 성도 필터와 관련된 파라미터 등을 광범위하게 포함시켰다.

가설 설정

H1, H2는 첫 번째, 두 번째 하모닉의 진폭을, A1, A2, A3는 첫 번째, 두 번째, 세 번째 포먼트의 진폭을 나타낸다. H1, H2, H1-A1, H1-A2, H1-A3 모두 놀람, 기쁨에서 작은 값을, 지루함, 무감정, 슬픔에서 큰 값을 갖는다.

제안 방법

ANOVA(분산분석)는 세 개 이상의 모집단 평균 간의 차이를 검증하는 데 이용하는 분석방법이다[8]. 본 논문에서 모집단(감정상태)이 6개이므로 ANOVA를 실시하여 집단 간에 유의한 차이가 있는 음성 특징 파라미터를 도출하였다.
본 연구에서는 음성 특징에 대한 기존 연구 범위를 확장하여, 음성신호의 음원정보와 관련된 파라미터와 성도필터와 관계된 파라미터들을 광범위하게 이용한다[7]. 음성신호의 음원 정보와 관련된 파라미터에는 기본주파수에 관한 파라미터(F0_mean, F0_max, F0_min, F0_std), 에너지 크기(Intensity), 피치주기 변화율(Jitter), 진폭 변화율(Shimmer), 하모닉과 잡음의 에너지 비율에 관한 파라미터(HNR05, HNR15, HNR25, HNR35), 주기성의 강도(CPP), 하모닉에 관한 파라미터(H1, H2, H4, H1-H2, H2-H4), 부드럽게 말하는 정도(SPI) 등이 있다.
서론에 기술되어 있듯이 기존 연구에서 사람의 감정을 다양하게 분류했지만, 본 논문에서는 감정 상태를 화남, 지루함, 놀람, 무감정, 기쁨, 슬픔 등 6가지로 정하였다. 피험자가 발성할 음성 데이터는 5개의 모음(아, 에, 이, 오, 우)과 하나의 문장(“우리는 높은 산에 올라가 맑은 공기를 마시고 왔습니다.
본 논문에서는 음성의 여러 특징 파라미터 중에서 감정을 인식하는데 관련이 깊은 변수를 찾아내고자 한 연구이다. 연구에 사용한 음성 특징은 음원정보와 관련된 파라미터와 성도 필터와 관련된 파라미터 등을 광범위하게 포함시켰다. 이 중에서 감정 상태를 분류하는데 통계적으로 유의한 파라미터는 jitter, shimmer, F0 계열(F0_min, F0_max, F0_mean, F0_std), 하모닉 파라미터(H1, H2, HNR05, HNR15, HNR25, HNR35), SPI 등 주로 음원 정보와 관련 있는 파라미터들이다.

대상 데이터

음성 DB는 배우나 성우가 아닌 20대 대학생 50명이 6가지 감정 상태에서 5개의 모음과 하나의 문장을 발성한 것을 수집하였다. 모든 음성 데이터는 조용한 사무실 공간에서 수집하였으며, 사용된 마이크는 AKG-D880을 마이크 스탠드에 고정하여 입과 마이크 거리가 4-5cm가 되도록 특별한 주의를 기울였다.
모든 음성 데이터는 조용한 사무실 공간에서 수집하였으며, 사용된 마이크는 AKG-D880을 마이크 스탠드에 고정하여 입과 마이크 거리가 4-5cm가 되도록 특별한 주의를 기울였다. 음성 데이터는 PCM signed 16bits, 모노 형식으로 샘플링 주파수 16kHz로 수집하였다.
총 50명으로부터 5개의 모음과 1개의 문장에 대한 음성 데이터를 수집하여, 모음 당 32개씩 160개의 음성 파라미터와 문장 당 5개의 음성 파라미터를 합쳐서 총 165개의 음성 파라 미터를 추출하였다.

데이터처리

ANOVA 분석을 시행하여 6가지 감정 상태를 구분하는 통계적으로 유의한(p 값<0.05) 음성 특징 파라미터와 평균값은 [표 1]과 같다.

성능/효과

음성 DB는 배우나 성우가 아닌 20대 대학생 50명이 6가지 감정 상태에서 5개의 모음과 하나의 문장을 발성한 것을 수집하였다. 모든 음성 데이터는 조용한 사무실 공간에서 수집하였으며, 사용된 마이크는 AKG-D880을 마이크 스탠드에 고정하여 입과 마이크 거리가 4-5cm가 되도록 특별한 주의를 기울였다. 음성 데이터는 PCM signed 16bits, 모노 형식으로 샘플링 주파수 16kHz로 수집하였다.

후속연구

앞으로, 다양한 데이터 모델링 방법을 적용하여 감정을 인식하는 알고리즘에 대한 연구를 진행할 계획이다. 적용 알고 리즘으로는 SVM(Support Vector Machine), 결정트리, 신경망, HMM(Hidden Markov Models) 등을 계획하고 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	본 연구에서 피험자가 발성할 음성 데이터는 5개의 모음(아, 에, 이, 오, 우)로 정한 이유는?	”) 으로 정하였다. 모음을 대상으로 한 것은 음성 특징 파라미터를 추출하기에 적합하기 때문이다.
	ANOVA(분산분석)이란?	ANOVA(분산분석)는 세 개 이상의 모집단 평균 간의 차이를 검증하는 데 이용하는 분석방법이다[8]. 본 논문에서 모집단(감정상태)이 6개이므로 ANOVA를 실시하여 집단 간에 유의한 차이가 있는 음성 특징 파라미터를 도출하였다.
	LTAS란 무엇인가?	LTAS(Long Term Average Spectral Slope)는 스펙트럼에서 주파수 증가에 따른 하모닉 에너지의 감소율을 보여주는 파라미터로, 이 파라미터 값이 음수인 것은 고주파로 갈수록 하모닉 에너지가 줄어들고 있음을 나타낸다. 놀람, 기쁨인 경우 보다 지루함, 무감정, 슬픔인 경우가 하모닉 에너지 감소율이 큼을 보여 준다.

참고문헌 (12)

Vicholson, J., Takahashi, K., Nakatsu, R., (2000). Emotion recognition in speech using neural networks, Neural Computing and Application, Vol. 9, 290-296.

상세보기
Kang, M. G., Seo, J. T., Kim, W. G., (2004). Emotion recognition based on GMM using speech signals, J. of Acoustical Society of Korea, Vol. 23, No. 3, 235-241. (강면구, 서정태, 김원구 (2004). 음성신호를 사용한 GMM 기반의 감정인식, 한국음향학회지, 23권 3호, 235-241.)
Razak, A., Komiya, R., Abidin, M., (2005). Comparison between fuzzy and NN method for speech emotion recognition, Proc. of the Third International Conference on Information Technology and Applications, Vol. 1, 297-302.
Cho, Y. H., Park, G. S., (2006), A study on robust speech emotion feature extraction under the mobile communication environment, J. of Acoustical Society of Korea, Vol. 25, No. 6, 269-276. (조윤호, 박규식 (2006). 이동통신 환경에서 강인한 음성 감성특징 추출에 관한 연구, 한국음향학회지, 25권 6호, 269-276.)
Jang, K. D., Kim, N., Kwon, O. W., (2006). Speech emotion recognition on a simulated intelligent robot, Malsori, Vol. 56, 173-183. (장광동, 김남, 권오욱 (2006). 모의 지능 로봇에서의 음성 감정인식, 말소리, 56권, 173-183.)
Jung, B. W., Cheun, S. P., Kim, Y. T., Kim, S. S., (2008). An emotion recognition technique using speech signals, J. of Korean Institute of Intelligent Systems, Vol. 18, No. 4, 494-500. (정병욱, 천성표, 김연태, 김성신 (2008). 음성신호를 이용한 감정인식, 한국지능시스템학회 논문지, 18권 4호, 494-500.)

원문보기 상세보기
Han, S. M., Kim, S. B., Kim, J. Y., Kwon, C. H., (2011). A preliminary study on correlation between voice characteristics and speech features, The Phonetics and Speech Sciences, Vol. 3, No. 4, 85-91. (한성만, 김상범, 김종열, 권철홍 (2011), 목소리 특성의 주관적 평가와 음성 특징과의 상관관계 기초연구, 한국음성학회, 말소리와 음성과학, 3권 4호, 85-91)
Seong, T. J., (2007). Understanding and application of modern basic statistics, Kyoyookbook. (성태제 (2007). 현대 기초통계학의 이해와 적용, 교육과학사.)
Wayland, R., Jongman, A. (2003). Acoustic correlates of breathy and clear vowels: the case of Khmer, Journal of Phonetics, Vol. 31, 181-201.

상세보기
Iseli, M., Shue, Y. L., Alwan, A. (2007). Age, sex, and vowel dependencies of acoustic measures related to the voice source, Journal of Acoustical Society of America, Vol. 121, No. 4, 2283-2295.

상세보기
C. T. Ferrand, (2002). Harmonics-to-Noise Ratio: an index of vocal aging, Journal of Voice, Vol. 16, No. 4, 480-487.

상세보기
Boersma, P. (1993). Accurate short-term analysis of the fundamental frequency and the harmonics-to-noise ratio of a sampled sound, Proceedings of Institute of Phonetic Sciences, Vol. 17, 97-110.

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증