$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

특징 선택과 융합 방법을 이용한 음성 감정 인식
Speech Emotion Recognition using Feature Selection and Fusion Method 원문보기

전기학회논문지 = The Transactions of the Korean Institute of Electrical Engineers, v.66 no.8, 2017년, pp.1265 - 1271  

김원구 (Dept. of Electrical Engineering, Kunsan National University)

Abstract AI-Helper 아이콘AI-Helper

In this paper, the speech parameter fusion method is studied to improve the performance of the conventional emotion recognition system. For this purpose, the combination of the parameters that show the best performance by combining the cepstrum parameters and the various pitch parameters used in the...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 기존 감정 인식 시스템의 성능을 향상하기 위하여 켑스트럼 파라메터와 다양한 피치 파라메터를 융합하는 방법을 제안하였다. 음성의 피치를 사용하여 수치해석적 방법과 통계적인 방법을 사용하여 다양한 피치 파라메터가 생성되었다.
  • 본 논문에서는 스펙트럼 또는 피치 파라메터만을 사용하는 기존 감정 인식 시스템의 성능을 향상하기 위하여 음성 파라메터 융합 방법을 연구하였다. 이를 위하여 기존 감정 인식 시스템에 사용된 켑스트럼 파라메터와 다양한 피치 파라메터를 융합하여 최고의 성능을 나타내는 파라메터 조합을 선정하였다.
  • 본 논문에서는 입력 음성을 감정이 포함되지 않은 음성과 감정이 포함된 음성으로 구분하는 감정 검출 실험을 수행하였다. 감정 검출을 위하여 기쁨, 슬픔 및 화남 데이터를 합쳐서 감정 음성(emotion)으로 재구성하였다.
  • 본 연구에서는 MFCC와 피치 파라메터를 융합한 감정 인식 시스템의 성능을 평가하기 위하여 GMM 기반의 화자 및 문장 독립 감정 인식 시스템을 구현하였다(그림 1).
  • 본 연구에서는 기존 감정 인식 시스템의 성능을 향상하기 위하여 특징 선택 방법을 사용하여 피치 파라메터를 선택하고 음성 파라메터와 융합하는 방법에 관하여 연구하였다. 감정 인식에 사용된 파라메터는 멜 켑스트럼 계수와 피치로부터 구한 파라메터를 융합하는 구조를 갖는다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
MFCC 파라메터의 추출 과정은 어떤 방식으로 진행되는가? MFCC 파라메터의 추출 과정은 다음과 같다. 전처리를 통하여 16KHz, 16비트로 샘플링하고, 고주파 성분을 보강한다. 이렇게 샘플링된 신호는 음성구간 검출 과정을 통해 묵음 구 간을 제거한다. 검출된 음성 신호는 20ms(320샘플)의 길이를 갖는 해밍 창을 사용하여 10ms씩 이동하면서 12차의 MFCC 파라 메터를 구한다. 또한 특징 파라메터의 시간적인 변화를 포함하는 ΔMFCC와 ΔΔMFCC 파라메터도 생성하였다.
왜도는 무엇인가? 왜도(skewness)는 분포가 평균값에 대하여 비대칭의 정도와 방향을 나타내는 값으로 비대칭도라고도 한다. 분포가 대칭이면 왜도 값은 0이고, 0보다 작으면 분포는 왼쪽으로 치우치고, 0보다 크면 분포는 오른쪽으로 치우친다.
감정 인식에 사용된 파라메터는 어떤 구조를 가지고 있는가? 본 연구에서는 기존 감정 인식 시스템의 성능을 향상하기 위하여 특징 선택 방법을 사용하여 피치 파라메터를 선택하고 음성 파라메터와 융합하는 방법에 관하여 연구하였다. 감정 인식에 사용된 파라메터는 멜 켑스트럼 계수와 피치로부터 구한 파라메터를 융합하는 구조를 갖는다. 이러한 감정 인식 시스템의 구조는 그림 1과 같다.
질의응답 정보가 도움이 되었나요?

참고문헌 (18)

  1. R. A. Calvo, S. D'Mello, "Affect Detection: An Interdisciplinary Review of Models, Methods, and Their Applications,", IEEE Trans. Affective Computing, Vol. 1, No 1, pp. 18-37, Jan 2010 

  2. I. R. Murray, J. L. Arnott, "Toward the Simulation of Emotion in Synthetic Speech: A Review of the Literature on Human Vocal Emotion", Journal Acoustical Society of America, pp.1097-1108, Feb. 1993 

  3. R. Cowie, E. Douglas-Cowie, N. Tsapatsoulis, G. Votsis, S. Kollias, W. Fellenz, and J. Taylor, "Emotion recognition in human-computer interaction," IEEE Signal Process. Mag., Vol. 18, No. 1, pp. 32-80, Jan. 2001 

  4. V. Kostv, S. Fukuda, "Emotion in User Interface, Voice Interaction System," IEEE International Conference on Systems, Cybernetics Representation, No.2, pp. 798-803, 2000 

  5. T. Moriyama, S. Oazwa, "Emotion Recognition and Synthesis System on Speech," IEEE Intl. Conference on Multimedia Computing and System, pp. 840-844. 1999 

  6. L. C. Siva, P. C. Ng, "Bimodal Emotion Recognition," Proceeding of the 4th Intl. Conference on Automatic Face and Gesture Recognition, pp. 332-335. 2000 

  7. K. Amol T., R. M. R. Guddeti, "Multiclass SVM-based Language-Independent Emotion Recognition using Selective Speech Features", Proceedings of ICACCI, pp. 1069-1073, 2014 

  8. R. S. Sudhkar, M. C. Anil, "Analysis of Speech Features for Emotion Detection : A review", Proceedings of 2015 International Conference on Computing Communication Control and Automation, pp. 661-664, 2015 

  9. C. Busso, S. Lee, S. Narayanan, "Analysis of Emotionally Salient Aspects of Fundamental Frequency for Emotion Detection,", IEEE Trans. Speech and Audio Processing, Vol. 17, No 4, pp. 582-596, May 2009 

  10. S. Ntalampiras, N. Fakotakis, "Modeling the Temporal Evolution of Acoustic Parameters for Speech Emotion Recognition", IEEE Trans. Affective Computing, Vol. 3, No. 1, pp. 116-125, Jan. 2012 

  11. Y. G. Kim, Y. C. Bae, "Design of Emotion Recognition Model Using Fuzzy Logic", Proceedings of KFIS Spring Conference, 2000 

  12. K. B. Sim, C. H. Park, "Analyzing the Element of Emotion Recognition from Speech", Journal of Korean Institute of Intelligent Systems, Vol. 11, No. 6, pp. 510-515, 2001 

  13. N. Kim, W. Seong, H. Ha, and H. Kim, "Comparison of feature parameters for speech emotion recognition", Proceedings of Korean Institute of Communications and Information Sciences, pp. 167-168, 2016 

  14. G. Lee, W. Kim, "Emotion Recognition using Pitch Parameters of Speech", Journal of Korean Institute of Intelligent Systems, Vol. 25, No. 3, pp. 272-278, June 2015 

  15. P. A. Devijver, J. Kitteler, "Pattern Recognition : A Statistical Approach", London: Prentice-Hall International, 1982 

  16. P. Boersma, D. Weeninck, "PRAAT, a system for doing phonetics by computer," Inst. Phon. Sci. Univ. of Amsterdam, Amsterdam, Negherlands, Tech. Rep. 132, 1996 [Online]. Available: http://www.praat.org. 

  17. D. Ververidis, C. Kotropoulos, L. Pitas, "Automatic Emotional Speech Classification", Proceedings of ICASSP'04, 2004 

  18. B. S. Kang, "Text-independent Emotion Recognition Algorithm using Speech Signal," Master thesis, Yonsei University, 2000 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로