$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

청크 기반 시계열 음성의 감정 인식 연구
A Study on Emotion Recognition of Chunk-Based Time Series Speech 원문보기

Journal of Internet Computing and Services = 인터넷정보학회논문지, v.24 no.2, 2023년, pp.11 - 18  

신현삼 (Department of Information and Communication, Hanshin University) ,  홍준기 (Department of Smart Information Technology Engineering, Kongju National University) ,  홍성찬 (Department of Software Convergence, Hanshin University)

초록
AI-Helper 아이콘AI-Helper

최근 음성 감정 인식(Speech Emotion Recognition, SER)분야는 음성 특징과 모델링을 활용하여 인식률을 개선하기 위한 많은 연구가 진행되고 있다. 기존 음성 감정 인식의 정확도를 높이기 위한 모델링 연구 이외에도 음성 특징을 다양한 방법으로 활용하는 연구들이 진행되고 있다. 본 논문에서는 음성 감정이 시간 흐름과 연관이 있음을 착안하여 시계열 방식으로 음성파일을 시간 구간별로 분리한다. 파일 분리 이후, 음성 특징인 Mel, Chroma, zero-crossing rate (ZCR), root mean square (RMS), mel-frequency cepastral coefficients (MFCC)를 추출하여서 순차적 데이터 처리에 사용하는 순환형 신경망 모델에 적용하여 음성 데이터에서 감정을 분류하는 모델을 제안한다. 제안한 모델은 librosa를 사용하여 음성 특징들을 모든 파일에서 추출하여, 신경망 모델에 적용하였다. 시뮬레이션은 영어 데이터 셋인 Interactive Emotional Dyadic Motion Capture (IEMOCAP)을 이용하여 recurrent neural network (RNN), long short-term memory (LSTM) and gated recurrent unit(GRU)의 모델들의 성능을 비교 및 분석하였다.

Abstract AI-Helper 아이콘AI-Helper

Recently, in the field of Speech Emotion Recognition (SER), many studies have been conducted to improve accuracy using voice features and modeling. In addition to modeling studies to improve the accuracy of existing voice emotion recognition, various studies using voice features are being conducted....

주제어

표/그림 (11)

AI 본문요약
AI-Helper 아이콘 AI-Helper

제안 방법

  • 심층 신경망 (Deep Neural Network, DNN)의 경우 파라미터들이 모두 독립적이나, RNN의 파라미터들은 모두 공유한다. 따라서 본 논문에서는 가장 단순화된 구조로 구성되어 있는 RNN 기술과 LSTM, GRU (Gate Recurrent Unit) 기술들을 제안한 CVFE 모델에 적용하여 성능을 비교 분석하였다.
  • 본 연구에선 음성 데이터로부터 정확한 감정 인식을 위해 청크 기반 감정 인식 추출 모델 (CVFE)을 제안하고 RNN, LSTM, GRU 기술들을 적용하여 시뮬레이션 학습 시간과 음성 감정 인식 정확도를 비교 분석하였다. 시뮬레이션 결과, 제안한 CVFE 모델에 LSTM 기술을 적용할 때 시뮬레이션 학습시간은 가장 많이 소요되지만 가장 높은 정확도를 나타낸 것을 확인하였다.
  • 제안한 CVFE 모델은 시간의 변화에 따라 순서가 있는 음성 데이터를 처리하기 때문에 입출력을 시퀀스 단위로 처리하는 RNN을 사용하였다.

대상 데이터

  • IEMOCAP 데이터 셋은 11개의 감정으로 분류되어있으며 본 연구에선 보통 (natural), 분노 (angry), 기쁨(happy), 슬픔 (sad) 등 네 가지 감정을 선정하여 학습 데이터로 활용하였다.
  • 제안한 CVFE 모델의 감정 인식 정확도를 평가하기 위해, IEMOCAP의 데이터 셋을 8:1:1의 비율로 각각 훈련 데이터, 검증 데이터, 테스트 데이터로 구분하였다.

데이터처리

  • CVFE 모델에 RNN, GRU, LSTM 기술들을 적용하여 감정 인식 성능을 비교 분석하였으며 정밀도(Precision)와 재현율(Recall)을 혼동 행렬 (confusion matrix)를 사용하여 제안한 모델의 감정 인식 정확도 성능을 평가하였다.
  • 본 절에서는 제안한 CVFE 모델에 RNN, LSTM, GRU 기술을 적용하여 10회 반복한 시뮬레이션 결과의 평균 정확도를 비교 분석하였다.
  • 본 절에선 제안한 CVFE 모델에 RNN, GRU, LSTM 기술들을 적용하여 10번 반복하여 시뮬레이션을 진행할 때 소요되는 평균 학습시간을 비교 분석하였다.
본문요약 정보가 도움이 되었나요?

참고문헌 (17)

  1. X. Xu, K. Meng, X. Xing and C. Chen, "Adaptive?Low-resolution Palmprint Image Recognition based on?Channel Attention Mechanism and Modified Deep?Residual Network," KSII Transactions on Internet and?Information Systems, vol. 16, no. 3, pp. 757-770,?2022. https://doi.org/10.3837/tiis.2022.03.001 

  2. Z. Huang, J. Li and Z. Hua, "Attention-based for?Multiscale Fusion Underwater Image Enhancement,"?KSII Transactions on Internet and Information Systems,?vol. 16, no. 2, pp. 544-564, 2022.?https://doi.org/10.3837/tiis.2022.02.010 

  3. Dong C., Loy C. C., He K., Tang X, "Image?Super-Resolution Using Deep Convolutional?Networks," IEEE Transactions on Pattern Analysis and?Machine Intelligence, vol. 38, no.2, pp. 295-307, 2015.?https://doi.org/10.1109/TPAMI.2015.2439281 

  4. V. Chernykh and P. Prihodko, "Emotion Recognition?from Speech with Recurrent Neural Networks," ArXiv?abs/1701.08071, 

  5. R. Mu and X. Zeng, "A Review of Deep Learning?Research," KSII Transactions on Internet and?Information Systems, vol. 13, no. 4, pp. 1738-1764,?2019. https://doi.org/10.3837/tiis.2019.04.001 

  6. Y. Xie, R. Liang, Z. Liang, C. Huang, C. Zou et al.,?"Speech Emotion Classification using Attention-based?LSTM," IEEE/ACM Transactions on Audio, Speech,?and Language Processing, vol. 27, no. 11, pp.?1675-1685, 2019.?https://doi.org/10.1109/TASLP.2019.2925934 

  7. S. Mirsamadi, E. Barsoum and C. Zhang, "Automatic?Speech Emotion Recognition using Recurrent Networks?with Local Attention," In Proc. 2017 IEEE ICASSP,?pp. 2227-2231, 2017.?https://doi.org/10.1109/ICASSP.2017.7952552 

  8. X. Zhou, J. Guo and R. Bie, "Deep Learning based?Affective Model for Speech Emotion Recognition," In?Proc. IEEE Conferences on UIC/ATC/ScalCom/CBDCom/IoP/SmartWorld, Toulouse, France, pp.?841-846, 2016.?https://doi.org/10.1109/UIC-ATC-ScalCom-CBDCom-IoP-SmartWorld.2016.0133 

  9. F. Burkhardt, A. Paeschke, M. Rolfes, W. F.?Sendlmeier and B. Weiss, "A Database of German?Emotional Speech," 9th European Conference on?Speech Communication and Technology, Vol. 5, pp.?1517-1520, 2005.?https://doi.org/10.21437/Interspeech.2005-446 

  10. So-eun Park, Dae-hee Kim, "RNN-based Speech?Emotion Recognition Machine Learning Algorithm,"?INFORMATION AND CONTROL SYMPOSIUM,?pp.152-153, 2017. 

  11. Ki-duk Kim, Mi-sook Kim, "Speech Emotion?Recognition through Time Series Data Classification,"?Proceedings of Korea Society of Computer Information,?pp.11-13, 2021.?https://koreascience.kr/article/CFKO202125036398352.page 

  12. Dong-jin Min, Jong-ho Won, "Time Series Feature?Extraction and Performance Comparison of Recurrent?Neural Network Models for Speech Emotion?Recognition," Korean Institute of Next Generation Computing Spring Conference, pp.173-176, 2022.?https://www.earticle.net/Article/A412339 

  13. Seok-Pil Lee, "Feature Vectors for Speech Emotion?Recognition," INFORMATION AND CONTROL?SYMPOSIUM, 226-227, 2019. 

  14. Wei-Cheng Lin and Carlos Busso, "An Efficient?Temporal Modeling Approach for Speech Emotion?Recognition by Mapping Varied Duration Sentences?into Fixed Number of Chunks," In Interspeech 2020,?Shanghai, China, pp.2322-2326, 2020.?https://doi.org/10.21437/Interspeech.2020-2636 

  15. McFee, Brian, Colin Raffel, Dawen Liang, Daniel PW?Ellis, Matt McVicar, Eric Battenberg, and Oriol Nieto,?"librosa: Audio and music signal analysis in python,"?In Proceedings of the 14th Python in Science?Conference, pp. 18-25. 2015.?https://doi.org/10.5281/zenodo.7746972 

  16. S. Hochreiter and J. Schmidhuber, "Long Short-Term?Memory," Neural Computation, vol. 9, no. 8, pp.?1735-1780, 1997.?https://doi.org/10.1162/neco.1997.9.8.1735 

  17. C. Busso, M. Bulut, C. C. Lee, A. Kazemzadeh, E.?Mower et al., "IEMOCAP: Interactive Emotional?Dyadic Motion Capture Database," Language Resources?and Evaluation, vol. 42, no. 4, pp. 335-359, 2008.?https://sail.usc.edu/iemocap/ 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로