최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기말소리와 음성과학 = Phonetics and speech sciences, v.9 no.2, 2017년, pp.77 - 83
허운행 (충북대학교 제어로봇공학전공) , 권오욱 (충북대학교)
We propose a new method to reduce emotion recognition errors caused by variation in speaker characteristics and speech rate. Firstly, for reducing variation in speaker characteristics, we adjust features from a test speaker to fit the distribution of all training data by using the histogram equaliza...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
EMO-DB의 구성은 무엇인가? | EMO-DB는 7개의 감정(화남, 중립, 두려움, 지루함, 행복, 슬픔, 역겨움)을 독일어로 발성한 파일들로 구성되어 있다. DB의 화자는 5명의 남성과 5명의 여성의 독일인 전문 배우들이다. | |
음성 신호에서 감정을 찾기위한 감정 인식에 흔히 쓰는 특징 들은 무엇인가? | 예를 들어, 감정이 격해지면 목소리가 커지고 음의 높이 변화가 생기는 것을 직관적으로 알 수 있다. 감정 인식에서 흔히 쓰는 특징들은 피치(pitch), 에너지(energy), mel-frequency cepstral coefficient (MFCC), 지터(jitter), 쉬머(shimmer), 영 교차율(zero crossing rate; ZCR) 등이 있다[4]. | |
음성의 특징은 무엇인가? | 음성은 말의 의미뿐만 아니라 사람의 감정도 전달할 수 있다. 보통 감정 인식을 할 때 음성신호에서 감정 인식에 영향을 주는 특징들을 입력 신호로부터 추출하여 이것을 파라미터로 설정해 모델을 도출해낸다. |
Sethu, V., Ambikairajah, E., & Epps, J. (2007). Speaker normalisation for speech-based emotion detection. Proceedings of Digital Signal Processing (pp. 611-614).
Ko, T., Peddinti, V., Povey, D., & Khudanpur, S. (2015). Audio Augmentation for Speech Recognition. Proceedings of INTERSPEECH (pp. 3586-3589).
Chiou, B. C., & Chen, C. P. (2014). Speech Emotion Recognition with Cross-lingual Databases. Proceedings of INTERSPEECH (pp. 558-561).
Han, K., Yu, D., & Tashev, I. (2014). Speech Emotion Recognition Using Deep Neural Network and Extreme Learning Machine. Proceedings of INTERSPEECH (pp. 223-227).
Eyben, F., Wollmer, M., & Schuller, B. (2009). OpenEAR- Introducing the Munich Open-Source Emotion and Affect Recognition Toolkit. Proceedings of the Affective Computing and Intelligent Interaction (pp. 1-6).
Schuller, B., Steidl, S., & Batliner, A. (2009). The INTERSPEECH 2009 Emotion Challenge. Proceedings of INTERSPEECH (pp. 312-315).
Cortes, C., & Vapnik, V. (1995). Support-Vector Networks. Machine Learning, 20(3), 273-297.
Verhelst, W., & Roelands, M. (1993). An overlap-add technique based on waveform similarity (WSOLA) for high quality time-scale modification of speech. Proceedings of International Conference Acoustics, Speech, and Signal Processing (pp. 554-557).
Bagwell, C., & Klauer, U. (2015). SoX - sound exchange. Retrieved from http://sox.sourceforge.net/ on November 25, 2016.
Burkhardt, F., Paeschke, A., Rolfes, M., Sendlmeier, W. F., & Weiss, B. (2005). A Database of German Emotional Speech. Proceedings of INTERSPEECH (pp. 1517-1520).
Jang, K., & Kwon, O. (2006). Speech Emotion Recognition for Affective Human-Robot Interaction. Proceedings of International Conference on Speech and Computer (pp. 419-422).
Martin, O., Kotsia, I., Macq, B., & Pitas, I. (2006). The eNTERFACE'05 Audio-Visual Emotion Database. Proceedings of International Conference Data Engineering Workshops (pp. 1-8).
Lee, J., & Tashev, I. (2015). High-level Feature Representation using Recurrent Neural Network for Speech Emotion Recognition. Proceedings of INTERSPEECH (pp. 1537-1540).
Jin, Q., Li, C., Chen, S., & Wu, H. (2015). Speech emotion recognition with acoustic and lexical features. Proceedings of International Conference Acoustics, Speech, and Signal Processing (pp. 4749-4753).
Powers, D. M. (2011). Evaluation: From precision, recall and F-measure to ROC, informedness, markedness and correlation. Journal of Machine Learning Technologies, 2(1), 37-63.
Van der Maaten, L. (2014). Accelerating t-SNE using Tree-Based Algorithms. Journal of Machine Learning Research, 15(1), 3221-3245.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.