최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기한국음향학회지= The journal of the acoustical society of Korea, v.36 no.6, 2017년, pp.407 - 412
고상선 (광운대학교 전파공학과) , 조혜승 (광운대학교 전파공학과) , 김형국 (광운대학교 전파공학과)
In this paper, we propose a speech emotion recognition method using a deep neural network based on the attention mechanism. The proposed method consists of a combination of CNN (Convolution Neural Networks), GRU (Gated Recurrent Unit), DNN (Deep Neural Networks) and attention mechanism. The spectrog...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
음성 신호에 CNN(Convolution Neural Networks)을 적용하여 감정의 정보를 효과적으로 학습한 인물은? | Mao et al. [1] 은 음성 신호에 CNN(Convolution Neural Networks)을 적용하여 감정의 정보를 효과적으로 학습함을 보였다. | |
GC 레이어는 어떤 형태인가? | GC 레이어는 일반적인 컨벌루션 레이어의 변형된 형태로, 컨벌루션 필터가 tuned Gabor 필터로 초기 화되어 입력 특징 맵에 적용된다. tuned Gabor 필터는 감정에 따라 각도가 설정된 Gabor 필터를 의미하며 이를 통해 기존의 컨벌루션 레이어 보다 효과적으로 감정 인식에 특화된 정보를 추출할 수 있다. | |
Mao et al이 음성 신호에 CNN을 적용하여 학습하였을때 한계점은? | [1] 은 음성 신호에 CNN(Convolution Neural Networks)을 적용하여 감정의 정보를 효과적으로 학습함을 보였다. 하지만 CNN만으로는 음성과 같은 시계열 데이터가 포함하는 시간적 흐름에 따른 정보를 고려하지 못한다는 한계가 있었다. 이에 신호의 시간적 속성을 고려해 학습하는 RNN(Recurrent Neural Netowkrs)기반의 방식들이 적용되기 시작하였고 그중에서도 LSTM(Long-Short Term Memory) 기반의 음성 감정인식 방식은 현재 관련 분야에서 기존의 방식들보다 높은 성능을 보이고 있다. |
Q. Mao, M. Dong, Z. Huang, and Y. Zhan, "Learning salient features for speech emotion recognition using convolutional neural networks," IEEE Trans. Multimedia, 16, 2203-2213 (2014).
T. N. Sainath, O. Vinyals, A. Senior, and H. Sak, "Convolutional, long short-term memory, fully connected deep neural networks." in IEEE ICASSP, 4580-4584 (2015).
S. Mirsamadi, E. Barsoum, and C. Zhang, "Automatic speech emotion recognition using recurrent neural networks with local attention," in IEEE ICASSP, 2227-2231 (2017).
S. Y. Chang and N. Morgan, "Robust CNN-based speech recognition with gabor filter kernels," in Interspeech, 905-909 (2014).
D. Bahdanau, K. Cho, and Y. Bengio, "Neural machine translation by jointly learning to align and translate," arXiv:1409.0473 (2014).
S. Haq and P. J. B. Jackson, "Speaker-dependent audiovisual emotion recognition," in AVSP, 53-58 (2009).
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
오픈액세스 학술지에 출판된 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.