[국내논문]준 지도학습과 여러 개의 딥 뉴럴 네트워크를 사용한 멀티 모달 기반 감정 인식 알고리즘 Multi-modal Emotion Recognition using Semi-supervised Learning and Multiple Neural Networks in the Wild원문보기
인간 감정 인식은 컴퓨터 비전 및 인공 지능 영역에서 지속적인 관심을 받는 연구 주제이다. 본 논문에서는 wild 환경에서 이미지, 얼굴 특징점 및 음성신호로 구성된 multi-modal 신호를 기반으로 여러 신경망을 통해 인간의 감정을 분류하는 방법을 제안한다. 제안 방법은 다음과 같은 특징을 갖는다. 첫째, multi task learning과 비디오의 시공간 특성을 이용한 준 감독 학습을 사용함으로써 영상 기반 네트워크의 학습 성능을 크게 향상시켰다. 둘째, 얼굴의 1 차원 랜드 마크 정보를 2 차원 영상으로 변환하는 모델을 새로 제안하였고, 이를 바탕으로 한 CNN-LSTM 네트워크를 제안하여 감정 인식을 향상시켰다. 셋째, 특정 감정에 오디오 신호가 매우 효과적이라는 관측을 기반으로 특정 감정에 robust한 오디오 심층 학습 메커니즘을 제안한다. 마지막으로 소위 적응적 감정 융합 (emotion adaptivefusion)을 적용하여 여러 네트워크의 시너지 효과를 극대화한다. 제안 네트워크는 기존의 지도 학습과 반 지도학습 네트워크를 적절히 융합하여 감정 분류 성능을 향상시켰다. EmotiW2017 대회에서 주어진 테스트 셋에 대한 5번째 시도에서, 제안 방법은 57.12 %의 분류 정확도를 달성하였다.
인간 감정 인식은 컴퓨터 비전 및 인공 지능 영역에서 지속적인 관심을 받는 연구 주제이다. 본 논문에서는 wild 환경에서 이미지, 얼굴 특징점 및 음성신호로 구성된 multi-modal 신호를 기반으로 여러 신경망을 통해 인간의 감정을 분류하는 방법을 제안한다. 제안 방법은 다음과 같은 특징을 갖는다. 첫째, multi task learning과 비디오의 시공간 특성을 이용한 준 감독 학습을 사용함으로써 영상 기반 네트워크의 학습 성능을 크게 향상시켰다. 둘째, 얼굴의 1 차원 랜드 마크 정보를 2 차원 영상으로 변환하는 모델을 새로 제안하였고, 이를 바탕으로 한 CNN-LSTM 네트워크를 제안하여 감정 인식을 향상시켰다. 셋째, 특정 감정에 오디오 신호가 매우 효과적이라는 관측을 기반으로 특정 감정에 robust한 오디오 심층 학습 메커니즘을 제안한다. 마지막으로 소위 적응적 감정 융합 (emotion adaptive fusion)을 적용하여 여러 네트워크의 시너지 효과를 극대화한다. 제안 네트워크는 기존의 지도 학습과 반 지도학습 네트워크를 적절히 융합하여 감정 분류 성능을 향상시켰다. EmotiW2017 대회에서 주어진 테스트 셋에 대한 5번째 시도에서, 제안 방법은 57.12 %의 분류 정확도를 달성하였다.
Human emotion recognition is a research topic that is receiving continuous attention in computer vision and artificial intelligence domains. This paper proposes a method for classifying human emotions through multiple neural networks based on multi-modal signals which consist of image, landmark, and...
Human emotion recognition is a research topic that is receiving continuous attention in computer vision and artificial intelligence domains. This paper proposes a method for classifying human emotions through multiple neural networks based on multi-modal signals which consist of image, landmark, and audio in a wild environment. The proposed method has the following features. First, the learning performance of the image-based network is greatly improved by employing both multi-task learning and semi-supervised learning using the spatio-temporal characteristic of videos. Second, a model for converting 1-dimensional (1D) landmark information of face into two-dimensional (2D) images, is newly proposed, and a CNN-LSTM network based on the model is proposed for better emotion recognition. Third, based on an observation that audio signals are often very effective for specific emotions, we propose an audio deep learning mechanism robust to the specific emotions. Finally, so-called emotion adaptive fusion is applied to enable synergy of multiple networks. The proposed network improves emotion classification performance by appropriately integrating existing supervised learning and semi-supervised learning networks. In the fifth attempt on the given test set in the EmotiW2017 challenge, the proposed method achieved a classification accuracy of 57.12%.
Human emotion recognition is a research topic that is receiving continuous attention in computer vision and artificial intelligence domains. This paper proposes a method for classifying human emotions through multiple neural networks based on multi-modal signals which consist of image, landmark, and audio in a wild environment. The proposed method has the following features. First, the learning performance of the image-based network is greatly improved by employing both multi-task learning and semi-supervised learning using the spatio-temporal characteristic of videos. Second, a model for converting 1-dimensional (1D) landmark information of face into two-dimensional (2D) images, is newly proposed, and a CNN-LSTM network based on the model is proposed for better emotion recognition. Third, based on an observation that audio signals are often very effective for specific emotions, we propose an audio deep learning mechanism robust to the specific emotions. Finally, so-called emotion adaptive fusion is applied to enable synergy of multiple networks. The proposed network improves emotion classification performance by appropriately integrating existing supervised learning and semi-supervised learning networks. In the fifth attempt on the given test set in the EmotiW2017 challenge, the proposed method achieved a classification accuracy of 57.12%.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
그러나 종래의 방법들은 wild 환경에서의 얼굴 특징점 위치정보를 표준화 하기 힘들다. 따라서 우리는 얼굴 특징점 위치-이미지 변환 모델을 제안한다. 얼굴 특징점 위치 정보를 2D 이미지로 변환하여 CNN-LSTM 네트워크를 사용하여 비디오 내 감정을 분류한다.
얼굴 특징점 위치 변화는 표정의 변화를 의미한다. 따라서 우리는 연속적인 프레임에서 각 특징점들의 상대적 거리 변화를 나타내는 2D feature를 제안한다. 먼저, i 번째 표식과 j 번째 표식 사이의 L2 거리, 즉 P(i, k)와 P(j, k)를 계산 한 후, (k- 1)th 프레임의 결과와 비교한다.
하지만 본 논문에서는 이미지 기반 네트워크로서 준 지도학습 네트워크[20]와 보조 네트워크[21]로 구성된 3 차원 (3D) CNN을 제안한다. 본 논문에서는 얼굴 특징점 정보를 효과적으로 활용하기 위한 새로운 특징 생성 방법과 그에 따른 네트워크 구성 방법을 제안한다. 다음으로 우리는 오디오 신호에 적합한 세 가지 딥 러닝 네트워크를 통합한 오디오 기반 네트워크를 제안한다.
일반적으로 여러 개의 네트워크 결과의 융합은 네트워크의 앙상블 효과를 기대할 수 있다. 우리는 앙상블 효과를 최대화하기 위해 적응적 감정 융합이라는 방법을 제안한다. 각 네트워크는 class에 따라 추정 정확도가 다를 수 있다.
제안 방법
예를 들어, 2016 년 challenge에서 1위를 수상한 팀의 네트워크의 경우 convolutional 3D[18]와 Convolutional Neural Network(CNN)-Recurrent Neural Network (RNN)을 동시에 사용하고, 오디오 분류기는 서포트 벡터 머신 기반(SVM)을 사용하여 기존보다 높은 감정 분류 정확도를 달성하였다. 2위의 네트워크[3]에서는 영상 데이터와 LBP (Local Binary Pattern)를 함께 사용하여 딥 러닝 네트워크를 학습하였다. Bargal et al.
04%를 달성하였다. 3번 째 제출부터 자체 제작한 데이터 셋을 추가하여 네트워크를 학습하였다. S3DAE, Audio 1-DLSTM, 그리고 추가로 만든 데이터 셋의 일부만을 AFEW 6.
랜드 마크 기반 네트워크. Landmark-based 네트워크는 AFEW 6.0에서 함께 제공하는 49개의 point로 이루어진 landmark vector를 이용하였으며 추가적인 학습 데이터 셋에 대해서는 [36]을 이용하여 landmark를 추출하였다. CNN의 입력으로 49x49의 2D feature를 147x147 size로 3배 up-sampling한다.
0의 학습 데이터 뿐만 아니라 평가 데이터도 함께 사용하여 학습하였다. 그리고 3번째 제출 시기부터는 추가로 구성한 데이터 셋까지 사용하여 학습을 진행하여 기존의 학습 데이터에 비해 2배 이상의 데이터를 사용하여 학습을 진행하였다. 1, 2번째 시기에서 테스트 데이터에 대한 정확도는 각각 46.
0의 학습 데이터로만 학습하여 평가 데이터 셋으로 개략적인 평가 기준을 설정하였다. 그리고 테스트 데이터 셋에 대한 결과 평가에는 학습(train) 데이터 및 평가(validation) 데이터를 전부 사용하여 학습을 진행하였다. 첫 번째 제출에는 C3DA 네트워크, Parallel CNN 네트워크, 그리고 Audio 1-D CNN 네트워크 의 총 3개의 융합네트워크를 구성하였다.
마지막 이미지 기반 네트워크로는 [19]에서 아이디어를 얻어 총 3층의 병렬 네트워크를 구성하여 얼굴 영상에서의 deep feature를 얻어낸다. 기존의 VGG[11]를 대체하기 위해 R-VGG13 및 R-VGG16을 제안하여 기존 VGG 대비 보다 효율적인 학습을 진행한다. 또한 우리는 기존의 Residual Network 대신에 Wide Residual Network (WRN)[26] 사용하여 향상된 feature learning 성능을 얻는다.
본 논문에서는 얼굴 특징점 정보를 효과적으로 활용하기 위한 새로운 특징 생성 방법과 그에 따른 네트워크 구성 방법을 제안한다. 다음으로 우리는 오디오 신호에 적합한 세 가지 딥 러닝 네트워크를 통합한 오디오 기반 네트워크를 제안한다. 마지막으로 적응적 감정 융합 기법은 서로 다른 네트워크 간의 시너지를 극대화하기 위해 사용한다.
또한 auxiliary network[21]를 사용하여 딥 러닝 네트워크가 자주 직면하는 gradient vanishing problem을 완화한다. 둘째, 얼굴 특징점 정보를 2D 영상 특성으로 변환하기 위한 새로운 변환 모델을 제안한다. 2D기반 얼굴 특징점 정보는 CNN-Long Short Term Memory (LSTM)을 사용하여 학습한다.
각 네트워크는 class에 따라 추정 정확도가 다를 수 있다. 따라서 validation data를 통해 emotion class에 추정 정확도를 확인하였고 이를 이용하여 7개 network 각각의 score weight Wk를 결정한다. score weight Wk는 vector 형태로 network 각각의 class별 정확도에 따라 각 성분이 adapative하게 결정된다.
이는 [18]과 [21]에서 언급한 gradient vanishing problem을 어느정도 완화할 수 있다. 또한 [19]의 네트워크를 응용하여 여러 개의 딥 러닝 네트워크를 병렬로 학습한 뒤 SVM을 사용하여 비디오 내 감정을 분류한다. 한편, 각 프레임에 대해, 얼굴 검출기는 cascade CNN face detector[22]를 사용하여 얼굴 영역을 검출한 뒤 히스토그램 평활화(histogram equalization)를 적용하여 전체 입력 데이터의 전 처리 과정을 수행한다.
제안 네트워크는 기존의 대회 논문에서 다루지 않았던 Semi-supervised learning을 통하여 네트워크를 학습하였고, robust feature인 landmark 정보를 2D feature로 변환하여 CNN의 입력으로 이용하였다. 또한 기존의 단순한 음성 신호 분석에 그치지 않고 다양한 네트워크를 통해 효율적으로 음성 신호를 분석하였다. 각 net- work의 class adaptive fusion을 통해 인식 성능을 향상시켰으며 그 결과 Validation Set에서 50.
동시에 Xception[27]을 사용하여 추가적인 deep feature를 얻는다. 마지막에는 Support Vector Machine(SVM) [7]을 사용하여 얻어낸 4352 차원의 deep feature를 분류하여 7가지 감정을 구분한다.
다음으로 VGG16의 256 × (N- 1) 피처가 LSTM에 입력된다. 마지막으로 soft- max 분류기를 사용하여 총 7 가지 비디오 내 감정을 분석한다 (그림 1).
따라서 우리는 연속적인 프레임에서 각 특징점들의 상대적 거리 변화를 나타내는 2D feature를 제안한다. 먼저, i 번째 표식과 j 번째 표식 사이의 L2 거리, 즉 P(i, k)와 P(j, k)를 계산 한 후, (k- 1)th 프레임의 결과와 비교한다. 그 변화는 식 (4)와 같이 2D 특징점 feature로 정의된다.
2D기반 얼굴 특징점 정보는 CNN-Long Short Term Memory (LSTM)을 사용하여 학습한다. 셋째, 오디오 기반 딥 러닝 네트워크를 설계하여 표정에서 파악하기 힘든 정보를 배경 음악 및 인물에서 나오는 소리를 사용하여 파악한다. 따라서 오디오 기반 네트워크는 이미지 기반 네트워크의 한계를 보완 할 수 있다.
새로 추가 된 테스트 비디오에 효과적으로 대응하기 위해 YouTube와 같은 공개 도메인에서 834개의 짧은 비디오 클립을 수집하여 네트워크 학습에 사용하였다. 수집 데이터 셋은 대부분 행복, 중립, 공포와 같은 감정을 표현하는 비디오 클립으로 구성하였다 (표 1 참조).
5번째 EmotiW 대회에서는 총 7번의 제출 기회가 주어진다. 앞선 절에서 설명한 대로 우리는 평가 데이터 셋을 사용하여 네트워크의 개략적인 평가를 진행하였고, 이를 토대로 테스트 데이터 셋에 대한 네트워크 학습을 진행하였다. 테스트 시기에는 AFEW 6.
따라서 우리는 얼굴 특징점 위치-이미지 변환 모델을 제안한다. 얼굴 특징점 위치 정보를 2D 이미지로 변환하여 CNN-LSTM 네트워크를 사용하여 비디오 내 감정을 분류한다. 따라서 얼굴 특징점 기반 네트워크는 섹션 2의 이미지 기반 네트워크를 보완하는 또 다른 방식을 제안한다.
우리는 앞서 구성했던 각각의 딥 러닝 네트워크들의 학습을 통하여 파라미터를 최적화 시켰다. 우리는 Keras[33] 텐서플로 기반의 High-level deep learning library을 사용하여 딥 러닝 네트워크 구축 및 파라미터 최적화 과정을 진행하였다. Keras의 손쉬운 딥 러닝 네트워크의 Tensor 관리와 간편한 모듈화를 장점으로 손쉽게 네트워크를 구성할 수 있었다.
우리는 앞서 구성했던 각각의 딥 러닝 네트워크들의 학습을 통하여 파라미터를 최적화 시켰다. 우리는 Keras[33] 텐서플로 기반의 High-level deep learning library을 사용하여 딥 러닝 네트워크 구축 및 파라미터 최적화 과정을 진행하였다.
또한 마지막 단계의 fully connected (FC) layer가 '오버 피팅'을 유발할 수 있다. 이러한 문제들을 극복하기 위해 C3D 기반의 3D 오토인코더(S3DAE)를 사용한 준 지도 학습 모델을 제안한다 (C3DA). 이는 [18]과 [21]에서 언급한 gradient vanishing problem을 어느정도 완화할 수 있다.
1 절에서 언급했듯이 비디오 기반 네트워크에서는 OpensMile 및 Librosa python li- brary를 사용하여 총 577차원의 오디오 feature를 얻을 수 있었다. 이렇게 fine-grained feature를 feature 일반화 과정을 거친 후 각각의 네트워크의 입력으로 사용하였다. 상세학습 스펙은 3절과 동일하다.
제안 기법은 video의 이미지 정보 및 음성 정보를 다양한 방식의 딥 러닝 학습을 적용하여 Emotion recognition in the Wild (EmotiW) 2017 Challenge의 비디오 기반 감정 인식의 문제를 해결하였다. 제안 네트워크는 기존의 대회 논문에서 다루지 않았던 Semi-supervised learning을 통하여 네트워크를 학습하였고, robust feature인 landmark 정보를 2D feature로 변환하여 CNN의 입력으로 이용하였다.
제안 기법은 video의 이미지 정보 및 음성 정보를 다양한 방식의 딥 러닝 학습을 적용하여 Emotion recognition in the Wild (EmotiW) 2017 Challenge의 비디오 기반 감정 인식의 문제를 해결하였다. 제안 네트워크는 기존의 대회 논문에서 다루지 않았던 Semi-supervised learning을 통하여 네트워크를 학습하였고, robust feature인 landmark 정보를 2D feature로 변환하여 CNN의 입력으로 이용하였다. 또한 기존의 단순한 음성 신호 분석에 그치지 않고 다양한 네트워크를 통해 효율적으로 음성 신호를 분석하였다.
제안 네트워크는 라벨이 없는 데이터의 학습을 진행하는 오토인코더와 지도 학습 기반 네트워크를 hard parameter sharing[18] 기법을 통하여 하나의 네트워크로 구성한다. 하지만 Hard parameter sharing을 통한 서로 다른 네트워크의 학습이 네트워크의 일반화 효과를 가져다주는 것은 사실이지만 오히려 두 네트워크의 학습이 다른 네트워크의 파라미터 업데이트에 악영향을 줄 가능성도 농후하다.
하지만 지금까지의 네트워크는 오직 지도학습 기반의 알고리즘과 이들을 단순 가중치 합산을 통하여 최종 결과를 얻어내었다. 하지만 본 논문에서는 이미지 기반 네트워크로서 준 지도학습 네트워크[20]와 보조 네트워크[21]로 구성된 3 차원 (3D) CNN을 제안한다. 본 논문에서는 얼굴 특징점 정보를 효과적으로 활용하기 위한 새로운 특징 생성 방법과 그에 따른 네트워크 구성 방법을 제안한다.
또한 [19]의 네트워크를 응용하여 여러 개의 딥 러닝 네트워크를 병렬로 학습한 뒤 SVM을 사용하여 비디오 내 감정을 분류한다. 한편, 각 프레임에 대해, 얼굴 검출기는 cascade CNN face detector[22]를 사용하여 얼굴 영역을 검출한 뒤 히스토그램 평활화(histogram equalization)를 적용하여 전체 입력 데이터의 전 처리 과정을 수행한다.
대상 데이터
자체 데이터 셋. 새로 추가 된 테스트 비디오에 효과적으로 대응하기 위해 YouTube와 같은 공개 도메인에서 834개의 짧은 비디오 클립을 수집하여 네트워크 학습에 사용하였다. 수집 데이터 셋은 대부분 행복, 중립, 공포와 같은 감정을 표현하는 비디오 클립으로 구성하였다 (표 1 참조).
0[15]은 학습 데이터 셋 (773 비디오 클립), 유효성 검사 데이터 셋 (383 비디오 클립) 및 테스트 데이터 셋(653 비디오 클립)의 세 부분으로 구성된다. 올해 60 개의 비디오 클립이 작년 테스트 데이터 세트 (593 개의 비디오 클립)에 새로 추가되었다. 새로운 테스트 비디오의 대부분은 시트콤과 같은 TV 프로그램에서 가져온 것으로, 기존의 학습 데이터의 구성과 특성이 매우 다르다.
CNN-LSTM 기법을 사용하여 sequential 2D landmark feature을 통해 감정을 분류한다. 우리는 VGG16을 CNN 모델로 채택하고 LSTM 모델 기반의 stacked LSTM을 채택한다. LSTM의 vector dimension은 순차적으로 128, 128, 64, 그리고 32로 구성되고 20% 비율의 dropout을 사용한다.
1 절에서 언급했듯이 이미지 기반 네트워크에서 C3D 기반의 network의 경우 각 비디오 클립의 프레임 중 맨 앞에서 40프레임만을 딥 러닝 네트워크의 입력으로 사용하였고, 40 프레임보다 적은 비디오 클립의 경우 맨 끝 이미지를 padding하였다. 입력 이미지 크기로는 Semi-Supervised network에서만 112x112 픽셀 사이즈를 사용하였고, 나머지 네트워크에서는 224x224 픽셀 사이즈를 사용하였다. Semi-Supervised network에서만 SGD with momentum을 사용하였고, 나머지 네트워크에서는 adam optimizer를 사용하였다.
그리고 테스트 데이터 셋에 대한 결과 평가에는 학습(train) 데이터 및 평가(validation) 데이터를 전부 사용하여 학습을 진행하였다. 첫 번째 제출에는 C3DA 네트워크, Parallel CNN 네트워크, 그리고 Audio 1-D CNN 네트워크 의 총 3개의 융합네트워크를 구성하였다. 평가 데이터 셋 기준 40.
앞선 절에서 설명한 대로 우리는 평가 데이터 셋을 사용하여 네트워크의 개략적인 평가를 진행하였고, 이를 토대로 테스트 데이터 셋에 대한 네트워크 학습을 진행하였다. 테스트 시기에는 AFEW 6.0의 학습 데이터 뿐만 아니라 평가 데이터도 함께 사용하여 학습하였다. 그리고 3번째 제출 시기부터는 추가로 구성한 데이터 셋까지 사용하여 학습을 진행하여 기존의 학습 데이터에 비해 2배 이상의 데이터를 사용하여 학습을 진행하였다.
이론/모형
둘째, 얼굴 특징점 정보를 2D 영상 특성으로 변환하기 위한 새로운 변환 모델을 제안한다. 2D기반 얼굴 특징점 정보는 CNN-Long Short Term Memory (LSTM)을 사용하여 학습한다. 셋째, 오디오 기반 딥 러닝 네트워크를 설계하여 표정에서 파악하기 힘든 정보를 배경 음악 및 인물에서 나오는 소리를 사용하여 파악한다.
CNN-LSTM 기법을 사용하여 sequential 2D landmark feature을 통해 감정을 분류한다. 우리는 VGG16을 CNN 모델로 채택하고 LSTM 모델 기반의 stacked LSTM을 채택한다.
입력 이미지 크기로는 Semi-Supervised network에서만 112x112 픽셀 사이즈를 사용하였고, 나머지 네트워크에서는 224x224 픽셀 사이즈를 사용하였다. Semi-Supervised network에서만 SGD with momentum을 사용하였고, 나머지 네트워크에서는 adam optimizer를 사용하였다. 모든 네트워크 학습의 진행 단위는 epoch 단위로 진행하였으며, weight decay 값으로는 0.
오토인코더는 기본적으로 feed-forward network로 구성되어 있으며 학습 과정에서의 네트워크의 파라미터 세팅을 위한 transfer learning, weight initialization 기법으로 많이 쓰인다. 대부분의 오토인코더의 경우 mean square error 손실 함수를 사용하여 네트워크를 최적화하지만 본 논문에서는 기존과 비교하여 얼마나 많은 정보가 복원 과정에서 보존되었는지를 분석하기 위해 binary crossentropy 손실 함수를 사용한다. Binary cross- entropy를 사용하기 때문에 네트워크의 마지막 단에 sig- moid 활성화 함수를 사용한다.
음성신호 기반 네트워크는 각각 audio DNN, audio CNN, 그리고 audio LSTM 네트워크를 사용한다. 비디오에서 audio feature를 추출하기 위한 도구로는 Opensmile[31]과 Librosa[32] 파이썬 기반 라이브러리를 사용한다.
[23]과 [37]에 따르면 독립된 네트워크 학습이 아닌 여러 네트워크를 그룹화하여 학습할 때 네트워크의 성능이 향상된다는 것을 확인할 수 있다. 이러한 연구를 기반으로 우리는 이미지 기반 네트워크의 기본 프레임 워크로 Convolutional 3D (C3D)[18]를 사용한다. 또한 auxiliary network[21]를 사용하여 딥 러닝 네트워크가 자주 직면하는 gradient vanishing problem을 완화한다.
0005, weight initialization의 경우 he initialization[34], Batch normalization의 경우 [35]를 사용하였다. 활성화 함수의 경우 Semi-supervised learning의 맨 마지막 단을 제외하고는 전부 ReLU 활성화 함수를 사용하였다.
성능/효과
그리고 3번째 제출 시기부터는 추가로 구성한 데이터 셋까지 사용하여 학습을 진행하여 기존의 학습 데이터에 비해 2배 이상의 데이터를 사용하여 학습을 진행하였다. 1, 2번째 시기에서 테스트 데이터에 대한 정확도는 각각 46.55%, 47.32%로 평가 데이터 시기에서 확인한 상승폭과 유사한 경향을 확인하였다. 그리고 3번째 시기 이후에는 각각 50.
우리는 Keras[33] 텐서플로 기반의 High-level deep learning library을 사용하여 딥 러닝 네트워크 구축 및 파라미터 최적화 과정을 진행하였다. Keras의 손쉬운 딥 러닝 네트워크의 Tensor 관리와 간편한 모듈화를 장점으로 손쉽게 네트워크를 구성할 수 있었다.
또한 기존의 단순한 음성 신호 분석에 그치지 않고 다양한 네트워크를 통해 효율적으로 음성 신호를 분석하였다. 각 net- work의 class adaptive fusion을 통해 인식 성능을 향상시켰으며 그 결과 Validation Set에서 50.39%, Test Set에서 57.12%의 정확도를 달성하였다.
32%로 평가 데이터 시기에서 확인한 상승폭과 유사한 경향을 확인하였다. 그리고 3번째 시기 이후에는 각각 50.84%, 52.06%, 57.12%의 정확도를 달성하였고, 이는 평가 데이터 셋 의 정확도에 비해 큰 상승폭을 이루었다.
그리고 4번 째 제출 시기에는 Parallel CNN 네트워크의 deep feature와 [27]의 deep feature를 동시에 사용하는 방식으로 Parallel 네트워크의 감정 분류과정을 진행하여 평가 데이터 셋 기준 47.78%의 결과를 달성하였다. 마지막으로 전체 추가 데이터 셋을 사용하여 네트워크를 학습시키고 최종적으로 2D Landmark 네트워크와 Audio DNN의 추가를 통해 최종 융합 네트워크를 구성하여 평가 데이터 셋 기준 50.
첫째, 우리의 추가 데이터 셋 구성이 테스트 데이터 셋의 비디오 클립을 타겟으로 제작되어서 평가 데이터 셋에는 강인하게 대응하지 못했지만 테스트 데이터 셋에서는 효과를 발휘했다는 점이다. 두번째, 3번째 제출 시기부터 여러 가지 네트워크의 융합을 통하여 네트워크의 시너지 효과를 달성하였다는 점이다. 이와 같이 우리의 네트워크 및 데이터 셋에 대한 이해를 기준으로 우리는 5번째 제출까지 점진적인 성능 향상을 달성하였다.
78%의 결과를 달성하였다. 마지막으로 전체 추가 데이터 셋을 사용하여 네트워크를 학습시키고 최종적으로 2D Landmark 네트워크와 Audio DNN의 추가를 통해 최종 융합 네트워크를 구성하여 평가 데이터 셋 기준 50.39%의 정확도를 달성하였고, baseline 대비 약 10퍼센트의 성능 향상을 달성하였다.
따라서 오디오 기반 네트워크는 이미지 기반 네트워크의 한계를 보완 할 수 있다. 마지막으로, 다중 네트워크로부터의 score의 감정 적응 융합은 네트워크의 최종 분류 정확도를 더욱 향상시키는데 도움을 준다.
또한 우리와 비슷한 네트워크 구조를 가진 논문[40]의 결과를 그림 6의 (c)에서 확인할 수 있다. 우리의 결과와 비교하면 행복, 화남과 같이 좀 더 역동적인 감정 표현에 강인함을 확인할 수 있다.
그림 6의 (a), (b)를 바탕으로 우리는 검증 데이터 집합에서 잘 인식되지 않았던 슬픔과 두려움 비디오 클립을 잘 분류하였다. 이를 통해 우리의 Audio 기반 네트워크가 비디오 내 인물의 표정 변화 이외의 정보를 효율적으로 분석하였다는 것을 확인 할 수 있다. 또한 우리와 비슷한 네트워크 구조를 가진 논문[40]의 결과를 그림 6의 (c)에서 확인할 수 있다.
두번째, 3번째 제출 시기부터 여러 가지 네트워크의 융합을 통하여 네트워크의 시너지 효과를 달성하였다는 점이다. 이와 같이 우리의 네트워크 및 데이터 셋에 대한 이해를 기준으로 우리는 5번째 제출까지 점진적인 성능 향상을 달성하였다. 각각의 제출 시기에 따른 최종 정확도 및 네트워크에 대한 설명은 표 2에 정리하였다.
21%의 정확도를 달성하였다. 이후 두 번째 제출 시기에는 기존 네트워크의 ensemble 과 파라미터 세팅에 변화를 주어 42.04%를 달성하였다. 3번 째 제출부터 자체 제작한 데이터 셋을 추가하여 네트워크를 학습하였다.
이에 대한 결과에 대한 이유는 크게 두 가지를 들 수 있다. 첫째, 우리의 추가 데이터 셋 구성이 테스트 데이터 셋의 비디오 클립을 타겟으로 제작되어서 평가 데이터 셋에는 강인하게 대응하지 못했지만 테스트 데이터 셋에서는 효과를 발휘했다는 점이다. 두번째, 3번째 제출 시기부터 여러 가지 네트워크의 융합을 통하여 네트워크의 시너지 효과를 달성하였다는 점이다.
첫 번째 제출에는 C3DA 네트워크, Parallel CNN 네트워크, 그리고 Audio 1-D CNN 네트워크 의 총 3개의 융합네트워크를 구성하였다. 평가 데이터 셋 기준 40.21%의 정확도를 달성하였다. 이후 두 번째 제출 시기에는 기존 네트워크의 ensemble 과 파라미터 세팅에 변화를 주어 42.
하지만 Hard parameter sharing을 통한 서로 다른 네트워크의 학습이 네트워크의 일반화 효과를 가져다주는 것은 사실이지만 오히려 두 네트워크의 학습이 다른 네트워크의 파라미터 업데이트에 악영향을 줄 가능성도 농후하다. 하지만 제안 네트워크의 학습이 가능한 이유는 본디 오토인코더의 목적이 네트워크의 파라미터를 미리 세팅해 두는pre-train model로 많이 쓰였기 때문에 오토인코더의 인코더가 3D Convolution 네트워크의 학습에 정규화 효과를 가져다 줄 수 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
감정 인식 연구에서는 인간의 감정을 어떻게 분류하였는가?
감정 인식 연구에서는 인간의 감정을 주로 분노, 혐오, 공포, 행복, 슬픔, 놀람, 중립 등 7 가지 범주로 분류하였다[14]. 물론 인간의 얼굴 행동 단위 (AU)[16]를 통해보다 상세한 감정 분류를 할 수 있지만, EmotiW challenge에서는 일상 생활에서 주로 느끼는 감정으로 일곱 감정을 분류하는 문제를 다룬다.
일반적으로 AV 정보가 다른 정보보다 획득하기 쉽기 때문에 어떻게 사용되고 있는가?
최근에는 인간의 감정을 파악하기 위해 영상 및 음성을 기본 정보로 사용하고 보조 정보로 ElectroEncephaloGram (EEG) 신호와 같은 생체 정보까지 사용하고 있다[1]. AV 정보는 일반적으로 다른 정보보다 획득하기 쉽기 때문에 오디오 및 비디오 (AV) 정보를 기반으로 한 인간의 감정 인식이 널리 연구되고 있다[2,3].
con- volutional 3D가 네트워크 학습에 오랜 시간이 소요되는 이유는 무엇인가?
예를 들어, con- volutional 3D(C3D)는 시공간 학습을 사용하는 대표적인 딥 러닝 학습 방법이다. 그러나 C3D 네트워크는 배치, 프레임, 너비, 높이 및 채널로 구성된 5 차원 tensor를 입력으로 사용하므로 네트워크 학습에 오랜 시간이 소요된다. 또한 마지막 단계의 fully connected (FC) layer가 '오버 피팅'을 유발할 수 있다.
참고문헌 (40)
Y. P. Lin, C. H. Wang, T. P. Jung, T. L. Wu, S. K. Jeng, J. R. Duann, and J. H. Chen, "EEG-based emotion recognition in music listening," Proceeding of IEEE Transactions on Biomedical Engineering, 57(7), pp.1798-1806, 2010.
Y. Fan, X. Lu, D. Li, and Y. Liu, "Video-based emotion recognition using cnn-rnn and c3d hybrid networks. Proceeding of the 18th ACM International Conference on Multimodal Interaction, pp.445-450, 2016, doi:10.1145/2993148.2997632.
A. Yao, D. Cai, P. Hu, S. Wang, L. Sha, and Y. Chen, "HoloNet: towards robust emotion recognition in the wild," Proceeding of the 18th ACM International Conference on Multimodal Interaction, pp.472-478, 2016, doi:10.1145/2993148.2997639.
N. Dalal, and B. Triggs, "Histograms of oriented gradients for human detection," Proceeding of IEEE Computer Society Conference on (Vol. 1), pp.886-893, 2005, doi:10.1109/CVPR.2005.177.
T. Ojala, M. Pietikainen, and D. Marwood, "Performance evaluation of texture measures with classification based on Kullback discrimination of distributions," Proceeding of the 12th IAPR International Conference on, pp.582-585, 1994, doi:10.1109/ICPR.1994.576366.
T. Ojala, M. Pietikainen, and D. Harwood, "A comparative study of texture measures with classification based on featured distributions," Pattern recognition, 29(1), pp.51-59, 1996, doi:10.1016/0031-3203(95)00067-4.
C. Cortes, and V. Vapnik, "Support-vector networks," Machine learning, pp.273-297, 1995.
J. Deng, W. Dong, R. Socher, L. Li, K. Li, and L. Fei-Fei, " Imagenet: A large-scale hierarchical image database," Proceeding of the IEEE conference on Computer Vision and Pattern Recognition, pp.248-255, 2009.
A. Krizhevsky, I. Sutskever, and G. Hinton, "Imagenet classification with deep convolutional neural networks," In Advances in neural information processing systems, pp.1097-1105, 2012.
Y. LeCun, B. Boser, J. Denker, D. Henderson, R. Howard, W. Hubbard, and L. Jackel, "Handwritten digit recognition with a back-propagation network," In Advances in neural information processing systems, pp.396-404, 1990.
K. Simonyan, and A. Zisserman, "Very deep convolutional networks for large-scale image recognition". arXiv preprint arXiv:1409.1556, 2014.
K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," Proceeding of the IEEE conference on computer vision and pattern recognition, pp.770-778, 2016.
G. Huang, Z. Liu, K. Weinberger, and L. van der Maaten, "Densely connected convolutional networks," Proceeding of the IEEE conference on computer vision and pattern recognition, 2017.
P. Ekman, "An argument for basic emotions," Cognition & emotion, pp.169-200, 1992.
A. Dhall, R. Goecke, S. Lucey, and T. Gedeon, "Collecting large, richly annotated facial-expression databases from movies," 2012, doi:10.1.1. 407.4632.
Y. Tian, T. Kanade, and J. Cohn, "Recognizing action units for facial expression analysis," Proceeding of the IEEE Transactions on pattern analysis and machine intelligence, pp.97-115, 2001.
P. Lucey, J. Cohn, T. Kanade, J. Saragih, Z. Ambadar, Z.,I. Matthews, "The extended cohn-kanade dataset (ck+): A complete dataset for action unit and emotion-specified expression," Proceeding of the IEEE conference on Computer Vision and Pattern Recognition Workshops, pp.94-101, 2010.
D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M. Paluri, "Learning spatiotemporal features with 3d convolutional networks," Proceeding of the IEEE international conference on computer vision, pp.4489- 4497, 2015.
S. Bargal, E. Barsoum, C. Ferrer, and C. Zhang, "Emotion recognition in the wild from videos using images," Proceeding of the 18th ACM International Conference on Multimodal Interaction, pp.433-436, 2016, doi:10.1145/2993148.2997627.
X. Zhu, "Semi-supervised learning literature survey". Computer Science, University of Wisconsin-Madison, 2(3), 4, 2006.
L. Wang, C. Lee, Z. Tu, and S. Lazebnik, "Training deeper convolutional networks with deep supervision," arXiv preprint arXiv:1505.02496, 2015.
H. Li, Z. Lin, X. Shen, J. Brandt, and G. Hua, "A convolutional neural network cascade for face detection," Proceeding of the IEEE Conference on Computer Vision and Pattern Recognition, pp.5325-5334, 2015.
S. Ruder, "An Overview of Multi-Task Learning in Deep Neural Networks," arXiv preprint arXiv:1706.05098, 2017.
C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, ... and A. Rabinovich, "Going deeper with convolutions,". Proceeding of the IEEE conference on computer vision and pattern recognition, pp.1-9, 2015.
A. Dhall, R. Goecke, S. Ghosh, J. Hoshi, J. Hoey, T. Gedeon, "From Individual to Group-level Emotion Recognition: EmotiW 5.0", Proceeding of the 18th ACM International Conference on Multimodal Interaction (in press), 2017.
S. Zagoruyko, and N. Komodakis, "Wide residual networks," arXiv preprint arXiv:1605.07146, 2016.
F. Chollet, "Xception: Deep Learning with Depthwise Separable Convolutions," Proceeding of the IEEE conference on computer vision and pattern recognition, pp.1251-1258, 2017.
A. Asthana, S. Zafeiriou, S. Cheng, and M. Pantic, "Incremental face alignment in the wild," Proceeding of the IEEE Conference on Computer Vision and Pattern Recognition, pp.1859-1866, 2014.
H. Jung, S. Lee, J. Yim, S. Park, and J. Kim, "Joint fine-tuning in deep neural networks for facial expression recognition," Proceeding of the IEEE International Conference on Computer Vision, pp.2983-2991, 2015.
J. Yan, W. Zheng, Z. Cui, C. Tang, T. Zhang, Y. Zong, and N. Sun, "Multi-clue fusion for emotion recognition in the wild," Proceeding of the 18th ACM International Conference on Multimodal Interaction, pp.458-463, 2016.
F. Eyben, M. Wollmer, B. Schuller, "Opensmile: the munich versatile and fast open-source audio feature extractor," Proceeding of the 18th ACM international conference on Multimedia, pp.1459-1462, 2010.
B. McFee, C. Raffel, D. Liang, D. Ellis, M. McVicar, E. Battenberg, and O. Nieto, "librosa: Audio and music signal analysis in python," Proceeding of the 14th python in science conference, pp.18-25, 2015.
F. Chollet, Keras, http://keras.io, 2015.
K. He, X. Zhang, S. Ren, and J. Sun, "Delving deep into rectifiers: Surpassing human-level performance on imagenet classification," Proceeding of the IEEE international conference on computer vision, pp.1026-1034, 2015.
S. Ioffe, and C. Szegedy, "Batch normalization: Accelerating deep network training by reducing internal covariate shift," In International Conference on Machine Learning, pp.448-456, 2015.
Zhang, Kaipeng et al. "Joint face detection and alignment using multitask cascaded convolutional networks," Proceeding of IEEE Signal Processing letters, pp.1499-1503, 2016.
Li, Xi, et al. "DeepSaliency: Multi-task deep neural network model for salient object detection," Proceeding of IEEE Transactions on Image Processing, pp.3919-3930, 2016.
Rasmus, Antti, et al."Semi-supervised learning with ladder networks," Advances in Neural Information Processing Systems, 2015.
S. Laine, and T. Aila "Temporal Ensembling for Semi-Supervised Learning," arXiv preprint arXiv: 1610.02242, 2016.
V. Vielzeuf, S. Pateux, and F. Jurie. "Temporal multimodal fusion for video emotion classification in the wild." Proceeding of the 19th ACM International Conference on Multimodal Interaction, 2017.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.