[논문]DNN을 이용한 오디오 이벤트 검출 성능 비교

정석환; 정용주

doi:10.13067/jkiecs.2018.13.3.571

DNN을 이용한 오디오 이벤트 검출 성능 비교
Comparison of Audio Event Detection Performance using DNN 원문보기

한국전자통신학회 논문지 = The Journal of the Korea Institute of Electronic Communication Sciences, v.13 no.3, 2018년, pp.571 - 578

정석환 (계명대학교 전기전자융합시스템공학과) , 정용주 (계명대학교 전자공학과)

초록
AI-Helper

최근 딥러닝 기법이 다양한 종류의 패턴 인식에 있어서 우수한 성능을 보이고 있다. 하지만 소규모의 훈련데이터를 이용한 분류 실험에 있어서 전통적으로 사용되던 머신러닝 기법에 비해서 DNN의 성능이 우수한지에 대해서는 다소 간의 논란이 있어 왔다. 본 연구에서는 오디오 검출에 있어서 전통적으로 사용되어 왔던 GMM, SVM의 성능과 DNN의 성능을 비교하였다. 동일한 데이터에 대해서 인식실험을 수행한 결과, 전반적인 성능은 DNN이 우수하였으나 세그먼트 기반의 F-score에서 SVM이 DNN에 비해 우수한 성능을 보임을 알 수 있었다.

Abstract ▼ AI-Helper

Recently, deep learning techniques have shown superior performance in various kinds of pattern recognition. However, there have been some arguments whether the DNN performs better than the conventional machine learning techniques when classification experiments are done using a small amount of training data. In this study, we compared the performance of the conventional GMM and SVM with DNN, a kind of deep learning techniques, in audio event detection. When tested on the same data, DNN has shown superior overall performance but SVM was better than DNN in segment-based F-score.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

하지만 각각의 방식을 동일한 학습데이터를 바탕으로 비교 분석한 연구는 많지 않았다. 따라서 본 연구에서는 동일한 오디오 데이터를 활용하여 GMM, SVM과 DNN 인식기의 성능을 비교하고자 한다.
본 논문에서는 오디오 이벤트 검출에 있어서 이전에 연구된 두 가지의 DNN 구조에 대해 실험하였으며 그 구조는 표 1과 같다[10-11]. 본 논문에 사용된 DNN은 하나의 입력층과 여러 개의 은닉층(hidden layer) 및 하나의 출력층으로 구성되어 있다.

제안 방법

DNN 학습과 인식을 위해 TensorFlow를 백엔드(back-end)로 한 keras를 사용하였고, 이를 통해 다양하고 신뢰도 높은 DNN 모델을 구성할 수 있었다[12].
DNN의 입력으로는 해당 프레임을 포함한 주변의 5개의 프레임을 연결해 사용하였으며, 전체적으로 200차의 로그-멜 필터뱅크 특징으로 구성되었다. 학습과정에서 과적합을 방지하기 위해서 앞에서 언급된 dropout 기법 외에도 본 연구에서는 조기 종료(early stopping)를 적용하였다.
본 논문에서는 선행연구에 기반하여 인식 모델별로 서로 다른 특징을 사용하였다. 먼저 SVM의 경우 c0를 포함한 13차의 계수를 특징으로 사용하였고, 20차의 계수에서 차분(derivative)과 차차분(acceleration) 계수를 추가하여 얻은 60차 MFCC에서 c0를 제거한 59차 계수를 GMM의 특징으로 사용하였다. 로그-멜 필터뱅크와 MFCC의 특징 추출을 위해서는 LibROSA를 사용하였다²⁾.
본 연구에서 사용된 두 번째 특징인 MFCC는 앞에서 계산된 로그-멜 필터뱅크 값에 대하여 DCT(: Discrete Cosine Transformation)를 적용하여 얻어 지는데 각각 13차와 20차의 MFCC 특징을 구하였다. 본 논문에서는 선행연구에 기반하여 인식 모델별로 서로 다른 특징을 사용하였다. 먼저 SVM의 경우 c0를 포함한 13차의 계수를 특징으로 사용하였고, 20차의 계수에서 차분(derivative)과 차차분(acceleration) 계수를 추가하여 얻은 60차 MFCC에서 c0를 제거한 59차 계수를 GMM의 특징으로 사용하였다.
본 연구에서 사용된 두 번째 특징인 MFCC는 앞에서 계산된 로그-멜 필터뱅크 값에 대하여 DCT(: Discrete Cosine Transformation)를 적용하여 얻어 지는데 각각 13차와 20차의 MFCC 특징을 구하였다.
본 연구에서 사용된 성능 지표는 세그먼트 기반의 방식과 이벤트 기반의 방식으로 나눠진다.
훈련과 인식을 위해 2절에서 언급한 59차 MFCC가 특징 벡터로 사용되었으며, 훈련 과정에서는 클레스에 해당하는 데이터와 해당하지 않는 데이터 각각에 대해서 GMM 모델을 생성하였다. 인식 과정에서는 테스트 데이터에 대해서 훈련과정에서 생성된 두 가지 GMM 모델 각각에 대해서 로그-우도(log- likelihood)를 계산하였다.
해당 데이터는 오디오 파일과 주석 파일(annotation data)을 가지고 있다. 주석 파일에는 오디오 파일 내에 존재하는 오디오 이벤트의 시작지점과 종료지점을 초단위로 기록한 정보가 있으며 이를 바탕으로 인식기를 훈련하고, 테스트 후 평가를 수행한다. 모든 DNN에 인식 결과는 10회 반복 실험하여 평균값과 최대값, 최소값을 기록하였다.
20을 적용하였다. 출력층은 다중 클래스 분류(multi-class classification)를 위해 분류하고자 하는 클래스 개수만큼의 유닛을 사용하였고, 각 유닛에 적용되는 활성 함수로는 sigmoid 함수를 사용하였다.
DNN의 입력으로는 해당 프레임을 포함한 주변의 5개의 프레임을 연결해 사용하였으며, 전체적으로 200차의 로그-멜 필터뱅크 특징으로 구성되었다. 학습과정에서 과적합을 방지하기 위해서 앞에서 언급된 dropout 기법 외에도 본 연구에서는 조기 종료(early stopping)를 적용하였다. DNN 1세서는 최대 200회 반복(epoch)을 수행하며 매 회마다 검증(validation) 데이터를 대상으로 비용함수의 값이 개선되지 않으면 조기 종료한다.
본 논문에서 사용된 GMM 분류기는 DCASE 2016에서 제공하는 베이스라인 시스템을 기반하였으며 훈련 및 인식과정은 그림 2에 나타나 있다. 훈련과 인식을 위해 2절에서 언급한 59차 MFCC가 특징 벡터로 사용되었으며, 훈련 과정에서는 클레스에 해당하는 데이터와 해당하지 않는 데이터 각각에 대해서 GMM 모델을 생성하였다. 인식 과정에서는 테스트 데이터에 대해서 훈련과정에서 생성된 두 가지 GMM 모델 각각에 대해서 로그-우도(log- likelihood)를 계산하였다.

대상 데이터

본 논문에서는 오디오 이벤트 검출에 있어서 이전에 연구된 두 가지의 DNN 구조에 대해 실험하였으며 그 구조는 표 1과 같다[10-11]. 본 논문에 사용된 DNN은 하나의 입력층과 여러 개의 은닉층(hidden layer) 및 하나의 출력층으로 구성되어 있다. 본 연구에서는 은닉층의 활성함수로는 ReLU(: Rectified Linear Unit)를 사용하였고, 훈련 시 과적합(overfitting)을 방지하기 위해 각 은닉층마다 dropout 기법을 사용하였으며 dropout rate는 두 개의 구조 각각에 대해서 0.
또한 프레임 단위의 입력 특징을 직접 사용하기 보다는 인접한 여러 프레임의 특징 평균값을 SVM의 입력으로 사용함으로써 인식 성능이 향상됨을 확인 할 수 있었다. 본 논문에서는 4개 프레임(80ms)의 평균값을 SVM의 입력으로 사용하였다. 그림 3에서는 SVM의 학습과 인식과정이 나타나 있다.
본 논문의 실험에서 사용된 오디오 데이터는 DCASE 2016 Task3에서 제공된 데이터를 사용하였다. 해당 데이터는 오디오 파일과 주석 파일(annotation data)을 가지고 있다.
, b는 각각 훈련과정에서 얻은 가중치와 서포트 벡터(support vector), 바이어스(bias)이며, K는 서포트 벡터의 수를 의미한다. 이러한 SVM 파라메터를 훈련 과정에서 구하기 위해 2절에서 언급된 13차 MFCC를 사용하였다. 또한 프레임 단위의 입력 특징을 직접 사용하기 보다는 인접한 여러 프레임의 특징 평균값을 SVM의 입력으로 사용함으로써 인식 성능이 향상됨을 확인 할 수 있었다.

데이터처리

주석 파일에는 오디오 파일 내에 존재하는 오디오 이벤트의 시작지점과 종료지점을 초단위로 기록한 정보가 있으며 이를 바탕으로 인식기를 훈련하고, 테스트 후 평가를 수행한다. 모든 DNN에 인식 결과는 10회 반복 실험하여 평균값과 최대값, 최소값을 기록하였다.

이론/모형

DNN 2세서도 DNN 1과 마찬가지로 최대 200회 반복을를 수행하지만 100회 이후에 비용함수 값이 개선되지 않으면 조기 종료가 수행된다. DNN의 파라메터를 개선시키는데 사용되는 최적화 기법으로는 Adam(: Adaptive Moment estimation)과SGD(: Stochastic Gradient Descent)를 적용하였으며 서로간의 성능을 비교하였다.
오디오 신호는 그 자체의 불규칙성으로 인하여 파형의 형태 그대로는 인식기의 입력으로 사용할 수 없다. 따라서 각 소리 신호의 특성을 잘 설명할 수 있는 특징 값이 필요한데, 본 연구에서는 오디오 신호의 특징을 위하여 로그-멜 필터뱅크(log-mel filterbank) 출력 값과 이를 바탕으로 하는 MFCC(: Mel-frequency Cepstral Coefficients) 값을 특징으로 사용하였다. 그림 1에는 이 2가지 특징 추출을 위한 과정을 나타내었다.
먼저 SVM의 경우 c0를 포함한 13차의 계수를 특징으로 사용하였고, 20차의 계수에서 차분(derivative)과 차차분(acceleration) 계수를 추가하여 얻은 60차 MFCC에서 c0를 제거한 59차 계수를 GMM의 특징으로 사용하였다. 로그-멜 필터뱅크와 MFCC의 특징 추출을 위해서는 LibROSA를 사용하였다²⁾.
본 논문에서 사용된 GMM 분류기는 DCASE 2016에서 제공하는 베이스라인 시스템을 기반하였으며 훈련 및 인식과정은 그림 2에 나타나 있다. 훈련과 인식을 위해 2절에서 언급한 59차 MFCC가 특징 벡터로 사용되었으며, 훈련 과정에서는 클레스에 해당하는 데이터와 해당하지 않는 데이터 각각에 대해서 GMM 모델을 생성하였다.
본 논문에 사용된 DNN은 하나의 입력층과 여러 개의 은닉층(hidden layer) 및 하나의 출력층으로 구성되어 있다. 본 연구에서는 은닉층의 활성함수로는 ReLU(: Rectified Linear Unit)를 사용하였고, 훈련 시 과적합(overfitting)을 방지하기 위해 각 은닉층마다 dropout 기법을 사용하였으며 dropout rate는 두 개의 구조 각각에 대해서 0.25와 0.20을 적용하였다. 출력층은 다중 클래스 분류(multi-class classification)를 위해 분류하고자 하는 클래스 개수만큼의 유닛을 사용하였고, 각 유닛에 적용되는 활성 함수로는 sigmoid 함수를 사용하였다.

성능/효과

표 2에서 DNN은 GMM보다 우수한 성능을 보였다. DNN1과 DNN2는 거의 동일한 인식 성능을 보여 주었는데, 이는 주어진 학습 데이터에서 은닉층의 유닛의 개수가 인식성능에 거의 영향을 미치지 않음을 알 수 있었다. SVM은 4가지 인식기 중 가장 뛰어난 F-score성능을 보여주었다.
아래 그림 5와 6은 DNN 훈련 과정에서 Adam 최적화와 SGD 최적화의 반복 횟수별 비용함수 값의 변화를 나타낸 것이다. train loss는 훈련 데이터에 대한 비용함수 값이며, SGD 최적화보다 Adam 최적화에서 빠르게 0에 수렴함을 알 수 있었다. 한편 val loss는 검증 데이터에 대한 비용함수 값이고, Adam 최적화에서는 지속적으로 증가한 반면 SGD 최적화에서는 크게 변화하지 않았다.
DNN기법은 기존의 머신러닝 기법들과 비교하여 좋은 인식성능을 보임이 알려져 있다. 그러나 본 논문의 연구 결과 훈련 데이터가 충분하지 않는 경우 DNN은 SVM과 GMM에 비해 월등히 나은 성능을 보이지는 않았다. 또한 DNN에 사용된 Adam 최적화 기법은 SGD 최적화 기법에 비해서 수렴속도가 빠름을 알 수가 있었다.
표 3에서는 세그먼트 기반의 성능과 달리 F-score와 ErrorRate 모두 SGD 최적화를 사용한 DNN1이 우수했다. 따라서 표 2와 표 3으로 판단한 결과 GMM, SVM에 비해 DNN이 가장 우수함을 알 수 있었다.
이를 통해 Adam 최적화가 SGD 최적화에 비해 상대적으로 과적합에 취약함을 알 수 있었다. 또한 DNN 학습 데이터로 계산한 train loss의 값과 달리, val loss는 훈련에 사용된 데이터가 아니므로 비용함수의 차이가 크게 나타남을 알 수 있었다.
그러나 본 논문의 연구 결과 훈련 데이터가 충분하지 않는 경우 DNN은 SVM과 GMM에 비해 월등히 나은 성능을 보이지는 않았다. 또한 DNN에 사용된 Adam 최적화 기법은 SGD 최적화 기법에 비해서 수렴속도가 빠름을 알 수가 있었다. 그러나 훈련 데이터에 대해서 Adam 최적화 기법은 sgd 최적화 기법에 비해 과적합 문제가 발생함을 알 수가 있었다.
또한 프레임 단위의 입력 특징을 직접 사용하기 보다는 인접한 여러 프레임의 특징 평균값을 SVM의 입력으로 사용함으로써 인식 성능이 향상됨을 확인 할 수 있었다.
한편 val loss는 검증 데이터에 대한 비용함수 값이고, Adam 최적화에서는 지속적으로 증가한 반면 SGD 최적화에서는 크게 변화하지 않았다. 이를 통해 Adam 최적화가 SGD 최적화에 비해 상대적으로 과적합에 취약함을 알 수 있었다. 또한 DNN 학습 데이터로 계산한 train loss의 값과 달리, val loss는 훈련에 사용된 데이터가 아니므로 비용함수의 차이가 크게 나타남을 알 수 있었다.
표 2와 표 3에서 세그먼트 기반의 인식성능과 이벤트 기반의 인식성능을 나타내었다. 표 2에서 DNN은 GMM보다 우수한 성능을 보였다. DNN1과 DNN2는 거의 동일한 인식 성능을 보여 주었는데, 이는 주어진 학습 데이터에서 은닉층의 유닛의 개수가 인식성능에 거의 영향을 미치지 않음을 알 수 있었다.
표 3에서는 세그먼트 기반의 성능과 달리 F-score와 ErrorRate 모두 SGD 최적화를 사용한 DNN1이 우수했다. 따라서 표 2와 표 3으로 판단한 결과 GMM, SVM에 비해 DNN이 가장 우수함을 알 수 있었다.

후속연구

향후 과제로 다양한 데이터에 대한 반복 실험과 더불어 최근 널리 사용되는 CRNN 기법을 오디오 이벤트 검출에 적용하고자 한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	GMM은 어떻게 활용되는가?	GMM(: Gaussian Mixture Model)과 SVM(:Support Vector Machine)은 전통적으로 오디오 분류 분야에서 많이 활용되었던 대표적 기법이다. 먼저 GMM은 사람의 비명이나 함성, 총소리의 검출에 있어서 우수한 결과를 나타내었으며[1], 사소한 소음에도 민감하게 반응하는 블랙박스의 오작동을 방지를 위해 사용되기도 하였다[2]. SVM은 오디오 검색에서 비교적 최근까지 많은 연구들에서 적용되어 왔다.
	오디오 분류 분야에서 많이 활용되었던 대표적 기법은?	GMM(: Gaussian Mixture Model)과 SVM(:Support Vector Machine)은 전통적으로 오디오 분류 분야에서 많이 활용되었던 대표적 기법이다. 먼저 GMM은 사람의 비명이나 함성, 총소리의 검출에 있어서 우수한 결과를 나타내었으며[1], 사소한 소음에도 민감하게 반응하는 블랙박스의 오작동을 방지를 위해 사용되기도 하였다[2].
	오디오 분류 분야에서 활용되는 SVM은 무엇에 사용되는가?	먼저 GMM은 사람의 비명이나 함성, 총소리의 검출에 있어서 우수한 결과를 나타내었으며[1], 사소한 소음에도 민감하게 반응하는 블랙박스의 오작동을 방지를 위해 사용되기도 하였다[2]. SVM은 오디오 검색에서 비교적 최근까지 많은 연구들에서 적용되어 왔다. 또한 SVM은 가정 내에서 발생하는 비명 소리를 검출하는데 있어서 좋은 성능을 보였다[3]. 이밖에도 총소리와 충격 소리, 폭발 소리, 비행기 소리 등의 분류를 위해서 SVM이 성공적으로 사용되기도 하였다[4].

참고문헌 (13)

L. Gerosa, G. Valenzise, M. Tagliasacchi, F. Antonacci, and A. Sarti, "Scream and Gunshot Detection in Noisy Environments," In Proc. the IEEE Conf. on Signal Processing, Poznan, Poland, Sept. 2007.
J. Park, J. Lim, J. Yang, J. Kyung, and M. Hahn, "False Positive Movie Clip Decision in Black-box Using Car Door-Closing Sound Classification," In Proc. the Institute of Electronics Engineers of Korea, vol. 2014, no. 6, 2014, pp. 761-763.
W. Huang, T. Chiew, H. Li, T. Kok, and J. Biswas, "Scream detection for home applications," In Proc. the IEEE Conf. on Industrial Electronics and Applications, Taichung, Taiwan, June 2010.
S. Oh, J. Uee, H. Lee, Y. Chung, and D. Park, "Abnormal Sound Detection and Identification in Surveillance System," J. of Korean Institute of Information Scientists and Engineers, vol. 39, no. 2, 2012, pp. 144-152.
M. Lim, D. Kim, K. Kim, and J. Kim, "Audio Event Classification Using Deep Neural Networks," J. of the Korean Society of Speech Sciences, vol. 7, no. 4, 2015, pp. 27-33.
D. Wei, J. Li, P. Pham, S. Das, and Shuhui Qu, Florian Metze, "Sound Event Detection for Real Life Audio DCASE Challenge," In Proc. European Signal Processing Conf. on Detection and Classification of Acoustic Scenes and Events, Budapest, Hungary, Sept. 2016.
Q. Kong and I. Sobieraj, W. Wang and M. Plumbley, "Deep Neural Network Baseline for DCASE Challenge 2016," In Proc. European Signal Processing Conf. on Detection and Classification of Acoustic Scenes and Events, Budapest, Hungary, Sept. 2016.
S. Bang, "Implementation of Image based Fire Detection System Using Convolution Neural Network," J. of the Korea Institute of Electronic Communication Sciences, vol. 12, no. 2, 2017, pp. 331-336.
S. Lim and D. Kim, "Semantic Segmentation using Convolutional Neural Network with Conditional Random Field," J. of the Korea Institute of Electronic Communication Sciences, vol. 12, no. 3, 2017, pp. 451-456.
E. Cakir, G. Parascandolo, T. Heittola, H. Huttunen, and T. Virtanen, "Convolutional Recurrent Neural Networks for Polyphonic Sound Event Detection," EEE/ACM Trans. Audio, Speech, and Language Processing, vol. 25, no. 6, 2017, pp. 1291-1303.

상세보기
A. Mesaros, T. Heittola, A. Diment, B. Elizalde, A. Shah, E. Vincent, B. Raj, and T. Virtanen, "DCASE 2017 Challenge setup: Tasks, datasets and baseline system" In Proc. DCASE 2017 - Workshop on Detection and Classification of Acoustic Scenes and Events, Munich, Germany, Nov. 2017.
Y. Lee and P. Moon, "A Comparison and Analysis of Deep Learning Framework," J. of the Korea Institute of Electronic Communication Sciences, vol. 12, no. 1, 2017, pp. 115-122.
A. Mesaros, T. Heittola, and T. Virtanen, "Metrics for polyphonic sound event detection," Applied Sciences, vol. 6, no. 6, 2016, pp. 321-337

상세보기

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증