[논문]깊은 신경망을 이용한 오디오 이벤트 분류

임민규; 이동현; 김광호; 김지환

doi:10.13064/ksss.2015.7.4.027

깊은 신경망을 이용한 오디오 이벤트 분류
Audio Event Classification Using Deep Neural Networks 원문보기

말소리와 음성과학 = Phonetics and speech sciences, v.7 no.4, 2015년, pp.27 - 33

임민규 (서강대학교) , 이동현 (서강대학교) , 김광호 (서강대학교) , 김지환 (서강대학교)

Abstract ▼ AI-Helper

This paper proposes an audio event classification method using Deep Neural Networks (DNN). The proposed method applies Feed Forward Neural Network (FFNN) to generate event probabilities of ten audio events (dog barks, engine idling, and so on) for each frame. For each frame, mel scale filter bank features of its consecutive frames are used as the input vector of the FFNN. These event probabilities are accumulated for the events and the classification result is determined as the event with the highest accumulated probability. For the same dataset, the best accuracy of previous studies was reported as about 70% when the Support Vector Machine (SVM) was applied. The best accuracy of the proposed method achieves as 79.23% for the UrbanSound8K dataset when 80 mel scale filter bank features each from 7 consecutive frames (in total 560) were implemented as the input vector for the FFNN with two hidden layers and 2,000 neurons per hidden layer. In this configuration, the rectified linear unit was suggested as its activation function.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

DNN은 음성인식 및 이미지 분류에 적용되어 많은 성능향상을 보였으나, 오디오 이벤트 분류에 적용된 사례는 많지 않다. 본 논문에서는 DNN을 이용한 오디오 이벤트 분류기를 구현하고, DNN을 구성하는 하이퍼파라미터를 실험적으로 추정한다.
본 연구에서는 DNN을 이용하여 오디오 이벤트 분류기를 제안하였고, 실험을 통하여 그 성능을 확인하였다. 다양한 하이퍼파라미터 상에서 학습한 DNN 기반 분류기를 통해 성능을 측정하였다.

제안 방법

DNN 모델의 하이퍼파라미터인 은닉층 당 뉴론 수, 은닉층 수, 활성함수 종류, 입력윈도우 숫자 등을 다르게 적용하여 실험을 진행 하였다. 그에 대한 실험 결과는 <표 3>과 같다.
축구 중계 영상에서 오디오 정보를 이용하여 다섯 개의 이벤트 분류에 DBN을 사용한 연구가 있다[8]. 다섯 개의 이벤트는 해설, 관중소리, 해설+관중소리, 흥분된 해설이며, DBN을 학습시켜 SVM 분류기와의 성능을 비교 평가하였다. 실험 결과 SVM의 성능이 DNN보다 약간 더 높았으며, 적은 양의 학습자료로 인한 결과로 분석되었다.
본 연구에서는 DNN을 이용하여 오디오 이벤트 분류기를 제안하였고, 실험을 통하여 그 성능을 확인하였다. 다양한 하이퍼파라미터 상에서 학습한 DNN 기반 분류기를 통해 성능을 측정하였다. 실험 결과 79.
본 연구에서는 접근 가능한 자료 중 최근 연구로서 평가 지표가 존재하는 학습자료 중 하나를 선택하였으며[18], 해당 연구의 SVM 기반 오디오 이벤트 분류기의 성능은 약 70%를 나타내었다. 본 연구에서는 SVM 기반 분류기를 베이스라인으로 삼는다.
실험 결과 은닉층의 활성함수는 tanh 함수보다 ReLU 함수를 사용하는 것이 전반적으로 높게 측정 되었고 이 후로는 은닉층의 활성함수를 ReLU를 사용한 모델에 대하여 분류 정확도를 평가하였다.
HMM-SVM 기반의 오디오 이벤트 분류기에 대한 연구에서는 15개의 오디오 이벤트 분류기를 Mel Frequency Cepstral Coefficient (MFCC), Perceptual Linear Prediction (PLP), Zero Crossing Rate (ZCR) 등 다양한 특징벡터를 조합하여 학습시켰으며, 특징벡터의 선택에 따라 인식 성능의 차이가 있음을 보였다[4]. 영화, 다큐멘터리, 토크쇼, 뉴스에서 등장하는 오디오 이벤트들을 직접 레이블링하여 이벤트들의 검출율을 측정하였다. 실험 결과 PLP를 특징벡터로 사용한 경우 성능이 가장 높았다.
기존의 SVM과 DNN의 차이를 이론적으로 분석한 연구가 있었다[9]. 이 연구에서는 SVM과 DNN을 shallow architecture 와 deep architecture로 구분 짓는다. SVM의 경우 커널 함수를 통하여 차원을 줄이며 클래스 분포를 구분짓는 선을 긋는 방식이며 이것은 하나의 은닉층을 가지는 인공신경망의 한 형태로 볼 수 있다.
RBM을 이용한 오디오 또 다른 이벤트 분류 연구로서, Crowd, Traffic, Applause, Music 네 개의 이벤트에 대해서 구분 짓는 연구가 있었다[7]. 이 연구에서는 은닉층의 경우 입력벡터에 대한 출력벡터를 생성하도록 RBM을 이용하여 학습시킨 후, 최상위 층에 대해서만 FFNN을 적용하여 오디오 이벤트를 출력하도록 하였다. RBM을 이용한 DNN을 GMM 및 SVM과 비교 평가를 하였고, RBM의 분류 성능이 SVM, GMM 보다 더 높게 나왔다.

대상 데이터

<표 2>는 UrbanSound8K에서 구성된 오디오 이벤트 종류를 보여준다. 모든 자료는 16bit-mono의 16kHz로 일괄 변환하였고 자료의 9/10은 학습에 사용되었고, 1/10은 평가에 사용되었다.
음성 및 이미지 인식의 경우 Linguistic Data Consortium(LDC), 이미지넷 등 학술적으로 비교 평가할 수 있는 공통의 학습자료가 존재하는 반면, 오디오 이벤트 분류의 경우 대부분의 연구가 별도로 자료를 수집하여 검증하기 때문에 공통된 평가 지표를 구하기 어렵다. 본 연구에서는 접근 가능한 자료 중 최근 연구로서 평가 지표가 존재하는 학습자료 중 하나를 선택하였으며[18], 해당 연구의 SVM 기반 오디오 이벤트 분류기의 성능은 약 70%를 나타내었다. 본 연구에서는 SVM 기반 분류기를 베이스라인으로 삼는다.
총 8,732의 샘플로 구성되어 있으며 하나의 샘플은 4초 이하로 제공된다. 오디오 이벤트 종류는 총 10 개 이며 약 9시간 분량의 자료로 구성되어 있다. <표 2>는 UrbanSound8K에서 구성된 오디오 이벤트 종류를 보여준다.
학습 및 평가에 사용한 자료는 UrbanSound8K 이다[18]. UrbanSound8K는 www.

이론/모형

DBN은 레이블링 되지 않은 다량의 학습자료를 이용하여 은닉층을 학습시킨 후에, 소량의 레이블링된 자료를 이용하여 출력층을 학습시키는 방법이다. DBN의 은닉층 학습은 Restricted Boltzmann Machine(RBM)을 이용하여 무감독 학습시킨 은닉층을 greedy 방법으로 층층이 쌓는다. 최종적으로 출력층에 대해서에만 소량의 레이블링된 학습 자료를 이용하여 감독 학습시킨다.
기존의 오디오 이벤트 분류의 경우 하나의 오디오 샘플에는 하나의 이벤트만 존재하는 것으로 가정되었지만 실제로는 여러 이벤트가 나열되는 경우가 많기에 이벤트 시퀀스에 대한 분류를 시도하였다. 각 오디오 이벤트들을 GMM을 통하여 모델링을 한 후, 이벤트 시퀀스 분류를 위하여 3-state 기반의 Hidden Markov Model (HMM)을 사용하였다. 이는 오디오 이벤트가 일련의 순서로 등장할 때 성능이 좋은 장점이 있는 반면 다양한 오디오 이벤트들이 레이블링 되어있는 학습 자료를 수집하기 어려운 단점이 있다.
특징 벡터 추출은 음성인식 툴킷인 HTK[19] 를 사용하였고, DNN기반 오디오 이벤트 분류기는 Theano[20] 를 사용하여 구현하였다. 학습 시 minibatch 크기는 98,569 이며, 초기 learning rate은 0.
파라미터 학습은 수식 (5)와 같은 Negative Log Likelihood(NLL)를 손실 함수로 정의하여 모든 학습자료에 대하여 수식 (4)의 손실 값이 최소가 되도록 한다. 학습 알고리즘은 stochastic gradient descent 방법을 취한다[17].

성능/효과

2-은닉층 / 2,000-은닉층 당 뉴론 수 / ReLU 활성함수를 사용하여 학습한 모델이 가장 높은 성능을 보였고, 특징벡터로는 40 차보다 80차를 사용한 경우의 성능이 더 높게 측정되었다. 위의 모델보다 모델 크기를 늘렸을 경우 (3-은닉층 / 1,500-은닉층 당 뉴론 수) 분류 성능이 오히려 감소하는 것을 확인 할 수 있다.
이 연구에서는 은닉층의 경우 입력벡터에 대한 출력벡터를 생성하도록 RBM을 이용하여 학습시킨 후, 최상위 층에 대해서만 FFNN을 적용하여 오디오 이벤트를 출력하도록 하였다. RBM을 이용한 DNN을 GMM 및 SVM과 비교 평가를 하였고, RBM의 분류 성능이 SVM, GMM 보다 더 높게 나왔다. 하지만 역시 오디오 이벤트의 수가 적다는 문제가 있다.
CHiME는 잡음환경 하에서의 키워드 인식이 주된 내용이다[10]. 다양한 잡음 환경에서의 키워드 인식 성능을 사람의 인식 성능 측정치와 비교 평가하였고, 가장 높은 성능의 인식기의 경우 사람대비 5%정도의 인식률 차이가 있었다. MIREX는 음악의 비트 트래킹, 화음 추정, 멜로디 추출, 장르 구분 등 MIR (Music Information Retrieval)에 관련한 태스크를 수행한다[11].
최종적으로 출력층에 대해서에만 소량의 레이블링된 학습 자료를 이용하여 감독 학습시킨다. 실험 결과 5개의 음악 장르 구분에 대하여 약 73%의 분류 성능을 보였고, 음악가 분류에 적용 시 4개의 음악가 분류문제에서는 약 80%의 분류성능을 보였다. 이 연구는 레이블링 되지 않은 다량의 학습자료를 이용할 수 있는 장점을 보였지만, 분류 실험의 클래스 수가 작다는 한계가 있다.
실험 결과 79.2%의 최대 성능을 보였으며 이는 동일한 코퍼스를 사용한 SVM 기반 분류기 보다 13.1%의 상대적 성능향상을 보였다.
영화, 다큐멘터리, 토크쇼, 뉴스에서 등장하는 오디오 이벤트들을 직접 레이블링하여 이벤트들의 검출율을 측정하였다. 실험 결과 PLP를 특징벡터로 사용한 경우 성능이 가장 높았다.
다섯 개의 이벤트는 해설, 관중소리, 해설+관중소리, 흥분된 해설이며, DBN을 학습시켜 SVM 분류기와의 성능을 비교 평가하였다. 실험 결과 SVM의 성능이 DNN보다 약간 더 높았으며, 적은 양의 학습자료로 인한 결과로 분석되었다.
2-은닉층 / 2,000-은닉층 당 뉴론 수 / ReLU 활성함수를 사용하여 학습한 모델이 가장 높은 성능을 보였고, 특징벡터로는 40 차보다 80차를 사용한 경우의 성능이 더 높게 측정되었다. 위의 모델보다 모델 크기를 늘렸을 경우 (3-은닉층 / 1,500-은닉층 당 뉴론 수) 분류 성능이 오히려 감소하는 것을 확인 할 수 있다. 이는 현재 사용하고 있는 학습 자료량으로서는 인식 성능이 모델 크기 대비 수렴했다고 볼 수 있다.
특징 벡터 추출은 음성인식 툴킷인 HTK[19] 를 사용하였고, DNN기반 오디오 이벤트 분류기는 Theano[20] 를 사용하여 구현하였다. 학습 시 minibatch 크기는 98,569 이며, 초기 learning rate은 0.01로 시작하였고, validation error가 30 회 동안 감소하지 않으면 learning rate을 10%씩 감소시켰다. 최소 learning rate은 0.

후속연구

실험 결과 5개의 음악 장르 구분에 대하여 약 73%의 분류 성능을 보였고, 음악가 분류에 적용 시 4개의 음악가 분류문제에서는 약 80%의 분류성능을 보였다. 이 연구는 레이블링 되지 않은 다량의 학습자료를 이용할 수 있는 장점을 보였지만, 분류 실험의 클래스 수가 작다는 한계가 있다.
1%의 상대적 성능향상을 보였다. 추후에는 입력 샘플의 무음구간에서 발생하는 오류를 보정하기 위한 처리에 대한 연구와 더 다양한 하이퍼파라미터 조합에 대한 추가적인 실험을 진행할 계획이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	기존의 오디오 이벤트 인식 연구는 어떠한 주제를 중점으로 연구했는가?	영상속의 의미를 자동으로 분석하기 위해서는 그 속에 포함된 오디오 이벤트를 인식하는 기술은 필수적이다. 오디오 이벤트 인식의 경우 기존에는 오디오 신호로부터 zero crossing rate, spectal flux, band periodicity 등 다양한 특징 값들의 성능을 검증하는 연구와, 전통적인 분류 방법인 규칙기반 (rule-based), Gaussian Mixture Model(GMM) 기반 분류기에 관련한 연구가 주를 이루었다[1]-[3]. 하지만 대부분의 연구는 음악/음성/기타소리를 구분하는 등 제한적인 클래스 분류가 주를 이루었다.
	영상을 이용한 미디어 분석 연구에 필수적인 기술은?	이에 맞추어 구글, 페이스북 등 영상을 이용한 새로운 맞춤지식을 생성하는 기술 개발이 시도되는 등 최근 미디어 분석 연구가 활발히 진행되고 있다. 영상속의 의미를 자동으로 분석하기 위해서는 그 속에 포함된 오디오 이벤트를 인식하는 기술은 필수적이다. 오디오 이벤트 인식의 경우 기존에는 오디오 신호로부터 zero crossing rate, spectal flux, band periodicity 등 다양한 특징 값들의 성능을 검증하는 연구와, 전통적인 분류 방법인 규칙기반 (rule-based), Gaussian Mixture Model(GMM) 기반 분류기에 관련한 연구가 주를 이루었다[1]-[3].
	DNN의 장점은?	최근 기계학습 분야에서 괄목할만한 성능 향상을 보이는 기술로서 Deep Neural Network (DNN)이 주목 받고 있다. DNN은 많은 수의 계층으로 구성된 깊은 인공 신경망으로서 기존의 인공 신경망보다 복잡한 비선형적인 학습 경계를 구분 지을 수 있어 분류 문제에 있어 더 좋은 성능을 얻을 수 있다. 다만 DNN의 수많은 파라미터를 추정하는 데에 있어서 높은 연산량이 요구되어 어려움이 있었지만, 최근 하드웨어 기술의 발전으로 다양한 응용 분야에 DNN을 성공적으로 적용할 수 있게 되었다.

참고문헌 (20)

Lu, L., Jiang, H., & Zhang, H. (2001). A robust audio classification and segmentation method, in Proc. ACM International Conference on Multimedia, 203-211.
Xu, M., et al. (2003). Creating audio keywords for event detection in soccer video, in Proc. IEEE International Conference on Multimedia and Expo, 281-284.
Cheng, W., Chu, W., and Wu, J. (2003). Semantic context detection based on hierarchical audio models, in Proc. ACM SIGMM International Workshop on Multimedia Information Retrieval, 109-115.
Elo, J. P., et al. (2009). Non-speech audio event detection, in Proc. Internationa Conference on Acoustics, Speech and Signal Processing, 1973-1976.
Heittola, T., et al. (2013). Context-dependent sound event detection, EURASIP Journal on Audio, Speech, and Music Processing, 11-13.
Lee, H., Pham, P., Largman, Y., & Ng, A. Y. (2009). Unsupervised feature learning for audio classification using convolutional deep belief networks. in Proc. Advances in Neural Information Processing Systems, 1096-1104.
K, Zvi., & T, Orith. (2013). Audio event classification using deep neural networks, in Proc. INTERSPEECH, 1482-1486.
Ballan, L., et al. (2009). Deep networks for audio event classification in soccer videos, in Proc. International Conference on Multimedia and Expo, 474-477.
Bengio, Y. & LeCun, Y. (2007). Scaling learning algorithms towards AI, Large-scale Kernel Machines, Vol. 34, No.5, 321-360.
Barker, J., et al. (2012). The PASCAL CHiME speech separation and recognition challenge, Computer Speech & Language, Vol. 27, No. 3, 621-633.
Downie, S., et al. (2010). The Music Information Retrieval Evaluation eXchange: Some observations and insights, Advances in Music Information Retrieval. Springer, 93-115.
Malkin, R. G. (2007). Multimodal Technologies for Perception of Humans. Springer, 323-330.
Smeaton, F. et al. (2006). Evaluation campaigns and TRECVid, in Proc. ACM International Workshop on Multimedia Information Retrieval, 321-330.
Vincen, E., et al. (2012). The signal separation evaluation campaign (2007-2010): Achievements and remaining challenges, Signal Processing, Vol. 92, No. 8, 1928-1936.

상세보기
Larochelle, H., et al. (2007). An empirical evaluation of deep architectures on problems with many factors of variation. in Proc. International Conference on Machine learning, 473-480.
Dahl, G. E., Sainath, T. N., & Hinton, G. E. (2013). Improving deep neural networks for LVCSR using rectified linear units and dropout, in Proc. International Conference on Acoustics, Speech and Signal Processing, 8609-8613.
Bottou, L. (2004). Advanced Lectures on Machine Learning, Sringer, 146-168.
Salamon, J., Jacoby, C., & Bello, J. P. (2014), A dataset and taxonomy for urban sound research, in Proc. ACM International Conference on Multimedia, 1041-1044.
Young, S., et al. (1999). The HTK Book. Cambridge, U.K.: Entropic.
Bergstra, J., et al. (2010). Theano: A CPU and GPU math expression compiler. in Proc. Python for Scientific Computing Conference, Vol. 4, p. 3.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증