본 논문은 스펙트로그램과 심층 신경망을 이용한 온라인 오디오 장르 분류 방법을 제안한다. 제안한 방법은 온라인 동작을 위하여 1초 단위로 신호를 입력하여 speech, music, effect 중 하나의 장르로 분류하고, 동작의 범용성을 위하여 기존 오디오 분석에 널리 사용되는 MFCC 대신에 스펙트로그램 기반의 특성 벡터를 사용한다. 실제 TV 방송 신호를 사용하여 장르 분류 성능을 측정하였고, 제안 방법이 기존 방법보다 각 장르에 대하여 우수한 성능을 제공하는 것을 확인하였다. 특히 제안 방법은 기존 방법에서 나타나는 music과 effect 사이를 잘못 분류하는 문제점을 감소시킨다.
본 논문은 스펙트로그램과 심층 신경망을 이용한 온라인 오디오 장르 분류 방법을 제안한다. 제안한 방법은 온라인 동작을 위하여 1초 단위로 신호를 입력하여 speech, music, effect 중 하나의 장르로 분류하고, 동작의 범용성을 위하여 기존 오디오 분석에 널리 사용되는 MFCC 대신에 스펙트로그램 기반의 특성 벡터를 사용한다. 실제 TV 방송 신호를 사용하여 장르 분류 성능을 측정하였고, 제안 방법이 기존 방법보다 각 장르에 대하여 우수한 성능을 제공하는 것을 확인하였다. 특히 제안 방법은 기존 방법에서 나타나는 music과 effect 사이를 잘못 분류하는 문제점을 감소시킨다.
In this paper, we propose a new method for on-line genre classification using spectrogram and deep neural network. For on-line processing, the proposed method inputs an audio signal for a time period of 1sec and classifies its genre among 3 genres of speech, music, and effect. In order to provide th...
In this paper, we propose a new method for on-line genre classification using spectrogram and deep neural network. For on-line processing, the proposed method inputs an audio signal for a time period of 1sec and classifies its genre among 3 genres of speech, music, and effect. In order to provide the generality of processing, it uses the spectrogram as a feature vector, instead of MFCC which has been widely used for audio analysis. We measure the performance of genre classification using real TV audio signals, and confirm that the proposed method has better performance than the conventional method for all genres. In particular, it decreases the rate of classification error between music and effect, which often occurs in the conventional method.
In this paper, we propose a new method for on-line genre classification using spectrogram and deep neural network. For on-line processing, the proposed method inputs an audio signal for a time period of 1sec and classifies its genre among 3 genres of speech, music, and effect. In order to provide the generality of processing, it uses the spectrogram as a feature vector, instead of MFCC which has been widely used for audio analysis. We measure the performance of genre classification using real TV audio signals, and confirm that the proposed method has better performance than the conventional method for all genres. In particular, it decreases the rate of classification error between music and effect, which often occurs in the conventional method.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
후)특성벡터에">특성 벡터에 대해 특별한 조건을 요구하지 않으므로 GMM에서 사용하였던 MFCC를 사용하지 않아도 된다. 따라서 본 논문에서는 MFCC보다 더 일반적인 특성인 스펙트로그램 기반의 특성 벡터를 제안한다. 또한, DNN은 시간 진행에 따른 특성을
DNN 매개 변수를 구하는 이론적 방법은 없으며, 실험을 통하여 주어진 동작의 성능을 분석하여 결정해야 한다. 본 논문에서는 다양한 매개 변수 조합에 대한 반복적인 장르 분류 성능 분석을 통하여 최상의 매개 변수를 결정하였다.
본 논문에서는 심층 신경망 기반의 온라인 오디오 장르 분류 방법을 제안하였다. 제안한 방법은 입력 오디오 신호를 1초 단위로 분석하여 speech, music, effect의
본 논문은 speech, music, 음향 효과 또는 자연음에 해당하는 effect 등의 3가지 장르를 1초 단위로 분류하는 온라인 장르 분류 기술을 제안한다. 기존의 대표적인 장르 분류 기술은 오디오 신호의 MFCC (mel-frequency cepstral coefficient), 스펙트럼 분포, 스펙트럼 변화량 등의 시간 통계 특성을 GMM (Gaussian mixture model) 또는 심층 신경망 (deep neural network, DNN)으로
또한, 기존 DNN 방법은 30초 단위로 장르를 분류하는 오프라인 동작만 제공하고[3], MFCC와 같이 매우 특화된 특성을 사용하여 범용성에 한계를 가진다[3,5]. 본 논문은 이 문제를 해결하기 위하여 새로운 특성을 정의하고 DNN으로 모델링 하는 장르 분류 방법을 제안한다. 특히,
제안 방법
Drop-out은 비용함수를 변경하는 L2 정규화와는 다르게 신경망 자체를 변경한다. 각 학습 데이터에 대한 학습 과정에서 각 은닉층의 뉴런을 일정 비율 무작위로 삭제하여 학습을 진행한다. Drop-out을 사용하면
훈련 데이터에서 특성 벡터를 구하고, 이를 DNN에 입력하여 최상의 장르 분류 동작을 수행하도록 훈련하여 가중치와 바이어스로 구성된 DNN 파라미터를 구한다. 다음, 실제 오디오 신호가 입력되면 특성 벡터를 구하고 훈련된 DNN에 입력하여 출력층의 뉴런 값을 구한다. 본 논문에서는 3개 장르를 사용하므로 출력층은 3개의 뉴런으로 구성되고, 가장 큰 값을 가지는 뉴런에 해당하는 장르를 최종 장르로 결정한다.
후)모델링하여">모델링 하여 모델 파라미터를 구한다. 다음, 입력 오디오 신호가 주어지면 특성 벡터를 추출하고 훈련된 모델 파라미터에 따라 특성을 모델링 하여 최종 장르를 결정한다.
후)3장르로">3 장르로 분류하며, 실시간으로 오디오 장르가 변하는 TV 방송에 적용 가능하고, 기존의 오프라인 분류 방법과 차별성을 가진다. 또한, 기존 GMM 기반의 분류 방법은 직교성 제약에 따라 MFCC를 사용하지만, 제안한 방법은 가장 일반적인 오디오 정보 표현 방식인 스펙트로그램 기반의 특성 벡터를 사용한다. 그에 따라
후)특성파라미터로">특성 파라미터로 사용한다[2,3,5]. 마지막으로, 여러 개의 연속된 프레임을 결합하여 긴 시간에 해당하는 texture 프레임을 정의하고, texture 프레임에서 MFCC와 각 특성 파라미터 값의 평균 (mean)과 분산 (variance)을 구하여 해당 texture 프레임의 특성 벡터를 정의한다. 이렇게 구한 특성 벡터를 각 장르별로
본 논문에서 제안하는 방법은 프레임 단위로 스펙트럼과 mel-필터 출력을 구하여 1초 길이의 texture 프레임에 대한 스펙트로그램을 구하고, texture 프레임에서 각 대역별 평균과 분산을 구하여 최종 특성 벡터를 구한다. 이렇게 구한 특성 벡터를 3개의 은닉층 (hidden layer)을 가지는 DNN으로
후)뉴런값을">뉴런 값을 구한다. 본 논문에서는 3개 장르를 사용하므로 출력층은 3개의 뉴런으로 구성되고, 가장 큰 값을 가지는 뉴런에 해당하는 장르를 최종 장르로 결정한다.
본 논문에서는 두 가지 방법을 적용하여 과적응 문제를 해결한다. 첫 번째 방법은 L2 정규화이며,
후)급증하기">급증하기 때문에 초기화와 과적응에 의하여 오히려 성능이 저하될 수 있다. 본 논문에서는 표 1의 결과를 바탕으로 [120, 45, 30]을 최종 DNN 구조로 결정하였다.
심층 신경망의 다양한 매개 변수에 대한 성능 분석을 통하여 최종 매개 변수를 결정하였고, 실제 TV 방송 신호에 대한 장르 분류 성능을 측정하였다.
후)특성벡터를">특성 벡터를 구한다. 이렇게 구한 특성 벡터를 3개의 은닉층 (hidden layer)을 가지는 DNN으로 모델링 하여 speech, music, effect 중 하나를 해당 texture 프레임의 장르로 최종 선택한다. 실제 TV 방송의 오디오 신호를 사용하여 장르 분류 성능을 평가하였으며, 제안한 방법이 기존의 GMM 방법에 비하여 향상된
오디오 장르 분류의 일반적인 과정은 그림 1과 같다. 제공되는 훈련 데이터에서 특성 벡터를 구하고, 최상의 장르 분류 동작을 수행하도록 특성 벡터를 모델링 하여 모델 파라미터를 구한다. 다음, 입력 오디오 신호가 주어지면
후)제안방법에서">제안 방법에서 다양한 매개 변수에 대한 성능을 분석하여 최종 심층 신경망 구조와 훈련 방법을 결정하였다.
본 논문에서는 심층 신경망 기반의 온라인 오디오 장르 분류 방법을 제안하였다. 제안한 방법은 입력 오디오 신호를 1초 단위로 분석하여 speech, music, effect의 3 장르로 분류하며, 실시간으로 오디오 장르가 변하는 TV 방송에 적용 가능하고, 기존의 오프라인 분류 방법과 차별성을 가진다. 또한, 기존 GMM 기반의 분류 방법은 직교성
후)특성벡터를">특성 벡터를 사용한다. 즉, 제안하는 방법은 모델링 방법과 오디오 정보에 특화된 특성 벡터가 아니라 일반적인 오디오 특성 벡터를 사용하고, 이로부터 다른 오디오 정보 인식과 특성 벡터를 공유하고 통합된 동작을 가능하게 한다.
후)모델링하는">모델링 하는 장르 분류 방법을 제안한다. 특히, 제안 방법은 GMM이 요구하는 특화된 성질을 가지는 MFCC를 사용하지 않고, 대신 오디오 신호의 가장 일반적인 표현 방식인 스펙트로그램 (spectrogram) 기반의 특성 벡터를 사용한다. 즉, 제안하는 방법은 모델링 방법과 오디오 정보에 특화된
훈련 데이터에서 특성 벡터를 구하고, 이를 DNN에 입력하여 최상의 장르 분류 동작을 수행하도록 훈련하여 가중치와 바이어스로 구성된 DNN 파라미터를 구한다. 다음, 실제 오디오 신호가 입력되면
대상 데이터
본 논문의 목표인 1초 단위의 온라인 장르 분류를 위해 수시로 장르가 변하도록 오디오 데이터를 구성하였고, 전체 오디오 데이터의 90%를 무작위로 선택하여 학습 데이터로 사용하고, 나머지 10%는 실험 데이터로 사용하여 성능을 평가한다. 1초마다 특성 벡터가 추출되므로 각 장르별로 1920개의 데이터를 사용하고, 그중 학습 데이터로 1728개, 실험 데이터로 192개를 사용한다.
후)성능평가에">성능 평가에
사용된 오디오 데이터는 실제 TV 방송에서 획득한 음원이고, 데이터 길이는 각 장르별로 32분이다. 본 논문의 목표인 1초 단위의 온라인 장르 분류를 위해 수시로 장르가 변하도록 오디오 데이터를 구성하였고, 전체 오디오 데이터의 90%를 무작위로 선택하여 학습 데이터로 사용하고, 나머지 10%는 실험 데이터로 사용하여 성능을 평가한다. 1초마다
후)성능평가에">성능 평가에 사용된 오디오 데이터는 실제 TV 방송에서 획득한 음원이고, 데이터 길이는 각 장르별로 32분이다. 본 논문의 목표인 1초 단위의 온라인 장르 분류를 위해 수시로 장르가 변하도록 오디오 데이터를 구성하였고, 전체 오디오 데이터의 90%를 무작위로 선택하여 학습 데이터로 사용하고, 나머지 10%는 실험 데이터로 사용하여 성능을 평가한다.
후)보여주기">보여 주기 위해 drop-out과 L2 정규화는 제외하였다. 총 3개의 은닉층을 사용하며, 입력층과 출력층의 뉴런은 각각 46개와 3개이다. 은닉층의 뉴런이 많아질수록
데이터처리
MFCC와 GMM을 사용하는 기존의 장르 분류 방법의 성능을 측정하여 본 논문에서 제안하는 방법의 성능과 비교한다.
이론/모형
후)음향효과">음향 효과
또는 자연음에 해당하는 effect 등의 3가지 장르를 1초 단위로 분류하는 온라인 장르 분류 기술을 제안한다. 기존의 대표적인 장르 분류 기술은 오디오 신호의 MFCC (mel-frequency cepstral coefficient), 스펙트럼 분포, 스펙트럼 변화량 등의 시간 통계 특성을 GMM (Gaussian mixture model) 또는 심층 신경망 (deep neural network, DNN)으로 모델링 하는 방법을 사용한다[2,3,5]. 실험 결과에 의하면 GMM 방법은 speech에 대하여 우수한 성능을
후)초기 값이">초기값이 잘못 설정되면 학습이 매우 느리게 진행되거나 또는 가중치 값이 잘못된 값에 고정되는 문제가 발생할 수 있다. 따라서 DNN 훈련 성능을 향상시키고 그로부터 장르 분류 성능을 향상 시키기 위해 가중치 초기값을 설정하는 체계적인 방법이 필요하며, 본 논문에서는 이를 위해 RBM (restricted Boltzmann machine)을 사용하다[8].
본 논문에서는 DNN의 활성화 함수로 식 (3)의 시그모이드 (sigmoid) 함수를 사용하고, 비용함수로 식 (4)의 교차 엔트로피 (cross-entropy) 함수를 사용한다.
성능/효과
후)표2는">표 2는 epoch 수에 따른 장르 분류 성능을 보여준다. DNN 훈련이 반복될수록 장르 분류 성능이 증가하다가 일정 epoch 수 이후에는 성능 증가가 미비한 포화상태 (saturation)가 되는 것을 확인할 수 있다. 이 상태 이후에는 훈련을 계속해도 추가 학습이 거의 발생하지 않고, 오히려 과적응 문제가 발생할 수 있다.
그림 5가 drop-out 비율에 따른 장르 분류 성능을 보여준다. 가중치 갱신은 역전파 방식에 따라 진행되기 때문에 영향력이 가장 큰 마지막 3번째 은닉층에 drop-out을 적용하는 것이 가장 효과적인 것을 확인하였다. 또한, 3번째
후)표3과">표 3과 같다. 기존 방법의 평균 장르 분류 정확도는 89.58%이며, music 을 effect로 잘못 분류하는 비율이 7.81%이고 effect를 music으로 잘못 분류하는 비율이 13.02%이며, 이와 같이 상호오분류 비율이 매우 높은 문제점이 나타난다.
가중치 갱신은 역전파 방식에 따라 진행되기 때문에 영향력이 가장 큰 마지막 3번째 은닉층에 drop-out을 적용하는 것이 가장 효과적인 것을 확인하였다. 또한, 3번째 은닉층에서 drop-out을 강하게 적용하기보다는 10%를 적용했을 때 가장 우수한 성능을 가지고, drop-out으로 인해 과적응 현상이 감소하여 drop-out을 적용하지 않을 때 (drop-out 비율 0%)에 비하여 성능이 향상되는 것을 확인할 수 있다.
후)프레임 의">프레임의 장르로 최종 선택한다. 실제 TV 방송의 오디오 신호를 사용하여 장르 분류 성능을 평가하였으며, 제안한 방법이 기존의 GMM 방법에 비하여 향상된 장르 분류 성능을 제공하고, 특히 music과 effect 사이를 잘못 분류하는 문제를 해결한 것을 확인하였다.
후)모델링하는">모델링 하는 방법을 사용한다[2,3,5]. 실험 결과에 의하면 GMM 방법은 speech에 대하여 우수한 성능을 제공하지만 music과 effect 장르를 서로 잘못 분류하는 문제점을 가진다. 또한, 기존 DNN 방법은 30초 단위로 장르를 분류하는 오프라인 동작만 제공하고[3], MFCC와 같이 매우 특화된 특성을 사용하여 범용성에 한계를 가진다[3,5].
이상의 성능 분석 결과에 의하면, 제안 방법을 사용하면 기존 방법보다 향상된 장르 분류 성능을 얻고, 기존 방법에서 발생하였던 music과 effect 사이를 서로 잘못 분류하는 문제점이 감소하고 각 장르에 대한 분류 정확도가 균등하게 되는 것을 확인할 수 있다. 이는
후)제안방법은">제안 방법은 각 장르에 대하여 기존 방법보다 우수한 성능을 제공하며, 특히 기존 방법에서 문제가 되었던 music과 effect 사이의 오분류 비율을 뚜렷하게 감소시킨다.
후)제안방법의">제안 방법의 평균 장르 분류 정확도는 95.66%이고 기존 GMM 기반 방법보다 크게 향상된 것을 알 수 있다. 특히, music과 effect 사이를 서로 잘못 분류하는 비율이 뚜렷하게 감소한 결과를 얻는다.
질의응답
핵심어
질문
논문에서 추출한 답변
역전파 방식에 따라 진행되는 가중치 갱신 때문에 장르 분류를 위해 drop-out을 적용하기 알맞은 위치는?
그림 5가 drop-out 비율에 따른 장르 분류 성능을 보여준다. 가중치 갱신은 역전파 방식에 따라 진행되기 때문에 영향력이 가장 큰 마지막 3번째 은닉층에 drop-out을 적용하는 것이 가장 효과적인 것을 확인하였다. 또한, 3번째 은닉 층에서 drop-out을 강하게 적용하기보다는 10%를 적용했을 때 가장 우수한 성능을 가지고, drop-out으로 인해 과적응 현상이 감소하여 drop-out을 적용하지 않을 때 (drop-out 비율 0%)에 비하여 성능이 향상되는 것을 확인할 수 있다.
오디오 신호의 장르는?
오디오 콘텐츠의 특성을 분석하여 해당 특성에 특화된 서비스를 제공하려는 시도가 여러 플랫폼에서 진행 중이다[1]. 오디오 신호의 장르 (genre)는 오디오 콘텐츠의 특성을 나타내는 대표적인 분류 기준이며, 따라서 오디오 장르를 자동으로 분류하는 기술이 널리 연구되고 있다. 대부분의 기존 기술은 주어진 오디오 신호 전체를 분석하여 해당 오디오의 장르를 한 번 판정하는 방법을 사용한다[2,3].
짧은 시간 단위로 장르를 분류하는 온라인 장르 분류 기술 연구가 요구되는 이유는?
즉, 기존 방법은 단말기 또는 서버에 저장된 오디오 신호의 장르 분류에 적용하는 오프라인 (off-line) 방법에 해당한다. 최근에는 방송에서 콘텐츠 특성에 따른 특화된 서비스를 위하여 오디오 신호의 온라인 (on-line) 장르 분류 방법이 요구 되고 있다[4]. 예로, TV 프로그램을 시청할 때 방송되는 음악에 따라 실시간으로 최적의 이퀄라이저를 적용하여 시청자에게 제공하려면 온라인 장르 분류가 필요하다. 따라서 짧은 시간 단위로 장르를 분류하는 온라인 장르 분류 기술 연구가 요구된다.
참고문헌 (9)
Daeyoung Jang, Jeongil Seo, Yong Ju Lee, Jae-hyoun Yoo, Taejin Park and Taejin Lee, "A Study on Realistic Sound Reproduction for UHDTV," Journal of Broadcast Engineering, vol 20, no. 1, pp. 68-81, Jan. 2015.
G. Tzanetakis and P. Cook, "Musical Genre Classification of Audio Signals," IEEE Transactions on Speech and Audio Processing, vol. 10, no. 5, pp. 293-302, Jul. 2002.
Tao Feng, "Deep learning for music genre classification," private document.
Jung-Sung Lee and Hyoung-Gook Kim, "Background Music Identification in TV Broadcasting Program Algorithm using Audio Peak Detection," Proc. of 2013 Korean Institute of Broadcast and Media Engineers Summer Conference, pp. 34-35, Jun. 2013.
Z. Kons and O. Toledo-Ronen, "Audio event classification using deep neural networks," Proc. of Interspeech, pp. 1482-1486, 2013.
D. Reynolds, "Gaussian Mixture Models," Encyclopedia of Biometrics, pp. 827-832, Jul. 2015.
ETSI ES 202 211, "Speech Processing, Transmission and Quality Aspects (STQ); Distributed Speech Recognition; Extended Front-End Feature Extraction Algorithm; Compression Algorithm; Back-End Speech Reconstruction Algorithm," Nov. 2003.
G. E. Hinton and R. R. Salakhutdinov, "Reducing the Dimensionality of Data with Neural Networks," Science, vol. 313, pp. 504-507, Jul. 2006.
N. Srivastava, G. Hinton, A. Krizhevsky and R. Salakhutdinov, "Dropout: A Simple Way to Prevent Neural Networks from Overfitting," Journal of Machine Learning Research, 15(1), pp. 1929-1958, Jun. 2014.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.