[논문]Attention CRNN에 기반한 오디오 이벤트 검출

곽진열; 정용주

doi:10.13067/jkiecs.2020.15.3.465

Attention CRNN에 기반한 오디오 이벤트 검출
Audio Event Detection Based on Attention CRNN 원문보기

한국전자통신학회 논문지 = The Journal of the Korea Institute of Electronic Communication Sciences, v.15 no.3, 2020년, pp.465 - 472

곽진열 (계명대학교 전기전자융합시스템공학과) , 정용주 (계명대학교 전자공학과)

초록
AI-Helper

최근 들어, 오디오 이벤트 검출을 위하여 다양한 딥뉴럴네트워크 기반의 방법들이 제안되어 왔다. 본 연구에서는 베이스라인 CRNN(Convolutional Recurrent Neural Network) 구조에 attention 방식을 도입함으로서 오디오 이벤트 검출의 성능을 향상시키고자 하였다. 베이스라인 CRNN의 입력단에 context gating을 적용하고 출력단에 attention layer을 추가하였다. 또한, 프레임(frame) 단위의 강전사 레이블(strong label)정보 뿐만 아니라 클립(clip) 단위의 약전사 레이블(weakly label) 오디오 데이터를 이용한 학습을 통하여 보다 나은 성능을 이루고자 하였다. DCASE 2018/2019 Challenge Task 4 데이터를 이용한 오디오 이벤트 검출 실험에서 제안된 attention 기반의 CRNN을 통하여 기존의 CRNN 방식에 비해서 최대 66%의 상대적 F-score 향상을 얻을 수 있었다.

Abstract ▼ AI-Helper

Recently, various deep neural networks based methods have been proposed for audio event detection. In this study, we improved the performance of audio event detection by adopting an attention approach to a baseline CRNN. We applied context gating at the input of the baseline CRNN and added an attention layer at the output. We improved the performance of the attention based CRNN by using the audio data of strong labels in frame units as well as the data of weak labels in clip levels. In the audio event detection experiments using the audio data from the Task 4 of the DCASE 2018/2019 Challenge, we could obtain maximally a 66% relative increase in the F-score in the proposed attention based CRNN compared with the baseline CRNN.

주제어

표/그림 (10)

그림 그림 1. 특징 추출 과정 Fig. 1 Feature extraction process
그림 그림 2. 베이스라인 CRNN의 구조 Fig. 2 The structure of baseline CRNN
그림 그림 3. Attention CRNN의 구조 Fig. 3 The structure of attention CRNN
표 표 1. 학습데이터의 구성 Table 1. The contents of the training data
표 표 2. 테스트 데이터의 구성 Table 2. The contents of the test data
그림 그림 4. 베이스라인 CRNN의 F-score 러닝 커브 (MAX=100, epoch=97에서 최대 값) Fig. 4 F-score learning curve of baseline CRNN (MAX=100, maximum F-score at epoch=97)
표 표 3. 베이스라인 CRNN의 오디오 이벤트 검출 성능(DCASE 2018 test set) Table. 3 Performance of baseline CRNN on audio event detection (DCASE 2018 test set)
표 표 4. 베이스라인 CRNN의 오디오 이벤트 검출 성능(DCASE 2019 test set) Table. 4 Performance of baseline CRNN on audio event detection (DCASE 2019 test set)
표 표 5. Attention CRNN과 베이스라인 CRNN의 성능 비교(DCASE 2018 test set) Table 5. Performance comparsion between attention CRNN and baseline CRNN (DCASE 2018 test set).
표 표 6. Attention CRNN과 베이스라인 CRNN의 성능 비교(DCASE 2019 test set) Table 6. Performance comparsion between attention CRNN and baseline CRNN. (DCASE 2019 test set).

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

딥뉴럴 네트워크를 이용한 오디오 이벤트 검출은 CNN, RNN 또는 CRNN 등의 다양한 방식을 통하여 이루어지고 있으며 최근의 연구 결과에 의하면 CRNN 을 이용한 방식이 가장 나은 성능을 보여주고 있다. 본 논문에서는 오디오 이벤트 검출의 성능 향상을 위하여 CRNN에 attention 기법을 적용하고 그 성능의 향상 정도에 대해서 조사하였다. CRNN의 입력단에는 context gating 기법을 적용하고 출력단에는 attention layer을 추가함으로서 전체 오디오 클립 중에서 이벤트 검출에 중요한 부분을 강조할 수 있도록 하였다.

제안 방법

본 논문에서는 오디오 이벤트 검출의 성능 향상을 위하여 CRNN에 attention 기법을 적용하고 그 성능의 향상 정도에 대해서 조사하였다. CRNN의 입력단에는 context gating 기법을 적용하고 출력단에는 attention layer을 추가함으로서 전체 오디오 클립 중에서 이벤트 검출에 중요한 부분을 강조할 수 있도록 하였다.
오디오 이벤트 검출을 위하여 기존의 베이스라인 CRNN의 입력단에 context gating이 사용되며 출력단에 attentionlayer가 추가되는 형태가 된다. 또한 최적의 성능을 나타내기 위해서 오디오 입력의 프레임 개수를 864로 늘렸으며 bidirectional GRU를 2단으로 하였다. 또한 컨벌루션 블럭에서는 주파수 축 뿐만 아니라 시간축에 대해서도 average pooling을 적용하였다.
또한 최적의 성능을 나타내기 위해서 오디오 입력의 프레임 개수를 864로 늘렸으며 bidirectional GRU를 2단으로 하였다. 또한 컨벌루션 블럭에서는 주파수 축 뿐만 아니라 시간축에 대해서도 average pooling을 적용하였다.
컨벌루션 블럭은 64개의 feature map으로 구성되며 1 x 4의 max pooling을 적용함으로서 시간 영역에서의 정보는 평균되지 않고 보전하도록 하였다. 또한, batch normalization을 적용하고 활성함수로는 ReLU(: Rectified Linear Unit)을 사용하였으며 dropout도 함께 적용되었다. 컨벌루션 블럭의 출력은 bidirectional GRU의 입력으로 매 시간프레임 단위로 나누어져 이용되며 128개의 쌍방향unit으로 구성된 출력들은 매 프레임 마다 10개의 unit으로 구성된 classification 층의 입력으로 사용된다.
본 연구에서는 오디오 파형으로 부터 로그-멜 필터뱅크(log-mel filterbank) 특징 값을 추출하고 이를 딥뉴럴 네트워크의 입력으로 사용하였으며 그림 1에 전체적인 오디오 특징 추출 과정이 나타나 있다. 먼저, 44.1 KHz로 샘플링된 오디오 신호에 대해서 Hamming 윈도우를 적용한 후 short-time 푸리에 변환(STFT)을 계산한다. STFT으로부터 64차의 멜 필터뱅크 값이 매 프레임 마다 계산되며 최종적으로 로그 변환을 통하여 로그-멜 필터뱅크 값이 얻어진다.
베이스라인 CRNN의 학습데이터는 [weakly label+strong label] 과 [strong label]로 구성되었다. 모델훈련은 이진 크로스엔트로피 (binary cross-entropy)를 손실함수로 삼아 Adam optimizer를 이용하였고 학습률(learning rate)는 0.001로 적용하였다.
본 연구에서는 오디오 파형으로 부터 로그-멜 필터뱅크(log-mel filterbank) 특징 값을 추출하고 이를 딥뉴럴 네트워크의 입력으로 사용하였으며 그림 1에 전체적인 오디오 특징 추출 과정이 나타나 있다. 먼저, 44.
6ms 마다 로그-멜 필터뱅크값이 생성되기 때문이다. 컨벌루션 블럭은 64개의 feature map으로 구성되며 1 x 4의 max pooling을 적용함으로서 시간 영역에서의 정보는 평균되지 않고 보전하도록 하였다. 또한, batch normalization을 적용하고 활성함수로는 ReLU(: Rectified Linear Unit)을 사용하였으며 dropout도 함께 적용되었다.
베이스라인 CRNN의 성능 결과가 표 3 에 나타나 있다. 학습시에 각각 100회(MAX=100) 및 200회(MAX=200) epoch를 진행시킨 후 그 중 검증데이터에 대해 가장 성능이 좋은 epoch의 모델을 선택하는 방법을 적용하였다. 이러한 방법이 조기종료(earlystopping) 방식 보다 나은 성능을 보임을 다양한 실험을 통하여 확인할 수 있었다.

대상 데이터

표 5와 표 6에는 attention CRNN과 베이스라인CRNN에 대한 성능 비교를 한 결과가 나타나 있다. 베이스라인 CRNN에서 좋은 성능을 보인 Weakly +Strong label 학습데이터를 사용하였다.
베이스라인 CRNN의 학습데이터는 [weakly label+strong label] 과 [strong label]로 구성되었다. 모델훈련은 이진 크로스엔트로피 (binary cross-entropy)를 손실함수로 삼아 Adam optimizer를 이용하였고 학습률(learning rate)는 0.
본 연구에서는 DCASE Challenge 2018 및 2019의 Task 4 의 오디오 데이터를 학습 및 테스트에 사용하였다[14]. 표 1과 표2에는 본 연구에서 사용된 학습데이터와 테스트 데이터의 구성을 각각 보여주고 있다.
표 1과 표2에는 본 연구에서 사용된 학습데이터와 테스트 데이터의 구성을 각각 보여주고 있다. 학습데이터는 레이블의 성질에 따라 약전사 레이블(weakly label), 강전사(strong label) 데이터로 나누어진다. 약전사 레이블은 시간정보가 없이 클립(clip)단위의 음향이벤트 레이블을 제공하며 강전사 레이블은 프레임 단위의 이벤트 발생 시간 정보가 주어진다.

이론/모형

약전사 레이블을 이용한 CRNN의 학습을 위하여 본 연구에서는 음성인식이나 영상인식, 기계 번역 및 오디오 태깅 등에서 널리 사용되는 attention 기법을 오디오 이벤트 검출에 적용하고자 한다[10-13]. Attention 기법은 전체 오디오 중에서 중요 부분에 가중치를 둠으로서 특정 오디오 이벤트가 발생한 부분을 제외한 나머지 부분을 인식 과정에서 무시하는 방식이라 할 수 있다.
오디오 이벤트 검출기의 성능검증은 F-score와 Error rate(ER)를 이용하며, 이벤트기반(Event-based)분석방법을 사용한다[5]. 이벤트기반 분석방법은 검출기의 출력 결과가 긍정적으로 나온 경우에 한하여 오디오에 대한 참 레이블 정보(Ground Truth)와 비교하는 방법이다.

성능/효과

특히, 베이스라인 CRNN의 성능이 저조했던 2019 test set에서 보다 많은 향상이 이루어지는 것을 확인할 수 있었는데 이는 attention CRNN이 오디오 이벤트 검출이 어려운 오디오 환경에서 보다 강인한 성능을 보여준다는 것을 의미한다. 2019 test set의 경우에는 attention CRNN을 사용함으로서 베이스라인 CRNN에 비해서 66%의 상대적인 F-score 향상을 볼 수 있었으며 2018 testset의 경우에는 58%의 성능 향상을 나타내었다. 2018 test set의 경우에는 MAX=200인 경우에 보다많은 성능 향상을 보였으나 2019 test set의 경우에는 MAX=100의 경우에서 보다 나은 향상을 얻을 수 있었다.
표 3과 표 4의 결과에서 나타나듯이 strong label데이터만 사용할 경우에 비해서 strong label과 weakly label 데이터를 함께 사용할 경우, 보다 나은 성능을 보임을 알 수 있었다. 그러나 데이터의 양이 2배 가까이 늘어남에도 불구하고 성능의 향상 폭은 크지 않은 점으로 보아 성능의 향상을 위해서는 stronglabel 데이터가 매우 중요하다는 것을 알 수 있었다.
예상한대로, attention CRNN을 오디오 이벤트 검출에 활용함으로서 다양한 조건에서 향상된 성능을 얻을 수 있음을 확인할 수 있었다. 특히, 베이스라인 CRNN의 성능이 저조했던 2019 test set에서 보다 많은 향상이 이루어지는 것을 확인할 수 있었는데 이는 attention CRNN이 오디오 이벤트 검출이 어려운 오디오 환경에서 보다 강인한 성능을 보여준다는 것을 의미한다.
오디오 이벤트 검출 실험을 위하여 이 분야에서 대표적인 DCASE Challenge 2018 및 2019 데이터베이스를 이용하였으며, 검출실험 결과 난이도가 비교적 높은 DCASE 2019 test set 뿐만 아니라 DCASE2018 test set에 대해서도 일관되게 높은 성능향상을 볼 수 있었다(각각 66%와 58%의 상대적 F-score 향상).
예상한대로, attention CRNN을 오디오 이벤트 검출에 활용함으로서 다양한 조건에서 향상된 성능을 얻을 수 있음을 확인할 수 있었다. 특히, 베이스라인 CRNN의 성능이 저조했던 2019 test set에서 보다 많은 향상이 이루어지는 것을 확인할 수 있었는데 이는 attention CRNN이 오디오 이벤트 검출이 어려운 오디오 환경에서 보다 강인한 성능을 보여준다는 것을 의미한다. 2019 test set의 경우에는 attention CRNN을 사용함으로서 베이스라인 CRNN에 비해서 66%의 상대적인 F-score 향상을 볼 수 있었으며 2018 testset의 경우에는 58%의 성능 향상을 나타내었다.
표 3과 표 4의 결과에서 나타나듯이 strong label데이터만 사용할 경우에 비해서 strong label과 weakly label 데이터를 함께 사용할 경우, 보다 나은 성능을 보임을 알 수 있었다. 그러나 데이터의 양이 2배 가까이 늘어남에도 불구하고 성능의 향상 폭은 크지 않은 점으로 보아 성능의 향상을 위해서는 stronglabel 데이터가 매우 중요하다는 것을 알 수 있었다.

후속연구

본 논문에서는 attention 기법을 CRNN에 적용하여 매우 향상된 성능을 보였는데 향후 보다 확대된 오디오 데이터를 이용한 실험을 실시할 예정이며, 본 연구에서 사용되지 않은 다양한 attention 기법들을 CRNN에 추가적으로 적용함으로서 보다 나은 성능 향상을 유도할 예정이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	CNN의 단점은 무엇인가?	CNN(: Convolutional Neural Network)는 공유된 2차원의 필터를 오디오 신호의 주파수-시간 스펙트럼에 적용함으로서 FNN의 단점을 보완해주는 장점이 있으며 오디오 이벤트 검출 등의 응용 분야에서 FNN 보다 나은 성능을 보여 주고 있다[7]. 그러나 CNN은 오디오 신호의 샘플들 간의 시간 영역에서의 상관 관계를 모델링하는데는 다소 부족하다고 알려져 있다.
	딥러닝 기반의 방식들의 오디오 이벤트 검출 방법으로 어떤 시스템을 개발 할 수 있었는가?	전통적으로 특정 소리의 유무와 발생 시점을 탐지하는 오디오 이벤트 검출 (Audio Event Detection)을 위한 방법으로는 GMM(: Gaussian Mixture Model)이 나 SVM(: Support Vector Machine)을 기반으로 한 방식들이 많이 사용되어 왔으나, 최근에 들어와서는 이러한 전통적 방식보다 딥러닝 기반의 방식들이 많이 개발되어 뛰어난 성능을 보여주고 있다. 이를 통하여 우리는 감시나 도시 소음 분석, 멀티미디어 컨텐츠로부터의 정보 탐색, 헬스케어 모니터링 및 새소리 탐지 등의 다양한 분야에서 활용 가능한 오디오 인지시스템을 개발 할 수 있게 되었다[1-6].
	F-score란 무엇인가?	F-score란 분류 문제에 대해 Precision과 Recall의 조화평균 값이다. Precision은 참으로 판단한 문제에 대해 얼마나 잘 맞추었는지에 대한 수치이며, Recall은 참인 문제에 대해 정확히 양성으로 식별한 비율을 말한다.

참고문헌 (14)

M. K. Nandwana, A. Ziaei, and J. H. L. Hansen, "Robust Unsupervised Detection of Human Screams In Noisy Acoustic Environments," Proceedings of the International Conference on Acoustics, Speech and Signal Processing, Brisbane, Australia, Apr. 2015.
M. Crocco, M. Christani, A. Trucco, and V. Murino, "Audio Surveillance: A Systematic Review," ACM Computing Surveys, vol. 48. no. 4, Feb. 2016, pp.52:1-52:46.
Y. Lee and P. Moon, "A Comparison and Analysis of Deep Learning Framework," J. of the Korea Institute of Electronic Communication Sciences, vol. 12, no. 1, 2017, pp. 115-122.
Y. Wang, L. Neves, and F. Metze, "Audio-based Multimedia Event Detection Using Deep Recurrent Neural Networks," IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Shanghai, China, Mar. 2016, pp. 2742-2746.
A. Mesaros, T. Heittola, and T. Virtanen, "Metrics for polyphonic sound event detection," Applied Sciences, vol. 6, no. 6, 2016, pp. 321-337.

상세보기
S. Chung and Y. Chung, "Sound Event Detection based on Deep Neural Networks," J. of the Korea Institute of Electronic Communication Sciences, vol. 14, no. 2, 2019, pp. 389-396.
S. Chung and Y. Chung, "Comparison of Audio Event Detection Performance using DNN," J. of the Korea Institute of Electronic Communication Sciences, vol. 13, no. 3, 2018, pp. 571-577.
A. Graves, A. Mohamed, and G. Hinton, "Speech Recognition with Deep Recurrent Neural Networks," Proceedings of the IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP), Vancouver, Canada, May 2013, pp. 6645-6649.
E. Cakir, G. Parascandolo, T. Heittola, H. Huttunen, and T. Virtanen, "Convolutional Recurrent Neural Networks for Polyphonic Sound Event Detection," IEEE/ACM Trans. On Audio Speech and Language Process., vol. 26. no. 6, 2017, pp. 1291-1303.
Y. Xu., Q. Kong, Q. Huang, W. Wang, and M. D. Plumbley, "Attention and Localization Based on a Deep Convolutional Recurrent Model for Weakly Supervised Audio Tagging," in Proc. Interspeech Aug. 2017, pp. 3083-3087.
J. K. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, and Y. Bengio, "Attention-based models for speech recognition," in Advances in Neural Information Processing Systems, Dec. 2015, pp. 577-585.
V. Mnih, N. Heess, A. Graves, and K. Kavukcuoglu, "Recurrent models of visual attention," in Advances in Neural Information Processing Systems, 2014, pp. 2204-2212.
D. Bahdanau, K. Cho, and Y. Bengio, "Neural machine translation by jointly learning to align and translate," in International Conference on Learning Representation(ICLR), May, 2015.
N. Turpault, R. Serizel, A. P. Shah, and J. Salamon, "Sound event detection in domestic environments with weakly labeled data and soundscape synthesis," Workshop on Detection and Classification of Acoustic Scenes and Events, Oct. 2019.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증