[논문]평균-교사 합성곱 순환 신경망 모델을 이용한 약지도 음향 이벤트 검출 시스템의 성능 분석

이석진

doi:10.7776/ask.2021.40.2.139

평균-교사 합성곱 순환 신경망 모델을 이용한 약지도 음향 이벤트 검출 시스템의 성능 분석
Performance analysis of weakly-supervised sound event detection system based on the mean-teacher convolutional recurrent neural network model 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.40 no.2, 2021년, pp.139 - 147

초록
AI-Helper

본 논문은 데이터의 일부만 레이블링이 되어있는 약지도 학습을 기반으로 하는 음향 이벤트 검출 시스템을 소개 및 구현하고, 시뮬레이션을 통해 각 파라미터가 성능에 미치는 영향을 분석하였다. 음향 이벤트 검출 시스템은 음향 신호 내에 존재하는 이벤트의 종류, 시작/종료 시점을 추정하는 시스템으로, 이를 학습시키기 위해서는 음향 이벤트 신호와 그 종류, 시작/종료 시점에 대한 모든 정보가 제공되어야 한다. 하지만 이를 모두 표기하여 학습데이터를 만드는 것은 매우 큰 비용이 들어가며, 특히 시작/종료 시점을 정확히 표기하는 것은 매우 어렵다. 따라서 본 논문에서 다루는 약지도 학습 문제에서는 이벤트의 종류와 시작/종료 시점이 모두 표기된 "강하게 표기된 데이터"와, 이벤트의 종류만 표기된 "약하게 표기된 데이터", 그리고 아무런 표기가 되어 있지 않은 "미표기 데이터"를 이용하여 음향 이벤트 검출 시스템을 학습시킨다. 최근 이러한 문제에서는 평균-교사 모델을 이용한 음향 이벤트 검출 시스템의 성능이 우수하며, 따라서 널리 사용되고 있다. 다만, 평균-교사 모델은 많은 파라미터를 가지고 있고, 이는 성능에 영향을 다소 미칠 수 있으므로 신중하게 선택되어야 한다. 본 논문에서는 DCASE 2020 Task 4의 데이터를 이용하여 특징 값의 종류, 이동 평균 파라미터, 일관성 비용함수의 가중치, 램프-업 길이, 그리고 최대 학습율 등 5가지의 값에 대해 성능 분석을 진행하였으며, 각 파라미터에 대한 영향 및 최적 값에 대해 고찰하였다.

Abstract ▼ AI-Helper

This paper introduces and implements a Sound Event Detection (SED) system based on weakly-supervised learning where only part of the data is labeled, and analyzes the effect of parameters. The SED system estimates the classes and onset/offset times of events in the acoustic signal. In order to train the model, all information on the event class and onset/offset times must be provided. Unfortunately, the onset/offset times are hard to be labeled exactly. Therefore, in the weakly-supervised task, the SED model is trained by "strongly labeled data" including the event class and activations, "weakly labeled data" including the event class, and "unlabeled data" without any label. Recently, the SED systems using the mean-teacher model are widely used for the task with several parameters. These parameters should be chosen carefully because they may affect the performance. In this paper, performance analysis was performed on parameters, such as the feature, moving average parameter, weight of the consistency cost function, ramp-up length, and maximum learning rate, using the data of DCASE 2020 Task 4. Effects and the optimal values of the parameters were discussed.

주제어

표/그림 (8)

그림 Fig. 1. Problem description for weakly supervised sound event detection.
그림 Fig. 2. (Color available online) A diagram of structure for the CRNN classifier.
그림 Fig. 3. (Color available online) A schemetic diagram for mean-teacher sound event detection model.
표 Table 1. Averaged results with various features. Mel-Spec, LogMel, and GAM denote the results of Mel- spectrum, log-Mel-spectrum, and gammatone spec-trum, resepectively.
표 Table 2. Averaged results with various moving average factors of the teacher model.
표 Table 3. Performance comparisons with various weights of the consistency cost.
표 Table 4. Comparison results with different ramp-up lengths.
표 Table 5. Comparison results with various maximum learning rates.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

최근 시행된 DCASE 2019 및 DCASE 2020 의 Task 4에서 정의된 약지도 음향 이벤트 검출 문제는 다음과 같다. Fig. 1에서 보는 바와 같이, 약지도 음향 이벤트 검출 시스템은 찾고자하는 이벤트 클래스가 특정 오디오 클립에 존재하는지 여부, 그리고 시작/종료 시점을 찾는 것을 목표로 한다. 이는 일반적인 음향이벤트 문제에서 다루는 바와 동일하다.
본 논문에서는 DCASE 등을 중심으로 최근 연구 되고 있는 약지도 음향 이벤트 검출 문제에 대해 살펴보고, 이를 위한 평균-교사 모델 기법에 대해 소개한다. 그리고 공개된 데이터셋을 이용, 파라미터를 변경한 반복 실험을 통해 파라미터 값에 따른 성능을 분석하고자 한다.
본 논문에서는, 강하게 및 약하게 표기된 데이터, 그리고 미표기 데이터를 이용하여 학습할 수 있는 약지도 음향 이벤트 검출 시스템을 구현하고, 파라 미터 설정에 따른 성능의 차이를 분석하였다. 본 논문에서 구현된 약지도 음향 이벤트 검출 시스템은 최근 DCASE 등에서 널리 사용되고 있는 평균-교사 모델이 적용된 합성곱 순환 신경망 모델의 구조를 기반으로 하였다.
등의 사용자 설정 파라미터를 가지며, 이러한 파라미터는 모두 학습 및 분류 성능에 영향을 미치게 된다. 본 논문에서는, 실제 녹음된 음향 이벤트 데이터베이스에 대한 시뮬레이션을 통하여 각 파라미터가 성능에 미치는 영향을 분석하고자 한다.

제안 방법

, 5) 최대 학습률 μ_max을 변화시켜가며 음향 이벤트 검출 시스템 성능의 변화를 관찰하고자 한다. 하나의 파라미터를 변화시키는 동안 다른 파라미터는 하나의 값으로 고정시켰다.
본 논문에서는 DCASE 등을 중심으로 최근 연구 되고 있는 약지도 음향 이벤트 검출 문제에 대해 살펴보고, 이를 위한 평균-교사 모델 기법에 대해 소개한다. 그리고 공개된 데이터셋을 이용, 파라미터를 변경한 반복 실험을 통해 파라미터 값에 따른 성능을 분석하고자 한다.
다음으로, 이동 평균 파라미터 α에 따른 성능을 분석하였다. Eq.
위와 같이 구현한 평균-교사 모델 기반의 약지도 음향 이벤트 시스템의 파라미터에 따른 성능을 분석 하기 위하여, DCASE 2020 Task 4^[4]의 개발 데이터를 이용하여 성능을 분석하였다. 학습 데이터는 2045개의 강하게 표기된 데이터와 1578 개의 약하게 표기된 데이터, 그리고 14412개의 미표기 데이터로 구성되었다.
첫 번째로, 특징 값의 종류에 따른 성능의 변화를 관찰하였다. 적용된 특징 값은 음향 신호 분류 및 음향 이벤트 검출 등의 과업에서 널리 사용되는 멜-스펙트럼, 로그-멜 스펙트럼, 그리고 감마톤 스펙트럼을 적용하여 비교하였다. 각 특징벡터의 크기는 128로 동일하게 설정되었으며, 프레임 길이 또한 앞서 기술한 바와 동일하다.
첫 번째로, 특징 값의 종류에 따른 성능의 변화를 관찰하였다. 적용된 특징 값은 음향 신호 분류 및 음향 이벤트 검출 등의 과업에서 널리 사용되는 멜-스펙트럼, 로그-멜 스펙트럼, 그리고 감마톤 스펙트럼을 적용하여 비교하였다.
학습은 총200 에포크 동안 진행되었고, 그 중 검증 데이터에 대해 가장 작은 비용함수를 가지는 모델을 저장하여 성능 평가에 사용하였다. 배치 크기는 24로 설정되었고, 구성된 모델은 Adam^[15] 기법을 이용 하여 학습되었다.

대상 데이터

평균-교사 모델은 약지도 학습을 위해 추가적인 구조를 가지고 있기 때문에, 그만큼 사용자가 설정할수 있는 파라미터의 종류 더 많다. 이는 결국 파라미터의 설정 값에 따라 성능이 변할 수 있다는 것을 의미하며, 이에 대한 영향을 분석하기 위하여 DCASE 2020 Task 4 데이터를 이용하여 시뮬레이션을 진행 하였다. 시뮬레이션 결과, 멜-스펙트럼과 감마톤 스펙트럼의 성능이 비교적 높게 나타났으며, 이동 평균 파라미터의 경우 일반적으로 많이 사용하는 0.
의 개발 데이터를 이용하여 성능을 분석하였다. 학습 데이터는 2045개의 강하게 표기된 데이터와 1578 개의 약하게 표기된 데이터, 그리고 14412개의 미표기 데이터로 구성되었다. 각 오디오 클립은 10 s 길이를 가지고 있으며, 16 kHz의 샘플링 주파수를 가지도록 처리되었다.

데이터처리

)는 각각 분류 비용과 일관성 비용을 의미하며, β 는 일관성 비용에 대한 가중치로, 사용자 설정 파라미터이다. 분류 비용과 일관성 비용은 각각 Time stamps 출력과 Clip classes 출력에 대한 비용함수를 합산하여 계산하며, 일반적으로 분류 비용으로는 이항 교차 엔트로피를, 일관성 비용으로는 평균 제곱 오차를 사용한다.

이론/모형

결과에 대한 성능을 평가하기 위한 지표로, 이벤트-기반 F1-score와 세그먼트-기반 F1-score가 사용되 었다. F1-score는 정확도 지표 중 하나로, 다음과 같은 정밀도 P 와 재현율 R 의 기하 평균으로 계산된다.
하나의 파라미터를 변화시키는 동안 다른 파라미터는 하나의 값으로 고정시켰다. 고정된 파라미터 값은 Delphin-Poulat 의 모델^[10]에 준하여 결정되었으며, 구체적인 값은 다음과 같다. 특징 값으로는 128 개의 주파수 빈을 가지는 멜-스펙트럼을 사용하였고, 이동 평균 파라미터는 0.
학습은 총200 에포크 동안 진행되었고, 그 중 검증 데이터에 대해 가장 작은 비용함수를 가지는 모델을 저장하여 성능 평가에 사용하였다. 배치 크기는 24로 설정되었고, 구성된 모델은 Adam^[15] 기법을 이용 하여 학습되었다. 검출기의 출력 확률값은 0.
본 논문에서는, 강하게 및 약하게 표기된 데이터, 그리고 미표기 데이터를 이용하여 학습할 수 있는 약지도 음향 이벤트 검출 시스템을 구현하고, 파라 미터 설정에 따른 성능의 차이를 분석하였다. 본 논문에서 구현된 약지도 음향 이벤트 검출 시스템은 최근 DCASE 등에서 널리 사용되고 있는 평균-교사 모델이 적용된 합성곱 순환 신경망 모델의 구조를 기반으로 하였다. 평균-교사 모델은 표기 및 미표기 데이터를 이용하여 모델 계수를 학습하는 학생 모델과, 이에 대한 이동 평균 값을 계수로 가지는 교사 모델로 이루어진다.

성능/효과

0005)에서 더 좋은 성능을 보였다. 0.001의 최대 학습율은 미시-평균 세그먼트-기반 지표에서 가장 좋은 성능을 보였으나, 나머지 지표에서 다소 저하된 성능을 보였다. 가장 좋은 이벤트-기반 성능은 0.
001의 최대 학습율은 미시-평균 세그먼트-기반 지표에서 가장 좋은 성능을 보였으나, 나머지 지표에서 다소 저하된 성능을 보였다. 가장 좋은 이벤트-기반 성능은 0.0001의 학습율에서, 거시-평균 세그먼트-기반 성능은 0.0002의 학습율에서 볼 수 있었으나, 둘 사이의 성능 차이는 크지 않았다.
평균-교사 모델 기반의 약지도 음향 이벤트 검출기에서 널리 사용되는값 (β = 2)과 달리 4 ~ 16 사이의 값이 일반적으로 좋은 성능을 보였다. 다만 모든 지표에서 좋은 성능을 보이는 β 값은 존재하지 않고, 지표의 종류와 평균을 구하는 방법에 따라 최적의 β 값이 달라졌다. β = 32의 경우는 미시-평균 이벤트 기반 성능은 성능이 높았으나, 나머지 3개의 지표에서 낮은 성능을 보였다.
^[8] 평균-교사 모델은 다음과 같은두 가지 특징을 가지고 있다. 먼저, 평균-교사 모델은 학생 모델과 교사 모델로 이루어져 있으며, 학생 모델과 정답과의 차이에 대한 비용함수(classification cost, 분류 비용) 외에 학생 모델과 교사 모델 사이의 차이에 대한 비용함수(consistency cost, 일관성 비용)를 가진다. 또한, 교사 모델의 계수는 역전파에 의해 갱신되지 않고, 학습 과정에서 다음과 같이 학생 모델 계수의 지수 이동 평균으로 계산된다.
성능 결과를 살펴보면, 모든 지표에 대하여 멜-스펙트럼의 성능이 가장 좋고, 그 다음이 감마톤 스펙트럼, 그리고 로그-멜 스펙트럼의 성능이 가장낮게 나타났다. 멜-스펙트럼과 감마톤 스펙트럼의 성능 차이는 1 % ~ 2 % 정도로 크지 않았으나, 로그-멜-스펙트럼은 4 % ~ 8 % 정도의 큰 성능 저하를 보였다.
성능 결과를 살펴보면, 모든 지표에 대하여 멜-스펙트럼의 성능이 가장 좋고, 그 다음이 감마톤 스펙트럼, 그리고 로그-멜 스펙트럼의 성능이 가장낮게 나타났다. 멜-스펙트럼과 감마톤 스펙트럼의 성능 차이는 1 % ~ 2 % 정도로 크지 않았으나, 로그-멜-스펙트럼은 4 % ~ 8 % 정도의 큰 성능 저하를 보였다.
이는 결국 파라미터의 설정 값에 따라 성능이 변할 수 있다는 것을 의미하며, 이에 대한 영향을 분석하기 위하여 DCASE 2020 Task 4 데이터를 이용하여 시뮬레이션을 진행 하였다. 시뮬레이션 결과, 멜-스펙트럼과 감마톤 스펙트럼의 성능이 비교적 높게 나타났으며, 이동 평균 파라미터의 경우 일반적으로 많이 사용하는 0.999 보다 0.99의 값에서 더 좋은 성능이 나타났고, 비교적 성능에 미치는 영향이 큰 편이었다. 일관성 비용함수의 가중치는 4 ~ 16 사이의 값에서 좋은 성능을 보 였고, 램프-업 길이는 성능에 미치는 영향이 크지 않 았다.
99의 값에서 더 좋은 성능이 나타났고, 비교적 성능에 미치는 영향이 큰 편이었다. 일관성 비용함수의 가중치는 4 ~ 16 사이의 값에서 좋은 성능을 보 였고, 램프-업 길이는 성능에 미치는 영향이 크지 않 았다. 최대 학습율 또한 0.

참고문헌 (15)

D. Barchiesi, D. Giannoulis, D. Stowell, and M. D. Plumbley, "Acoustic scene classification: Classifying environments from the sounds they produce," IEEE Signal Process. Mag. 32, 16-34 (2015).

상세보기
E. Cakir, T. Heittola, H. Huttunen, and T. Virtanen, "Polyphonic sound event detection using multi label deep neural networks," Proc. IJCNN. 1-7 (2015).
S. Lee and H.-S.Pang, "Feature extraction based on the non-negative matrix factorization of convolutional neural networks for monitoring domestic activity with acoustic signals," IEEE Access, 8, 122384-122395 (2020).

상세보기
N. Trupault, R. Serizel, A. P. Shah, and J. Salamon, "Sound event detection in domestic environments with weakly labeled data and soundscape synthesis," Proc. 2019 DCASE Workshop, 253-257 (2019).
P. Bachman, O. Alsharif, and D. Precup, "Learning with pseudo-ensembles," Advances in Neural Information Processing Systems, 27, 3365-3373 (2014).
M. Sajjadi, M. Javanmardi, and T. Tasdizen, "Regularization with stochastic transformations and perturbations for deep semi-supervised learning," Advances in Neural Information Processing Systems, 30, 1163-1171 (2016).
S. Laine and T. Alia, "Temporal ensembling for semi-supervised learning," arXiv preprint arXiv:1610.02242 (2016).
A. Tarvainen and H. Valpola, "Mean teachers are better role models: weight-averaged consistency targets improve semi-supervised deep learning results," Advances in Neural Information Processing Systems, 31, 1195-1204 (2017).
L. JiaKai and P. Shanghai, "Mean teacher convolution system for dcase 2018 task 4," DCASE. 2018 Challenge Tech. Rep., 2018.
L. Delphin-Poulat and C. Plapous, "Mean teacher with data augmentation for dcase 2019 task 4," Orange Labs Lannion Tech. Rep., 2019.
J. Yan and Y. Song, "Weakly labeled sound event detection with residual crnn using semi-supervised method," DCASE 2019 Challenge Tech. Rep., 2019.
S. Lee, M. Kim, and Y. Jeong, "A study on the waveform-based end-to-end deep convolutional neural network for weakly supervised sound event detection" (in Korean), J. Acoust. Soc. Kr. 39, 24-31 (2020).
A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin, "Attention is all you need," Advances in Neural Information Processing Systems, 31, 5998-6008 (2017).
K Miyazaki, T. Komatsu, and T. Hayashi, "Convolution augmented transformer for semi-supervised sound event detection," Proc. 2019 DCASE Workshop, 100-104 (2019).
D. P. Kingma and J. Ba, "Adam: A method for stochastic optimization," arXiv preprint arXiv:1412. 6980 (2014).

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증