$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

평균-교사 합성곱 순환 신경망 모델을 이용한 약지도 음향 이벤트 검출 시스템의 성능 분석
Performance analysis of weakly-supervised sound event detection system based on the mean-teacher convolutional recurrent neural network model 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.40 no.2, 2021년, pp.139 - 147  

이석진 (경북대학교 전자공학부)

초록
AI-Helper 아이콘AI-Helper

본 논문은 데이터의 일부만 레이블링이 되어있는 약지도 학습을 기반으로 하는 음향 이벤트 검출 시스템을 소개 및 구현하고, 시뮬레이션을 통해 각 파라미터가 성능에 미치는 영향을 분석하였다. 음향 이벤트 검출 시스템은 음향 신호 내에 존재하는 이벤트의 종류, 시작/종료 시점을 추정하는 시스템으로, 이를 학습시키기 위해서는 음향 이벤트 신호와 그 종류, 시작/종료 시점에 대한 모든 정보가 제공되어야 한다. 하지만 이를 모두 표기하여 학습데이터를 만드는 것은 매우 큰 비용이 들어가며, 특히 시작/종료 시점을 정확히 표기하는 것은 매우 어렵다. 따라서 본 논문에서 다루는 약지도 학습 문제에서는 이벤트의 종류와 시작/종료 시점이 모두 표기된 "강하게 표기된 데이터"와, 이벤트의 종류만 표기된 "약하게 표기된 데이터", 그리고 아무런 표기가 되어 있지 않은 "미표기 데이터"를 이용하여 음향 이벤트 검출 시스템을 학습시킨다. 최근 이러한 문제에서는 평균-교사 모델을 이용한 음향 이벤트 검출 시스템의 성능이 우수하며, 따라서 널리 사용되고 있다. 다만, 평균-교사 모델은 많은 파라미터를 가지고 있고, 이는 성능에 영향을 다소 미칠 수 있으므로 신중하게 선택되어야 한다. 본 논문에서는 DCASE 2020 Task 4의 데이터를 이용하여 특징 값의 종류, 이동 평균 파라미터, 일관성 비용함수의 가중치, 램프-업 길이, 그리고 최대 학습율 등 5가지의 값에 대해 성능 분석을 진행하였으며, 각 파라미터에 대한 영향 및 최적 값에 대해 고찰하였다.

Abstract AI-Helper 아이콘AI-Helper

This paper introduces and implements a Sound Event Detection (SED) system based on weakly-supervised learning where only part of the data is labeled, and analyzes the effect of parameters. The SED system estimates the classes and onset/offset times of events in the acoustic signal. In order to train...

주제어

표/그림 (8)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 최근 시행된 DCASE 2019 및 DCASE 2020 의 Task 4에서 정의된 약지도 음향 이벤트 검출 문제는 다음과 같다. Fig. 1에서 보는 바와 같이, 약지도 음향 이벤트 검출 시스템은 찾고자하는 이벤트 클래스가 특정 오디오 클립에 존재하는지 여부, 그리고 시작/종료 시점을 찾는 것을 목표로 한다. 이는 일반적인 음향이벤트 문제에서 다루는 바와 동일하다.
  • 본 논문에서는 DCASE 등을 중심으로 최근 연구 되고 있는 약지도 음향 이벤트 검출 문제에 대해 살펴보고, 이를 위한 평균-교사 모델 기법에 대해 소개한다. 그리고 공개된 데이터셋을 이용, 파라미터를 변경한 반복 실험을 통해 파라미터 값에 따른 성능을 분석하고자 한다.
  • 본 논문에서는, 강하게 및 약하게 표기된 데이터, 그리고 미표기 데이터를 이용하여 학습할 수 있는 약지도 음향 이벤트 검출 시스템을 구현하고, 파라 미터 설정에 따른 성능의 차이를 분석하였다. 본 논문에서 구현된 약지도 음향 이벤트 검출 시스템은 최근 DCASE 등에서 널리 사용되고 있는 평균-교사 모델이 적용된 합성곱 순환 신경망 모델의 구조를 기반으로 하였다.
  • 등의 사용자 설정 파라미터를 가지며, 이러한 파라미터는 모두 학습 및 분류 성능에 영향을 미치게 된다. 본 논문에서는, 실제 녹음된 음향 이벤트 데이터베이스에 대한 시뮬레이션을 통하여 각 파라미터가 성능에 미치는 영향을 분석하고자 한다.
본문요약 정보가 도움이 되었나요?

참고문헌 (15)

  1. D. Barchiesi, D. Giannoulis, D. Stowell, and M. D. Plumbley, "Acoustic scene classification: Classifying environments from the sounds they produce," IEEE Signal Process. Mag. 32, 16-34 (2015). 

  2. E. Cakir, T. Heittola, H. Huttunen, and T. Virtanen, "Polyphonic sound event detection using multi label deep neural networks," Proc. IJCNN. 1-7 (2015). 

  3. S. Lee and H.-S.Pang, "Feature extraction based on the non-negative matrix factorization of convolutional neural networks for monitoring domestic activity with acoustic signals," IEEE Access, 8, 122384-122395 (2020). 

  4. N. Trupault, R. Serizel, A. P. Shah, and J. Salamon, "Sound event detection in domestic environments with weakly labeled data and soundscape synthesis," Proc. 2019 DCASE Workshop, 253-257 (2019). 

  5. P. Bachman, O. Alsharif, and D. Precup, "Learning with pseudo-ensembles," Advances in Neural Information Processing Systems, 27, 3365-3373 (2014). 

  6. M. Sajjadi, M. Javanmardi, and T. Tasdizen, "Regularization with stochastic transformations and perturbations for deep semi-supervised learning," Advances in Neural Information Processing Systems, 30, 1163-1171 (2016). 

  7. S. Laine and T. Alia, "Temporal ensembling for semi-supervised learning," arXiv preprint arXiv:1610.02242 (2016). 

  8. A. Tarvainen and H. Valpola, "Mean teachers are better role models: weight-averaged consistency targets improve semi-supervised deep learning results," Advances in Neural Information Processing Systems, 31, 1195-1204 (2017). 

  9. L. JiaKai and P. Shanghai, "Mean teacher convolution system for dcase 2018 task 4," DCASE. 2018 Challenge Tech. Rep., 2018. 

  10. L. Delphin-Poulat and C. Plapous, "Mean teacher with data augmentation for dcase 2019 task 4," Orange Labs Lannion Tech. Rep., 2019. 

  11. J. Yan and Y. Song, "Weakly labeled sound event detection with residual crnn using semi-supervised method," DCASE 2019 Challenge Tech. Rep., 2019. 

  12. S. Lee, M. Kim, and Y. Jeong, "A study on the waveform-based end-to-end deep convolutional neural network for weakly supervised sound event detection" (in Korean), J. Acoust. Soc. Kr. 39, 24-31 (2020). 

  13. A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin, "Attention is all you need," Advances in Neural Information Processing Systems, 31, 5998-6008 (2017). 

  14. K Miyazaki, T. Komatsu, and T. Hayashi, "Convolution augmented transformer for semi-supervised sound event detection," Proc. 2019 DCASE Workshop, 100-104 (2019). 

  15. D. P. Kingma and J. Ba, "Adam: A method for stochastic optimization," arXiv preprint arXiv:1412. 6980 (2014). 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로