최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기한국음향학회지= The journal of the acoustical society of Korea, v.39 no.1, 2020년, pp.24 - 31
이석진 (경북대학교 전자공학부) , 김민한 (경북대학교 전자공학부) , 정영호 (한국전자통신연구원 미디어부호화연구실)
In this paper, the deep convolutional neural network for sound event detection is studied. Especially, the end-to-end neural network, which generates the detection results from the input audio waveform, is studied for weakly supervised problem that includes weakly-labeled and unlabeled dataset. The ...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
음향 이벤트 검출 문제란 무엇인가? | 이를 위하여 기계가 여러 종류의 입력 신호들을 이용하여 현재의 상황을 인식하거나 특정 이벤트를 검출하는 등의 연구가 진행되고 있으며, 특히 입력 신호가 음향 신호인 경우 위의 과업을 수행하도록 기계를 학습시키는 문제들이 음향 환경 인식[1] 혹은 음향 이벤트 검출[2]과 같은 문제로 정의되어 연구되고 있다. 음향 환경 인식 문제의 경우 상대적으로 긴 특정 음향 신호를 특정 환경으로 분류하는 문제를 주로 다루고 있으며, 음향 이벤트 검출 문제의 경우 음향 신호 내에서 상대적으로 짧은 음향 이벤트를 검출하는 문제로서, 이벤트의 종류 뿐 아니라 시작 혹은 종료 시점까지 함께 검출하는 특징을 가지고 있다. 따라서 음향 이벤트 검출 문제의 학습 데이터는 각 이벤트의 종류, 시작 시점, 종료 시점이 정답으로 제공된다. | |
음향 이벤트 검출 문제의 특징은 무엇인가? | 이를 위하여 기계가 여러 종류의 입력 신호들을 이용하여 현재의 상황을 인식하거나 특정 이벤트를 검출하는 등의 연구가 진행되고 있으며, 특히 입력 신호가 음향 신호인 경우 위의 과업을 수행하도록 기계를 학습시키는 문제들이 음향 환경 인식[1] 혹은 음향 이벤트 검출[2]과 같은 문제로 정의되어 연구되고 있다. 음향 환경 인식 문제의 경우 상대적으로 긴 특정 음향 신호를 특정 환경으로 분류하는 문제를 주로 다루고 있으며, 음향 이벤트 검출 문제의 경우 음향 신호 내에서 상대적으로 짧은 음향 이벤트를 검출하는 문제로서, 이벤트의 종류 뿐 아니라 시작 혹은 종료 시점까지 함께 검출하는 특징을 가지고 있다. 따라서 음향 이벤트 검출 문제의 학습 데이터는 각 이벤트의 종류, 시작 시점, 종료 시점이 정답으로 제공된다. | |
약지도 문제에서 어떤 데이터가 주이지며 그 데이터들의 특징은 무엇인가? | 특히 음향 이벤트 검출 문제에 대해서는 Detectionand Classification of Acoustic Scenes and Events(DCASE) 2019에서 다음과 같은 약지도 문제가 제시된 바 있다.[3] 제공되는 학습데이터는 크게 3 종류이며, 첫 번째 데이터셋은 강하게 표기된 합성 데이터로, 이벤트의 종류, 시작, 종료 시점이 모두 제공되지만 실제 녹음된 데이터가 아니라 인위적으로 합성된 데이터이고 데이터의 수도 제한적이다. 두 번째 데이터 셋은 약하게 표기된 데이터로, 실제 환경에서 녹음된 데이터이지만 각 오디오 클립에 포함된 이벤트의 종류만 제공되고 시작, 종료 시점이 제공되지 않는다. 세 번째 데이터셋은 표기되지 않은 데이터로, 녹음된 데이터 및 인터넷 상의 여러 데이터를 포함하고 있으며, 데이터의 양은 많으나 아무런 정보가 표기되어 있지 않다. 이와 같이 제한된 정보를 가지고 검출 시스템을 구축하는 것이 약지도 음향 이벤트 검출 문제로 다루어지고 있다. |
D. Barchiesi, D. Giannoulis, D. Stowell, and M. D. Plumbley, "Acoustic scene classification: Classifying environments from the sounds they produce," IEEE Signal Process. Mag. 32, 16-34 (2015).
E. Cakir, T. Heittola, H. Huttunen, and T. Virtanen, "Polyphonic sound event detection using multi label deep neural networks," Proc. IJCNN. 1-7 (2015).
N. Turpault, R. Serizel, A. P. Shah, and J. Salamon, "Sound event detection in domestic environments with weakly labeled data and soundscape synthesis," Proc. 2019 DCASE Workshop, 253-257 (2019).
J. Lee, J. Park, K. Kim, and J. Nam, "Samplecnn: End-to-end deep convolutional neural networks using very small filters for music classification," Applied Sciences, 8, 150 (2018).
Y. Tokozume and T. Harada, "Learning environmental sounds with end-to-end convolutional neural network," Proc. ICASSP. 2721-2725 (2017).
S. Chu, S. Narayanan, C. -C. J. Kuo, and M. J. Mataric, "Where am I? scene recognition for mobile robots using audio features," Proc. IEEE Intern. Conf. Multimedia and Expo. 885-888 (2006).
J. -J. Aucouturier, B. Defreville, and F. Pachet, "The bag-of-frames approach to audio pattern recognition: A sufficient model for urban soundscapes but not for polyphonic music," J. Acoust. Soc. Am. 122, 881-891 (2007).
J. Salamon and J. P. Bello, "Deep convolutional neural networks and data augmentation for environmental sound classification," IEEE Sig. Proc. Lett. 24, 279-283 (2017).
R. Raj, S. Waldekar, and G. Saha, "Large-scale weakly labelled semi-supervised CQT based sound event detection in domestic environments," DCASE2018 Challenge Tech. Rep., 2018.
K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," Proc. IEEE Conf. Comput. Vis. Pattern Recognit, 770-778 (2016).
S. Woo, J. Park, J. -Y. Lee, and I. S. Kweon, "CBAM: convolutional block attention module," Proc. ECCV. 3-19 (2018).
J. Wagner, D. Schiller, A. Seiderer, and E. Andre, "Deep learning in paralinguistic recognition tasks: are hand-crafted features still relevant?," Proc. Interspeech, 147-151 (2018).
Q. Zhou and Z. Feng, "Robust sound event detection through noise estimation and source separation using NMF," Proc. DCASE 2017 (2017).
T. Hayashi, S. Watanabe, T. Toda, T. Hori, J. L. Roux, and K. Takeda, "BLSTM-HMM hybrid system combined with sound activity detection network for polyphonic sound event detection," Proc. ICASSP. 776-770 (2017).
L. Jiakai and P. Shanghai, "Mean teacher convolution system for DCASE 2018 task 4," DCASE 2018 Challenge Tech. Rep., 2018.
D. P. Kingma and J. Ba, "Adam: A method for stochastic optimization," arXiv preprint arXiv:1412.6980 (2014).
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
오픈액세스 학술지에 출판된 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.