최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기말소리와 음성과학 = Phonetics and speech sciences, v.7 no.4, 2015년, pp.27 - 33
This paper proposes an audio event classification method using Deep Neural Networks (DNN). The proposed method applies Feed Forward Neural Network (FFNN) to generate event probabilities of ten audio events (dog barks, engine idling, and so on) for each frame. For each frame, mel scale filter bank fe...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
기존의 오디오 이벤트 인식 연구는 어떠한 주제를 중점으로 연구했는가? | 영상속의 의미를 자동으로 분석하기 위해서는 그 속에 포함된 오디오 이벤트를 인식하는 기술은 필수적이다. 오디오 이벤트 인식의 경우 기존에는 오디오 신호로부터 zero crossing rate, spectal flux, band periodicity 등 다양한 특징 값들의 성능을 검증하는 연구와, 전통적인 분류 방법인 규칙기반 (rule-based), Gaussian Mixture Model(GMM) 기반 분류기에 관련한 연구가 주를 이루었다[1]-[3]. 하지만 대부분의 연구는 음악/음성/기타소리를 구분하는 등 제한적인 클래스 분류가 주를 이루었다. | |
영상을 이용한 미디어 분석 연구에 필수적인 기술은? | 이에 맞추어 구글, 페이스북 등 영상을 이용한 새로운 맞춤지식을 생성하는 기술 개발이 시도되는 등 최근 미디어 분석 연구가 활발히 진행되고 있다. 영상속의 의미를 자동으로 분석하기 위해서는 그 속에 포함된 오디오 이벤트를 인식하는 기술은 필수적이다. 오디오 이벤트 인식의 경우 기존에는 오디오 신호로부터 zero crossing rate, spectal flux, band periodicity 등 다양한 특징 값들의 성능을 검증하는 연구와, 전통적인 분류 방법인 규칙기반 (rule-based), Gaussian Mixture Model(GMM) 기반 분류기에 관련한 연구가 주를 이루었다[1]-[3]. | |
DNN의 장점은? | 최근 기계학습 분야에서 괄목할만한 성능 향상을 보이는 기술로서 Deep Neural Network (DNN)이 주목 받고 있다. DNN은 많은 수의 계층으로 구성된 깊은 인공 신경망으로서 기존의 인공 신경망보다 복잡한 비선형적인 학습 경계를 구분 지을 수 있어 분류 문제에 있어 더 좋은 성능을 얻을 수 있다. 다만 DNN의 수많은 파라미터를 추정하는 데에 있어서 높은 연산량이 요구되어 어려움이 있었지만, 최근 하드웨어 기술의 발전으로 다양한 응용 분야에 DNN을 성공적으로 적용할 수 있게 되었다. |
Lu, L., Jiang, H., & Zhang, H. (2001). A robust audio classification and segmentation method, in Proc. ACM International Conference on Multimedia, 203-211.
Xu, M., et al. (2003). Creating audio keywords for event detection in soccer video, in Proc. IEEE International Conference on Multimedia and Expo, 281-284.
Cheng, W., Chu, W., and Wu, J. (2003). Semantic context detection based on hierarchical audio models, in Proc. ACM SIGMM International Workshop on Multimedia Information Retrieval, 109-115.
Elo, J. P., et al. (2009). Non-speech audio event detection, in Proc. Internationa Conference on Acoustics, Speech and Signal Processing, 1973-1976.
Heittola, T., et al. (2013). Context-dependent sound event detection, EURASIP Journal on Audio, Speech, and Music Processing, 11-13.
Lee, H., Pham, P., Largman, Y., & Ng, A. Y. (2009). Unsupervised feature learning for audio classification using convolutional deep belief networks. in Proc. Advances in Neural Information Processing Systems, 1096-1104.
K, Zvi., & T, Orith. (2013). Audio event classification using deep neural networks, in Proc. INTERSPEECH, 1482-1486.
Ballan, L., et al. (2009). Deep networks for audio event classification in soccer videos, in Proc. International Conference on Multimedia and Expo, 474-477.
Bengio, Y. & LeCun, Y. (2007). Scaling learning algorithms towards AI, Large-scale Kernel Machines, Vol. 34, No.5, 321-360.
Barker, J., et al. (2012). The PASCAL CHiME speech separation and recognition challenge, Computer Speech & Language, Vol. 27, No. 3, 621-633.
Downie, S., et al. (2010). The Music Information Retrieval Evaluation eXchange: Some observations and insights, Advances in Music Information Retrieval. Springer, 93-115.
Malkin, R. G. (2007). Multimodal Technologies for Perception of Humans. Springer, 323-330.
Smeaton, F. et al. (2006). Evaluation campaigns and TRECVid, in Proc. ACM International Workshop on Multimedia Information Retrieval, 321-330.
Vincen, E., et al. (2012). The signal separation evaluation campaign (2007-2010): Achievements and remaining challenges, Signal Processing, Vol. 92, No. 8, 1928-1936.
Larochelle, H., et al. (2007). An empirical evaluation of deep architectures on problems with many factors of variation. in Proc. International Conference on Machine learning, 473-480.
Dahl, G. E., Sainath, T. N., & Hinton, G. E. (2013). Improving deep neural networks for LVCSR using rectified linear units and dropout, in Proc. International Conference on Acoustics, Speech and Signal Processing, 8609-8613.
Bottou, L. (2004). Advanced Lectures on Machine Learning, Sringer, 146-168.
Salamon, J., Jacoby, C., & Bello, J. P. (2014), A dataset and taxonomy for urban sound research, in Proc. ACM International Conference on Multimedia, 1041-1044.
Young, S., et al. (1999). The HTK Book. Cambridge, U.K.: Entropic.
Bergstra, J., et al. (2010). Theano: A CPU and GPU math expression compiler. in Proc. Python for Scientific Computing Conference, Vol. 4, p. 3.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.