$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

음성위조 탐지에 있어서 데이터 증강 기법의 성능에 관한 비교 연구
Comparative study of data augmentation methods for fake audio detection 원문보기

응용통계연구 = The Korean journal of applied statistics, v.36 no.2, 2023년, pp.101 - 114  

박관열 (중앙대학교 응용통계학과) ,  곽일엽 (중앙대학교 응용통계학과)

초록
AI-Helper 아이콘AI-Helper

데이터 증강 기법은 학습용 데이터셋을 다양한 관점에서 볼 수 있게 해주어 모형의 과적합 문제를 해결하는데 효과적으로 사용되고 있다. 이미지 데이터 증강기법으로 회전, 잘라내기, 좌우대칭, 상하대칭등의 증강 기법 외에도 occlusion 기반 데이터 증강 방법인 Cutmix, Cutout 등이 제안되었다. 음성 데이터에 기반한 모형들에 있어서도, 1D 음성 신호를 2D 스펙트로그램으로 변환한 후, occlusion 기반 데이터 기반 증강기법의 사용이 가능하다. 특히, SpecAugment는 음성 스펙트로그램을 위해 제안된 occlusion 기반 증강 기법이다. 본 연구에서는 위조 음성 탐지 문제에 있어서 사용될 수 있는 데이터 증강기법에 대해 비교 연구해보고자 한다. Fake audio를 탐지하기 위해 개최된 ASVspoof2017과 ASVspoof2019 데이터를 사용하여 음성을 2D 스펙트로그램으로 변경시켜 occlusion 기반 데이터 증강 방식인 Cutout, Cutmix, SpecAugment를 적용한 데이터셋을 훈련 데이터로 하여 CNN 모형을 경량화시킨 LCNN 모형을 훈련시켰다. Cutout, Cutmix, SpecAugment 세 증강 기법 모두 대체적으로 모형의 성능을 향상시켰으나 방법에 따라 오히려 성능을 저하시키거나 성능에 변화가 없을 수도 있었다. ASVspoof2017 에서는 Cutmix, ASVspoof2019 LA 에서는 Mixup, ASVspoof2019 PA 에서는 SpecAugment 가 가장 좋은 성능을 보였다. 또, SpecAugment는 mask의 개수를 늘리는 것이 성능 향상에 도움이 된다. 결론적으로, 상황과 데이터에 따라 적합한 augmentation 기법이 다른 것으로 파악된다.

Abstract AI-Helper 아이콘AI-Helper

The data augmentation technique is effectively used to solve the problem of overfitting the model by allowing the training dataset to be viewed from various perspectives. In addition to image augmentation techniques such as rotation, cropping, horizontal flip, and vertical flip, occlusion-based data...

주제어

참고문헌 (36)

  1. Abdel-Hamid O, Mohamed AR, Jiang H, Deng L, Penn G, and Yu D (2014). Convolutional neural networks for?speech recognition, IEEE/ACM Transactions on Audio, Speech, and Language Processing, 22, 1533-1545. 

  2. Brown JC (1991). Calculation of a constant Q spectral transform, The Journal of the Acoustical Society of America, 89, 425-434. 

  3. Chapelle O, Weston J, Bottou L, and Vapnik V (2000). Vicinal risk minimization, Advances in Neural Information?Processing Systems, 13, Cambridge MA, USA. 

  4. Cheng X, Xu M, and Zheng TF (2019). Replay detection using CQT-based modified group delay feature and?ResNeWt network in ASVspoof 2019. In Proceedings of 2019 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), Lanzhou, China, 540-545. 

  5. Choi HJ and Kwak IY (2021). Data augmentation in voice spoofing problem, The Korean Journal of Applied?Statistics, 34, 449-460. 

  6. Delgado H, Todisco M, Sahidullah M, Evans N, Kinnunen T, Lee KA, and Yamagishi J (2017). ASVspoof?2017 Version 2.0: Meta-data analysis and baseline enhancement, Odyssey 2018-The Speaker and Language?Recognition Workshop. 

  7. DeVries T and Taylor GW (2017). Improved regularization of convolutional neural networks with Cutout, Available from: arXiv preprint arXiv 

  8. Dua M, Jain C, and Kumar S (2021). LSTM and CNN based ensemble approach for spoof detection task in?automatic speaker verification systems, Journal of Ambient Intelligence and Humanized Computing, 13,?1985-2000. 

  9. Fong R and Vedaldi A (2019). Occlusions for effective data augmentation in image classification. In Proceedings?of 2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW), Seoul, Korea, 4158-4166. 

  10. Goodfellow I, Warde-Farley D, Mirza M, et al. (2013). Maxout networks, In Proceedings of the 30th International?Conference on Machine Learning (ICML), Atlanta, Georgia, USA, 1319-1327. 

  11. Haut JM, Paoletti ME, Plaza J, Plaza A, and Li J (2019). Hyperspectral image classification using random occlusion data augmentation, IEEE Geoscience and Remote Sensing Letters, 16, 1751-1755. 

  12. Hsu CY, Lin LE, and Lin CH (2021). Age and gender recognition with random occluded data augmentation on?facial images, Multimedia Tools and Applications, 80, 11631-11653. 

  13. Ioffe S and Szegedy C (2015). Batch normalization: Accelerating deep network training by reducing internal?covariate shift, International Conference on Machine Learning, 37, 448-456. 

  14. Yang J, Das RK, and Li H (2018). Extended constant-Q cepstral coefficients for detection of spoofing attacks.?In Proceedings of 2018 Asia-Pacific Signal and Information Processing Association Annual Summit and?Conference (APSIPA ASC), Honolulu, HI, USA, 1024-1029. 

  15. Ke Y, Hoiem D, and Sukthankar R (2005). Computer vision for music identification. In Proceedings of 2005?IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05), San Diego,?CA, USA, 597-604. 

  16. Kim G, Han DK, and Ko H (2021). Specmix: A mixed sample data augmentation method for training with?time-frequency domain features, Available from: arXiv preprint arXiv:2108.03020 

  17. Kinnunen T, Delgado H, Evans N, et al. (2020). Tandem assessment of spoofing countermeasures and automatic?speaker verification: Fundamentals, IEEE/ACM Transactions on Audio, Speech, and Language Processing,?28, 2195-2210. 

  18. Krizhevsky A, Sutskever I, and Hinton GE (2012). Imagenet classification with deep convolutional neural networks, Communications of the ACM, 60, 84-90. 

  19. Lavrentyeva G, Novoselov S, Malykh E, Kozlov A, Kudashev O, and Shchemelinin V (2017). Audio replay?attack detection with deep learning frameworks, In Interspeech 2017 (pp. 82-86). 

  20. Lavrentyeva, G, Novoselov S, Tseren A, Volkova M, Gorlanov A, and Kozlov A (2019). STC antispoofing systems for the ASVspoof2019 challenge, Interspeech 2019, 1033-1037. 

  21. Madhu A and Kumaraswamy S (2019). Data augmentation using generative adversarial network for environmental sound classification. In Proceedings of 27th IEEE European Signal Processing Conference (EUSIPCO),?A Coruna, Spain, 1-5. 

  22. Nam H, Kim SH, and Park YH (2022). FilterAugment: An acoustic environmental data augmentation method.?In Proceedings of ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal?Processing (ICASSP), Singapore,4308-4312. 

  23. Nagarsheth P, Khoury E, Patil K, and Garland M (2017). Replay attack detection using DNN for channel discrimination, Interspeech 2017, 97-101. 

  24. Park DS, Chan W, Zhang Y, Chiu C-C, Zoph B, Cubuk ED, and Le QV (2019). SpecAugment: A simple data?augmentation method for automatic speech recognition, Available from: arXiv preprint arXiv:1904.08779 

  25. Shim HJ, Jung JW, Kim JH, and Yu HJ (2022). Attentive max feature map and joint training for acoustic scene?classification. In Proceedings of ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech?and Signal Processing (ICASSP), Singapore, 1036-1040. 

  26. Singh KK, Yu H, Sarmasi A, Pradeep G, Lee YJ (2018). Hide-and-Seek: A data augmentation technique for?weakly-supervised localization and beyond, Available from: arXiv preprint arXiv:1811.02545 

  27. Sukthankar R, Ke Y, and Hoiem D (2006). Semantic learning for audio applications: A computer vision approach.?In Proceedings of 2006 Conference on Computer Vision and Pattern Recognition Workshop (CVPRW'06),?New York, NY, USA, 112-112. 

  28. Tomilov A, Svishchev A, Volkova M, Chirkovskiy A, Kondratev A, and Lavrentyeva G (2021). STC Antispoofing?Systems for the ASVspoof2021 Challenge. In Proc. 2021 Edition of the Automatic Speaker Verification and?Spoofing Countermeasures Challenge, (pp. 61-67). 

  29. Wei S, Zou S, and Liao F (2020). A comparison on data augmentation methods based on deep learning for audio?classification, Journal of Physics: Conference Series, 1453, 012085. 

  30. Witkowski M, Kacprzak S, Zelasko P, Kowalczyk K, and Galka J (2017). Audio replay attack detection using?high-frequency features, Interspeech 2017, 27-31. 

  31. Wu X, He R, Sun Z, and Tan T (2018). A light cnn for deep face representation with noisy labels, IEEE Transactions on Information Forensics and Security, 13, 2884-2896. 

  32. Wu Z, Kinnunen T, Evans N, Yamagishi J, Hanilci C, Sahidullah Md, and Sizov A (2015). ASVspoof 2015: The?first automatic speaker verification spoofing and countermeasures challenge, Sixteenth Annual Conference?of the International Speech Communication Association, 2037-2041. 

  33. Yun S, Han D, Chun S, Oh SJ, Yoo Y, and Choe J (2019). Cutmix: Regularization strategy to train strong classifiers with localizable features. In Proceedings of the IEEE/CVF international conference on computer vision?(ICCV), Seoul, Korea, 6023-6032. 

  34. Zhang C, Yu C, and Hansen JH (2017). An investigation of deep-learning frameworks for speaker verification?antispoofing, IEEE Journal of Selected Topics in Signal Processing, 11, 684-694. 

  35. Zhang H, Cisse M, Dauphin YN, and Lopez-Paz D (2017). Mixup: Beyond empirical risk minimization, Available?from: arXiv preprint arXiv 

  36. Zhong Z, Zheng L, Kang G, Li S, and Yang Y (2020). Random erasing data augmentation, In Proceedings of the?AAAI conference on artificial intelligence, Hilton New York Midtown, NY, USA, 13001-13008. 

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로