$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

발화구간 검출을 위해 학습된 CNN 기반 입 모양 인식 방법
Lip Reading Method Using CNN for Utterance Period Detection 원문보기

디지털융복합연구 = Journal of digital convergence, v.14 no.8, 2016년, pp.233 - 243  

김용기 (충북대학교 컴퓨터공학과) ,  임종관 ,  김미혜 (충북대학교 컴퓨터공학과)

초록
AI-Helper 아이콘AI-Helper

소음환경에서의 음성인식 문제점으로 인해 1990년대 중반부터 음성정보와 영양정보를 결합한 AVSR(Audio Visual Speech Recognition) 시스템이 제안되었고, Lip Reading은 AVSR 시스템에서 시각적 특징으로 사용되었다. 본 연구는 효율적인 AVSR 시스템을 구축하기 위해 입 모양만을 이용한 발화 단어 인식률을 극대화하는데 목적이 있다. 본 연구에서는 입 모양 인식을 위해 실험단어를 발화한 입력 영상으로부터 영상의 전처리 과정을 수행하고 입술 영역을 검출한다. 이후 DNN(Deep Neural Network)의 일종인 CNN(Convolution Neural Network)을 이용하여 발화구간을 검출하고, 동일한 네트워크를 사용하여 입 모양 특징 벡터를 추출하여 HMM(Hidden Markov Mode)으로 인식 실험을 진행하였다. 그 결과 발화구간 검출 결과는 91%의 인식률을 보임으로써 Threshold를 이용한 방법에 비해 높은 성능을 나타냈다. 또한 입모양 인식 실험에서 화자종속 실험은 88.5%, 화자 독립 실험은 80.2%로 이전 연구들에 비해 높은 결과를 보였다.

Abstract AI-Helper 아이콘AI-Helper

Due to speech recognition problems in noisy environment, Audio Visual Speech Recognition (AVSR) system, which combines speech information and visual information, has been proposed since the mid-1990s,. and lip reading have played significant role in the AVSR System. This study aims to enhance recogn...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 따라서 본 연구에서 제안한 방법을 검토하기 위한 발화 단어에 대한 데이터베이스를 자체적으로 10개 단어에 대해 10명으로부터 수집한 동영상으로 구축하였다. 본 논문에서 제안한 실험의 주목적은 모바일 환경에서 Wake-Up 기능이 가능한 명령어들에 대해 입모양만을 이용한 발화 단어 인식이다. Wake-Up 기능의 시작을 알리는 “하이”와 다양한 모바일 명령어의 합성어를한 단어로 구성하여 데이터베이스를 구축하였다.
  • 본 연구는 효율적인 AVSR 시스템을 구축하기 위해 입 모양만을 이용한 발화 단어 인식률을 극대화하는 동시에 하나의 네트워크로 발화구간 검출과 입 모양 인식이 가능한지 확인하는데 목적이 있다. 이 두 가지 목적을 달성하기 위해 발화구간 자동 검출로 학습시킨 CNN(Convolution Neural Network)을 이용하여 발화구간 검출 실험을 하였고, 동일한 네트워크로 입 모양 특징을 추출하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
음성 인터페이스의 장점은 무엇인가? 인간과 컴퓨터의 상호작용 수단 중 하나인 음성은 인간과 기계 간 정보교환의 효율적인 방법 중 하나이다. 음성 인터페이스는 기존의 마우스, 키보드를 사용하는 사용자 인터페이스보다 더 직관적이고 다양한 형태의 상호작용이 가능하다는 이점이 있다[1].
음성인식이 가진 문제점은 무엇인가? 최근 음성인식기술은 이미 상용화되어 다양한 제품에 적용하여 출시되고 있다. 그러나 음성인식은 소음이 존재하는 실제 환경에서 인식률이 하락하는 문제점이 있다. 이를 극복하기 위해 음성 신호만으로 여러 가지 방법을 적용시켜 소음 환경에서 음성 인식률의 하락을 막는 방법들이 연구되어 왔다[2].
입술의 가로, 세로 비율의 변화를 통해 입술의 움직임을 검출하는 방법이 가진 두 가지 문제점은 무엇인가? 그러나 입술의 가로, 세로 비율의 변화를 통해 입술의 움직임을 검출하는 방법은 다음과 같은 문제점을 안고 있다. 첫 번째, 입 모양 인식 시스템에서 입술 윤곽을 검출하는 방법 및 입술 영역의 움직임, edge 정보, 영상 정보 등을 추출하는 단계는 정확성과 안정성에 있어 매우 중요한 문제이다[14]. 그러나 영상 처리 시 입술 영역의 검출에 대한 많은 시도들이 이루어져 있으나, 정확한 입술 영역 검출은 여전히 어려운 문제이다[13,14,15]. 기존 우리의 연구에서 검출된 입술 영역의 흔들림 문제가 인식률 저하로 나타나는 문제가 발견되었다. 두 번째, Lip Reading의 자동화에 필수적인 입술 움직임 구간 검출 역시 입술의 윤곽 검출이나 입술 영역 영상값 등에 종속적[1,16,17]인데 영상 잡음으로 인한 낮은 검출 성공률이 움직임 구간 검출의 성공률마저 저해하는 것으로 나타났다.
질의응답 정보가 도움이 되었나요?

참고문헌 (28)

  1. Y. K. Kim, J. G. Lim, and M. H. Kim, “Feature Generations Analysis of Lip Image Streams for Isolate Words Recognition,” International Journal of Multimedia and Ubiquitous Engineering, Vol. 10, No. 10, pp. 337-346, 2015. 

  2. Luettin, Juergen, and Neil A. Thacker, “Speechreading using probabilistic models,” Computer Vision and Image Understanding, Vol. 65, No. 2, pp. 163-178, 1997. 

  3. E. K. Kim, Y. D. Kwon, and J. S. Lee. "Neural Network Vowel-Recongition Jointly Using Voice Features and Mouth Shape Image". Korean Institute of Information Scientists and Engineers Congress 1996, Vol. 23 No. 2A, pp. 693-696, 1996. 

  4. J. S., Lee, and C. H. Park, "Automatic Lipreading Using Color Lip Images and Principal Component Analysis," Journal of Information Processing Systems B, Vol. 15, No. 3 pp. 229-236, 2008. 

  5. Shaikh, A. A., Kumar, D. K., Yau, W. C., Azemin, M. C., and Gubbi, J, "Lip reading using optical flow and support vector machines," Image and Signal Processing (CISP), 2010 3rd International Congress on., Vol. 1, 2010. 

  6. Shaikh, Ayaz A., Dinesh K. Kumar, and Jayavardhana Gubbi, “Automatic visual speech segmentation and recognition using directional motion history images and Zernike moments,” The Visual Computer, Vol. 29, No. 10, pp. 969-982, 2010. 

  7. Lan, Y., Theobald, B. J., Harvey, R., Ong, E. J., and Bowden, R, "Improving visual features for lip-reading.," In AVSP 2010, International Conference on Audio-Visual Speech Processing, pp. 7-3, 2010. 

  8. Kim Y. K., Lim J. G., and Kim M. H., "Lip Reading Algorithm Using Bool Matrix and SVM," International Conference on Small & Medium Business, (in Korean), (2015), pp. 267-268. 

  9. Sujatha, B., and T. Santhanam, "A novel approach integrating geometric and Gabor wavelet approaches to improvise visual lip-reading," Int. J. Soft Comput 5, pp. 13-18, 2010. 

  10. Ibrahim, M. Z., and D. J. Mulvaney, "Robust geometrical-based lip-reading using Hidden Markov models," EUROCON, 2013 IEEE, pp. 2011-2016, 2013. 

  11. Werda, Salah, Walid Mahdi, and Abdelmajid Ben Hamadou, "Lip localization and viseme classification for visual speech recognition," arXiv preprint arXiv:1301.4558, Vol. 5, No. 1, pp. 62-75 2013. 

  12. Wang, S. L., Lau, W. H., Leung, S. H. and Yan, H, "A real-time automatic lipreading system," Circuits and Systems, 2004. ISCAS'04. Proceedings of the 2004 International Symposium on., Vol. 2, 2004. 

  13. Cetingul, H. E., Yemez, Y., Erzin, E. and Tekalp, A. M, “Discriminative analysis of lip motion features for speaker identification and speech-reading,” Image Processing, IEEE Transactions on., Vol. 15, No. 10, pp. 2879-2891, 2006. 

  14. Siatras, S., Nikolaidis, N., Krinidis, M., and Pitas, I., “Visual lip activity detection and speaker detection using mouth region intensities,” Circuits and Systems for Video Technology, IEEE Transactions on, Vol. 19, No. 1, pp. 133-137, 2009. 

  15. Arsic, Aleksandra, Milos Jordanski, and Milan Tuba, "Improved lip detection algorithmbased on region segmentation and edge detection," Telecommunications Forum Telfor (TELFOR), 2015 23rd. IEEE, 2015. 

  16. G. B. Kim, J. W. Ryu, and N. I. Cho, “Voice Activity Detection using Motion and Variation of Intensity in The Mouth Region,” Journal of Broadcast Engineering, Vol. 17, No. 3, pp. 519-528, 2012. 

  17. E. K. Kim, “Speech Activity Detection using Lip Movement Image Signals,” Journal of the Institute of Signal Processing and Systems, Vol. 11, No. 4, pp. 289-297, 2010. 

  18. J. S. Kim, J. G. Nam , and B. T. Zhang, "Deep Learning-based Video Analysis Techniques" Journal of Korean Institute Information Scientists Engineers, Vol. 33, No. 9, pp. 21-31, 2015. 

  19. Yun-A Hur, Keun-Ho Lee, “A Study on Countermeasures of Convergence for Big Data and Security Threats to Attack DRDoS in U-Healthcare Device,” Journal of the Korea Convergence Society, Vol. 6, No. 4, pp. 243-248, 2015. 

  20. G. J. Jang and J. S. Park, "Visual Object Recognition Based on Deep Neural Networks Implemented by CAFFE". Journal of Korean Institute Information Scientists Engineers, Vol. 33, No. 8, pp. 49-54, 2015. 

  21. Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton, "Imagenet classification with deep convolutional neural networks," Advances in neural information processing systems. pp1097-1105, 2012. 

  22. Viola, Paul, and Michael Jones, "Rapid object detection using a boosted cascade of simple features," Computer Vision and Pattern Recognition, 2001. CVPR 2001. Proceedings of the 2001 IEEE Computer Society Conference on., Vol. 1, 2001. 

  23. S.I. Chien and Il Choi, "Face and Facial Landmarks Location Based on Log-Polar Mapping," Lecture Notes in Computer Science, pp. 379-386, 2000. 

  24. Lim, Jong Gwan, Jaehong Kim, and Dong-Soo Kwon, "Multidimensional evaluation and analysis of motion segmentation for inertial measurement unit applications," Multimedia Tools and Applications, pp. 1-28, 2015. 

  25. Lim, Jong Gwan, Mi-hye Kim, and Sahngwoon Lee, "Empirical Validation of Objective Functions in Feature Selection Based on Acceleration Motion Segmentation Data," Mathematical Problems in Engineering, 2015. 

  26. Krizhevsky, Alex, and G. Hinton, "Convolutional deep belief networks on cifar-10," Unpublished manuscript, 2010. 

  27. Maini, Raman, and Himanshu Aggarwal, “Study and comparison of various image edge detection techniques,” International journal of image processing (IJIP), Vol. 3, No. 1, pp. 1-11, 2009. 

  28. Jun-Yeon Lee, “Forecasting the Time-Series Data Converged on Time PLOT and Moving Average,” Journal of the Korea Convergence Society, Vol. 6, No. 4, pp. 161-167, 2015. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로