$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

영상 기반 음성합성에서 심도 영상의 유용성
The usefulness of the depth images in image-based speech synthesis 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.42 no.1, 2023년, pp.67 - 74  

이기승 (건국대학교 전기전자공학부)

초록
AI-Helper 아이콘AI-Helper

발성하고 있는 입 주변에서 취득한 영상은 발성 음에 따라 특이적인 패턴을 나타낸다. 이를 이용하여 화자의 얼굴 하단에서 취득한 영상으로부터 발성 음을 인식하거나 합성하는 방법이 제안되고 있다. 본 연구에서는 심도 영상을 협력적으로 이용하는 영상 기반 음성합성 기법을 제안하였다. 심도 영상은 광학 영상에서는 관찰되지 않는 깊이 정보의 취득이 가능하기 때문에 평면적인 광학 영상을 보완하는 목적으로 사용이 가능하다. 본 논문에서는 음성 합성 관점에서 심도 영상의 유용성을 평가하고자 한다. 60개의 한국어 고립어 음성에 대해 검증 실험을 수행하였으며, 실험결과 객관적, 주관적 평가에서 광학적 영상과 근접한 성능을 얻는 것을 확인할 수 있었으며 두 영상을 조합하여 사용하는 경우 각 영상을 단독으로 사용하는 경우보다 향상된 성능을 나타내었다.

Abstract AI-Helper 아이콘AI-Helper

The images acquired from the speaker's mouth region revealed the unique patterns according to the corresponding voices. By using this principle, the several methods were proposed in which speech signals were recognized or synthesized from the images acquired at the speaker's lower face. In this stud...

주제어

표/그림 (6)

참고문헌 (11)

  1. B. Denby, T. Schultz, K. Honda, T. Hueber, J. M.?Gilbert, and J. S. Brumberg, "Silent speech interfaces," Speech Comm. 52, 270-287 (2010). 

  2. K.-S. Lee, "EMG-based speech recognition using?hidden markov models with global control variables,"?IEEE Trans. Biomed. Eng. 55, 930-940 (2008). 

  3. I. Almajai and B. Milner, "Visually derived wiener?filters for speech enhancement," IEEE Trans. Audio,?Speech, Language Proc. 19, 1642-1651 (2011). 

  4. S. Li, Y. Tian, G. Lu, Y. Zhang, H. Lv, X. Yu, H. Xue,?H. Zhang, J. Wang, and X. Jing, "A 94-GHz milimeter-wave sensor for speech signal acquisition," Sensors,?13, 14248-14260 (2013). 

  5. K.-S. Lee, "Speech synthesis using Doppler signal"?(in Korean), J. Acoust. Soc. Kr. 35, 134-142 (2016). 

  6. K.-S. Lee, "Ultrasonic doppler based silent speech?interface using perceptual distance," Appl. Sci. 12, 827?(2022). 

  7. M. A. Subhi, S. H. M. Ali, A. G. Ismail, and M.?Othman, "Food volume estimation based on stereo?image analysis," IEEE IMM, 6, 36-43 (2018). 

  8. P. Viola and M. Jones, "Rapid object detection using a?boosted cascade of simple features," Proc. IEEE?CSPV, 511-518 (2001). 

  9. D. W. Griffin and J. S. Lim, "Signal estimation from?the modified short-time fourier transform," IEEE?Trans. on Acoustic, Speech Signal Proc. 32, 236-243?(1984). 

  10. J. M. Martin-Donas, A. M. Gomez, J. A. Gonzalez,?and A. M. Peinado, "A deep learning loss function?based on the perceptual evaluation of the speech?quality," IEEE Signal Process. Lett. 25, 1680-1684?(2018). 

  11. ITU-T, Rec. P. 862, Perceptual Evaluation of Speech?Quality(PESQ): An Objective Method for End-ToEnd Speech Quality Assessment of Narrow Band?Telephone Networks and Speech Codecs, Int. Telecomm. Union-Telecomm. Stand. Sector, 2001. 

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로