최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기멀티미디어학회논문지 = Journal of Korea Multimedia Society, v.17 no.3, 2014년, pp.312 - 323
이기현 (경북대학교 대학원 의용생체공학과) , 이윤정 (경북대학교 대학원 의용생체공학과) , 조진호 (경북대학교 IT대학 전자공학부) , 김명남 (경북대학교 의학전문대학원 의공학교실)
Voice activity detection is very important process that find voice activity from noisy speech signal for noise cancelling and speech enhancement. Over the past few years, many studies have been made on voice activity detection, it has poor performance for speech signal of sentence form in a low SNR ...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
신호의 에너지와 영교차율을 이용한 특징추출방법은 어떤 단점이 있는가? | 비정상성잡음에서 음성인식을 하기 위해서는 특징추출 방식을 사용한다. 기존의 특징추출방법 중 가장 널리 알려진 방법인 신호의 에너지와 영교차율(zero crossing rate, ZCR)을 이용한 방법들은 작은 연산량과 높은 음성인식 성능을 보이지만 신호의 에너지를 이용한 방법은 낮은 신호 대 잡음비(signal to noise ratio, SNR) 환경에서 성능이 급격히 저하되는 단점이 있으며 영교차율을 이용한 방법은 잡음의 종류에 따라 무성음과 구분되지 않는 단점을 보였다[3]. 잡음에 더 강인한 특징 추출을 위한 우도비(likehood ratio, LR), 엔트로피(entropy) 등과 같은 통계적 특징들을 이용하는 방법이 있다[4]. | |
엔트로피는 무엇인가? | 엔트로피는 역열학적 통계으로 ‘통계적 무질서도’를 의미하며 정보통신이나 신호처리 분야에서는 ‘데이터에 내재되어 있는 정보의 양’을 나타내는 척도로 사용된다[10]. 음성신호에서 데이터에 내재되어 있는 통계적 특징을 시간에 따른 엔트로피 변화로 나타내어 추출할 수 있다. | |
위너필터(Wiener filter)와 칼만 필터(Kalman filter)의 단점은? | 이러한 방식은 정상성(stationary) 잡음에서 높은 잡음제거 성능과 함께 좋은 음성인식 성능을 보인다. 하지만 음성인식 전처리 단계에서 잡음제거 단계를 필수적으로 수반하여야 하며 비정상성(nonstationary)잡음에서는 좋은 성능을 보이지 못하는 단점이 있다[2]. 비정상성잡음에서 음성인식을 하기 위해서는 특징추출 방식을 사용한다. |
L. Rabiner and B.H. Juang, Fundmentals of Speech Recognition, Prentice Hall, Englewood Cliffs, NJ, 1993.
ETSI, ETSI standard doc ETSI ES 202 050 v1.1.1, 2002.
G.K. Choi and S.H. Kim, "Voice Activity Detection Method using Psycho-Acoustic Model based on Speech Energy Maximization in Noisy Environments," Journal of the Acoustical Society of Korea, Vol. 28, No. 5, pp. 447-453, 2009.
J. Ramiirez, J.C. Segura, C. Beniitez, A. de la- Torre, and A.. Rubio, "An Effective Subband OSF-based VAD with Noise Reduction for Robust Speech Recognition," IEEE Trans. on Speech and Audio Processing, Vol. 13, No. 6, pp. 1119-1129, 2005.
R. Gemello, F. Mana, and R.D. Mori, "A Modified Ephraim-Malah Noise Suppression Rule for Automatic Speech Recognition," Proc. the ICASSP 2004, Vol. 1, pp. 957-960, 2004.
P. Teng and Y. Jia "Voice Activity Detection Via Noise Reducing using Non-Negative Sparse Coding," IEEE Signal Processing Letters, Vol. 20, Issue 5, pp. 475-478, 2013.
S.W. Deng and J.Q. Han, "Statistical Voice Activity Detection based on Sparse Rep-resentation over Learned Dictionary," Digital Signal Processing, Vol. 23, Issue 4, pp. 1228- 1232, 2013.
M. Asgari, A. Sayadian, M. Farhadloo, and E.A. Mehrizi, "Voice Activity Detection using Entropy in Spectrum Domain," Telecommunication Networks and Applications Conference, pp. 407-410, 2008.
C.E. Shannon, "A Mathematical Theory of Communication," ACM SIGMOBILE Mobile Computing and Communications Review, Vol. 5, No. 1, pp. 3-55, 2001.
J.W. Jung and J.T. Lee, "A Study on the Fault Current Discrimination using Enhanced Fuzzy C-Means Clustering," Transactions of KIEE, Vol. 57, No. 11, pp. 2102-2107, 2008.
J.N. Chio, S.K. Oh, and H.K. Kim, "Genetic Optimization of Fuzzy C-Means Clustering- Based Fuzzy Neural Network," Transactions of KIEE, Vol. 57, No. 3, pp. 466-472, 2008.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.