최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기한국정보통신학회논문지 = Journal of the Korea Institute of Information and Communication Engineering, v.20 no.3, 2016년, pp.471 - 476
지승은 (Department of Computer Science & Engineering, Incheon National University) , 김우일 (Department of Computer Science & Engineering, Incheon National University)
This paper presents our study on speech recognition performance prediction. Our initial study shows that a combination of speech quality measures effectively improves correlation with Word Error Rate (WER) compared to each speech measure alone. In this paper we demonstrate a new combination of vario...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
본 연구에서 개발한 음성 인식용 데이터베이스 검증시스템의 구성 요소는 무엇인가? | 본 연구에서 개발한 음성 인식용 데이터베이스 검증시스템은 윈도우즈 기반의 그래픽 사용자 인터페이스(Graphic User Interface, GUI)와 윈도우즈, 리눅스 환경에서 작성된 특징 추출 스크립트로 구성되어 있다. | |
MFCC 특징 추출 기법의 과정은 어떻게 되는가? | MFCC 특징 추출 기법은 현재 음성 인식 시스템의특징 추출 기법으로 가장 널리 사용되고 있는 방법이다.우선 음성 데이터의 아날로그 신호를 푸리에 변환을 통해 주파수 스펙트럼으로 변환한다. 그 후 인간의 청각시스템을 모방한 주파수 스케일인 Mel-filter Bank 분석을 통해 얻은 계수에 로그를 취한다. 마지막으로 이산코사인 변환(Discrete Cosine Transform, DCT)을 적용함으로써 Cepstrum 계수로 변환한다. 그림 1은 MFCC특징 추출 과정을 표현한 다이어그램이다. | |
SNR이란 무엇인가? | SNR(Signal-to-Noise Ratio, SNR)은 음성의 인식 성능을 판단할 때 대표적으로 쓰이는 음성 특성 지표로서 듣고자 하는 주변 잡음 크기에 대한 음성 신호 크기의 상대적인 비율을 표현한 값이다. SNR은 음성 신호의 크기를 잡음 신호의 크기로 나눈 것에 로그를 취해준 값으로 SNR이 양수일 경우 잡음 신호 보다 음성 신호의 크기가 크다는 뜻이다. |
S. -Y. Yoon, L. Chen and K. Zechner, "Predicting Word Accuracy for the Automatic Speech Recognition of Non-native Speech," Interspeech-2010, pp. 773-776, 2010.
W. Kim and J. H. L. Hansen, "Phonetic Distance Based Confidence Measure," Signal Processing Letters, IEEE vol. 17, no.2, pp. 121-124, Feb. 2010.
S. Ji and W. Kim, "A Study on Speech Measure Analysis for Speech Recognition Accuracy Estimation in Noisy Environments," A Conference of Acoustical Society of Korea, vol. 34, no. 1, pp. 46, May 2015.
S. Ji, J. Cho and W. Kim, "Development of Database Verification System for Automatic Speech Recognition," KCC2015, vol. 34, pp. 719-720, June 2015.
S. Ji and W. Kim, "A Study on Effective Speech Recognition Performance Measure using MFCC Similarity," KSCSP-2015, vol. 32, no. 1, pp.220-222, Aug. 2015.
S. Ji, M. Song, J. Yoon and W. Kim, "Speech Recognition Performance Prediction employing Speech Quality Measure," A Conference of Acoustical Society of Korea, vol. 34, no. 2, pp. 46, Nov. 2015.
STNR technique provided by National Institute of Standards and Technology(NIST) [Internet]. Available: http://www.nist.gov/speech
Y. Hu and P. C. Loizou, "Evaluation of Objective Measure for Speech Enhancement," Audio, Speech, and Language Processing, IEEE Transactions on, vol. 16, no.1, pp. 229-238, Sep. 2008.
Hidden Markov Model Toolkit (HTK) developed by Cambridge University. HTK software and tutorial download page [Internet]. Available: http://htk.eng.cam.ac.uk
TIMIT speech database provided by Linguistic Data Consortium(LDC) of University of Pennsylvania [Internet]. Available: https://catalog.ldc.upenn.edu/LDC93S1
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
오픈액세스 학술지에 출판된 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.