최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기한국정보통신학회논문지 = Journal of the Korea Institute of Information and Communication Engineering, v.20 no.3, 2016년, pp.464 - 470
지승은 (Department of Computer Science & Engineering, Incheon National University) , 김우일 (Department of Computer Science & Engineering, Incheon National University)
This paper presents a speech recognition database verification system using speech measures, and describes a speech measure extraction algorithm which is applied to this system. In our previous study, to produce an effective speech quality measure for the system, we propose a combination of various ...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
시중에 출시되기 전에 음성 인식 시스템에서 요구되는 작업은? | 음성 인식 시스템은 시중에 출시되기 전에 시스템의 인식 성능을 검증하기 위해 대량의 음성 데이터베이스를 이용한 평가 작업이 요구된다. 또한 평가에 필요한 데이터베이스 구축 과정에서 데이터베이스를 구성하는각 음성 데이터가 음성 인식 성능 평가에 적합한지에 대한 검증 작업이 선행되어야 한다. | |
본 연구에서 개발한 음성 인식용 데이터베이스 검증 시스템의 5개 패널은 어떠한 정보를 출력하는가? | 그림 1과 같이 본 시스템은 다섯 개의 패널로 구성된다. 최상단의 창은 Information 패널로서, 왼쪽부터 순서대로 오염된 신호의 특징 정보, 데이터베이스의 평균 특징 정보, 깨끗한 신호의 특징 정보를 출력한다. 두 번째 Waveform 창은 오염된 음성과 레퍼런스 음성의 파형을 출력하며 세 번째와 네 번째 창은 음성 파형의 시간 축과 동일한 축을 사용하여 각각 음성의 스펙트로그램과 피치(Pitch) 정보를 나타낸다. 최 하단의 창에는 사용자가 지정한 경로인 음성 데이터 폴더의 음성 파일 리스트가 출력되며, 각 파일 이름을 클릭하여 해당 음성 파일의 정보를 나타낼 수 있다. | |
음성 데이터의 적합성을 판단하기 위해 무엇이 필요한가? | 또한 평가에 필요한 데이터베이스 구축 과정에서 데이터베이스를 구성하는각 음성 데이터가 음성 인식 성능 평가에 적합한지에 대한 검증 작업이 선행되어야 한다. 음성 데이터의 적합성을 판단하기 위해서는 음성 분석 분야 전문가의 자문이 필요하며, 대량의 데이터를 검증하는 과정에 시간과 비용이 요구된다. 이에 따라 음성 데이터베이스를 자동으로 분석하고 적합성을 평가하는 과정을 효과적으로 처리할 수 있는 음성 데이터베이스 검증 시스템이 필요하다. |
S. -Y. Yoon, L. Chen and K. Zechner, "Predicting Word Accuracy for the Automatic Speech Recognition of Non-native Speech," Interspeech-2010, pp. 773-776, 2010.
W. Kim and J. H. L. Hansen, "Phonetic Distance Based Confidence Measure," Signal Processing Letters, IEEE vol. 17, no. 2 , pp. 121-124, Feb. 2010.
S. Ji and W. Kim, "A Study on Speech Measure Analysis for Speech Recognition Accuracy Estimation in Noisy Environments," A Conference of Acoustical Society of Korea, vol. 34, no. 1, pp. 46, May 2015.
S. Ji, J. Cho and W. Kim, "Development of Database Verification System for Automatic Speech Recognition," KCC2015, vol. 34, pp. 719-720, June 2015.
S. Ji and W. Kim, "A Study on Effective Speech Recognition Performance Measure using MFCC Similarity," KSCSP-2015, vol. 32, no. 1, pp.220-222, Aug. 2015.
Tcl Developer Xchange. Tcl/tk Software and download page [Internet]. Available: http://www.tcl.tk/software/tcltk
SNACK Sound Toolkit developed by KTH Royal Institute of Technology. Snack software and tutorial download page [Internet]. Available: http://www.speech.kth.se/snack
Y. Hu and P. C. Loizou, "Evaluation of Objective Measure for Speech Enhancement," Audio, Speech, and Language Processing, IEEE Transactions on, vol. 16, no. 1, pp. 229-238, Sep. 2008.
Hidden Markov Model Toolkit (HTK) developed by Cambridge University. HTK software and tutorial download page [Internet]. Available: http://htk.eng.ca0m.ac.uk
SPHINX project by Carnegie Mellon University. SPHINX software and tutorial download page [Internet]. Available: http://cmusphinx.sourceforge.net
STNR technique provided by National Institute of Standards and Technology(NIST) [Internet]. Available: http://www.nist.gov/speech
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
오픈액세스 학술지에 출판된 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.