최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기한국정보통신학회논문지 = Journal of the Korea Institute of Information and Communication Engineering, v.21 no.12, 2017년, pp.2291 - 2297
지승은 (Department of Computer Science & Engineering, Incheon National University) , 김우일 (Department of Computer Science & Engineering, Incheon National University)
This paper describe to extract speech measure algorithm for evaluating a speech database, and presents generating method of a speech quality measure using DNN(Deep Neural Network). In our previous study, to produce an effective speech quality measure, we propose a combination of various speech measu...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
PESQ는 기존 MOS기법의 어떠한 문제점 때문에 개발되었는가? | 사람이 주관적으로 음성을 듣고 1~5 등급 사이로 음성의 품질을 평가하는 방법인 MOS(Mean opinion score)[6] 기법은 주관적인 방법이기 때문에 평가자가 필요하며 같은 음성이라도 사람마다 다른 의견을 표현 할 수 있다. 이러한 문제점 때문에 개발된 기법인PESQ(Perceptual evaluation of speech quality)[6]는 음성 품질 평가를 위해 자동화된 테스트로써 MOS를 자동화 시킨 방법이다. | |
SNR이란 무엇인가? | SNR(Signal-to-Noise ratio, SNR)[6]은 음질의 성능을 판단할 때 대표적으로 쓰이는 음성 특성 지표로서 주변 잡음 크기에 대하여 듣고자 하는 음성 신호 크기의 상대적인 비율을 표현한 값이다. SNR은 음성 신호의 크기를 잡음 신호의 크기로 나눈 것에 로그를 취한 값으로 SNR이 양수일 경우 잡음 신호 보다 음성 신호의 크기가 큰 경우이다. | |
음성 인식 기술을 이용한 시스템의 장점은 무엇인가? | 음성 인식 기술은 데이터를 입력하거나 서비스를 제공받기 위해 음성을 이용하는 기술이다. 음성 인식 기술을 이용한 시스템은 여러 가지 데이터 입력 방법 중사람의 의사 전달과 가장 유사한 방법을 사용하기 때문에 사용이 편리하다는 장점이 있다. 하지만 음성 신호는 마우스나 키보드를 통한 일반적인 입력 신호들과 달리 잡음에 노출된 상태에서 실시간으로 처리되기 때문에 실제 환경에서 시스템의 인식률이 떨어지는 경우가 빈번하다. |
S. Yoon, L. Chen, and K. Zechner, "Predicting word accuracy for the automatic speech recognition of non-native speech," Interspeech-2010, pp. 773-776, Jul. 2010.
W. Kim and J. H. L. Hansen, "Phonetic distance based confidence measure," IEEE Signal Processing Letters, vol. 17, no. 2, pp. 773-776, Feb. 2010.
H. Park, S. Jee and M. Bae, "Study on the Confidence-Parameter Estimation through Speech Signal," Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology, vol. 6, no. 7, pp. 101-108, Jul. 2016.
J. R. Deller, J. H. L. Hansen et al., Discrete-time processing of speech signals, Piscataway, NJ: IEEE Press, 1999.
A. L. Garcia, Probability, Statistics and random processes for electrical engineering, 3rd ed., Pearson Education, 2008.
Mel frequency cepstral coefficient tutorial. Practical cryptography [Internet]. Available: http://practicalcryptography.com/miscellaneous/machine-learning.
A, S. Thakur, and N. Sahayam, "Speech recognition using euclidean distance," International Journal of Emerging Technology and Advanced Engineering (IJETAE), vol. 3, no. 3, pp. 587-590, Mar. 2013.
G. Hinton, L. Deng et al., "Deep neural networks for acoustic modeling in speech recognition," IEEE Signal Processing Magazine, vol. 29, no. 6, pp. 82-97, Oct. 2012.
A. K. Jain, J. Mao, K.M. Mohiuddin, "Artificial neural networks: a tutorial," Computer, vol. 29, no. 3, pp. 31-44, Mar. 1996.
H. N. Robert, "Theory of the backpropagation neural network," IEEE International 1989 Joint Conference on Neural Network (IJCNN), pp. 593-605, Oct. 1989.
Y. Bengio, "Practical recommendations for gradient-based training of deep architectures," in Neural Networks: Tricks of the Trade, Heidelberg, Dordrecht, London New, York: Springer, pp. 437-478, 2012.
X. L. Zhang, and J. Wu., "Deep neural networks based voice activity detection," IEEE Transactions on Audio, Speech and Language Processing, vol. 21, no. 4, pp. 697-710, Mar. 2013.
M. A. Nielsen, Neural network and deep learning [online]. Available: http://neuralnetworksanddeeplearning.com.
TIMIT database download page. Linguistic Data Consortium [Internet]. Available: http://www.ldc.upenn.edu.
CAFFE deep neural network framework download page. Berkeley Vision and Learning Center [Internet]. Available: http://github.com/BVLC/caffe.
CAFFE deep neural network framework tutorial page. Berkeley Vision and Learning Center [Internet]. Available: http://caffe.berkeleyvision.org.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
오픈액세스 학술지에 출판된 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.