최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기한국정보통신학회논문지 = Journal of the Korea Institute of Information and Communication Engineering, v.17 no.4, 2013년, pp.775 - 780
This paper proposes a speaker-dependent speech recognition algorithm which can classify the gender for male and female speakers in white noise and car noise, using a neural network. The proposed speech recognition algorithm is trained by the neural network to recognize the gender for male and female...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
실제 환경에서 음성인식 성능은 어떤 문제점을 가지고 있나? | 실제 환경에서의 음성인식 성능은 백색잡음과 같은 정상잡음 외에 자동차잡음, 거리잡음, 공항잡음, 전철역잡음, 지하철역잡음 등의 비정상적인 잡음 등에 의하여 급격한 음성인식의 성능열화의 문제점을 가지고 있다. 따라서 이러한 환경 배경잡음에 대하여 음성인식 장치를 실현시키기 위하여 여러 분야에서 연구가 계속적으로 수행되고 있는 실정이다. | |
대표적인 음성인식 알고리즘에는 무엇이 있나? | 따라서 이러한 환경 배경잡음에 대하여 음성인식 장치를 실현시키기 위하여 여러 분야에서 연구가 계속적으로 수행되고 있는 실정이다. 현재 대표적인 음성인식 알고리즘으로는 확률적인 방법으로 잘 알려진 은닉 마코프 모델(Hidden Markov Models, HMM) 알고리즘[1], 인간의 신경망을 모델링한 신경회로망(Neural network, NN)[2, 3], 패턴 정합방식인 DTW(dynamic time warping) 방법[4] 등이 있다. 이중에서도 본 논문에서는 신경회로망을 음성인식 모듈에 응용하여, 남성화자 및 여성화자에 대한 음성인식[5-7] 알고리즘을 제안한다. | |
본 실험에서는 불특정 화자에 대한 음성인식의 문제점에 대해 어떻게 접근하여 실험을 실시하였는가? | 한편 불특정 화자에 대한 음성인식을 할 경우에 각 화자마다 발성기관과 발성습관이 서로 다르기 때문에 특징벡터의 파라미터를 추출하기 어려워 높은 인식률을 구하기가 어렵다. 그러나 본 실험에서는 LPC 켑스트럼 계수가 남성 및 여성화자를 구별할 수 있는 언어정보를 충분히 포함하고 있다고 판단하여, LPC 켑스트럼 계수를 음성인식 파라미터로 사용하여 신경회로망의 학습 알고리즘을 사용하여 백색잡음 및 자동차잡음 중에서도 충분히 남녀의 성별을 인식할 수 있는 실험을 실시한다. 또한 피치성분을 가진 RASTA-PLP (Relative Spectral Perceptual Linear Predictive) 계수를 사용하는 기존의 성별분류 방법[5]과 비교하여 본 알고리즘이 효과적인 것 을 실험적으로 나타낸다. |
A. A. M. Abushariah, T. S. Gunawan, O. O. Khalifa and M. A. M. Abushariah, "English digits speech recognition system based on Hidden Markov Models", 2010 International Conference on Computer and Communication Engineering, pp. 1-5, May 2010.
D. E. Rumelhart, G. E. Hinton, and R. J. Williams, "Learning representations by back-propagation errors", Nature, Vol. 323, pp. 533-536, 1986.
T. T. Le, J. S. Mason and T. Kitamura, "Characteristics of multi-layer perceptron models in enhancing degraded speech", Proc. ICSLP-94, pp. 1611-1614, 1994.
L. Yang, L. Jing, Y. Yuxiang and W. Jian, "Improvement algorithm of DTW on isolated-word recognition", 2011 IEEE International Conference on Computer Science and Automation Engineering, Vol. 3, pp. 319-322, 2011.
Y. M. Zeng, Z. Y. Wu, T. Falk and W. Y. Chan, "Robust GMM based gender classification using pitch and RASTA-PLP parameters of speech", 2006 International Conference on Machine Learning and Cybernetics, pp. 3376-3379, August 2006.
C. C. Chen, P. T. Lu, M. L. Hsia, J. Y. Ke and O.T.-C. Chen, "Gender-to-Age hierarchical recognition for speech", 2011 IEEE 54th International Midwest Symposium on Circuits and Systems, pp. 1-4, 2011.
M. Kos, M.; D. Vlaj and Z. Kacic, "Speaker's gender classification and segmentation using spectral and cepstral feature averaging", 2011 18th International Conference on Systems, Signals and Image Processing, pp. 1-4, 2011.
H. Xu, X. Zhang and L. Jia, "The extraction and simulation of Mel frequency cepstrum speech parameters", 2012 International Conference on Systems and Informatics, pp. 1765-1768, 2012.
P. B. Patil, "Multilayered network for LPC based speech recognition", IEEE Transactions on Consumer Electronics, Vol. 44, No. 2, pp. 435-438, 1998.
H. Hirsch and D. Pearce, "The AURORA experimental framework for the performance evaluations of speech recognition systems under noisy conditions", in Proc. ISCA ITRW ASR2000 on Automatic Speech Recognition: Challenges for the Next Millennium, Paris, France, 2000.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
오픈액세스 학술지에 출판된 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.