$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

남녀성별 분류를 위한 화자종속 음성인식 알고리즘
Speaker-dependent Speech Recognition Algorithm for Male and Female Classification 원문보기

한국정보통신학회논문지 = Journal of the Korea Institute of Information and Communication Engineering, v.17 no.4, 2013년, pp.775 - 780  

최재승 (신라대학교 전자공학과)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 백색잡음 및 자동차잡음 환경 하에서 남녀 성별인식이 가능한 신경회로망에 의한 화자종속 음성인식 알고리즘을 제안한다. 본 논문에서 제안한 음성인식 알고리즘은 남성화자 및 여성화자를 인식하기 위하여 LPC 켑스트럼 계수를 사용하여 신경회로망에 의하여 학습된다. 본 실험에서는 백색잡음 및 자동차잡음에 대하여 총 6개의 신경회로망의 네크워크에 대한 인식결과를 나타낸다. 인식실험의 결과로부터 백색잡음에 대해서는 최대 96% 이상의 인식률, 자동차잡음에 대해서는 최대 88% 이상의 인식률을 구하였다. 마지막으로 본 실험에서는 제안하는 음성인식 알고리즘이 배경잡음 환경 하에서의 기존의 음성인식 알고리즘과 비교하여 본 방식의 알고리즘이 유효하다는 것을 실험으로 확인한다.

Abstract AI-Helper 아이콘AI-Helper

This paper proposes a speaker-dependent speech recognition algorithm which can classify the gender for male and female speakers in white noise and car noise, using a neural network. The proposed speech recognition algorithm is trained by the neural network to recognize the gender for male and female...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 음성 신호의 파라미터는 음성신호를 어떤 공간의 특징벡터로 사상시키는 것이므로, 이러한 의미에서 본 논문에서는 음성의 발성기관을 LPC(Linear Predictive Coding)[9] 분석하여 구해지는 LPC 켑스트럼 계수로부터 특징벡터의 파라미터를 추출하는 방법을 먼저 제안한다. 그리고 백색잡음 및 자동차잡음이라는 배경잡음 환경 하에서 남성화자 및 여성화자를 인식하기 위한 화자종속 남녀 성별인식 알고리즘을 제안한다.
  • 본 논문에서 제안하는 음성의 특징벡터 검출방법은 잡음의 전력 및 주파수 스펙트럼의 변동에 영향을 쉽게 받기 어렵고 종래 방법과 비교하여 비정상적인 고잡음 하에서도 높은 정밀도로 특징벡터의 검출이 가능하다. 따라서 본 논문에서는 대상으로 하는 잡음 환경 하에서의 음성의 특징벡터의 검출 방법으로서 고역과 비교하여 잡음의 영향이 적은 저역에 착목한 분석 방법을 검토한다.
  • 본 논문에서는 저주파수 영역에서의 스펙트럼 구조 를 대상으로 한 LPC 분석을 실행하여, 이 적합도를 나타내는 특징 파라미터로부터 음성의 특징벡터를 검출하였다. 따라서 이러한 적절한 음성특징 파라미터를 추출하여 신경회로망에 학습시킴으로써 배경잡음 환경 하에서도 남성화자 및 여성화자를 인식할 수 있는 화자종 속 남녀성별인식 알고리즘을 구현하였다.
  • 선형예측분석을 음성검출에 이용하는 연구에서는 음성분야에 대한 일반적인 주파수 대역에서 최적 선형 예측계수를 구하여, 주기성신호의 비율 등의 정보를 조합한 검출방법의 연구가 보고되고 있다[9]. 이러한 방법들과는 달리 본 논문에서는 저주파수 영역에서의 유성음 특유의 스펙트럼 미세구조를 대상으로 한 LPC 분석을 실행하여, 이 적합도를 나타내는 음성특징 파라미터를 검출한다. 본 논문에서 제안하는 음성의 특징벡터 검출방법은 잡음의 전력 및 주파수 스펙트럼의 변동에 영향을 쉽게 받기 어렵고 종래 방법과 비교하여 비정상적인 고잡음 하에서도 높은 정밀도로 특징벡터의 검출이 가능하다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
실제 환경에서 음성인식 성능은 어떤 문제점을 가지고 있나? 실제 환경에서의 음성인식 성능은 백색잡음과 같은 정상잡음 외에 자동차잡음, 거리잡음, 공항잡음, 전철역잡음, 지하철역잡음 등의 비정상적인 잡음 등에 의하여 급격한 음성인식의 성능열화의 문제점을 가지고 있다. 따라서 이러한 환경 배경잡음에 대하여 음성인식 장치를 실현시키기 위하여 여러 분야에서 연구가 계속적으로 수행되고 있는 실정이다.
대표적인 음성인식 알고리즘에는 무엇이 있나? 따라서 이러한 환경 배경잡음에 대하여 음성인식 장치를 실현시키기 위하여 여러 분야에서 연구가 계속적으로 수행되고 있는 실정이다. 현재 대표적인 음성인식 알고리즘으로는 확률적인 방법으로 잘 알려진 은닉 마코프 모델(Hidden Markov Models, HMM) 알고리즘[1], 인간의 신경망을 모델링한 신경회로망(Neural network, NN)[2, 3], 패턴 정합방식인 DTW(dynamic time warping) 방법[4] 등이 있다. 이중에서도 본 논문에서는 신경회로망을 음성인식 모듈에 응용하여, 남성화자 및 여성화자에 대한 음성인식[5-7] 알고리즘을 제안한다.
본 실험에서는 불특정 화자에 대한 음성인식의 문제점에 대해 어떻게 접근하여 실험을 실시하였는가? 한편 불특정 화자에 대한 음성인식을 할 경우에 각 화자마다 발성기관과 발성습관이 서로 다르기 때문에 특징벡터의 파라미터를 추출하기 어려워 높은 인식률을 구하기가 어렵다. 그러나 본 실험에서는 LPC 켑스트럼 계수가 남성 및 여성화자를 구별할 수 있는 언어정보를 충분히 포함하고 있다고 판단하여, LPC 켑스트럼 계수를 음성인식 파라미터로 사용하여 신경회로망의 학습 알고리즘을 사용하여 백색잡음 및 자동차잡음 중에서도 충분히 남녀의 성별을 인식할 수 있는 실험을 실시한다. 또한 피치성분을 가진 RASTA-PLP (Relative Spectral Perceptual Linear Predictive) 계수를 사용하는 기존의 성별분류 방법[5]과 비교하여 본 알고리즘이 효과적인 것 을 실험적으로 나타낸다.
질의응답 정보가 도움이 되었나요?

참고문헌 (10)

  1. A. A. M. Abushariah, T. S. Gunawan, O. O. Khalifa and M. A. M. Abushariah, "English digits speech recognition system based on Hidden Markov Models", 2010 International Conference on Computer and Communication Engineering, pp. 1-5, May 2010. 

  2. D. E. Rumelhart, G. E. Hinton, and R. J. Williams, "Learning representations by back-propagation errors", Nature, Vol. 323, pp. 533-536, 1986. 

  3. T. T. Le, J. S. Mason and T. Kitamura, "Characteristics of multi-layer perceptron models in enhancing degraded speech", Proc. ICSLP-94, pp. 1611-1614, 1994. 

  4. L. Yang, L. Jing, Y. Yuxiang and W. Jian, "Improvement algorithm of DTW on isolated-word recognition", 2011 IEEE International Conference on Computer Science and Automation Engineering, Vol. 3, pp. 319-322, 2011. 

  5. Y. M. Zeng, Z. Y. Wu, T. Falk and W. Y. Chan, "Robust GMM based gender classification using pitch and RASTA-PLP parameters of speech", 2006 International Conference on Machine Learning and Cybernetics, pp. 3376-3379, August 2006. 

  6. C. C. Chen, P. T. Lu, M. L. Hsia, J. Y. Ke and O.T.-C. Chen, "Gender-to-Age hierarchical recognition for speech", 2011 IEEE 54th International Midwest Symposium on Circuits and Systems, pp. 1-4, 2011. 

  7. M. Kos, M.; D. Vlaj and Z. Kacic, "Speaker's gender classification and segmentation using spectral and cepstral feature averaging", 2011 18th International Conference on Systems, Signals and Image Processing, pp. 1-4, 2011. 

  8. H. Xu, X. Zhang and L. Jia, "The extraction and simulation of Mel frequency cepstrum speech parameters", 2012 International Conference on Systems and Informatics, pp. 1765-1768, 2012. 

  9. P. B. Patil, "Multilayered network for LPC based speech recognition", IEEE Transactions on Consumer Electronics, Vol. 44, No. 2, pp. 435-438, 1998. 

  10. H. Hirsch and D. Pearce, "The AURORA experimental framework for the performance evaluations of speech recognition systems under noisy conditions", in Proc. ISCA ITRW ASR2000 on Automatic Speech Recognition: Challenges for the Next Millennium, Paris, France, 2000. 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로