$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

LPC 켑스트럼 계수와 신경회로망을 사용한 화자인식
Speaker Recognition using LPC cepstrum Coefficients and Neural Network 원문보기

한국정보통신학회논문지 = Journal of the Korea Institute of Information and Communication Engineering, v.15 no.12, 2011년, pp.2521 - 2526  

최재승 (신라대학교 전자공학과)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 퍼셉트론 신경회로망과 선형예측부호화 켑스트럼 계수를 사용한 화자인식 알고리즘을 제안한다. 제안하는 화자인식 알고리즘은 입력받은 음성신호에 대해서 유성음 구간을 추출한다. 추출된 유성음 구간에 대하여 선형예측 분석에 의하여 화자의 특성을 가지고 있는 선형예측부호화 켑스트럼 계수를 구한다. 구해진 선형예측부호화 켑스트럼 계수를 분류하기 위하여 이 켑스트럼 계수를 퍼셉트론 신경회로망의 입력으로 사용하여 네트워크의 학습을 수행한다. 본 실험에서는 선형예측부호화 켑스트럼 계수와 신경회로망을 사용하여 본 화자인식 알고리즘이 유효하다는 것을 인식률을 통하여 확인한다.

Abstract AI-Helper 아이콘AI-Helper

This paper proposes a speaker recognition algorithm using a perceptron neural network and LPC (Linear Predictive Coding) cepstrum coefficients. The proposed algorithm first detects the voiced sections at each frame. Then, the LPC cepstrum coefficients which have speaker characteristics are obtained ...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 신경회로망을 이용하여 미래의 음성 컴퓨터가 어떤 사람이 발성하는 가를 인식하기 위한 기초연구를 수행하며, 여러 사람이 발성한 음성을 입력하여 각 개인이 가지고 있는 화자의 특징을 추출한 후에 이 특징 입력데이터를 신경회로망의 입력값으로 한다. 따라서 신경회로망의 학습 데이터와는 다른 새로운 화자의 목소리를 신경회로망에 입력할 경우에 어떤 사람이 발성한 목소리인가를 판단하고 인식하는 화자인식 시스템을 제안한다.
  • 본 논문에서는 기초적인 화자종속 음성인식의 성능 개선을 위하여 오차역전파알고리즘에 의한 신경회로망을 사용하여 화자 인식률을 향상시키는 방법을 제안하였다. 제안한 알고리즘은 발성음성의 음성구간을 검출하고 검출된 음성구간에 대하여 선형예측분석을 수행하여 LPC cepstrum 계수의 특징데이터를 추출한 후 이 특징데이터를 신경회로망에 적용시켜 화자를 인식하는 방법이다.
  • 본 논문에서는 신경회로망을 이용하여 미래의 음성 컴퓨터가 어떤 사람이 발성하는 가를 인식하기 위한 기초연구를 수행하며, 여러 사람이 발성한 음성을 입력하여 각 개인이 가지고 있는 화자의 특징을 추출한 후에 이 특징 입력데이터를 신경회로망의 입력값으로 한다. 따라서 신경회로망의 학습 데이터와는 다른 새로운 화자의 목소리를 신경회로망에 입력할 경우에 어떤 사람이 발성한 목소리인가를 판단하고 인식하는 화자인식 시스템을 제안한다.
  • 본 논문에서 제안한 시스템은 임의적으로 각 화자에 의한 특정 단어를 선택하여 화자인식 실험을 수행하여, 화자인식률에 의하여 인식 성능을 평가한다. 본 논문에서는 신경회로망의 각 화자의 입력 특징 데이터들이 최종적인 화자인식의 결과로 판정되기 위하여, 화자인식 전에 화자의 음성을 미리 참조패턴으로 등록하여 데이터베이스에 저장하여 최종적인 화자인식의 결과를 판단하게 된다. 본 논문에서의 화자 인식률은 발성음성의 전체 개수에 대하여 신경회로망의 출력값이 정확하게 검출된 비율로 정의한다.
  • 앞으로 컴퓨터라는 의사전달 장치가 인간과 상호 대화가 가능하기 위해서는 컴퓨터라는 장치가 여러 사람들이 말하는 음성을 인식할 필요에 따라서, 이러한 것을 위한 연구가 신경회로망의 발달과 함께 현재 활발하게 연구가 진행되고 있다. 이러한 신경회로망 모델에는 대표적인 Hopfield 모델, 다층 퍼셉트론 등의 모델이 있으며[3], 본 논문에서는 특히 이들 중에서 오차 역전파 학습 알고리즘[4]에 의한 다층 퍼셉트론[5]을 사용하여 기초적인 화자 인식에 관한 연구를 진행한다. 이 오차역전파 학습 알고리즘은 다층 퍼셉트론에 있어서 보편화된 학습 알고리즘으로서, 음성에 관련한 패턴 인식 분야에 있어서 상당히 유용한 학습 알고리즘이라는 것이 여러 연구에 의하여 시험되어 증명되고 있다[3, 4, 5].
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
본 연구에서 화자인식을 위한 전처리 과정은 어떻게 구분되는가? 전처리 과정은 음성 신호를 표본화하여 프레임처리하는 과정, 표본화 처리된 입력 음성신호에서 유성음만을 추출하는 과정, 추출된 유성음 신호에서 선형예측 분석에 의한 선형예측부호화 cepstrum 계수를 추출하는 과정으로 구분된다.
선형예측분석은 어떤 가정을 이용하여 음성의 특징 추출을 위한 예측부호화가 실시되어지는가? 선형예측분석은 일반적으로 음성신호의 표본값 사이에는 상당한 상관관계가 있다는 가정을 이용하여 음성의 특징 추출을 위한 예측부호화가 실시되어진다[7]. 이러한 가정 하에서 선형예측오차의 2승 평균값을 최소로 하도록 저역에 해당하는 LPC cepstrum 계수를 결정한다.
선형예측분석 과정에서는 일반적으로 음성신호의 표본값 사이에는 상당한 상관관계가 있다는 가정을 이용하여 음성의 특징 추출을 위한 예측부호화가 실시되어지는데, 이러한 가정 하에 무엇을 결정하는가? 선형예측분석은 일반적으로 음성신호의 표본값 사이에는 상당한 상관관계가 있다는 가정을 이용하여 음성의 특징 추출을 위한 예측부호화가 실시되어진다[7]. 이러한 가정 하에서 선형예측오차의 2승 평균값을 최소로 하도록 저역에 해당하는 LPC cepstrum 계수를 결정한다. 또한 LPC cepstrum 계수는 동일한 음성이라 할지라도 화자의 개인의 감정 및 주변의 잡음환경에 따라 cepstrum의 값이 다양한 변화를 보여줄 수 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (8)

  1. A. Revathi, Y. Venkataramani, "Speaker independent continuous speech and isolated digit recognition using VQ and HMM", 2011 International Conference on Communications and Signal Processing, pp. 198-202, 2011. 

  2. K. Kuah, M. Bodruzzaman, S. Zein-Sabatto, "A neural network-based text independent voice recognition system", Proceedings of the 1994 IEEE Southeastcon 'Creative Technology Transfer - A Global Affair'., pp. 131-135, 1994. 

  3. B. Lu, J. J. Xu, "Research on Isolated Word Speech Recognition Based on Biomimetic Pattern Recognition", 2009 International Conference on Artificial Intelligence and Computational Intelligence, Vol. 2, pp. 436-439, 2009. 

  4. D. E. Rumelhart, G. E. Hinton, and R. J. Williams, "Learning representations by back-propagation errors", Nature, Vol. 323, pp. 533-536, 1986. 

  5. S. K. Pal, S. Mitra, "Multilayer perceptron, fuzzy sets, and classification", IEEE Transaction on Neural Networks, Vol. 3, No. 5, pp. 683-697, 1992. 

  6. W. G. Knecht, M. E. Schenkel, G. S. Moschytz, "Neural network filters for speech enhancement", IEEE Trans. Speech and Audio Processing, Vol. 3, No. 6, pp. 433-438, 1995. 

  7. P. B. Patil, "Multilayered network for LPC based speech recognition", IEEE Transactions on Consumer Electronics, Vol. 44, No. 2, pp. 435-438, 1998. 

  8. H. Hirsch and D. Pearce, "The AURORA experimental framework for the performance evaluations of speech recognition systems under noisy conditions", in Proc. ISCA ITRW ASR2000 on Automatic Speech Recognition: Challenges for the Next Millennium, Paris, France, 2000. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로