[논문]적응 MFCC와 Neural Network 기반의 음성인식법

배현수; 이석규

적응 MFCC와 Neural Network 기반의 음성인식법
Voice Recognition Based on Adaptive MFCC and Neural Network 원문보기

대한임베디드공학회논문지 = IEMEK Journal of embedded systems and applications, v.5 no.2, 2010년, pp.57 - 66

Abstract ▼ AI-Helper

In this paper, we propose an enhanced voice recognition algorithm using adaptive MFCC(Mel Frequency Cepstral Coefficients) and neural network. Though it is very important to extract voice data from the raw data to enhance the voice recognition ratio, conventional algorithms are subject to deteriorating voice data when they eliminate noise within special frequency band. Differently from the conventional MFCC, the proposed algorithm imposed bigger weights to some specified frequency regions and unoverlapped filterbank to enhance the recognition ratio without deteriorating voice data. In simulation results, the proposed algorithm shows better performance comparing with MFCC since it is robust to variation of the environment.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 음성신호에서 잡음을 제거하는알고리즘 중에 가장 많이 사용되며 인식률이 높은 MFCC법을 개선하여 MFCC의 단점인 특정주파수대역에서는 잡음이 제거되지 않는 점을 보완하여개선된 MFCC 알고리즘을 제안한다. 이 방법에서는잡음의 평균 진폭이 음성데이터보다 평균적인 크기가 작아야 하며, 또한 입력 신호 중 Smooth를 이용하여 작은 크기의 신호를 없애준다.

제안 방법

본 실험에서는 ‘안녕하세요’의 음성신호를 잡음에 강한 Mel-scale로 변환한 후, DFT를 이용하여 Time domain인 신호를 Frequency domain 으로 바" 꾸어서 Triangle bandpass filter로 이루어 진 Filterbank를 이용하여 잡음을 제거한다. 그림8과 9 는 녹음된 음성신호를 Mel-scale로 변화시킨 후의 음성신호와 DET변환된 데이터를 그림으로 나타내고 있다.
개선된 MFCC를 이용한 잡음 제거를 위하여 우선 ‘안녕하세요’의 음성신호를 Mel-scaled 변환을 하여 30ms의 크기로 frame을 나누어 준다. Frame을 나누어 준 상태에서 smooth를 수행하며, 이 경우 잡음은 원래 음성 데이터에 비해서 약 1/50보다 작은 신호이므로 smooth를 통하여 아주작은 잡음들을 제거해 준다.
이런 방법으로 잡음을 제거하여 켑스트럼을 추출하여 음성인식을 하게 된다. 또한 DCT(Discrete cosine transform)를 통해 얻은켑스트럼 값을 신경망 회로 중 역전파 알고리즘을 이용하여 학습시킴으로써 인식률을 향상시켰다 .
또한 DFT를 이용하여 time domain을 frequency domain으로 변환하며, 약 50개의 각 주파수 대역에서 값이 높은 순으로 추출하여 평균과 분산을 구해준다. 이 경우 데이터의 표본의 개수가 많으면 정규분포를 따르므로 각 영역의 가중치를 표준정규분포값으로 주어서 각 영역에 대하여 가중치를 주게 된다.
본 논문에서 제안하는 알고리즘에서 사용되는 잡음제거용 filter는 음성신호를 DFT하여 주파수 대역에서 일정한 dB(decibel) 이상인 주파수 대역을 추출하며, 추출한 주파수 대역들에 각각 상이한 가중치를 주어 다른 대역보다 두드러지게 한다. 또한 Filterbank에서는 triangle bandpass filter를 사용하며, 일반적인 MFCC는 n 번째 bandpass filter의 중앙값이 n+1번째 필터의 처음값이 되나, 제안된 알고리즘에서는 필터가 겹치지 않고 n번째 필터의 마지막 값이 n+1번째 필터의 첫번째 값이 된다. 이런 방법으로 잡음을 제거하여 켑스트럼을 추출하여 음성인식을 하게 된다.
기존의 MFCC는 특정 대역의 잡음이 잘 제거되지 않는 단점으로 인하여 인식률이 저하되었지만 개선된 MFCC는 음성데이터를 손상시키지 않으면서도 모든 대역의 잡음을 제거하기 위하여 Smooth를 통하여 1차적으로 아주 작은 크기의 잡음을 제거해주었다. 또한 주파수 대역과 무관하게 어떠한 잡음이라도 인식률에 영향을 미치지 않게 하기 위해서 입력되는 신호의 각 주파수 대역의 크기가 큰 순서대로 약 50개 정도의 주파수 대역을 평균과 분산을 구해서 각 필터마다 가중치를 주어서 특정 잡음이 인식률에 영향을 미치지 않도록 적응필터를 설계하였다. 따라서 기존의 MFCC는 특정 주파수 대역의 잡음이 제거되지 않아서 인식률이 저하되는 상황을 개선된 MFCC를 통하여 잡음에 의해 인식률이 저하되는 경우가 없도록 하였다.
이 방법은 음성인식에서 좋은 결과를 나타내어 많이 사용되지만 낮은 신호 대 잡음비를 가지는 신호에서는 인식 성능이 저하되는 단점이 있다. 본 논문에서 제안하는 알고리즘에서 사용되는 잡음제거용 filter는 음성신호를 DFT하여 주파수 대역에서 일정한 dB(decibel) 이상인 주파수 대역을 추출하며, 추출한 주파수 대역들에 각각 상이한 가중치를 주어 다른 대역보다 두드러지게 한다. 또한 Filterbank에서는 triangle bandpass filter를 사용하며, 일반적인 MFCC는 n 번째 bandpass filter의 중앙값이 n+1번째 필터의 처음값이 되나, 제안된 알고리즘에서는 필터가 겹치지 않고 n번째 필터의 마지막 값이 n+1번째 필터의 첫번째 값이 된다.
본 논문에서는 MFCC를 개선하여 환경에 강인한 음성인식을 위한 효과적으로 잡음을 제거한 후 Neural Network를 통하여 인식을 하였으며, 그 결과를 인식률로 비교하였다. 특히 인식률 향상을 위하여 Smooth와 적응필터를 통하여 데이터에 손상을 주지 않으면서 잡음을 제거하였다.
특히 효율적인 음성인식을 위해서 신경망 알고리즘에서 가장 많이 사용되는 역전파 알고리즘을 이용하였다. 역전파 신경망에서는 일정한 개수의 입력에 대하여 10개의 은닉층을 이용한 실험하였으며, MFCC는 13차를 이용하였다.
인식률로 비교하였다. 특히 인식률 향상을 위하여 Smooth와 적응필터를 통하여 데이터에 손상을 주지 않으면서 잡음을 제거하였다. 기존의 MFCC는 특정 대역의 잡음이 잘 제거되지 않는 단점으로 인하여 인식률이 저하되었지만 개선된 MFCC는 음성데이터를 손상시키지 않으면서도 모든 대역의 잡음을 제거하기 위하여 Smooth를 통하여 1차적으로 아주 작은 크기의 잡음을 제거해주었다.
표 1은 실험에서 이용되는 음성신호에서 크기가큰 주파수 대역을 나타내고 있으며, 이때 구해진 평균과 분산으로 각 필터마다 가중치를 다르게 주기위해서 위에서 구해진 평균과 분산 을 이용하여 표준정규분포를 사용해 각 주파수 대역별로 가중치를 다르게 주었다.

대상 데이터

본 실험에서는 마이크를 이용하여 1초인 단어 30개를 녹음하여 이 데이터로 사용하였으며, Hamming Window를 이용하여 30ms의 크기로 frame을 나누어주었다. 그림7은 일반적인 연구실환경에서 녹음된 ‘안녕하세요’라는 문장의 음성신호를 나타내고 있다.

데이터처리

제안된 알고리즘의 효율성을 증명하기 위한 실험에서는 크기가 일정하지 않은 잡음 환경하에서 MATLAB을 이용하여 결과를 도출하였다. 특히 효율적인 음성인식을 위해서 신경망 알고리즘에서 가장 많이 사용되는 역전파 알고리즘을 이용하였다.

이론/모형

신경망회로는 역전파 알고리즘(Back -Propagation)을 사용하는데 역전파 알고리즘은 지도학습 중 하나로서 delta학습을 이용한다. 그림 5는 본 과정에서 사용된 역전파 알고리즘의 순서도를 나타내고 있다.
인식은 신경망 알고리즘으로 feedback 신경망인 역전파 알고리즘을 이용하여 인식하였다. 기본적인수행 과정은 입력에 가중치를 곱한 다음 은닉층에서 더하고 곱하는 과정을 은닉층마다 수행해주면 출력층에 결과값이 나오게 된다.
이용하여 결과를 도출하였다. 특히 효율적인 음성인식을 위해서 신경망 알고리즘에서 가장 많이 사용되는 역전파 알고리즘을 이용하였다. 역전파 신경망에서는 일정한 개수의 입력에 대하여 10개의 은닉층을 이용한 실험하였으며, MFCC는 13차를 이용하였다.

성능/효과

표2는 30 개의 단어를 각각 200번씩 반복하여 MFCC와 수정된 MFCC의 인식률을 비교한 것이다. MFCC가 잡음이 없는 신호에서는 인식률이 약간 더 높았지만 잡음이 있을 때는 수정된 MFCC가 인식률이 더 높게 나왔다.

후속연구

따라서 기존의 MFCC는 특정 주파수 대역의 잡음이 제거되지 않아서 인식률이 저하되는 상황을 개선된 MFCC를 통하여 잡음에 의해 인식률이 저하되는 경우가 없도록 하였다. 추후 연구 과제로는 제안된 방법은 기존의 MFCC보다 계산량이 증가하기 때문에 계산시간을 줄이기 위한 연구를 진행할 예정이며, 인식 알고리즘도 보다 더 인간과 비슷한 알고리즘인 자율학습으로 인식을 할 예정이다.

참고문헌 (20)

S. Boll "A spectral subtraction algorithm of acoustic noise in speech", IEEE International Conference on ICASSP '79, Vol. 4, pp. 200-203, 1979.
Chul-Ho Park, Keun-Sung Bea. "Performance analysis of noisy speech recognition depending on parameters for noise and signal power estimation in MMSE-STSA based speech engancement", 말소리, No.57, pp. 153-164, 2006.

원문보기 상세보기
Young-Chu Songl "Effective noise suppression in edge region using modified wiener filter", The transactions of the Korean Institute of Electrical Engineers D/D 2003, Vol. 52, No.3, pp. 173-180, 2003.
B. Widrow. et al. "Adaptive noise cancelling, principles and applications", Proc. Of IEEE 63(12), pp, 1692-1716, 1975.

상세보기
Chul-Hee Han, Hong-Goo Kang, Hwang Young-Soo, Youn Dea-Hee "A microphone array beamformer for the performance enhancement of speech recognizer in car", The journal of the acoustical society of Korea, Vol. 24, No.7, pp. 423-430, 2005.
Miki Kazuhiko, Nishiura Takanobu, Nakamura Satoshi "Speech recognition based on HMM decomposition and composition method with a microphone array in noisy reverberant environments", Electronics & Communications in Japan. Part 2, Electronic, Vol. 85, No.9, pp. 13-22.
정용주 "A Study on noisy speech recognition using discriminative training for PMC algorithm", The Journal of the Acoustical Society of Korea, Vol. 19, No.2, pp. 83-89, 2000.
Wang F-M, Kabal P, Ramachandran R.P, O'Shaughnessy D, "Frequency domain adaptive postfiltering for enhancement of noisy speech", Speech Communication, Vol. 12 No.1, pp. 41-56, 1993.

상세보기
Won-Ho Shin, Tae-Young Yang, Weon-Goo Kim, Dea-Hee Youn, Young- Joo Seo, "Speech recognition using noise robust features and spectral subtraction", The Journal of the Acoustical Society of Korea, Vol. 15, No.5, pp. 38-43, 1969.
Sun-Mi Kang, "잡음 환경하에서의 음성인식에 관한 연구", Journal of Institute of Industrial Technology, pp. 301-318, 1997.
B.H. Nitsch, "A Frequency-selective stepfactor controlfor an adaptive filter algorithm working in the frequency domain", Signal processing, the official publication of the European Association for Signal Processing(EURASIP), Vol. 80. No.9, pp. 1733-1745, 2000.
Q.C. Liu, B. Champagne, D.K.C. Ho, "Simple design of oversampled uniform DFT filter banks with applications to subband acoustic echo cancellation", Signal processing, Vol. 80, No.5, pp. 831-847, 2000.

상세보기
Li Shang, Hashimoto Hideo , Wu Xiaohua, Takahashi, Nobuaki, Takebe, Tauyoshi, "Adaptive IIR bandpass decimation filter for single sinusoid detection", Electrinics and communications in Japan. Part 3, Fundamental electronic science, Vol. 83, No.7, pp. 91-101, 2000.

상세보기
L.H. Tey, P.L. So, Y.C Chu, "Adaptive neural network control of active filters", Electric Powersystems Research, Vol. 74, No.1, pp. 37-56, 2005.

상세보기
Chang-Young Lee, "Improvements on MFCC by elaboration of the filter banks and windows", Speech Sciences, Vol. 14, No.4, pp. 131-144, 2007.
F.F. Li, T.J. Cox, "A Neural network model for speech intelligibility quantification", Applied soft computing, Vol. 7, No.1, pp. 145-155, 2007.

상세보기
M.H. Kostepen, G. Kurnar, "Speech recognition using back-propagation neural networks", IEEE Region 10 International Conference on EC3-Energy, Computer, Communication and Control System, Vol. 2, pp. 144-148, 1991.
Y.Ephraim. "Statistical model based speech enhancement systems", Proc. IEEE, Vol. 80, No.10, pp. 1524-1555, 1992.
J.B. Allen, "How do humans process and recognize speech?", IEEE Transactions on Speech and Audio Processing, 2(4), 1994.
T. Zeppenfeld and A.H. Waibel, "A hybrid neural network, dynamic programming word spotter", In Proceedings of IEEE International Conference on Acoustics Speech and Signal Processing, Vol. 2, pp. 77-80, 1992.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증