[논문]음소 인식을 위한 스파이크그램 기반의 음성 특성 추출 기술

한석현; 김재원; 안순호; 신성현; 박호종

doi:10.5909/jbe.2019.24.5.735

음소 인식을 위한 스파이크그램 기반의 음성 특성 추출 기술
Speech Feature Extraction based on Spikegram for Phoneme Recognition 원문보기

방송공학회논문지 = Journal of broadcast engineering, v.24 no.5, 2019년, pp.735 - 742

한석현 (광운대학교 전자공학과) , 김재원 (광운대학교 전자공학과) , 안순호 (광운대학교 전자공학과) , 신성현 (광운대학교 전자공학과) , 박호종 (광운대학교 전자공학과)

초록
AI-Helper

본 논문에서는 스파이크그램을 기반으로 음소 인식을 위한 특성을 추출하는 방법을 제안한다. 음소 인식에 널리 사용되는 푸리에 변환 기반의 특성은 청각 기관의 동작에 부합하는 과정으로 구해지지 않으며 프레임 단위로 추출되어 높은 시간 해상도를 가지지 못한다. 따라서 음소 인식의 성능 향상을 위해 높은 시간 해상도를 가지면서 인간의 청각기관을 모델링 하는 새로운 음성 특성 추출 기술이 요구된다. 본 논문에서는 청각 기관의 특성 추출 및 전달 과정을 모델링 하는 기법인 스파이크그램을 사용하여 음성 신호를 분석하고, 이로부터 음소 인식을 위한 특성을 추출하는 방법을 제안한다. 심층 신경망 기반의 음소 인식기를 사용하여 제안한 특성의 음소 인식 성능을 측정하였고, 짧은 음소에 대해 제안 특성이 기존 푸리에 변환 기반의 특성보다 우수한 성능을 가지는 것을 확인하였다. 이 결과로부터 청각 모델을 기반으로 추출된 새로운 음성 특성을 사용하여 음소 인식이 가능함을 확인할 수 있다.

Abstract ▼ AI-Helper

In this paper, we propose a method of extracting speech features for phoneme recognition based on spikegram. The Fourier-transform-based features are widely used in phoneme recognition, but they are not extracted in a biologically plausible way and cannot have high temporal resolution due to the frame-based operation. For better phoneme recognition, therefore, it is desirable to have a new method of extracting speech features, which analyzes speech signal in high temporal resolution following the model of human auditory system. In this paper, we analyze speech signal based on a spikegram that models feature extraction and transmission in auditory system, and then propose a method of feature extraction from the spikegram for phoneme recognition. We evaluate the performance of proposed features by using a DNN-based phoneme recognizer and confirm that the proposed features provide better performance than the Fourier-transform-based features for short-length phonemes. From this result, we can verify the feasibility of new speech features extracted based on auditory model for phoneme recognition.

주제어

표/그림 (8)

그림 그림 1. 제안 방법에서 사용하는 감마톤 필터의 파형 Fig. 1. Waveform of gammatone filter used in the proposed method
그림 그림 2. 제안 방법에서 사용하는 32 밴드 감마톤 필터뱅크의 주파수 응답 Fig. 2. Frequency response of 32-band gammatone filterbank used in the proposed method
그림 그림 3. 음성 신호의 스펙트로그램(위)과 스파이크그램(아래)의 예 Fig. 3. Spectrogram (top) and spikegram (bottom) of speech signal
그림 그림 4. 위상 조정 전(위)과 후(아래)의 스파이크그램 Fig. 4. Spikegram before (top) and after (bottom) phase alignment
그림 그림 5. 스파이크그램으로부터 32개의 주파수 기반 특성(위)과 K개의 시간 기반 특성(아래)을 구하는 과정 Fig. 5. Procedure of extracting 32 spectral features (top) and K temporal features (bottom) from spectrogram
표 표 1. 서브 프레임 개수 K에 따른 음소 인식 정확도 Table 1. Recognition accuracy as a function of the number of sub-frames, K
표 표 2. 스펙트로그램, MFCC, 제안하는 특성의 음소 class별 인식 정확도 Table 2. Recognition accuracy of spectrogram, MFCC and proposed features for phoneme class
그림 그림 6. 제안하는 특성의 음소 인식 혼동행렬 Fig. 6. Confusion matrix of proposed features

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문의 목표는 기존 기술의 문제점을 해결하기 위해인간의 청각 모델을 기반으로 청각 기관과 유사한 과정으로 음성 특성을 추출하는 기술을 개발하는 것이다. 이를 위해 스파이크그램 (spikegram) 기반으로 음소 인식을 위한새로운 음성 특성을 추출하는 방법을 제안한다.

제안 방법

이후 40 밴드 스펙트로그램 특성의 1차 시간 미분과 2차 시간 미분을 더하여 총 120개 스펙트로그램 특성을 구한다. 다음, 푸리에 변환을 통해 25 ms 단위의 파워 스펙트럼을 구하고 40 밴드의 Mel-filterbank 에너지를 기반으로 discrete cosine transform (DCT)를 실행하여 40개의 MFCC를 구하고 40개 MFCC의 1차 시간 미분과 2차 시간 미분을 더하여총 120개 MFCC 특성을 구한다.
인식한다. 먼저, 200 bin의 주파수 해상도를 가진스펙트로그램을 얻은 후, 5 bin 단위로 에너지를 구하여 40 밴드 스펙트로그램 기반의 에너지 특성을 얻는다. 이후 40 밴드 스펙트로그램 특성의 1차 시간 미분과 2차 시간 미분을 더하여 총 120개 스펙트로그램 특성을 구한다.
언어 모델로 나누어진다[1]. 본 논문에서는 인간 청각 기관의 초기 동작만을 모델링하기 위해 언어 모델을 제외한 신호 모델 기반의 음소 인식만을 다룬다 또한 음소 인식은 기능에 따라 특성 추출과 분류로 나뉘며, 음성 신호로부터 음소에 대한 핵심 정보를 표현하는 특성을 추출하고 최종적으로 음소를 인식하기 위해 특성을 분류한다.
성능 비교를 위한 스펙트로그램 특성과 MFCC 특성도제 안 특성과 동일하게 25 ms 단위로 추출하고 25 ms마다음소를 인식한다. 먼저, 200 bin의 주파수 해상도를 가진스펙트로그램을 얻은 후, 5 bin 단위로 에너지를 구하여 40 밴드 스펙트로그램 기반의 에너지 특성을 얻는다.
이는 시간 해상도가 높은 스파이크그램에서 잘못된 시간 기반 특성을 추출하게 한다. 이러한 문제점을 해결하기 위해 스파이크그램을 생성한 다음 각 밴드별로 지연된 시간만큼 스파이크의 위치를 조정한다. 그림 4는 위상을 조정하기 전 스파이크그램과 위상을 조정한 후 스파이크 그램을 보여준다.
음성 특성을 추출하는 기술을 개발하는 것이다. 이를 위해 스파이크그램 (spikegram) 기반으로 음소 인식을 위한새로운 음성 특성을 추출하는 방법을 제안한다. 스파이크그램은 청각 기관이 음성 특성을 추출하고 전달하는 과정을 모델링한 기법으로서 음성 신호를 주파수와 시간 축 상에 청각 커널 (kernel)의 합으로 분해한 것이다(3) 즉, 이 기법은 청각 기관이 스파이크를 통해 신호의 시간/주파수 구조를 분석하는 것을 시뮬레이션 하며, 기존 수학적 특성들과는 달리 주파수 정보를 얻기 위해 프레임 단위의 동작을수행하지 않기 때문에 높은 시간 해상도로 음성 특성을 분석하는데 적합하다.
이와 같이 25 ms 구간별로 주파수 기반 특성과 시간기반 특성을 더한 (32 + K)개 정적 상태 (static) 특성을구하고, 모든 특성에 대하여 구간에 대한 1차 시간 미분 (delta)과 2차 시간 미분 (delta-delta)을 구해 총 (96 + 3K) 개 특성을 완성한다. 시간 미분 %를 구하는 방법은 식 (3) 과 같다.
먼저, 200 bin의 주파수 해상도를 가진스펙트로그램을 얻은 후, 5 bin 단위로 에너지를 구하여 40 밴드 스펙트로그램 기반의 에너지 특성을 얻는다. 이후 40 밴드 스펙트로그램 특성의 1차 시간 미분과 2차 시간 미분을 더하여 총 120개 스펙트로그램 특성을 구한다. 다음, 푸리에 변환을 통해 25 ms 단위의 파워 스펙트럼을 구하고 40 밴드의 Mel-filterbank 에너지를 기반으로 discrete cosine transform (DCT)를 실행하여 40개의 MFCC를 구하고 40개 MFCC의 1차 시간 미분과 2차 시간 미분을 더하여총 120개 MFCC 특성을 구한다.
다음, 추출된 스파이크에 해당하는 감마톤 필터와 크기의 곱만큼을 원 신호 x(/)에서 빼서 잔여 (residual) 신호를구한다. 이후 잔여 신호로부터 다시 가장 큰 상관도를 가지는 스파이크를 추출하는 것을 반복해 스파이크그램을 생성한다. 추출된 스파이크로부터 식 (1)에 따라 신호를 복원할수 있으며, 복원 신호의 peak signal-to-noise ratio (PSNR) 이 50dB에 도달할 때까지 스파이크를 추출한다.
제안하는 방법은 대 표적 청각 모델인 감마톤 (gammatone) 필터뱅크를 커널로 사용하여 입력 신호에 대한 스파이크 그램을 생성하고[4, 5], 생성된 스파이크그램으로부터 음소 인식을 위한 핵심 음성 특성을 시간과 주파수 영역에서 추출한다 다음, 추출한 음성 특성을 심층 신경망 (deep neural network, DNN) 기반의 음소 인식기에 입력하여 음소 인식 성능을 측정한다. 성능 검증을 통해 제안하는 음성 특성이 장애음 (obstruent)과 같은 길이가 짧은 음소에 대해 MFCC 특성보다 더 높은 성능을 제공하는 것을 확인하였다.
제안하는 특성의 음소 인식 성능을 기존 음소 인식에서주로 사용하는 스펙트로그램과 MFCC 특성의 성능과 비교하여 제안 특성의 음소 인식 가능성을 검증하였다 각 특성을 비슷한 차원으로 맞추고 동일한 분류기로 음소 인식 성능을 측정하여 공정한 성능 비교가 되도록 하였다 음소 인식을 위한 분류기는 3개의 은닉층을 가지는 DNN이며, 은닉 뉴런의 수는 2000, 1000, 1000이다 은닉층에는 ReLU, 줄력증에는 softmax 함수를 적용하였고, drop-out의 keep probability를 0.8로 설정하였으며, Adam을 사용해 DNN을학습하였대10].
462명의 화자가 녹음한 training set을 학습 데이터로, 50명의 화자가 녹음한 development set을 검증 데이터로 사용하였다 최종 성능은 development set과 중복되지 않으며, 24명의 화자가 녹음한 core test set을 사용하여 평가하였다[기. 화자와 상관없이 인식하는 화자독립 (speaker-independent) 조건으로 성능을 평가하였다.

대상 데이터

Glasberg과 Moore의 감마톤 모델에 따라 감마톤을 생성하였고, 32개 감마 톤 ERB 필터를 각각 에너지 1로 정규화 하여 사용하였다[7]. 그림 1은 식 (2)에 의해 생성된 감마톤 필터의 일부 파형 이고, 그림 2는 32개 감마톤 필터의 주파수 응답 그래프이다 청각의 장소 이론 (place theory)에 따르면 달팽이관 기저막은 비선형적인 주파수 분포를 가지며[6], 그림 2의 감마 톤 필터는 비선형적인 청각 시스템의 동작과 동일하게 높은 밴드일수록 넓은 대역폭을 가진다.
본 논문에서는 스파이크를 추출하기 위해서 식 (2)와 같은 감마톤의 equivalent rectangular bandwidth (ERB) 필터를 커널로 사용한대7].
성능 평가는 TIMIT 데이터 세트를 사용하여 진행하였다. 음운학에 따라 지정된 기존 61개의 음소는 혼동되기 쉬우며불필요한 분류가 존재한다.

이론/모형

본 논문에서는 스파이크그램을 생성하기 위해 matching pursuit (MP) 알고리즘을 사용한다[8]. 먼저, 식 (1)과 같이음성 신호를 커널의 합으로 분해하기 위해 특정 시간 위치에서 신호와 32 밴드 커널 Φm(t)과의 상관도를 구한다.

성능/효과

제안하는특성은 others에 대하여 스펙트로그램과 MFCC 특성에 비해 낮은 성능을 가지고, 다른 음소 class에 비해 others 의빈도가 높으므로 others에서의 낮은 성능이 전체 인식 성능을 하락시키는 요인으로 작용한다. 결론적으로, 청각 기관을 모델링하는 새로운 접근법에 따라 구한 특성을 사용하여 음소 인식 이 가능하고 특히 짧은 음소에 대하여 성능이우수한 것을 확인할 수 있다.
본 논문에서는 청각 기관의 동작을 모델링 하는 스파이크 그램을 구하고 이를 기반으로 음소 인식을 위한 새로운 특성을 추출하는 방법을 제안하였다 음성 신호의 스파이크 그램을 주파수와 시간 축으로 분석하여 주파수 기반 특성과 시간 기반 특성을 추출하고, 이에 대한 1차 시간 미분과 2차 시간 미분을 추가하여 최종 126개 음성 특성을 구한다 제안한 특성은 샘플 단위의 시간 해상도를 가지는 스펙트로 그램으로부터 구하므로, 프레임 단위로 구하는 기존의 MFCC 특성에 비해 높은 시간 해상도를 가진다 제안한 특성을 사용하면 짧은 음소에 대하여 MFCC 특성보다 우수한 성능을 가지는 것을 확인하였고, 이를 통해 청각 동작을 기반으로 구한 새로운 음성 특성을 사용하여 음소 인식 이 가능한 것을 확인하였다. 추가 연구를 통하여 스파이크 그램과 타이밍 기반의 심층 신경망을 이용한 음소 인식기에 대하여 연구하고 성능을 향상시킬 계획이다.
인식 성능을 측정한다. 성능 검증을 통해 제안하는 음성 특성이 장애음 (obstruent)과 같은 길이가 짧은 음소에 대해 MFCC 특성보다 더 높은 성능을 제공하는 것을 확인하였다. 이를 통해 제안 방법과 같이 인간의 청각 모델을 기반으로 추출된 새로운 음성 특성을 사용하여 음소 인식 이 가능함을 확인할 수 있다
성능 검증을 통해 제안하는 음성 특성이 장애음 (obstruent)과 같은 길이가 짧은 음소에 대해 MFCC 특성보다 더 높은 성능을 제공하는 것을 확인하였다. 이를 통해 제안 방법과 같이 인간의 청각 모델을 기반으로 추출된 새로운 음성 특성을 사용하여 음소 인식 이 가능함을 확인할 수 있다
표 2에서 보듯이 높은 시간해상도를 가지는 제안 특성은 길이가 짧은 장애음에 대해프레임 기반의 스펙트로그램과 MFCC 특성보다 우수한 성능을 제공함을 확인할 수 있다. 제안하는 특성이 기존 특성보다 95개의 장애음을 잘 분류하였고, 높은 성능을 가지는것을 확인하였다 반면, 평균 음소 길이가 긴 공명음에 대해서는 제안하는 특성이 기존 특성보다 낮은 성능을 가진다. TIMIT 데이터 세트는 묵음 (silence)을 39개 음소 중 'etc' 로 정의하며, 음소 class로는 others로 분류한다.
TIMIT 데이터 세트는 묵음 (silence)을 39개 음소 중 'etc' 로 정의하며, 음소 class로는 others로 분류한다. 제안하는특성은 others에 대하여 스펙트로그램과 MFCC 특성에 비해 낮은 성능을 가지고, 다른 음소 class에 비해 others 의빈도가 높으므로 others에서의 낮은 성능이 전체 인식 성능을 하락시키는 요인으로 작용한다. 결론적으로, 청각 기관을 모델링하는 새로운 접근법에 따라 구한 특성을 사용하여 음소 인식 이 가능하고 특히 짧은 음소에 대하여 성능이우수한 것을 확인할 수 있다.
반면, 비음 (nasals), 반모음 (glides), 모음 (vowel)으로 구성된 공명음 (sonorant)은 성대를 떨게 한 공기가 비강이나 구강으로 흘러 나갈 때 덜 막혀 울리는 소리로, 평균 음소 길이가 길다[12, 13]. 표 2에서 보듯이 높은 시간해상도를 가지는 제안 특성은 길이가 짧은 장애음에 대해프레임 기반의 스펙트로그램과 MFCC 특성보다 우수한 성능을 제공함을 확인할 수 있다. 제안하는 특성이 기존 특성보다 95개의 장애음을 잘 분류하였고, 높은 성능을 가지는것을 확인하였다 반면, 평균 음소 길이가 긴 공명음에 대해서는 제안하는 특성이 기존 특성보다 낮은 성능을 가진다.

후속연구

것을 확인하였다. 추가 연구를 통하여 스파이크 그램과 타이밍 기반의 심층 신경망을 이용한 음소 인식기에 대하여 연구하고 성능을 향상시킬 계획이다.

참고문헌 (13)

D. Yu and L. Deng, Automatic Speech Recognition: A Deep Learning Approach, Springer Publishing Company, Incorporated, 2014.
O. Abdel-Hamid, A. Mohamed, H. Jiang, L. Deng, G. Penn and D. Yu, "Convolutional Neural Networks for Speech Recognition," IEEE/ACM Trans. on Audio, Speech, and Language Processing, Vol. 22, No. 10, pp. 1533-1545, Oct. 2014, doi:10.1109/TASLP.2014. 2339736.

상세보기
E. Smith and M. Lewicki, "Efficient Auditory Coding," Nature, Vol. 439, No. 7079, pp. 978-982, Feb. 2006, doi:10.1038/nature04485.

상세보기
W.-J. Jang, H.-W. Yun, S.-H. Shin and H. Park, "Music genre classification using spikegram and deep neural network," J. of Broadcast Engineering, Vol. 22, No. 6, pp. 693-701, Nov. 2017, doi:10.5909/JBE. 2017.22.6.693.
S.-H. Shin, H.-W. Yun, W.-J. Jang and H. Park, "Extraction of acoustic features based on auditory spike code and its application to music genre classification," IET Signal Processing, Vol. 13, No. 2, pp. 230-234, Apr. 2019, doi:10.1049/iet-spr.2018.5158.

상세보기
G. Mather, Foundations of Perception, Psychology Press, 2006.
M. Slaney, "An Efficient Implementation of the Patterson - Holdsworth Auditory Filter Bank," Apple Computer Technical Report #35, 1993.
J. Tropp and A. Gilbert, "Signal Recovery From Random Measurements Via Orthogonal Matching Pursuit," IEEE Trans. on Information Theory, Vol. 53, No. 12, Dec. 2007, doi:10.1109/TIT. 2007.909108.
X. Huang, A. Acero, and H. Hon. Spoken Language Processing: A guide to theory, algorithm, and system development. Prentice Hall, 2001.
I. Goodfellow, Y. Bengio, A. Courville, Deep Learning, The MIT Press, Cambridge and London, 2016.
K. F. Lee and H. W. Hon, "Speaker-independent phone recognition using hidden markov models," IEEE Trans. on Audio, Speech, Lang. Process., Vol. 37, No. 11, pp. 1641-1648, Nov. 1989, doi:10.1109/29. 46546.

상세보기
N. Faraji, S. M. Ahadi and H. Sheikhzadeh, "Sequential method for speech segmentation based on Random Matrix Theory," IET Signal Processing, Vol. 7, No. 7, pp. 625-633, Sept. 2013, doi:10.1049/ietspr.2011.0471.

상세보기
P. Ladefoged and I. Maddieson. The Sounds of the World's Languages. Oxford, OX, UK: Blackwell Publishers, 1996.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증