본 논문에서는 환경변화에 강인한 화자인식 시스템 구축을 위하여 (1) 음성의 특징 벡터, (2) 시스템 모델링 방법을 연구하였다. 먼저, 환경변화에 강인한 음성의 특징 벡터로 운율정보 사용을 제안한다. 현재 화자인식 시스템에서 일반적으로 많이 사용되고 있는 특징벡터는 스펙트럼 정보를 모델링하고 있는 것으로, 비잡음 환경에서 좋은 성능을 보이고 있다. 그러나 소음이나 채널 노이즈와 같은 환경변화에 크게 왜곡되며, 특히 백색 ...
본 논문에서는 환경변화에 강인한 화자인식 시스템 구축을 위하여 (1) 음성의 특징 벡터, (2) 시스템 모델링 방법을 연구하였다. 먼저, 환경변화에 강인한 음성의 특징 벡터로 운율정보 사용을 제안한다. 현재 화자인식 시스템에서 일반적으로 많이 사용되고 있는 특징벡터는 스펙트럼 정보를 모델링하고 있는 것으로, 비잡음 환경에서 좋은 성능을 보이고 있다. 그러나 소음이나 채널 노이즈와 같은 환경변화에 크게 왜곡되며, 특히 백색 가우시안 잡음의 경우 인식율이 현저하게 저하되는 문제점이 나타난다. 그러므로 본 논문에서는 음성의 동적 변화를 측정할 수 있는 운율 정보를 특징벡터로 사용할 것을 제안한다. 본 논문에서는 일정 크기의 세그먼트로 분할한 피치열을 인식의 특징패턴으로 사용한다. 이는 문장의 미세 운율정보를 보여주는 것으로 소음환경, 특히 백색 가우시안 잡음 환경에서 강인한 특성을 가짐을 확인하였다. 시스템 모델링 측면에서는 두가지 모델을 고려한다. 첫째, 일반 벡터 양자화 모델을 개선한 bootstrap과 투표 방식을 도입한 벡터 양자화 모델을 제안한다. 훈련 과정에서, 실제 데이터를 bootstrap 시켜 각기 다른 코드북을 원하는 모델수 만큼 만든다. 인식 과정에서는 입력된 테스트 패턴을 각 모델과 비교하고 전체 결과 중 다수표를 얻은 화자로 인식하는 것이다. 이 방식을 적용하기 위하여 벡터 양자화 모델의 불안정성을 조사하였다. 새로운 벡터 양자화 모델은 높은 인식율을 갖지만 한 화자에 대해 여러 개의 코드북이 존재하게 되므로 메모리 크기가 커지는 단점이 있다. 이를 보완하기 위하여 확률 코드북 모델을 제안한다. 이는 전체 화자가 하나의 대표 코드북을 사용하는 방법으로, 코드북에 필요한 메모리 크기가 현저히 감소되는 장점을 갖는다. 둘째, 독립 성분 분석기법을 이용한 화자인식 시스템을 제안한다. 독립 성분 분석방법은 Unsupervised learning 또는 Blind seperation 방법의 하나로 볼 수 있으며, 서로 독립된 신호가 선형적으로 혼합되어 있는 관측가능 신호로부터 원래의 독립 성분을 추출해 내는 방법이다. 본 논문에서는 이를 이용하여 화자인식 시스템을 구현하였다. 훈련 과정에서 각 화자별로 독립 신호 구성의 파라미터를 구하고 인식 과정에서는 테스트 패턴과 파라미터 값을 이용하여 확률치를 계산하여 확률 값이 가장 큰 화자로 인식하게 된다. 실험 결과 각 화자는 사용하는 basis vector의 개수에 큰 영향을 받는 것으로 나타났다. 본 논문에서는 인식율 향상을 위하여 화자별로 적절한 basis vector 수를 구하여 이를 이용하여 화자인식을 하도록 하였다. 이 모델은 소음환경에서도 인식율 저하가 적었으며, 화자인식율 향상 외에도 데이터 압축 효과를 갖는다.
본 논문에서는 환경변화에 강인한 화자인식 시스템 구축을 위하여 (1) 음성의 특징 벡터, (2) 시스템 모델링 방법을 연구하였다. 먼저, 환경변화에 강인한 음성의 특징 벡터로 운율정보 사용을 제안한다. 현재 화자인식 시스템에서 일반적으로 많이 사용되고 있는 특징벡터는 스펙트럼 정보를 모델링하고 있는 것으로, 비잡음 환경에서 좋은 성능을 보이고 있다. 그러나 소음이나 채널 노이즈와 같은 환경변화에 크게 왜곡되며, 특히 백색 가우시안 잡음의 경우 인식율이 현저하게 저하되는 문제점이 나타난다. 그러므로 본 논문에서는 음성의 동적 변화를 측정할 수 있는 운율 정보를 특징벡터로 사용할 것을 제안한다. 본 논문에서는 일정 크기의 세그먼트로 분할한 피치열을 인식의 특징패턴으로 사용한다. 이는 문장의 미세 운율정보를 보여주는 것으로 소음환경, 특히 백색 가우시안 잡음 환경에서 강인한 특성을 가짐을 확인하였다. 시스템 모델링 측면에서는 두가지 모델을 고려한다. 첫째, 일반 벡터 양자화 모델을 개선한 bootstrap과 투표 방식을 도입한 벡터 양자화 모델을 제안한다. 훈련 과정에서, 실제 데이터를 bootstrap 시켜 각기 다른 코드북을 원하는 모델수 만큼 만든다. 인식 과정에서는 입력된 테스트 패턴을 각 모델과 비교하고 전체 결과 중 다수표를 얻은 화자로 인식하는 것이다. 이 방식을 적용하기 위하여 벡터 양자화 모델의 불안정성을 조사하였다. 새로운 벡터 양자화 모델은 높은 인식율을 갖지만 한 화자에 대해 여러 개의 코드북이 존재하게 되므로 메모리 크기가 커지는 단점이 있다. 이를 보완하기 위하여 확률 코드북 모델을 제안한다. 이는 전체 화자가 하나의 대표 코드북을 사용하는 방법으로, 코드북에 필요한 메모리 크기가 현저히 감소되는 장점을 갖는다. 둘째, 독립 성분 분석기법을 이용한 화자인식 시스템을 제안한다. 독립 성분 분석방법은 Unsupervised learning 또는 Blind seperation 방법의 하나로 볼 수 있으며, 서로 독립된 신호가 선형적으로 혼합되어 있는 관측가능 신호로부터 원래의 독립 성분을 추출해 내는 방법이다. 본 논문에서는 이를 이용하여 화자인식 시스템을 구현하였다. 훈련 과정에서 각 화자별로 독립 신호 구성의 파라미터를 구하고 인식 과정에서는 테스트 패턴과 파라미터 값을 이용하여 확률치를 계산하여 확률 값이 가장 큰 화자로 인식하게 된다. 실험 결과 각 화자는 사용하는 basis vector의 개수에 큰 영향을 받는 것으로 나타났다. 본 논문에서는 인식율 향상을 위하여 화자별로 적절한 basis vector 수를 구하여 이를 이용하여 화자인식을 하도록 하였다. 이 모델은 소음환경에서도 인식율 저하가 적었으며, 화자인식율 향상 외에도 데이터 압축 효과를 갖는다.
In this dissertation work, three methods are proposed to improve the performance of speaker recognition systems in noisy environments such as car noise and white Gaussian noise. To construct the automatic speaker recognition (ASR) system robust to environmental noise, we consider both features and s...
In this dissertation work, three methods are proposed to improve the performance of speaker recognition systems in noisy environments such as car noise and white Gaussian noise. To construct the automatic speaker recognition (ASR) system robust to environmental noise, we consider both features and system modeling methods. First, we propose to use prosodic features which represent micro prosody of utterances for speaker recognition. In the case of the background noise, prosodic features and speaking style do not change in contrast with spectral features. The spectral features degrade in noisy environments but the prosodic features are robust. We use the micro prosody which is modeled by segmental pitch contour. Therefore, the codebook is constructed from the segmental pitch contours. Second, the bootstrap and aggregating vector quantization (VQ) model is proposed. In training procedure, new training sets are made from the original training set by bootstrapping. One codebook is formed from each new training set. Each VQ model from the new training set is used for speaker recognition. Finally, the speaker is identified by aggregating the results of all VQ models. We investigate the unstability of VQ model to apply the bootstrap and aggregating method. Although the bagging VQ model improves the recognition rates significantly, it requires larger memory than the conventional VQ model. Therefore, we propose the probability codebook design method for reducing the additional memory by bagging VQ model. This method uses only one universal codebook for all speakers. Finally, we propose the independent components analysis (ICA) mixture model for ASR. The first step of the algorithm is to extract the basis vectors from each speaker. The second step is to compute the probability for each ICA class given test data. The third step is to decide the speaker who has the largest probability of ICA. To improve the recognition rates, we assign the number of basis vectors used for each speaker. Using the ICA model, we obtain data compression, too. In our experiments, the proposed schemes are proved to be more robust than the conventional VQ model.
In this dissertation work, three methods are proposed to improve the performance of speaker recognition systems in noisy environments such as car noise and white Gaussian noise. To construct the automatic speaker recognition (ASR) system robust to environmental noise, we consider both features and system modeling methods. First, we propose to use prosodic features which represent micro prosody of utterances for speaker recognition. In the case of the background noise, prosodic features and speaking style do not change in contrast with spectral features. The spectral features degrade in noisy environments but the prosodic features are robust. We use the micro prosody which is modeled by segmental pitch contour. Therefore, the codebook is constructed from the segmental pitch contours. Second, the bootstrap and aggregating vector quantization (VQ) model is proposed. In training procedure, new training sets are made from the original training set by bootstrapping. One codebook is formed from each new training set. Each VQ model from the new training set is used for speaker recognition. Finally, the speaker is identified by aggregating the results of all VQ models. We investigate the unstability of VQ model to apply the bootstrap and aggregating method. Although the bagging VQ model improves the recognition rates significantly, it requires larger memory than the conventional VQ model. Therefore, we propose the probability codebook design method for reducing the additional memory by bagging VQ model. This method uses only one universal codebook for all speakers. Finally, we propose the independent components analysis (ICA) mixture model for ASR. The first step of the algorithm is to extract the basis vectors from each speaker. The second step is to compute the probability for each ICA class given test data. The third step is to decide the speaker who has the largest probability of ICA. To improve the recognition rates, we assign the number of basis vectors used for each speaker. Using the ICA model, we obtain data compression, too. In our experiments, the proposed schemes are proved to be more robust than the conventional VQ model.
Keyword
#Speaker recognition VQ model Prosody ICA Bootstrap 화자인식 운율 독립성분분석 부트스트랩 벡터 양자화
학위논문 정보
저자
Kyung, Youn-Jeong
학위수여기관
한국과학기술원
학위구분
국내박사
학과
전기및전자공학전공
지도교수
이황수,Lee, Hwang-Soo
발행연도
2000
총페이지
xi, 100 p.
키워드
Speaker recognition VQ model Prosody ICA Bootstrap 화자인식 운율 독립성분분석 부트스트랩 벡터 양자화
※ AI-Helper는 부적절한 답변을 할 수 있습니다.