음성신호는 주변 잡음과 화자의 발성 패턴 변화, 음성 검출 오류에서 생기는 이상치(outlier)에 많은 영향을 받고 있다. 이러한 음성 신호를 이용하여 화자인식에 이용할 경우 인식률이 저하된다. 본 논문에서는 화자식별 (speaker identification)에서 학습 특징 벡터의 이상치와 고차원 문제를 해결하기 위하여 M-추정을 이용한 강인한 주성분 분석 가우시안 혼합모델 (Robust Principal Component Analysis-Gaussian Mixture Model)방법을 제안하였다. 제안된 방법은 먼저, 특징 벡터에 이상치가 존재할 경우 M-추정에 의하여 강인한 공분산 행렬을 재추정하여 얻어진 고유벡터로부터 변환 행렬을 구하여 감소된 차원을 갖는 새로운 특징벡터를 구한다. 여기에서 얻은 선형변환된 특징벡터로부터 화자의 가우시안 혼합 모델을 구한다. 제안된 방법의 성능을 검증하기 위하여 화자식별 실험을 하였다. 실험은 전형적인 가우시안 혼합 모델 방법과 주성분 분석법, 제안된 방법을 비교 분석하였다. 이상치가 2%씩 증가할 때마다 가우시안 혼합모델 방법과 주성분 분석법은 각각 0.65%, 0.55%씩 화자식별 성능이 저하되었지만, 제안된 방법은 0.03%정도 감소하였으므로 이상치에 더욱 강인함을 알 수 있다.
음성신호는 주변 잡음과 화자의 발성 패턴 변화, 음성 검출 오류에서 생기는 이상치(outlier)에 많은 영향을 받고 있다. 이러한 음성 신호를 이용하여 화자인식에 이용할 경우 인식률이 저하된다. 본 논문에서는 화자식별 (speaker identification)에서 학습 특징 벡터의 이상치와 고차원 문제를 해결하기 위하여 M-추정을 이용한 강인한 주성분 분석 가우시안 혼합모델 (Robust Principal Component Analysis-Gaussian Mixture Model)방법을 제안하였다. 제안된 방법은 먼저, 특징 벡터에 이상치가 존재할 경우 M-추정에 의하여 강인한 공분산 행렬을 재추정하여 얻어진 고유벡터로부터 변환 행렬을 구하여 감소된 차원을 갖는 새로운 특징벡터를 구한다. 여기에서 얻은 선형변환된 특징벡터로부터 화자의 가우시안 혼합 모델을 구한다. 제안된 방법의 성능을 검증하기 위하여 화자식별 실험을 하였다. 실험은 전형적인 가우시안 혼합 모델 방법과 주성분 분석법, 제안된 방법을 비교 분석하였다. 이상치가 2%씩 증가할 때마다 가우시안 혼합모델 방법과 주성분 분석법은 각각 0.65%, 0.55%씩 화자식별 성능이 저하되었지만, 제안된 방법은 0.03%정도 감소하였으므로 이상치에 더욱 강인함을 알 수 있다.
Speech is much influenced by the existence of outliers which are introduced by such an unexpected happenings as additive background noise, change of speaker's utterance pattern and voice detection errors. These kinds of outliers may result in severe degradation of speaker recognition performance. In...
Speech is much influenced by the existence of outliers which are introduced by such an unexpected happenings as additive background noise, change of speaker's utterance pattern and voice detection errors. These kinds of outliers may result in severe degradation of speaker recognition performance. In this paper, we proposed the GMM based on robust principal component analysis (RPCA-GMM) using M-estimation to solve the problems of both ouliers and high dimensionality of training feature vectors in speaker identification. Firstly, a new feature vector with reduced dimension is obtained by robust PCA obtained from M-estimation. The robust PCA transforms the original dimensional feature vector onto the reduced dimensional linear subspace that is spanned by the leading eigenvectors of the covariance matrix of feature vector. Secondly, the GMM with diagonal covariance matrix is obtained from these transformed feature vectors. We peformed speaker identification experiments to show the effectiveness of the proposed method. We compared the proposed method (RPCA-GMM) with transformed feature vectors to the PCA and the conventional GMM with diagonal matrix. Whenever the portion of outliers increases by every 2%, the proposed method maintains almost same speaker identification rate with 0.03% of little degradation, while the conventional GMM and the PCA shows much degradation of that by 0.65% and 0.55%, respectively This means that our method is more robust to the existence of outlier.
Speech is much influenced by the existence of outliers which are introduced by such an unexpected happenings as additive background noise, change of speaker's utterance pattern and voice detection errors. These kinds of outliers may result in severe degradation of speaker recognition performance. In this paper, we proposed the GMM based on robust principal component analysis (RPCA-GMM) using M-estimation to solve the problems of both ouliers and high dimensionality of training feature vectors in speaker identification. Firstly, a new feature vector with reduced dimension is obtained by robust PCA obtained from M-estimation. The robust PCA transforms the original dimensional feature vector onto the reduced dimensional linear subspace that is spanned by the leading eigenvectors of the covariance matrix of feature vector. Secondly, the GMM with diagonal covariance matrix is obtained from these transformed feature vectors. We peformed speaker identification experiments to show the effectiveness of the proposed method. We compared the proposed method (RPCA-GMM) with transformed feature vectors to the PCA and the conventional GMM with diagonal matrix. Whenever the portion of outliers increases by every 2%, the proposed method maintains almost same speaker identification rate with 0.03% of little degradation, while the conventional GMM and the PCA shows much degradation of that by 0.65% and 0.55%, respectively This means that our method is more robust to the existence of outlier.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
주성분 분석 이 제대로 되기 위해서는 정확한 평균과 분산을 구해야 하는데, 특징 벡터에 이상치가 포함될 경우 이상치의 영 향을 받아 불안정한 평균과 분산이 구해진다. 따라서 본 논문에서는 이상치가 존재하여도 이상치의 영향에 좌우 되지 않는 M-추정에 기반을 둔 강인한 평균과 공분산을 반복적으로 구하였다. 강인한 평균과 공분산으로부터 강 인한 주성분 분석을 다음과 같이 구한다.
주성분 분석 이 제대로 되기 위해서는 정확한 평균과 분산을 구해야 하는데, 특징 벡터에 이상치가 포함될 경우 이상치의 영 향을 받아 불안정한 평균과 분산이 구해진다. 따라서 본 논문에서는 이상치가 존재하여도 이상치의 영향에 좌우 되지 않는 M-추정에 기반을 둔 강인한 평균과 공분산을 반복적으로 구하였다. 강인한 평균과 공분산으로부터 강 인한 주성분 분석을 다음과 같이 구한다.
본 논문에서는 이상치의 영향과 고차원 문제를 해결하 기 위하여 강인한 주성분 분석법을 갖는 GMM 방법을 제 안하였다. 음성신호에 이상치가 존재하는 경우 추출된 특징벡터는 이상치에 의한 영향으로 화자의 특성 검출 시 에러를 가져 올 수 있으므로 강인한 주성분 분석 법을 이용하였다.
본 논문에서는 이상치의 영향과 고차원 문제를 해결하 기 위하여 강인한 주성분 분석법을 갖는 GMM 방법을 제 안하였다. 음성신호에 이상치가 존재하는 경우 추출된 특징벡터는 이상치에 의한 영향으로 화자의 특성 검출 시 에러를 가져 올 수 있으므로 강인한 주성분 분석 법을 이용하였다.
주성분분석은 여러 개의 변수들에 대하여 얻어진 다변 량 자료를 분석대상으로 하여 다차원적 인 변수들을 축소, 요약하는 차원의 단순화와 함께 일반적으로 서로 상관관 계가 있는 반응 변수들간의 복잡한 구조를 분석하는데 목적이 있다. 따라서 입력된 음성데이터로부터 추출된 특징 벡터들을 상관관계가 없는 새로운 좌표계로 선형변 환시켜 좌표 변환에 의해 새롭게 변형된 성분을 계산한다.
주성분분석은 여러 개의 변수들에 대하여 얻어진 다변 량 자료를 분석대상으로 하여 다차원적 인 변수들을 축소, 요약하는 차원의 단순화와 함께 일반적으로 서로 상관관 계가 있는 반응 변수들간의 복잡한 구조를 분석하는데 목적이 있다. 따라서 입력된 음성데이터로부터 추출된 특징 벡터들을 상관관계가 없는 새로운 좌표계로 선형변 환시켜 좌표 변환에 의해 새롭게 변형된 성분을 계산한다.
가설 설정
P-차원을 가지는상태열 7개의 학습 벡터를 X = {无, 彳2,…,須打라 두자. II에서 제안한 강인한주성분 분석 법을 이용하여 주성분 벡터의 차원을 系라 가정흐卜자. 이 주성분 벡터를 사용한 가우시안 성분 밀도 함수는 성분의 가중치 (weight), 평균벡터 (mean vector), 분산 행렬 (variance irntrix)로 나타낼 수 있다.
P-차원을 가지는상태열 7개의 학습 벡터를 X = {无, 彳2,…,須打라 두자. II에서 제안한 강인한주성분 분석 법을 이용하여 주성분 벡터의 차원을 系라 가정흐卜자. 이 주성분 벡터를 사용한 가우시안 성분 밀도 함수는 성분의 가중치 (weight), 평균벡터 (mean vector), 분산 행렬 (variance irntrix)로 나타낼 수 있다.
제안 방법
이 실험에 사용된 GM皿혼합 성분 개수는 14개이다. 두 번째 실험은 첫 번째 실험에서 구한 최적의 차원을 사용하여 선형 변 환된 특징 벡터를 이용하여 GMM 혼합 성분 개수를 변화 시켜 기존의 방법들과 제안된 방법의 성능을 비교한 것이 다. 마지막 실험은 음성 검출을통하여 얻어진 음성 신호 와 특징벡터들에 이상치를 추가시킨 다음, 첫 번째와 두 번째에서 선택된 최적의 차원과 GMM 혼합 성분 개수를 이용하여 기존의 알고리즘과 제안된 방법의 outlier문제 에 따른 화자식별 성능을 비교하였다.
이 실험에 사용된 GM皿혼합 성분 개수는 14개이다. 두 번째 실험은 첫 번째 실험에서 구한 최적의 차원을 사용하여 선형 변 환된 특징 벡터를 이용하여 GMM 혼합 성분 개수를 변화 시켜 기존의 방법들과 제안된 방법의 성능을 비교한 것이 다. 마지막 실험은 음성 검출을통하여 얻어진 음성 신호 와 특징벡터들에 이상치를 추가시킨 다음, 첫 번째와 두 번째에서 선택된 최적의 차원과 GMM 혼합 성분 개수를 이용하여 기존의 알고리즘과 제안된 방법의 outlier문제 에 따른 화자식별 성능을 비교하였다.
다음 반복 과정에서 새로운 모델이 다시 초기 모델이 되고, 이러한 과정을 수렴값으로 수렴할 때까지 반복적으로 수행한다. 따라서 EM 알고리즘을 반복하는 동안 모델의 유사도 값이 단조 증가되는 가중치, 평균벡 터, 분산 행렬을 다음 식으로 재추정한다.
주성분분석은 여러 개의 변수들에 대하여 얻어진 다변 량 자료를 분석대상으로 하여 다차원적 인 변수들을 축소, 요약하는 차원의 단순화와 함께 일반적으로 서로 상관관 계가 있는 반응 변수들간의 복잡한 구조를 분석하는데 목적이 있다. 따라서 입력된 음성데이터로부터 추출된 특징 벡터들을 상관관계가 없는 새로운 좌표계로 선형변 환시켜 좌표 변환에 의해 새롭게 변형된 성분을 계산한다.
주성분분석은 여러 개의 변수들에 대하여 얻어진 다변 량 자료를 분석대상으로 하여 다차원적 인 변수들을 축소, 요약하는 차원의 단순화와 함께 일반적으로 서로 상관관 계가 있는 반응 변수들간의 복잡한 구조를 분석하는데 목적이 있다. 따라서 입력된 음성데이터로부터 추출된 특징 벡터들을 상관관계가 없는 새로운 좌표계로 선형변 환시켜 좌표 변환에 의해 새롭게 변형된 성분을 계산한다.
본 논문에서 제안한 방법을 검증하기 위하여 실험에 사용된 음성 데이터는 200명 (남자 100명, 여자 100명의 화자가 발성한 한국어 문장 종속 연속음 열려라 참깨 음 성이다. 수집된 데이터 음성은 한 화자당 1회에 5번씩 발 성한 뒤, 1주 간격의 시간차를 가지고 3주에 걸쳐서 수집 하였다. 개인별 전체 발성된 데이터 수는 15개이고 수집 된 총 데이터는 3,000개이다.
본 논문에서 제안한 방법을 검증하기 위하여 실험에 사용된 음성 데이터는 200명 (남자 100명, 여자 100명의 화자가 발성한 한국어 문장 종속 연속음 열려라 참깨 음 성이다. 수집된 데이터 음성은 한 화자당 1회에 5번씩 발 성한 뒤, 1주 간격의 시간차를 가지고 3주에 걸쳐서 수집 하였다. 개인별 전체 발성된 데이터 수는 15개이고 수집 된 총 데이터는 3,000개이다.
수집된 음성을 이용하여 제안된 방법의 성능 검증을 위하여 세 가지 실험을 하였다.
수집된 음성을 이용하여 제안된 방법의 성능 검증을 위하여 세 가지 실험을 하였다.
마지막 실험은 음성 검출을통하여 얻어진 음성 신호 와 특징벡터들에 이상치를 추가시킨 다음, 첫 번째와 두 번째에서 선택된 최적의 차원과 GMM 혼합 성분 개수를 이용하여 기존의 알고리즘과 제안된 방법의 outlier문제 에 따른 화자식별 성능을 비교하였다. 여기에서 화자인 식을 위한 음성 검출은 에너지가 높은 확실한 음성 구간 만을 사용하였는데, 이상치의 영향을 실험하기 위하여 검출된 음성구간의 앞뒤 프레임을 증가시키고 특징벡터 를 추출하고 또한 임의의 이상치들을 추가시켰다.
마지막 실험은 음성 검출을통하여 얻어진 음성 신호 와 특징벡터들에 이상치를 추가시킨 다음, 첫 번째와 두 번째에서 선택된 최적의 차원과 GMM 혼합 성분 개수를 이용하여 기존의 알고리즘과 제안된 방법의 outlier문제 에 따른 화자식별 성능을 비교하였다. 여기에서 화자인 식을 위한 음성 검출은 에너지가 높은 확실한 음성 구간 만을 사용하였는데, 이상치의 영향을 실험하기 위하여 검출된 음성구간의 앞뒤 프레임을 증가시키고 특징벡터 를 추출하고 또한 임의의 이상치들을 추가시켰다.
첫 번째 실험은 특징벡터의 고차원 문제를 해결하기 위하여 주성분 분석과 강인한 주성분 분석의 차원 수에 따른 화자식별 성능을 살펴보았다. 이 실험에서는 수집 된 원음성으로부터 특징벡터를 추출하여 차원수를 11에 서 25차까지 증가시켜 성능을 얻었다 (표 1).
첫 번째 실험은 특징벡터의 고차원 문제를 해결하기 위하여 주성분 분석과 강인한 주성분 분석의 차원 수에 따른 화자식별 성능을 살펴보았다. 이 실험에서는 수집 된 원음성으로부터 특징벡터를 추출하여 차원수를 11에 서 25차까지 증가시켜 성능을 얻었다 (표 1).
화자의 음성이 입력되면, 특징 벡터 京,는 학습시 저장된 각 화자의 강인한 주성분 분석법을 이용하여 주성분 벡터 E 로 선형변환시킨다. 화자의 주성분 벡터를 이용하여 GMM 의 최대 사후확률 값을 갖는 화자모델 计을 찾는다.
화자의 음성이 입력되면, 특징 벡터 京,는 학습시 저장된 각 화자의 강인한 주성분 분석법을 이용하여 주성분 벡터 E 로 선형변환시킨다. 화자의 주성분 벡터를 이용하여 GMM 의 최대 사후확률 값을 갖는 화자모델 计을 찾는다.
대상 데이터
개인별 전체 발성된 데이터 수는 15개이고 수집 된 총 데이터는 3,000개이다. 16 kHz로 샘플링하였고 음 성 분석을 위하여 해밍창이 사용하였으며, 한 프레임은 50% 중첩된 256샘플을 사용하였다. 특징 벡터로는 12차 LPC 켑스트럼과 12차 델타 켑스트럼과 델타 에너 지를 포 함하여 전체 25차를 사용하였다.
개인별 전체 발성된 데이터 수는 15개이고 수집 된 총 데이터는 3,000개이다. 16 kHz로 샘플링하였고 음 성 분석을 위하여 해밍창이 사용하였으며, 한 프레임은 50% 중첩된 256샘플을 사용하였다. 특징 벡터로는 12차 LPC 켑스트럼과 12차 델타 켑스트럼과 델타 에너 지를 포 함하여 전체 25차를 사용하였다.
수집된 데이터 음성은 한 화자당 1회에 5번씩 발 성한 뒤, 1주 간격의 시간차를 가지고 3주에 걸쳐서 수집 하였다. 개인별 전체 발성된 데이터 수는 15개이고 수집 된 총 데이터는 3,000개이다. 16 kHz로 샘플링하였고 음 성 분석을 위하여 해밍창이 사용하였으며, 한 프레임은 50% 중첩된 256샘플을 사용하였다.
수집된 데이터 음성은 한 화자당 1회에 5번씩 발 성한 뒤, 1주 간격의 시간차를 가지고 3주에 걸쳐서 수집 하였다. 개인별 전체 발성된 데이터 수는 15개이고 수집 된 총 데이터는 3,000개이다. 16 kHz로 샘플링하였고 음 성 분석을 위하여 해밍창이 사용하였으며, 한 프레임은 50% 중첩된 256샘플을 사용하였다.
학습을 위한 데이터는 각 화자가 2주간 발성한 10개의 음성 데이터를 학습에 사용하였고 마지막 주의 5개의 음 성 데이터를 테스트에 사용하였다. 따라서 화자식별 테 스트에 사용된 참여 데이터는 1,000개이다.
학습을 위한 데이터는 각 화자가 2주간 발성한 10개의 음성 데이터를 학습에 사용하였고 마지막 주의 5개의 음 성 데이터를 테스트에 사용하였다. 따라서 화자식별 테 스트에 사용된 참여 데이터는 1,000개이다.
본 논문에서 제안한 방법을 검증하기 위하여 실험에 사용된 음성 데이터는 200명 (남자 100명, 여자 100명의 화자가 발성한 한국어 문장 종속 연속음 열려라 참깨 음 성이다. 수집된 데이터 음성은 한 화자당 1회에 5번씩 발 성한 뒤, 1주 간격의 시간차를 가지고 3주에 걸쳐서 수집 하였다.
본 논문에서 제안한 방법을 검증하기 위하여 실험에 사용된 음성 데이터는 200명 (남자 100명, 여자 100명의 화자가 발성한 한국어 문장 종속 연속음 열려라 참깨 음 성이다. 수집된 데이터 음성은 한 화자당 1회에 5번씩 발 성한 뒤, 1주 간격의 시간차를 가지고 3주에 걸쳐서 수집 하였다.
이 실험에서는 수집 된 원음성으로부터 특징벡터를 추출하여 차원수를 11에 서 25차까지 증가시켜 성능을 얻었다 (표 1). 이 실험에 사용된 GM皿혼합 성분 개수는 14개이다. 두 번째 실험은 첫 번째 실험에서 구한 최적의 차원을 사용하여 선형 변 환된 특징 벡터를 이용하여 GMM 혼합 성분 개수를 변화 시켜 기존의 방법들과 제안된 방법의 성능을 비교한 것이 다.
16 kHz로 샘플링하였고 음 성 분석을 위하여 해밍창이 사용하였으며, 한 프레임은 50% 중첩된 256샘플을 사용하였다. 특징 벡터로는 12차 LPC 켑스트럼과 12차 델타 켑스트럼과 델타 에너 지를 포 함하여 전체 25차를 사용하였다.
학습을 위한 데이터는 각 화자가 2주간 발성한 10개의 음성 데이터를 학습에 사용하였고 마지막 주의 5개의 음 성 데이터를 테스트에 사용하였다. 따라서 화자식별 테 스트에 사용된 참여 데이터는 1,000개이다.
학습을 위한 데이터는 각 화자가 2주간 발성한 10개의 음성 데이터를 학습에 사용하였고 마지막 주의 5개의 음 성 데이터를 테스트에 사용하였다. 따라서 화자식별 테 스트에 사용된 참여 데이터는 1,000개이다.
데이터처리
두 번째 실험은 첫 번째 실험에서 구한 최적의 차원을 사용하여 선형 변 환된 특징 벡터를 이용하여 GMM 혼합 성분 개수를 변화 시켜 기존의 방법들과 제안된 방법의 성능을 비교한 것이 다. 마지막 실험은 음성 검출을통하여 얻어진 음성 신호 와 특징벡터들에 이상치를 추가시킨 다음, 첫 번째와 두 번째에서 선택된 최적의 차원과 GMM 혼합 성분 개수를 이용하여 기존의 알고리즘과 제안된 방법의 outlier문제 에 따른 화자식별 성능을 비교하였다. 여기에서 화자인 식을 위한 음성 검출은 에너지가 높은 확실한 음성 구간 만을 사용하였는데, 이상치의 영향을 실험하기 위하여 검출된 음성구간의 앞뒤 프레임을 증가시키고 특징벡터 를 추출하고 또한 임의의 이상치들을 추가시켰다.
두 번째 실험은 첫 번째 실험에서 구한 최적의 차원을 사용하여 선형 변 환된 특징 벡터를 이용하여 GMM 혼합 성분 개수를 변화 시켜 기존의 방법들과 제안된 방법의 성능을 비교한 것이 다. 마지막 실험은 음성 검출을통하여 얻어진 음성 신호 와 특징벡터들에 이상치를 추가시킨 다음, 첫 번째와 두 번째에서 선택된 최적의 차원과 GMM 혼합 성분 개수를 이용하여 기존의 알고리즘과 제안된 방법의 outlier문제 에 따른 화자식별 성능을 비교하였다. 여기에서 화자인 식을 위한 음성 검출은 에너지가 높은 확실한 음성 구간 만을 사용하였는데, 이상치의 영향을 실험하기 위하여 검출된 음성구간의 앞뒤 프레임을 증가시키고 특징벡터 를 추출하고 또한 임의의 이상치들을 추가시켰다.
이론/모형
1를 이용하여 경계값과 비교하여, 이상치의 영향을 감소시 키 기 위하여 Huber weight 함수[5]를 사용하였다.
1를 이용하여 경계값과 비교하여, 이상치의 영향을 감소시 키 기 위하여 Huber weight 함수[5]를 사용하였다.
학습을 위한 음 성 신호가 입력되면, 먼저 특징 벡터들의 평균과 분산을 구하여 이상치의 영향을줄이기 위한화자의 강인한주성 분 분석법을 구한다. 강인한 주성분 분석법의 변환행렬 을사용하여 특징 벡터의 차원을줄이고, GMW화자학습 모델을 구한다.
학습을 위한 음 성 신호가 입력되면, 먼저 특징 벡터들의 평균과 분산을 구하여 이상치의 영향을줄이기 위한화자의 강인한주성 분 분석법을 구한다. 강인한 주성분 분석법의 변환행렬 을사용하여 특징 벡터의 차원을줄이고, GMW화자학습 모델을 구한다.
그러나 ML 알고리즘을 만족하는 파라메타 를 직접적으로 구할수 없다. 그러므로 ML 파라메타 추정 은 반복적으로 EM (Expectation- maximization) 알고리 즘을 사용하여 얻는다[7]. EM 알고리즘은 초기 모델 0 로부터 p{Y\d)^p(Y\0) 인 새로운 모델 石를 추정하 는 것이다.
그러나 특징벡터의 주성분 분석은 화자자신의 불규칙한 발성 패턴이나 강세, 억양등이 갑자기 변화할 때, 잘못된 음성 검출시 발생하는 신호와 주변 잡음같은 이상치 (outlier)에 상당히 민감하므로 화자의 순수한 특징 벡터 만을 추출하기 어렵다⑶. 따라서 본 논문에서는 반복적 인 M-추정에 의하여 이상치의 영향을 감소시키는 변환 행 렬을 구하고 강인한 주성분 분석을 통하여 선형 변환된 주성분 벡터를 화자인식 모델을 위한 GM皿에 사용한다. 본 논문의 구성은 다음과 같다.
그러나 특징벡터의 주성분 분석은 화자자신의 불규칙한 발성 패턴이나 강세, 억양등이 갑자기 변화할 때, 잘못된 음성 검출시 발생하는 신호와 주변 잡음같은 이상치 (outlier)에 상당히 민감하므로 화자의 순수한 특징 벡터 만을 추출하기 어렵다⑶. 따라서 본 논문에서는 반복적 인 M-추정에 의하여 이상치의 영향을 감소시키는 변환 행 렬을 구하고 강인한 주성분 분석을 통하여 선형 변환된 주성분 벡터를 화자인식 모델을 위한 GM皿에 사용한다. 본 논문의 구성은 다음과 같다.
본 논문에서는 화자인식에 최근 많이 사용되고 있는 GMM 방법을사용한다. GMM 방법은 벡터의 요소 (element) 들 사이에 상관관계가 존재하지 않는다는 가정 하에 공분 산의 대각 (diagonal) 성분만을 이용하여 화자식별과 화 자확인에 많이 사용되고 있지만[1], 실제로 벡터의 요소 들 사이에는 상관관계가 존재하므로 화자인식 의 성능 저 하를 가져온다.
본 논문에서는 화자인식에 최근 많이 사용되고 있는 GMM 방법을사용한다. GMM 방법은 벡터의 요소 (element) 들 사이에 상관관계가 존재하지 않는다는 가정 하에 공분 산의 대각 (diagonal) 성분만을 이용하여 화자식별과 화 자확인에 많이 사용되고 있지만[1], 실제로 벡터의 요소 들 사이에는 상관관계가 존재하므로 화자인식 의 성능 저 하를 가져온다.
본 논문에서는 이상치의 영향과 고차원 문제를 해결하 기 위하여 강인한 주성분 분석법을 갖는 GMM 방법을 제 안하였다. 음성신호에 이상치가 존재하는 경우 추출된 특징벡터는 이상치에 의한 영향으로 화자의 특성 검출 시 에러를 가져 올 수 있으므로 강인한 주성분 분석 법을 이용하였다. 따라서 이상치에 의한 영향을 감소시키고 데이터의 차원을 감소시켜 화자모델을 생성시켜 화자인 식 성능을 향상시킬 수 있었다.
본 논문에서는 이상치의 영향과 고차원 문제를 해결하 기 위하여 강인한 주성분 분석법을 갖는 GMM 방법을 제 안하였다. 음성신호에 이상치가 존재하는 경우 추출된 특징벡터는 이상치에 의한 영향으로 화자의 특성 검출 시 에러를 가져 올 수 있으므로 강인한 주성분 분석 법을 이용하였다. 따라서 이상치에 의한 영향을 감소시키고 데이터의 차원을 감소시켜 화자모델을 생성시켜 화자인 식 성능을 향상시킬 수 있었다.
특징 벡터열 X로부터, 화자의 강인한주성분분석법을 이용하여 주성분 벡터 I로 선형변환시킨다.
그림 2는 위의 단계를 나타낸 것이다. 학습을 위한 음 성 신호가 입력되면, 먼저 특징 벡터들의 평균과 분산을 구하여 이상치의 영향을줄이기 위한화자의 강인한주성 분 분석법을 구한다. 강인한 주성분 분석법의 변환행렬 을사용하여 특징 벡터의 차원을줄이고, GMW화자학습 모델을 구한다.
그림 2는 위의 단계를 나타낸 것이다. 학습을 위한 음 성 신호가 입력되면, 먼저 특징 벡터들의 평균과 분산을 구하여 이상치의 영향을줄이기 위한화자의 강인한주성 분 분석법을 구한다. 강인한 주성분 분석법의 변환행렬 을사용하여 특징 벡터의 차원을줄이고, GMW화자학습 모델을 구한다.
성능/효과
표 1과 그림 4는수집된 원음성에서 추출한특징벡터를 이용하여 화자식별 성능을 본 것이다. 그 결과 주성분 분 석법을 사용한 경우에 일반적 인 GM皿 방법보다는 성능이 우수하지만 제안된 방법은 일반적인 주성분 분석법과 비 교할 때 비슷한 화자식별 성능을 보였다.
표 1과 그림 4는수집된 원음성에서 추출한특징벡터를 이용하여 화자식별 성능을 본 것이다. 그 결과 주성분 분 석법을 사용한 경우에 일반적 인 GM皿 방법보다는 성능이 우수하지만 제안된 방법은 일반적인 주성분 분석법과 비 교할 때 비슷한 화자식별 성능을 보였다.
이 실험은 수집된 원음성에서 얻은특징벡터의 경우에 는 오히려 강인한 방법을 사용한 경우가 화자식별률에 성능이 감소됨을 알 수 있었다. 그러나 제안된 강인한 주 성분 분석법은 이상치 정도가 많이 추가된 경우에는 outlier에 영향을 많이 받지 않고, 성능이 일정하게 유지 된 것을 알 수 있다. 즉, 이상치가 존재할 경우에 제안된 방법이 강인함을 보였다.
이 실험은 수집된 원음성에서 얻은특징벡터의 경우에 는 오히려 강인한 방법을 사용한 경우가 화자식별률에 성능이 감소됨을 알 수 있었다. 그러나 제안된 강인한 주 성분 분석법은 이상치 정도가 많이 추가된 경우에는 outlier에 영향을 많이 받지 않고, 성능이 일정하게 유지 된 것을 알 수 있다. 즉, 이상치가 존재할 경우에 제안된 방법이 강인함을 보였다.
깨끗한 음성에서 혼합성분 개수에 따라 제안된 방법은 GMM방법과 비교할 때 평균 0.81%, 일반적인 주성분 분 석 법을 사용한 경우 0.06% 더 좋은 화자식 별 성능을 보였 다. 이상치가 2%씩 증가할 때마다 일반적 인 GMM 방법과 일반적인 주성분 분석법은 화자식별 성능이 급격히 저하 되었지만, 제안된 방법의 성능은 깨끗한 음성에서의 성 능보다 약 0.
깨끗한 음성에서 혼합성분 개수에 따라 제안된 방법은 GMM방법과 비교할 때 평균 0.81%, 일반적인 주성분 분 석 법을 사용한 경우 0.06% 더 좋은 화자식 별 성능을 보였 다. 이상치가 2%씩 증가할 때마다 일반적 인 GMM 방법과 일반적인 주성분 분석법은 화자식별 성능이 급격히 저하 되었지만, 제안된 방법의 성능은 깨끗한 음성에서의 성 능보다 약 0.
음성신호에 이상치가 존재하는 경우 추출된 특징벡터는 이상치에 의한 영향으로 화자의 특성 검출 시 에러를 가져 올 수 있으므로 강인한 주성분 분석 법을 이용하였다. 따라서 이상치에 의한 영향을 감소시키고 데이터의 차원을 감소시켜 화자모델을 생성시켜 화자인 식 성능을 향상시킬 수 있었다.
음성신호에 이상치가 존재하는 경우 추출된 특징벡터는 이상치에 의한 영향으로 화자의 특성 검출 시 에러를 가져 올 수 있으므로 강인한 주성분 분석 법을 이용하였다. 따라서 이상치에 의한 영향을 감소시키고 데이터의 차원을 감소시켜 화자모델을 생성시켜 화자인 식 성능을 향상시킬 수 있었다.
1%의 변화만 있었다. 또한 실험 결과에서 제 안된 방법은 깨끗한 음성에서보다 약간의 outlier가 존재 할 때 기존 방법과의 큰 성능차이를 보였다.
1%의 변화만 있었다. 또한 실험 결과에서 제 안된 방법은 깨끗한 음성에서보다 약간의 outlier가 존재 할 때 기존 방법과의 큰 성능차이를 보였다.
또한 제안된 논문은 件,일 때, 기존의 직교 GMM방법 으로⑵ 대체할 수 있다. 즉 左 =P일 때, 제안된 방법은 ⑵에서 제안된 방법과 동일하므로 [2]의 일반화된 방법 이라 할 수있다.
첫 번째 실험은 특징벡터의 고차원 문제를 해결하기 위하여 주성분 분석과 강인한 주성분 분석의 차원 수에 따른 화자식별 성능을 살펴보았다. 이 실험에서는 수집 된 원음성으로부터 특징벡터를 추출하여 차원수를 11에 서 25차까지 증가시켜 성능을 얻었다 (표 1). 이 실험에 사용된 GM皿혼합 성분 개수는 14개이다.
이 실험에서는 수집된 원음성으로부터 특징벡터를 추출하여 차원 수를 11에서 25차까지 증가시켜 성능을 얻었다 (표1).
이 실험은 수집된 원음성에서 얻은특징벡터의 경우에 는 오히려 강인한 방법을 사용한 경우가 화자식별률에 성능이 감소됨을 알 수 있었다. 그러나 제안된 강인한 주 성분 분석법은 이상치 정도가 많이 추가된 경우에는 outlier에 영향을 많이 받지 않고, 성능이 일정하게 유지 된 것을 알 수 있다.
이 실험은 수집된 원음성에서 얻은특징벡터의 경우에 는 오히려 강인한 방법을 사용한 경우가 화자식별률에 성능이 감소됨을 알 수 있었다. 그러나 제안된 강인한 주 성분 분석법은 이상치 정도가 많이 추가된 경우에는 outlier에 영향을 많이 받지 않고, 성능이 일정하게 유지 된 것을 알 수 있다.
06% 더 좋은 화자식 별 성능을 보였 다. 이상치가 2%씩 증가할 때마다 일반적 인 GMM 방법과 일반적인 주성분 분석법은 화자식별 성능이 급격히 저하 되었지만, 제안된 방법의 성능은 깨끗한 음성에서의 성 능보다 약 0.1%의 변화만 있었다. 또한 실험 결과에서 제 안된 방법은 깨끗한 음성에서보다 약간의 outlier가 존재 할 때 기존 방법과의 큰 성능차이를 보였다.
06% 더 좋은 화자식 별 성능을 보였 다. 이상치가 2%씩 증가할 때마다 일반적 인 GMM 방법과 일반적인 주성분 분석법은 화자식별 성능이 급격히 저하 되었지만, 제안된 방법의 성능은 깨끗한 음성에서의 성 능보다 약 0.1%의 변화만 있었다. 또한 실험 결과에서 제 안된 방법은 깨끗한 음성에서보다 약간의 outlier가 존재 할 때 기존 방법과의 큰 성능차이를 보였다.
03%정도 감소하였다. 이상치가 증가됨에 따라 제안된 방법의 성능이 일반적인 주성분분석법을 사용한 경우보다 화자식별률이 높게 나타났지만, 원음성에서 추 출된 특징벡터에서는 오히려 제안된 방법의 성능이 일반 적인 주성분 분석법보다 성능이 낮게 나타났다. 이상치 가 전혀 추가되지 않은 조건에서 제안한 RPCA 방법을 사용할 경우 경계 바깥에 존재하는 특징 벡터들의 영향을 감소시키게 된다.
03%정도 감소하였다. 이상치가 증가됨에 따라 제안된 방법의 성능이 일반적인 주성분분석법을 사용한 경우보다 화자식별률이 높게 나타났지만, 원음성에서 추 출된 특징벡터에서는 오히려 제안된 방법의 성능이 일반 적인 주성분 분석법보다 성능이 낮게 나타났다. 이상치 가 전혀 추가되지 않은 조건에서 제안한 RPCA 방법을 사용할 경우 경계 바깥에 존재하는 특징 벡터들의 영향을 감소시키게 된다.
그림 4는 화자별 GMN1의 혼합성분 개수에 따른 화자식 별 성능을 나타낸 것이다. 제안된 방법의 성능은 일반적 인 GMM 방법과 비교할 때 평균 0.81%, 주성분 분석법을 사용한 경우 0.06% 더 좋은 화자식별 성능을 보였고, 혼 합성분의 개수가 증가할수록 화자식별 성능이 우수함을 보였다. 그러나 혼합성분의 수가 24개 이상인 경우는 혼 합성분의 수가 증가해도 일정한 수준의 성능에 접근하면 더 이상 증가하지 않았다.
그림 4는 화자별 GMN1의 혼합성분 개수에 따른 화자식 별 성능을 나타낸 것이다. 제안된 방법의 성능은 일반적 인 GMM 방법과 비교할 때 평균 0.81%, 주성분 분석법을 사용한 경우 0.06% 더 좋은 화자식별 성능을 보였고, 혼 합성분의 개수가 증가할수록 화자식별 성능이 우수함을 보였다. 그러나 혼합성분의 수가 24개 이상인 경우는 혼 합성분의 수가 증가해도 일정한 수준의 성능에 접근하면 더 이상 증가하지 않았다.
그러나 제안된 강인한 주 성분 분석법은 이상치 정도가 많이 추가된 경우에는 outlier에 영향을 많이 받지 않고, 성능이 일정하게 유지 된 것을 알 수 있다. 즉, 이상치가 존재할 경우에 제안된 방법이 강인함을 보였다. 이는 특징벡터의 파라메타들에 이상치가 존재할 경우 모든 차원 특징벡터를 사용하는 경우와 주성분 분석법에 의해 이상치에 민감하게 반응된 주성분 벡터를 이용할 경우, 화자 식별 성능을 저하 시키 게 된다.
그러나 제안된 강인한 주 성분 분석법은 이상치 정도가 많이 추가된 경우에는 outlier에 영향을 많이 받지 않고, 성능이 일정하게 유지 된 것을 알 수 있다. 즉, 이상치가 존재할 경우에 제안된 방법이 강인함을 보였다. 이는 특징벡터의 파라메타들에 이상치가 존재할 경우 모든 차원 특징벡터를 사용하는 경우와 주성분 분석법에 의해 이상치에 민감하게 반응된 주성분 벡터를 이용할 경우, 화자 식별 성능을 저하 시키 게 된다.
그림 5는 이상치가 존재하는 경우에 GMM, 주성분 분 석법, 강인한 주성분 분석법의 성능을 나타낸 것이다. 특 징 벡터에 이상치가존재하는 경우에 화자 모델을 만들어 놓은 다음에 화자식별 성능을 본 것이다 outlier가 2%씩 증가할 때마다 전형적 인 GMM 방법과 PCA 방법은 각각 0.65%, 0.55%씩 화자식별 성능이 감소되었지만 제안된 방법은 0.03%정도 감소하였다. 이상치가 증가됨에 따라 제안된 방법의 성능이 일반적인 주성분분석법을 사용한 경우보다 화자식별률이 높게 나타났지만, 원음성에서 추 출된 특징벡터에서는 오히려 제안된 방법의 성능이 일반 적인 주성분 분석법보다 성능이 낮게 나타났다.
그림 5는 이상치가 존재하는 경우에 GMM, 주성분 분 석법, 강인한 주성분 분석법의 성능을 나타낸 것이다. 특 징 벡터에 이상치가존재하는 경우에 화자 모델을 만들어 놓은 다음에 화자식별 성능을 본 것이다 outlier가 2%씩 증가할 때마다 전형적 인 GMM 방법과 PCA 방법은 각각 0.65%, 0.55%씩 화자식별 성능이 감소되었지만 제안된 방법은 0.03%정도 감소하였다. 이상치가 증가됨에 따라 제안된 방법의 성능이 일반적인 주성분분석법을 사용한 경우보다 화자식별률이 높게 나타났지만, 원음성에서 추 출된 특징벡터에서는 오히려 제안된 방법의 성능이 일반 적인 주성분 분석법보다 성능이 낮게 나타났다.
표 1은 차원 수에 따른 일반적 인 주성분 분석법과 강인 한 주성분 분석법의 화자식별 성능을 나타낸 것이다. 화 자의 주성분 벡터의 차원이 증가할수록 성능이 향상됨을 알 수 있다. & 0 20일 때는 두 가지 방법 모두 일반적 인 GMM / = 25) 방법의 성능보다 높게 나타났다.
후속연구
화자인식의 성능을 더욱 증가시키기 위해서는 시간 경 가에 따른 화자 모델의 적응과정 이 필요한데 화자모델의 적응과정뿐만 아니라 주성분 분석법의 변환행렬도 적응 을통하여 화자인식의 성능을 더욱향상시킬 수 있으므로 시간 흐름에 따른 화자별 적응 과정에 대한 연구를 차후 과제로 남겨둔다.
화자인식의 성능을 더욱 증가시키기 위해서는 시간 경 가에 따른 화자 모델의 적응과정 이 필요한데 화자모델의 적응과정뿐만 아니라 주성분 분석법의 변환행렬도 적응 을통하여 화자인식의 성능을 더욱향상시킬 수 있으므로 시간 흐름에 따른 화자별 적응 과정에 대한 연구를 차후 과제로 남겨둔다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.