[논문]화자식별을 위한 강인한 주성분 분석 가우시안 혼합 모델

이윤정; 서창우; 강상기; 이기용

문제 정의

주성분 분석 이 제대로 되기 위해서는 정확한 평균과 분산을 구해야 하는데, 특징 벡터에 이상치가 포함될 경우 이상치의 영 향을 받아 불안정한 평균과 분산이 구해진다. 따라서 본 논문에서는 이상치가 존재하여도 이상치의 영향에 좌우 되지 않는 M-추정에 기반을 둔 강인한 평균과 공분산을 반복적으로 구하였다. 강인한 평균과 공분산으로부터 강 인한 주성분 분석을 다음과 같이 구한다.
주성분 분석 이 제대로 되기 위해서는 정확한 평균과 분산을 구해야 하는데, 특징 벡터에 이상치가 포함될 경우 이상치의 영 향을 받아 불안정한 평균과 분산이 구해진다. 따라서 본 논문에서는 이상치가 존재하여도 이상치의 영향에 좌우 되지 않는 M-추정에 기반을 둔 강인한 평균과 공분산을 반복적으로 구하였다. 강인한 평균과 공분산으로부터 강 인한 주성분 분석을 다음과 같이 구한다.
본 논문에서는 이상치의 영향과 고차원 문제를 해결하 기 위하여 강인한 주성분 분석법을 갖는 GMM 방법을 제 안하였다. 음성신호에 이상치가 존재하는 경우 추출된 특징벡터는 이상치에 의한 영향으로 화자의 특성 검출 시 에러를 가져 올 수 있으므로 강인한 주성분 분석 법을 이용하였다.
본 논문에서는 이상치의 영향과 고차원 문제를 해결하 기 위하여 강인한 주성분 분석법을 갖는 GMM 방법을 제 안하였다. 음성신호에 이상치가 존재하는 경우 추출된 특징벡터는 이상치에 의한 영향으로 화자의 특성 검출 시 에러를 가져 올 수 있으므로 강인한 주성분 분석 법을 이용하였다.
주성분분석은 여러 개의 변수들에 대하여 얻어진 다변 량 자료를 분석대상으로 하여 다차원적 인 변수들을 축소, 요약하는 차원의 단순화와 함께 일반적으로 서로 상관관 계가 있는 반응 변수들간의 복잡한 구조를 분석하는데 목적이 있다. 따라서 입력된 음성데이터로부터 추출된 특징 벡터들을 상관관계가 없는 새로운 좌표계로 선형변 환시켜 좌표 변환에 의해 새롭게 변형된 성분을 계산한다.
주성분분석은 여러 개의 변수들에 대하여 얻어진 다변 량 자료를 분석대상으로 하여 다차원적 인 변수들을 축소, 요약하는 차원의 단순화와 함께 일반적으로 서로 상관관 계가 있는 반응 변수들간의 복잡한 구조를 분석하는데 목적이 있다. 따라서 입력된 음성데이터로부터 추출된 특징 벡터들을 상관관계가 없는 새로운 좌표계로 선형변 환시켜 좌표 변환에 의해 새롭게 변형된 성분을 계산한다.

가설 설정

P-차원을 가지는상태열 7개의 학습 벡터를 X = ｛无, 彳2,…，須打라 두자. II에서 제안한 강인한주성분 분석 법을 이용하여 주성분 벡터의 차원을 系라 가정흐卜자. 이 주성분 벡터를 사용한 가우시안 성분 밀도 함수는 성분의 가중치 (weight), 평균벡터 (mean vector), 분산 행렬 (variance irntrix)로 나타낼 수 있다.
P-차원을 가지는상태열 7개의 학습 벡터를 X = ｛无, 彳2,…，須打라 두자. II에서 제안한 강인한주성분 분석 법을 이용하여 주성분 벡터의 차원을 系라 가정흐卜자. 이 주성분 벡터를 사용한 가우시안 성분 밀도 함수는 성분의 가중치 (weight), 평균벡터 (mean vector), 분산 행렬 (variance irntrix)로 나타낼 수 있다.

제안 방법

이 실험에 사용된 GM皿혼합 성분 개수는 14개이다. 두 번째 실험은 첫 번째 실험에서 구한 최적의 차원을 사용하여 선형 변 환된 특징 벡터를 이용하여 GMM 혼합 성분 개수를 변화 시켜 기존의 방법들과 제안된 방법의 성능을 비교한 것이 다. 마지막 실험은 음성 검출을통하여 얻어진 음성 신호 와 특징벡터들에 이상치를 추가시킨 다음, 첫 번째와 두 번째에서 선택된 최적의 차원과 GMM 혼합 성분 개수를 이용하여 기존의 알고리즘과 제안된 방법의 outlier문제 에 따른 화자식별 성능을 비교하였다.
이 실험에 사용된 GM皿혼합 성분 개수는 14개이다. 두 번째 실험은 첫 번째 실험에서 구한 최적의 차원을 사용하여 선형 변 환된 특징 벡터를 이용하여 GMM 혼합 성분 개수를 변화 시켜 기존의 방법들과 제안된 방법의 성능을 비교한 것이 다. 마지막 실험은 음성 검출을통하여 얻어진 음성 신호 와 특징벡터들에 이상치를 추가시킨 다음, 첫 번째와 두 번째에서 선택된 최적의 차원과 GMM 혼합 성분 개수를 이용하여 기존의 알고리즘과 제안된 방법의 outlier문제 에 따른 화자식별 성능을 비교하였다.
다음 반복 과정에서 새로운 모델이 다시 초기 모델이 되고, 이러한 과정을 수렴값으로 수렴할 때까지 반복적으로 수행한다. 따라서 EM 알고리즘을 반복하는 동안 모델의 유사도 값이 단조 증가되는 가중치, 평균벡 터, 분산 행렬을 다음 식으로 재추정한다.
주성분분석은 여러 개의 변수들에 대하여 얻어진 다변 량 자료를 분석대상으로 하여 다차원적 인 변수들을 축소, 요약하는 차원의 단순화와 함께 일반적으로 서로 상관관 계가 있는 반응 변수들간의 복잡한 구조를 분석하는데 목적이 있다. 따라서 입력된 음성데이터로부터 추출된 특징 벡터들을 상관관계가 없는 새로운 좌표계로 선형변 환시켜 좌표 변환에 의해 새롭게 변형된 성분을 계산한다.
주성분분석은 여러 개의 변수들에 대하여 얻어진 다변 량 자료를 분석대상으로 하여 다차원적 인 변수들을 축소, 요약하는 차원의 단순화와 함께 일반적으로 서로 상관관 계가 있는 반응 변수들간의 복잡한 구조를 분석하는데 목적이 있다. 따라서 입력된 음성데이터로부터 추출된 특징 벡터들을 상관관계가 없는 새로운 좌표계로 선형변 환시켜 좌표 변환에 의해 새롭게 변형된 성분을 계산한다.
본 논문에서 제안한 방법을 검증하기 위하여 실험에 사용된 음성 데이터는 200명 (남자 100명, 여자 100명의 화자가 발성한 한국어 문장 종속 연속음 열려라 참깨 음 성이다. 수집된 데이터 음성은 한 화자당 1회에 5번씩 발 성한 뒤, 1주 간격의 시간차를 가지고 3주에 걸쳐서 수집 하였다. 개인별 전체 발성된 데이터 수는 15개이고 수집 된 총 데이터는 3,000개이다.
본 논문에서 제안한 방법을 검증하기 위하여 실험에 사용된 음성 데이터는 200명 (남자 100명, 여자 100명의 화자가 발성한 한국어 문장 종속 연속음 열려라 참깨 음 성이다. 수집된 데이터 음성은 한 화자당 1회에 5번씩 발 성한 뒤, 1주 간격의 시간차를 가지고 3주에 걸쳐서 수집 하였다. 개인별 전체 발성된 데이터 수는 15개이고 수집 된 총 데이터는 3,000개이다.
수집된 음성을 이용하여 제안된 방법의 성능 검증을 위하여 세 가지 실험을 하였다.
수집된 음성을 이용하여 제안된 방법의 성능 검증을 위하여 세 가지 실험을 하였다.
마지막 실험은 음성 검출을통하여 얻어진 음성 신호 와 특징벡터들에 이상치를 추가시킨 다음, 첫 번째와 두 번째에서 선택된 최적의 차원과 GMM 혼합 성분 개수를 이용하여 기존의 알고리즘과 제안된 방법의 outlier문제 에 따른 화자식별 성능을 비교하였다. 여기에서 화자인 식을 위한 음성 검출은 에너지가 높은 확실한 음성 구간 만을 사용하였는데, 이상치의 영향을 실험하기 위하여 검출된 음성구간의 앞뒤 프레임을 증가시키고 특징벡터 를 추출하고 또한 임의의 이상치들을 추가시켰다.
마지막 실험은 음성 검출을통하여 얻어진 음성 신호 와 특징벡터들에 이상치를 추가시킨 다음, 첫 번째와 두 번째에서 선택된 최적의 차원과 GMM 혼합 성분 개수를 이용하여 기존의 알고리즘과 제안된 방법의 outlier문제 에 따른 화자식별 성능을 비교하였다. 여기에서 화자인 식을 위한 음성 검출은 에너지가 높은 확실한 음성 구간 만을 사용하였는데, 이상치의 영향을 실험하기 위하여 검출된 음성구간의 앞뒤 프레임을 증가시키고 특징벡터 를 추출하고 또한 임의의 이상치들을 추가시켰다.
첫 번째 실험은 특징벡터의 고차원 문제를 해결하기 위하여 주성분 분석과 강인한 주성분 분석의 차원 수에 따른 화자식별 성능을 살펴보았다. 이 실험에서는 수집 된 원음성으로부터 특징벡터를 추출하여 차원수를 11에 서 25차까지 증가시켜 성능을 얻었다 （표 1）.
첫 번째 실험은 특징벡터의 고차원 문제를 해결하기 위하여 주성분 분석과 강인한 주성분 분석의 차원 수에 따른 화자식별 성능을 살펴보았다. 이 실험에서는 수집 된 원음성으로부터 특징벡터를 추출하여 차원수를 11에 서 25차까지 증가시켜 성능을 얻었다 （표 1）.
화자의 음성이 입력되면, 특징 벡터 京，는 학습시 저장된 각 화자의 강인한 주성분 분석법을 이용하여 주성분 벡터 E 로 선형변환시킨다. 화자의 주성분 벡터를 이용하여 GMM 의 최대 사후확률 값을 갖는 화자모델 计을 찾는다.
화자의 음성이 입력되면, 특징 벡터 京，는 학습시 저장된 각 화자의 강인한 주성분 분석법을 이용하여 주성분 벡터 E 로 선형변환시킨다. 화자의 주성분 벡터를 이용하여 GMM 의 최대 사후확률 값을 갖는 화자모델 计을 찾는다.

대상 데이터

개인별 전체 발성된 데이터 수는 15개이고 수집 된 총 데이터는 3,000개이다. 16 kHz로 샘플링하였고 음 성 분석을 위하여 해밍창이 사용하였으며, 한 프레임은 50% 중첩된 256샘플을 사용하였다. 특징 벡터로는 12차 LPC 켑스트럼과 12차 델타 켑스트럼과 델타 에너 지를 포 함하여 전체 25차를 사용하였다.
개인별 전체 발성된 데이터 수는 15개이고 수집 된 총 데이터는 3,000개이다. 16 kHz로 샘플링하였고 음 성 분석을 위하여 해밍창이 사용하였으며, 한 프레임은 50% 중첩된 256샘플을 사용하였다. 특징 벡터로는 12차 LPC 켑스트럼과 12차 델타 켑스트럼과 델타 에너 지를 포 함하여 전체 25차를 사용하였다.
수집된 데이터 음성은 한 화자당 1회에 5번씩 발 성한 뒤, 1주 간격의 시간차를 가지고 3주에 걸쳐서 수집 하였다. 개인별 전체 발성된 데이터 수는 15개이고 수집 된 총 데이터는 3,000개이다. 16 kHz로 샘플링하였고 음 성 분석을 위하여 해밍창이 사용하였으며, 한 프레임은 50% 중첩된 256샘플을 사용하였다.
수집된 데이터 음성은 한 화자당 1회에 5번씩 발 성한 뒤, 1주 간격의 시간차를 가지고 3주에 걸쳐서 수집 하였다. 개인별 전체 발성된 데이터 수는 15개이고 수집 된 총 데이터는 3,000개이다. 16 kHz로 샘플링하였고 음 성 분석을 위하여 해밍창이 사용하였으며, 한 프레임은 50% 중첩된 256샘플을 사용하였다.
학습을 위한 데이터는 각 화자가 2주간 발성한 10개의 음성 데이터를 학습에 사용하였고 마지막 주의 5개의 음 성 데이터를 테스트에 사용하였다. 따라서 화자식별 테 스트에 사용된 참여 데이터는 1,000개이다.
학습을 위한 데이터는 각 화자가 2주간 발성한 10개의 음성 데이터를 학습에 사용하였고 마지막 주의 5개의 음 성 데이터를 테스트에 사용하였다. 따라서 화자식별 테 스트에 사용된 참여 데이터는 1,000개이다.
본 논문에서 제안한 방법을 검증하기 위하여 실험에 사용된 음성 데이터는 200명 (남자 100명, 여자 100명의 화자가 발성한 한국어 문장 종속 연속음 열려라 참깨 음 성이다. 수집된 데이터 음성은 한 화자당 1회에 5번씩 발 성한 뒤, 1주 간격의 시간차를 가지고 3주에 걸쳐서 수집 하였다.
본 논문에서 제안한 방법을 검증하기 위하여 실험에 사용된 음성 데이터는 200명 (남자 100명, 여자 100명의 화자가 발성한 한국어 문장 종속 연속음 열려라 참깨 음 성이다. 수집된 데이터 음성은 한 화자당 1회에 5번씩 발 성한 뒤, 1주 간격의 시간차를 가지고 3주에 걸쳐서 수집 하였다.
이 실험에서는 수집 된 원음성으로부터 특징벡터를 추출하여 차원수를 11에 서 25차까지 증가시켜 성능을 얻었다 （표 1）. 이 실험에 사용된 GM皿혼합 성분 개수는 14개이다. 두 번째 실험은 첫 번째 실험에서 구한 최적의 차원을 사용하여 선형 변 환된 특징 벡터를 이용하여 GMM 혼합 성분 개수를 변화 시켜 기존의 방법들과 제안된 방법의 성능을 비교한 것이 다.
16 kHz로 샘플링하였고 음 성 분석을 위하여 해밍창이 사용하였으며, 한 프레임은 50% 중첩된 256샘플을 사용하였다. 특징 벡터로는 12차 LPC 켑스트럼과 12차 델타 켑스트럼과 델타 에너 지를 포 함하여 전체 25차를 사용하였다.
학습을 위한 데이터는 각 화자가 2주간 발성한 10개의 음성 데이터를 학습에 사용하였고 마지막 주의 5개의 음 성 데이터를 테스트에 사용하였다. 따라서 화자식별 테 스트에 사용된 참여 데이터는 1,000개이다.
학습을 위한 데이터는 각 화자가 2주간 발성한 10개의 음성 데이터를 학습에 사용하였고 마지막 주의 5개의 음 성 데이터를 테스트에 사용하였다. 따라서 화자식별 테 스트에 사용된 참여 데이터는 1,000개이다.

데이터처리

두 번째 실험은 첫 번째 실험에서 구한 최적의 차원을 사용하여 선형 변 환된 특징 벡터를 이용하여 GMM 혼합 성분 개수를 변화 시켜 기존의 방법들과 제안된 방법의 성능을 비교한 것이 다. 마지막 실험은 음성 검출을통하여 얻어진 음성 신호 와 특징벡터들에 이상치를 추가시킨 다음, 첫 번째와 두 번째에서 선택된 최적의 차원과 GMM 혼합 성분 개수를 이용하여 기존의 알고리즘과 제안된 방법의 outlier문제 에 따른 화자식별 성능을 비교하였다. 여기에서 화자인 식을 위한 음성 검출은 에너지가 높은 확실한 음성 구간 만을 사용하였는데, 이상치의 영향을 실험하기 위하여 검출된 음성구간의 앞뒤 프레임을 증가시키고 특징벡터 를 추출하고 또한 임의의 이상치들을 추가시켰다.
두 번째 실험은 첫 번째 실험에서 구한 최적의 차원을 사용하여 선형 변 환된 특징 벡터를 이용하여 GMM 혼합 성분 개수를 변화 시켜 기존의 방법들과 제안된 방법의 성능을 비교한 것이 다. 마지막 실험은 음성 검출을통하여 얻어진 음성 신호 와 특징벡터들에 이상치를 추가시킨 다음, 첫 번째와 두 번째에서 선택된 최적의 차원과 GMM 혼합 성분 개수를 이용하여 기존의 알고리즘과 제안된 방법의 outlier문제 에 따른 화자식별 성능을 비교하였다. 여기에서 화자인 식을 위한 음성 검출은 에너지가 높은 확실한 음성 구간 만을 사용하였는데, 이상치의 영향을 실험하기 위하여 검출된 음성구간의 앞뒤 프레임을 증가시키고 특징벡터 를 추출하고 또한 임의의 이상치들을 추가시켰다.

이론/모형

1를 이용하여 경계값과 비교하여, 이상치의 영향을 감소시 키 기 위하여 Huber weight 함수［5］를 사용하였다.
1를 이용하여 경계값과 비교하여, 이상치의 영향을 감소시 키 기 위하여 Huber weight 함수［5］를 사용하였다.
학습을 위한 음 성 신호가 입력되면, 먼저 특징 벡터들의 평균과 분산을 구하여 이상치의 영향을줄이기 위한화자의 강인한주성 분 분석법을 구한다. 강인한 주성분 분석법의 변환행렬 을사용하여 특징 벡터의 차원을줄이고, GMW화자학습 모델을 구한다.
학습을 위한 음 성 신호가 입력되면, 먼저 특징 벡터들의 평균과 분산을 구하여 이상치의 영향을줄이기 위한화자의 강인한주성 분 분석법을 구한다. 강인한 주성분 분석법의 변환행렬 을사용하여 특징 벡터의 차원을줄이고, GMW화자학습 모델을 구한다.
그러나 ML 알고리즘을 만족하는 파라메타 를 직접적으로 구할수 없다. 그러므로 ML 파라메타 추정 은 반복적으로 EM (Expectation- maximization) 알고리 즘을 사용하여 얻는다[7]. EM 알고리즘은 초기 모델 0 로부터 p{Y\d)^p(Y\0) 인 새로운 모델 石를 추정하 는 것이다.
그러나 특징벡터의 주성분 분석은 화자자신의 불규칙한 발성 패턴이나 강세, 억양등이 갑자기 변화할 때, 잘못된 음성 검출시 발생하는 신호와 주변 잡음같은 이상치 (outlier)에 상당히 민감하므로 화자의 순수한 특징 벡터 만을 추출하기 어렵다⑶. 따라서 본 논문에서는 반복적 인 M-추정에 의하여 이상치의 영향을 감소시키는 변환 행 렬을 구하고 강인한 주성분 분석을 통하여 선형 변환된 주성분 벡터를 화자인식 모델을 위한 GM皿에 사용한다. 본 논문의 구성은 다음과 같다.
그러나 특징벡터의 주성분 분석은 화자자신의 불규칙한 발성 패턴이나 강세, 억양등이 갑자기 변화할 때, 잘못된 음성 검출시 발생하는 신호와 주변 잡음같은 이상치 (outlier)에 상당히 민감하므로 화자의 순수한 특징 벡터 만을 추출하기 어렵다⑶. 따라서 본 논문에서는 반복적 인 M-추정에 의하여 이상치의 영향을 감소시키는 변환 행 렬을 구하고 강인한 주성분 분석을 통하여 선형 변환된 주성분 벡터를 화자인식 모델을 위한 GM皿에 사용한다. 본 논문의 구성은 다음과 같다.
본 논문에서는 화자인식에 최근 많이 사용되고 있는 GMM 방법을사용한다. GMM 방법은 벡터의 요소 (element) 들 사이에 상관관계가 존재하지 않는다는 가정 하에 공분 산의 대각 (diagonal) 성분만을 이용하여 화자식별과 화 자확인에 많이 사용되고 있지만[1], 실제로 벡터의 요소 들 사이에는 상관관계가 존재하므로 화자인식 의 성능 저 하를 가져온다.
본 논문에서는 화자인식에 최근 많이 사용되고 있는 GMM 방법을사용한다. GMM 방법은 벡터의 요소 (element) 들 사이에 상관관계가 존재하지 않는다는 가정 하에 공분 산의 대각 (diagonal) 성분만을 이용하여 화자식별과 화 자확인에 많이 사용되고 있지만[1], 실제로 벡터의 요소 들 사이에는 상관관계가 존재하므로 화자인식 의 성능 저 하를 가져온다.
본 논문에서는 이상치의 영향과 고차원 문제를 해결하 기 위하여 강인한 주성분 분석법을 갖는 GMM 방법을 제 안하였다. 음성신호에 이상치가 존재하는 경우 추출된 특징벡터는 이상치에 의한 영향으로 화자의 특성 검출 시 에러를 가져 올 수 있으므로 강인한 주성분 분석 법을 이용하였다. 따라서 이상치에 의한 영향을 감소시키고 데이터의 차원을 감소시켜 화자모델을 생성시켜 화자인 식 성능을 향상시킬 수 있었다.
본 논문에서는 이상치의 영향과 고차원 문제를 해결하 기 위하여 강인한 주성분 분석법을 갖는 GMM 방법을 제 안하였다. 음성신호에 이상치가 존재하는 경우 추출된 특징벡터는 이상치에 의한 영향으로 화자의 특성 검출 시 에러를 가져 올 수 있으므로 강인한 주성분 분석 법을 이용하였다. 따라서 이상치에 의한 영향을 감소시키고 데이터의 차원을 감소시켜 화자모델을 생성시켜 화자인 식 성능을 향상시킬 수 있었다.
특징 벡터열 X로부터, 화자의 강인한주성분분석법을 이용하여 주성분 벡터 I로 선형변환시킨다.
그림 2는 위의 단계를 나타낸 것이다. 학습을 위한 음 성 신호가 입력되면, 먼저 특징 벡터들의 평균과 분산을 구하여 이상치의 영향을줄이기 위한화자의 강인한주성 분 분석법을 구한다. 강인한 주성분 분석법의 변환행렬 을사용하여 특징 벡터의 차원을줄이고, GMW화자학습 모델을 구한다.
그림 2는 위의 단계를 나타낸 것이다. 학습을 위한 음 성 신호가 입력되면, 먼저 특징 벡터들의 평균과 분산을 구하여 이상치의 영향을줄이기 위한화자의 강인한주성 분 분석법을 구한다. 강인한 주성분 분석법의 변환행렬 을사용하여 특징 벡터의 차원을줄이고, GMW화자학습 모델을 구한다.

성능/효과

표 1과 그림 4는수집된 원음성에서 추출한특징벡터를 이용하여 화자식별 성능을 본 것이다. 그 결과 주성분 분 석법을 사용한 경우에 일반적 인 GM皿 방법보다는 성능이 우수하지만 제안된 방법은 일반적인 주성분 분석법과 비 교할 때 비슷한 화자식별 성능을 보였다.
표 1과 그림 4는수집된 원음성에서 추출한특징벡터를 이용하여 화자식별 성능을 본 것이다. 그 결과 주성분 분 석법을 사용한 경우에 일반적 인 GM皿 방법보다는 성능이 우수하지만 제안된 방법은 일반적인 주성분 분석법과 비 교할 때 비슷한 화자식별 성능을 보였다.
이 실험은 수집된 원음성에서 얻은특징벡터의 경우에 는 오히려 강인한 방법을 사용한 경우가 화자식별률에 성능이 감소됨을 알 수 있었다. 그러나 제안된 강인한 주 성분 분석법은 이상치 정도가 많이 추가된 경우에는 outlier에 영향을 많이 받지 않고, 성능이 일정하게 유지 된 것을 알 수 있다. 즉, 이상치가 존재할 경우에 제안된 방법이 강인함을 보였다.
이 실험은 수집된 원음성에서 얻은특징벡터의 경우에 는 오히려 강인한 방법을 사용한 경우가 화자식별률에 성능이 감소됨을 알 수 있었다. 그러나 제안된 강인한 주 성분 분석법은 이상치 정도가 많이 추가된 경우에는 outlier에 영향을 많이 받지 않고, 성능이 일정하게 유지 된 것을 알 수 있다. 즉, 이상치가 존재할 경우에 제안된 방법이 강인함을 보였다.
깨끗한 음성에서 혼합성분 개수에 따라 제안된 방법은 GMM방법과 비교할 때 평균 0.81%, 일반적인 주성분 분 석 법을 사용한 경우 0.06% 더 좋은 화자식 별 성능을 보였 다. 이상치가 2%씩 증가할 때마다 일반적 인 GMM 방법과 일반적인 주성분 분석법은 화자식별 성능이 급격히 저하 되었지만, 제안된 방법의 성능은 깨끗한 음성에서의 성 능보다 약 0.
깨끗한 음성에서 혼합성분 개수에 따라 제안된 방법은 GMM방법과 비교할 때 평균 0.81%, 일반적인 주성분 분 석 법을 사용한 경우 0.06% 더 좋은 화자식 별 성능을 보였 다. 이상치가 2%씩 증가할 때마다 일반적 인 GMM 방법과 일반적인 주성분 분석법은 화자식별 성능이 급격히 저하 되었지만, 제안된 방법의 성능은 깨끗한 음성에서의 성 능보다 약 0.
음성신호에 이상치가 존재하는 경우 추출된 특징벡터는 이상치에 의한 영향으로 화자의 특성 검출 시 에러를 가져 올 수 있으므로 강인한 주성분 분석 법을 이용하였다. 따라서 이상치에 의한 영향을 감소시키고 데이터의 차원을 감소시켜 화자모델을 생성시켜 화자인 식 성능을 향상시킬 수 있었다.
음성신호에 이상치가 존재하는 경우 추출된 특징벡터는 이상치에 의한 영향으로 화자의 특성 검출 시 에러를 가져 올 수 있으므로 강인한 주성분 분석 법을 이용하였다. 따라서 이상치에 의한 영향을 감소시키고 데이터의 차원을 감소시켜 화자모델을 생성시켜 화자인 식 성능을 향상시킬 수 있었다.
1%의 변화만 있었다. 또한 실험 결과에서 제 안된 방법은 깨끗한 음성에서보다 약간의 outlier가 존재 할 때 기존 방법과의 큰 성능차이를 보였다.
1%의 변화만 있었다. 또한 실험 결과에서 제 안된 방법은 깨끗한 음성에서보다 약간의 outlier가 존재 할 때 기존 방법과의 큰 성능차이를 보였다.
또한 제안된 논문은 件，일 때, 기존의 직교 GMM방법 으로⑵ 대체할 수 있다. 즉 左 =P일 때, 제안된 방법은 ⑵에서 제안된 방법과 동일하므로 [2]의 일반화된 방법 이라 할 수있다.
첫 번째 실험은 특징벡터의 고차원 문제를 해결하기 위하여 주성분 분석과 강인한 주성분 분석의 차원 수에 따른 화자식별 성능을 살펴보았다. 이 실험에서는 수집 된 원음성으로부터 특징벡터를 추출하여 차원수를 11에 서 25차까지 증가시켜 성능을 얻었다 （표 1）. 이 실험에 사용된 GM皿혼합 성분 개수는 14개이다.
이 실험에서는 수집된 원음성으로부터 특징벡터를 추출하여 차원 수를 11에서 25차까지 증가시켜 성능을 얻었다 (표1).
이 실험은 수집된 원음성에서 얻은특징벡터의 경우에 는 오히려 강인한 방법을 사용한 경우가 화자식별률에 성능이 감소됨을 알 수 있었다. 그러나 제안된 강인한 주 성분 분석법은 이상치 정도가 많이 추가된 경우에는 outlier에 영향을 많이 받지 않고, 성능이 일정하게 유지 된 것을 알 수 있다.
이 실험은 수집된 원음성에서 얻은특징벡터의 경우에 는 오히려 강인한 방법을 사용한 경우가 화자식별률에 성능이 감소됨을 알 수 있었다. 그러나 제안된 강인한 주 성분 분석법은 이상치 정도가 많이 추가된 경우에는 outlier에 영향을 많이 받지 않고, 성능이 일정하게 유지 된 것을 알 수 있다.
06% 더 좋은 화자식 별 성능을 보였 다. 이상치가 2%씩 증가할 때마다 일반적 인 GMM 방법과 일반적인 주성분 분석법은 화자식별 성능이 급격히 저하 되었지만, 제안된 방법의 성능은 깨끗한 음성에서의 성 능보다 약 0.1%의 변화만 있었다. 또한 실험 결과에서 제 안된 방법은 깨끗한 음성에서보다 약간의 outlier가 존재 할 때 기존 방법과의 큰 성능차이를 보였다.
06% 더 좋은 화자식 별 성능을 보였 다. 이상치가 2%씩 증가할 때마다 일반적 인 GMM 방법과 일반적인 주성분 분석법은 화자식별 성능이 급격히 저하 되었지만, 제안된 방법의 성능은 깨끗한 음성에서의 성 능보다 약 0.1%의 변화만 있었다. 또한 실험 결과에서 제 안된 방법은 깨끗한 음성에서보다 약간의 outlier가 존재 할 때 기존 방법과의 큰 성능차이를 보였다.
03%정도 감소하였다. 이상치가 증가됨에 따라 제안된 방법의 성능이 일반적인 주성분분석법을 사용한 경우보다 화자식별률이 높게 나타났지만, 원음성에서 추 출된 특징벡터에서는 오히려 제안된 방법의 성능이 일반 적인 주성분 분석법보다 성능이 낮게 나타났다. 이상치 가 전혀 추가되지 않은 조건에서 제안한 RPCA 방법을 사용할 경우 경계 바깥에 존재하는 특징 벡터들의 영향을 감소시키게 된다.
03%정도 감소하였다. 이상치가 증가됨에 따라 제안된 방법의 성능이 일반적인 주성분분석법을 사용한 경우보다 화자식별률이 높게 나타났지만, 원음성에서 추 출된 특징벡터에서는 오히려 제안된 방법의 성능이 일반 적인 주성분 분석법보다 성능이 낮게 나타났다. 이상치 가 전혀 추가되지 않은 조건에서 제안한 RPCA 방법을 사용할 경우 경계 바깥에 존재하는 특징 벡터들의 영향을 감소시키게 된다.
그림 4는 화자별 GMN1의 혼합성분 개수에 따른 화자식 별 성능을 나타낸 것이다. 제안된 방법의 성능은 일반적 인 GMM 방법과 비교할 때 평균 0.81%, 주성분 분석법을 사용한 경우 0.06% 더 좋은 화자식별 성능을 보였고, 혼 합성분의 개수가 증가할수록 화자식별 성능이 우수함을 보였다. 그러나 혼합성분의 수가 24개 이상인 경우는 혼 합성분의 수가 증가해도 일정한 수준의 성능에 접근하면 더 이상 증가하지 않았다.
그림 4는 화자별 GMN1의 혼합성분 개수에 따른 화자식 별 성능을 나타낸 것이다. 제안된 방법의 성능은 일반적 인 GMM 방법과 비교할 때 평균 0.81%, 주성분 분석법을 사용한 경우 0.06% 더 좋은 화자식별 성능을 보였고, 혼 합성분의 개수가 증가할수록 화자식별 성능이 우수함을 보였다. 그러나 혼합성분의 수가 24개 이상인 경우는 혼 합성분의 수가 증가해도 일정한 수준의 성능에 접근하면 더 이상 증가하지 않았다.
그러나 제안된 강인한 주 성분 분석법은 이상치 정도가 많이 추가된 경우에는 outlier에 영향을 많이 받지 않고, 성능이 일정하게 유지 된 것을 알 수 있다. 즉, 이상치가 존재할 경우에 제안된 방법이 강인함을 보였다. 이는 특징벡터의 파라메타들에 이상치가 존재할 경우 모든 차원 특징벡터를 사용하는 경우와 주성분 분석법에 의해 이상치에 민감하게 반응된 주성분 벡터를 이용할 경우, 화자 식별 성능을 저하 시키 게 된다.
그러나 제안된 강인한 주 성분 분석법은 이상치 정도가 많이 추가된 경우에는 outlier에 영향을 많이 받지 않고, 성능이 일정하게 유지 된 것을 알 수 있다. 즉, 이상치가 존재할 경우에 제안된 방법이 강인함을 보였다. 이는 특징벡터의 파라메타들에 이상치가 존재할 경우 모든 차원 특징벡터를 사용하는 경우와 주성분 분석법에 의해 이상치에 민감하게 반응된 주성분 벡터를 이용할 경우, 화자 식별 성능을 저하 시키 게 된다.
그림 5는 이상치가 존재하는 경우에 GMM, 주성분 분 석법, 강인한 주성분 분석법의 성능을 나타낸 것이다. 특 징 벡터에 이상치가존재하는 경우에 화자 모델을 만들어 놓은 다음에 화자식별 성능을 본 것이다 outlier가 2%씩 증가할 때마다 전형적 인 GMM 방법과 PCA 방법은 각각 0.65%, 0.55%씩 화자식별 성능이 감소되었지만 제안된 방법은 0.03%정도 감소하였다. 이상치가 증가됨에 따라 제안된 방법의 성능이 일반적인 주성분분석법을 사용한 경우보다 화자식별률이 높게 나타났지만, 원음성에서 추 출된 특징벡터에서는 오히려 제안된 방법의 성능이 일반 적인 주성분 분석법보다 성능이 낮게 나타났다.
그림 5는 이상치가 존재하는 경우에 GMM, 주성분 분 석법, 강인한 주성분 분석법의 성능을 나타낸 것이다. 특 징 벡터에 이상치가존재하는 경우에 화자 모델을 만들어 놓은 다음에 화자식별 성능을 본 것이다 outlier가 2%씩 증가할 때마다 전형적 인 GMM 방법과 PCA 방법은 각각 0.65%, 0.55%씩 화자식별 성능이 감소되었지만 제안된 방법은 0.03%정도 감소하였다. 이상치가 증가됨에 따라 제안된 방법의 성능이 일반적인 주성분분석법을 사용한 경우보다 화자식별률이 높게 나타났지만, 원음성에서 추 출된 특징벡터에서는 오히려 제안된 방법의 성능이 일반 적인 주성분 분석법보다 성능이 낮게 나타났다.
표 1은 차원 수에 따른 일반적 인 주성분 분석법과 강인 한 주성분 분석법의 화자식별 성능을 나타낸 것이다. 화 자의 주성분 벡터의 차원이 증가할수록 성능이 향상됨을 알 수 있다. & 0 20일 때는 두 가지 방법 모두 일반적 인 GMM / = 25） 방법의 성능보다 높게 나타났다.

후속연구

화자인식의 성능을 더욱 증가시키기 위해서는 시간 경 가에 따른 화자 모델의 적응과정 이 필요한데 화자모델의 적응과정뿐만 아니라 주성분 분석법의 변환행렬도 적응 을통하여 화자인식의 성능을 더욱향상시킬 수 있으므로 시간 흐름에 따른 화자별 적응 과정에 대한 연구를 차후 과제로 남겨둔다.
화자인식의 성능을 더욱 증가시키기 위해서는 시간 경 가에 따른 화자 모델의 적응과정 이 필요한데 화자모델의 적응과정뿐만 아니라 주성분 분석법의 변환행렬도 적응 을통하여 화자인식의 성능을 더욱향상시킬 수 있으므로 시간 흐름에 따른 화자별 적응 과정에 대한 연구를 차후 과제로 남겨둔다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국내논문] 화자식별을 위한 강인한 주성분 분석 가우시안 혼합 모델
RPCA-GMM for Speaker Identification 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국내논문] 화자식별을 위한 강인한 주성분 분석 가우시안 혼합 모델 RPCA-GMM for Speaker Identification 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

강상기 (2) 이기용 (18)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[국내논문] 화자식별을 위한 강인한 주성분 분석 가우시안 혼합 모델
RPCA-GMM for Speaker Identification 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper