본 논문에서는 선형 판별분석 (LDA: Linear Discriminant Analysis)과 공통벡터 추출방법을 이용한 음성인식방법을 제안하였다. 음성신호는 화자의 성별, 나이, 출생지, 주위 잡음, 정신적 상태, 발성기관의 구조 등과 같은 다양한 정보를 포함하고 있다. 이로 인해 같은 음성신호라 할지라도 서로 다른 화자가 발성하게 되면 서로 다른 특성을 보이게 된다. 음성신호의 이러한 성질은 같은 음성군 (class)에 포함된 공통된 특성벡터를 추출하는 일을 상당히 어렵게 한다. 음성신호에서 공통된 특징 벡터를 추출하는 방법은 KLT (Karhunen-Loeve Transformation)와 같이 선형 대수적인 접근방법이 많이 사용되어지고 있으나, 본 논문에서는 M. Bilginer et al.이 제안한 공통벡터 추출 방법을 사용하였다. M. Bilginer et al.이 제안한 방법은 주어진 훈련 음성신호들에 대하여 최적의 공통 벡터를 추출하여 주면서 공통벡터 추출에 사용된 훈련 데이터에 대해서는 100%의 인식결과를 보여준다. 그러나 공통벡터 추출을 위한 훈련 음성신호의 수를 무한히 늘릴 수 없다는 점과 공통벡터들간의 구별정보 (discriminant information)가 정의되지 않았다는 단점이 있다. 본 논문에서는 단어그룹간 (class) 구별정보를 추출된 공통벡터와 결합해 단어간의 오인식률 (error rate)을 감소시킬 수 있는 방법과 공통벡터 추출방법에 적합한 파라미터 가공 방법을 제안하였다. 공통벡터 추출방법은 음성신호의 시간 축 정규화 방법과 벡터의 차원 크기에 따라 인식시간과 인식률에 영향을 받는다. 따라서 부적절한 시간 축 정렬과 너무 큰 벡터의 차원 수는 인식률 저하 등과 같이 알고리즘의 효율성을 떨어뜨린다. 본 논문에서 제안한 방법을 사용하여 실험한 결과 알고리즘의 효율성이 증가되었으며, 기존방법보다 약 2%정도의 향상된 인식률을 얻을 수 있었다.낮추는 효과를 나타내었다.다. 이상의 결과를 통하여 추출 온도와 용매 농도에 따른 수율의 차이가 있었으며 free radical 소거 활성에서는 종자 에탄을 추출물이 과피에탄올 추출물 보다 145배 이상의 현저히 높은 활성을 나타내었다.을 나타내었다.'Lian(연)' : repeatability, continuance, plenty and intercommunicate, 2. 'Lian(연)'-'Lian(염)': integrity, 3. 'He (하)'-'He(화)' : peace, harmony and combination, 4. 'He(하)'-'He(하)' : clear river, 5.'He(하)'-'He(하)' ; all work goes well. When the Chinese use lotus patterns in lucky omen patterns, same pronunciation and pitch of Chinese language more prominent than natural properties or the image of Buddhism. I guess that it cause praying individual's peace and happiness more serious than philosophical meaning or symbol that base in Buddhism for ordinary people.ML., -9.00~12.49 and -19.81~19.81%, respectively). Therefore, it is concluded that the two formulations are bioequivalent for both the extent and the rate of absorption after single dose administration.ation.ion.ion.ation.ion.n. fibrosis, collagenbundle) was
본 논문에서는 선형 판별분석 (LDA: Linear Discriminant Analysis)과 공통벡터 추출방법을 이용한 음성인식방법을 제안하였다. 음성신호는 화자의 성별, 나이, 출생지, 주위 잡음, 정신적 상태, 발성기관의 구조 등과 같은 다양한 정보를 포함하고 있다. 이로 인해 같은 음성신호라 할지라도 서로 다른 화자가 발성하게 되면 서로 다른 특성을 보이게 된다. 음성신호의 이러한 성질은 같은 음성군 (class)에 포함된 공통된 특성벡터를 추출하는 일을 상당히 어렵게 한다. 음성신호에서 공통된 특징 벡터를 추출하는 방법은 KLT (Karhunen-Loeve Transformation)와 같이 선형 대수적인 접근방법이 많이 사용되어지고 있으나, 본 논문에서는 M. Bilginer et al.이 제안한 공통벡터 추출 방법을 사용하였다. M. Bilginer et al.이 제안한 방법은 주어진 훈련 음성신호들에 대하여 최적의 공통 벡터를 추출하여 주면서 공통벡터 추출에 사용된 훈련 데이터에 대해서는 100%의 인식결과를 보여준다. 그러나 공통벡터 추출을 위한 훈련 음성신호의 수를 무한히 늘릴 수 없다는 점과 공통벡터들간의 구별정보 (discriminant information)가 정의되지 않았다는 단점이 있다. 본 논문에서는 단어그룹간 (class) 구별정보를 추출된 공통벡터와 결합해 단어간의 오인식률 (error rate)을 감소시킬 수 있는 방법과 공통벡터 추출방법에 적합한 파라미터 가공 방법을 제안하였다. 공통벡터 추출방법은 음성신호의 시간 축 정규화 방법과 벡터의 차원 크기에 따라 인식시간과 인식률에 영향을 받는다. 따라서 부적절한 시간 축 정렬과 너무 큰 벡터의 차원 수는 인식률 저하 등과 같이 알고리즘의 효율성을 떨어뜨린다. 본 논문에서 제안한 방법을 사용하여 실험한 결과 알고리즘의 효율성이 증가되었으며, 기존방법보다 약 2%정도의 향상된 인식률을 얻을 수 있었다.낮추는 효과를 나타내었다.다. 이상의 결과를 통하여 추출 온도와 용매 농도에 따른 수율의 차이가 있었으며 free radical 소거 활성에서는 종자 에탄을 추출물이 과피 에탄올 추출물 보다 145배 이상의 현저히 높은 활성을 나타내었다.을 나타내었다.'Lian(연)' : repeatability, continuance, plenty and intercommunicate, 2. 'Lian(연)'-'Lian(염)': integrity, 3. 'He (하)'-'He(화)' : peace, harmony and combination, 4. 'He(하)'-'He(하)' : clear river, 5.'He(하)'-'He(하)' ; all work goes well. When the Chinese use lotus patterns in lucky omen patterns, same pronunciation and pitch of Chinese language more prominent than natural properties or the image of Buddhism. I guess that it cause praying individual's peace and happiness more serious than philosophical meaning or symbol that base in Buddhism for ordinary people.ML., -9.00~12.49 and -19.81~19.81%, respectively). Therefore, it is concluded that the two formulations are bioequivalent for both the extent and the rate of absorption after single dose administration.ation.ion.ion.ation.ion.n. fibrosis, collagen bundle) was
This paper describes Linear Discriminant Analysis and common vector extraction for speech recognition. Voice signal contains psychological and physiological properties of the speaker as well as dialect differences, acoustical environment effects, and phase differences. For these reasons, the same wo...
This paper describes Linear Discriminant Analysis and common vector extraction for speech recognition. Voice signal contains psychological and physiological properties of the speaker as well as dialect differences, acoustical environment effects, and phase differences. For these reasons, the same word spelled out by different speakers can be very different heard. This property of speech signal make it very difficult to extract common properties in the same speech class (word or phoneme). Linear algebra method like BT (Karhunen-Loeve Transformation) is generally used for common properties extraction In the speech signals, but common vector extraction which is suggested by M. Bilginer et at. is used in this paper. The method of M. Bilginer et al. extracts the optimized common vector from the speech signals used for training. And it has 100% recognition accuracy in the trained data which is used for common vector extraction. In spite of these characteristics, the method has some drawback-we cannot use numbers of speech signal for training and the discriminant information among common vectors is not defined. This paper suggests advanced method which can reduce error rate by maximizing the discriminant information among common vectors. And novel method to normalize the size of common vector also added. The result shows improved performance of algorithm and better recognition accuracy of 2% than conventional method.
This paper describes Linear Discriminant Analysis and common vector extraction for speech recognition. Voice signal contains psychological and physiological properties of the speaker as well as dialect differences, acoustical environment effects, and phase differences. For these reasons, the same word spelled out by different speakers can be very different heard. This property of speech signal make it very difficult to extract common properties in the same speech class (word or phoneme). Linear algebra method like BT (Karhunen-Loeve Transformation) is generally used for common properties extraction In the speech signals, but common vector extraction which is suggested by M. Bilginer et at. is used in this paper. The method of M. Bilginer et al. extracts the optimized common vector from the speech signals used for training. And it has 100% recognition accuracy in the trained data which is used for common vector extraction. In spite of these characteristics, the method has some drawback-we cannot use numbers of speech signal for training and the discriminant information among common vectors is not defined. This paper suggests advanced method which can reduce error rate by maximizing the discriminant information among common vectors. And novel method to normalize the size of common vector also added. The result shows improved performance of algorithm and better recognition accuracy of 2% than conventional method.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 이러한 오인식의 원인들을 제거하기 위하여 단어그룹 간 구별 정보를 공통벡터 추출 방법에 추가하는 방법을 제안하였으며, M. Bilginer et al. 이 제안한 방법에 적합한 특성벡터가 공방법을 제안하였다.
Bilginer et al. 이 제안한 공통벡터추출 방법과 단어그룹 간 구별 정보를 구하는 방법에 대하여 설명하였다. 그리고 3장에서는 음성 신호에서 공통 벡터를 추출하기 위해 사용되는 파라미터의 가공방법을 설명하였고 기존 방법과 제안한 방법의 실험 결과를 다양한 방법으로 비교하였으며, 결론은 4장에서 기술하였다.
가설 설정
또한 귀로인지한 소리들을 분리된 음원들로 간단히 분리할 수 있는 능력을 가지고 있다. 전통적인 음성신호 처리 방식인 LPC (linear prediction coefficient) 또는 FFT (fast Fourier transform)는 음성 신호를 하나의 음원에서 생성된다고 보며 선형적인 모델로 가정한다. 음성신호에서 추출된 임의의 파라미터들은 모두 벡터의 형태로 변환될 수 있다.
제안 방법
/( 即)를 최대가 되도록 하기 위하여 SJSb로부터 顶一 1개의 가장 큰 고 유치 (eigenvalue)들을 추출한 후, 고유치에 해당하는 고유벡터(eigenvector) 를 이용해 선형 변환식 W 丁를 만들어 사용하였다.
먼저 인간의 청각 세포를 모델링한 32개의 대역통과필터를 사용하여 음성 신호를 파라미 터 로 변환한 후, 2차원 DCT 방법을 사용하여 정규화된 특징벡터를 구하였다. 그리고 얻어진 특징벡터들로부터 같은 단어에 포함된 공통벡터를 추출하였다. 추출된 공통벡터는 인식의 마지막 부분에서 구별정보를 적용한 공통 벡터와 함께 입력단어의 판정을 위한 참조벡터로 사용하였다.
고립 숫자음에 대한 인식률(%)X 8)의 벡터로 변환시켰다. 또한 다양한 길이의 단어들을 인식하기 위하여 벡터의 마지막 부분에 단어의 프레임 개수를 추가하였다. 인식의 마지막 부분인 단어의 결정 부분에서는 기존 방법과 제안한 방법을 비교하여 제안한 방법의 우수성을 증명하였다.
화자 독립 고립 단어 인식 실험을 수행하였다. 먼저 인간의 청각 세포를 모델링한 32개의 대역통과필터를 사용하여 음성 신호를 파라미 터 로 변환한 후, 2차원 DCT 방법을 사용하여 정규화된 특징벡터를 구하였다. 그리고 얻어진 특징벡터들로부터 같은 단어에 포함된 공통벡터를 추출하였다.
본 논문에서는 2차원 DCT를 이용하여 특성벡터를 가공한 후, 공통벡터 추출 방법과 선형 판별 분석을 이용하여 화자 독립 고립 단어 인식 실험을 수행하였다. 먼저 인간의 청각 세포를 모델링한 32개의 대역통과필터를 사용하여 음성 신호를 파라미 터 로 변환한 후, 2차원 DCT 방법을 사용하여 정규화된 특징벡터를 구하였다.
이러한 방법은 다양한 길이의 단어 인식에는 적합하지 않다. 본 논문에서는 32차 청각모델을 이용해 음성 신호를 파라미터로 변환한 후 이를 2차원 DOT를 사용해 일정한 크기 (14 표 1.고립 숫자음에 대한 인식률(%)X 8)의 벡터로 변환시켰다. 또한 다양한 길이의 단어들을 인식하기 위하여 벡터의 마지막 부분에 단어의 프레임 개수를 추가하였다.
그러나 이러한 과정에서 각 음성그룹을 대표하는 공통 벡터들 사이의 구별 정보가 적을 경우 오인식의 주된 원인이 될 수 있다. 본 논문에서는 이러한 공통벡터들 간의 구별 정보를 강화하기 위하여 선형 판별분석을 사용하였다. 선형 판별 분석은 통계적인 패턴 구분 (pattern classification) 방법으로, 좀더 낮은 차원으로의 벡터 사상을 통해 식(16)의 비가 최대가 되도록 하여 그룹 간의 패턴 구분 능력을 향상시키는 방법이다 [2, 6-8].
사용된 단어들은 16kHz의 표본화율을 가지며 16bit로 저장된 음성 데이터들이다. 실험 방법으로는 개별 단어 군에서 공통벡터를 추출하기 위한 훈련용 단어의 개수를 변화시키는 방법과 인식 단어군의 개수를 변화시키는 방법을 사용하여 기존 방법과 제안한 방법을 비교하였다. 인식실험에 사용된 음성은 훈련에 사용되지 않은 음성들을 사용, 부서명과 숫자음 인식 실험을 수행하였다.
Bilginer et al.은 벡터의 차원을 최고 9000개까지 사용하였으며, 차원의 정규화를 위하여 벡터의 후반부에 영을 삽입하는 방법을 사용하였다. 이러한 방법은 총계산량을 증가시키며 인식률을 떨어뜨리는 결과를 초래할 수 있다.
인식실험에 사용된 음성은 훈련에 사용되지 않은 음성들을 사용, 부서명과 숫자음 인식 실험을 수행하였다. 음성신호는 특성 추출을 위해 0.015초 간격으로 절단하였고 50% 씩 중복하여 사용하였다. 그리고 Hamming 창함수를 사용하였다.
Bilginer et al. 이 제안한 공통벡터 추출 방법은 주어진 훈련 음성에 대해서만 최적의 결과를 보장하며 임의의 입력 음성에 대해서는 공통벡터와의 거리측정방식을 이용하여 단어나 음소를 결정하게 된다. 이는 각 단 어군이 서로 작은 발산정보(divergence)를 가지고 있을경우 오인식 의 원인으로 작용될 수 있다.
Bilginer et al. 이 제안한 방법에 적합한 특성벡터가 공방법을 제안하였다. 제안한 방법을 이용하여 인식 실험을 수행한 결과 기존 실험에 비하여 인식시간과 인식률 면에서 좋은 결과를 얻을 수 있었다.
실험 방법으로는 개별 단어 군에서 공통벡터를 추출하기 위한 훈련용 단어의 개수를 변화시키는 방법과 인식 단어군의 개수를 변화시키는 방법을 사용하여 기존 방법과 제안한 방법을 비교하였다. 인식실험에 사용된 음성은 훈련에 사용되지 않은 음성들을 사용, 부서명과 숫자음 인식 실험을 수행하였다. 음성신호는 특성 추출을 위해 0.
제안한 단어 결정 방법은 식(22)와 같이 단어그룹간구별정보를 크게 하는 선형 변환식과 공통벡터들의 Euclidean거리를 사용하였다.
대상 데이터
남성 20명과 여성 20명이 4회 발성한 20개의 숫자음 ('일', '이', '삼', '사', '오', '육', '칠', '팔', 구', 영', '하나', '둘', 성!', '넷', '다섯', '여섯', 일곱', '여턻', '아홉', '공')과 남성 48명과 여성 43명이 1회 발성한 22개의 부서명을 사용하여 인식 실험을 수행하였다. 사용된 단어들은 16kHz의 표본화율을 가지며 16bit로 저장된 음성 데이터들이다.
남성 20명과 여성 20명이 4회 발성한 20개의 숫자음 ('일', '이', '삼', '사', '오', '육', '칠', '팔', 구', 영', '하나', '둘', 성!', '넷', '다섯', '여섯', 일곱', '여턻', '아홉', '공')과 남성 48명과 여성 43명이 1회 발성한 22개의 부서명을 사용하여 인식 실험을 수행하였다. 사용된 단어들은 16kHz의 표본화율을 가지며 16bit로 저장된 음성 데이터들이다. 실험 방법으로는 개별 단어 군에서 공통벡터를 추출하기 위한 훈련용 단어의 개수를 변화시키는 방법과 인식 단어군의 개수를 변화시키는 방법을 사용하여 기존 방법과 제안한 방법을 비교하였다.
실험에 사용된 부서명은 음성은 모두 2, 002개이며, 이중 각각 10명, 20명, 30명, 40명의 서로 다른 화자가 발성한 부서명 22개를 훈련 데이터로 사용하였다. 그리고 훈련용으로 선택된 화자들은 남성과 여성의 비율이 각각 50%씩 되도록 설정하였다.
실험에 사용된 숫자음은 음성은 모두 3, 200개이고, 이중 각각 10명, 20명의 서로 다른 화자가 1회 발성한 숫자 음을 훈련 데이터로 사용하였으며 나머지는 인식 실험용으로 사용하였다. 그리고 훈련용으로 선택된 화자들은 남성과 여성의 비율이 각각 50%씩 되도록 설정하였다.
실험에 사용된 음성 데이터는 E7RI에서 제작한 음성데이터베이스이다. 남성 20명과 여성 20명이 4회 발성한 20개의 숫자음 ('일', '이', '삼', '사', '오', '육', '칠', '팔', 구', 영', '하나', '둘', 성!', '넷', '다섯', '여섯', 일곱', '여턻', '아홉', '공')과 남성 48명과 여성 43명이 1회 발성한 22개의 부서명을 사용하여 인식 실험을 수행하였다.
이론/모형
015초 간격으로 절단하였고 50% 씩 중복하여 사용하였다. 그리고 Hamming 창함수를 사용하였다.
사용하였다. 기존 방법은 시간 축 정규화를 위하여 음성 신호로부터 추줄한 파라미터들을 DTW (dynamic time warping) 알고리즘과 DP (dynamic programming)방법을 이용, 2-4개의 참조 벡터들로 매칭시키는 방법을 사용하였다. 이러한 방법은 다양한 길이의 단어 인식에는 적합하지 않다.
인식의 마지막 부분인 단어의 결정 부분에서는 기존 방법과 제안한 방법을 비교하여 제안한 방법의 우수성을 증명하였다. 기존의 단어 결정 방법은식 (21)과 같이 훈련 단어로부터 추출한 공통벡터와 입력단어로부터 구한 공통벡터의 Euclidean거리와 각 거 리를 같이 사용하였다.
본 논문에서는 또한 정규화된 특징 추출 방법으로 2차원 DCT (discrete cosine transform) [3, 4]를 사용하였다. 기존 방법은 시간 축 정규화를 위하여 음성 신호로부터 추줄한 파라미터들을 DTW (dynamic time warping) 알고리즘과 DP (dynamic programming)방법을 이용, 2-4개의 참조 벡터들로 매칭시키는 방법을 사용하였다.
성능/효과
각각의 단어군에서 추출한 공통벡터들은 훈련에 사용된 음성 데이터에 적용될 경우 100%의 인식률을 얻을 수 있다. 그러나 임의의 입력 음성에 대해서는 참조 공통벡터와의 거리 측정 방식을 이용해 가장 가까운 단어 군을 인식단어로 결정한다.
실험 결과는 아래의 표에 보였다. 결과에서 알 수 있듯이 훈련화자 수에 무관하게 제안한 방법이 기존 방법보다 더 좋은 인식률을 보여 주었다.
이는 선형 판별 분석과 공통벡터 추출 방법이 가지고 있는 단점들이 두 방법을 결합함으로써 서로 보완되는 효과를 나타내었기 때문이다. 또한 2차원 DT로 가공된 특성벡터는 벡터의 차원과 인식률이 비례하여 증가하다가 일정 크기 이상의 차원부터는 인식률이 낮아지는 결과를 보여주었다.가장 높은 인식률은 벡터의 차원을 113 차로 구성하였을 때 얻을 수 있었다.
추출된 공통벡터는 인식의 마지막 부분에서 구별정보를 적용한 공통 벡터와 함께 입력단어의 판정을 위한 참조벡터로 사용하였다. 실험 결과 제안한 인식 방법은 기존의 방법보다 약 2% 정도 향상된 결과를 얻을 수 있었다. 이는 선형 판별 분석과 공통벡터 추출 방법이 가지고 있는 단점들이 두 방법을 결합함으로써 서로 보완되는 효과를 나타내었기 때문이다.
Bilginer et al. 이 제안한 방법을 사용하였을 경우보다 본 논문에서 제안한 방법이 더 높은 인식률을 얻을 수 있음을 알 수 있다.
또한 다양한 길이의 단어들을 인식하기 위하여 벡터의 마지막 부분에 단어의 프레임 개수를 추가하였다. 인식의 마지막 부분인 단어의 결정 부분에서는 기존 방법과 제안한 방법을 비교하여 제안한 방법의 우수성을 증명하였다. 기존의 단어 결정 방법은식 (21)과 같이 훈련 단어로부터 추출한 공통벡터와 입력단어로부터 구한 공통벡터의 Euclidean거리와 각 거 리를 같이 사용하였다.
이 제안한 방법에 적합한 특성벡터가 공방법을 제안하였다. 제안한 방법을 이용하여 인식 실험을 수행한 결과 기존 실험에 비하여 인식시간과 인식률 면에서 좋은 결과를 얻을 수 있었다.
후속연구
가장 높은 인식률은 벡터의 차원을 113 차로 구성하였을 때 얻을 수 있었다. 제안한 방법은 단어뿐만 아니라 음소나 음절로부터 공통된 성분을 추출하는데 응용될 수 있을 것으로 판단된다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.