[학위논문]음성의 스펙트럼 정보를 이용한 화자 확인 알고리즘 성능 향상 연구 (The) Study for advancing the performance of speaker identification algorithm using speech signal spectrum원문보기
사람의 목소리에는 화자의 성별, 나이, 감정, 태도 등을 분별할 수 있는 여러 가지 정보들이 담겨져 있다. 이러한 정보들을 통해서 우리는 직접 말하는 이와 대면하지 않고 그 사람의 목소리만으로도 누구인지 판단해 낼 수 있다. 이렇듯 음성이 사람의 고유의 특징을 나타내므로 중요한 생체 인증 수단이 될 수 있다. 또한, 다른 인증 방법에서 요구되는 고가의 입력 장치들을 필요로 하지 않는다는 장점이 있다. 본 논문은 각 개인의 음성 특징을 이용하여 화자를 인식하는 알고리즘의 성능 향상에 관한 것이다. 현재 ...
사람의 목소리에는 화자의 성별, 나이, 감정, 태도 등을 분별할 수 있는 여러 가지 정보들이 담겨져 있다. 이러한 정보들을 통해서 우리는 직접 말하는 이와 대면하지 않고 그 사람의 목소리만으로도 누구인지 판단해 낼 수 있다. 이렇듯 음성이 사람의 고유의 특징을 나타내므로 중요한 생체 인증 수단이 될 수 있다. 또한, 다른 인증 방법에서 요구되는 고가의 입력 장치들을 필요로 하지 않는다는 장점이 있다. 본 논문은 각 개인의 음성 특징을 이용하여 화자를 인식하는 알고리즘의 성능 향상에 관한 것이다. 현재 화자인식에서 주로 사용되고 있는 특징 값들은 음성 인식 기술에서 사용되고 있는 LPC(Linear PredictionCoefficient) 혹은 MFCC(Mel Frequency Cepstral Coefficient)방법 등이 있다. 그러나 이러한 특징 값들은 화자의 건강상태나 감정 혹은 의도된 발화모양에 따라서 많은 차이가 있다는 문제점이 있다. 본 논문에서는 화자의 변별력을 높일 목적으로 개별 음성의 스펙트럼 정보를 이용함으로서 최종 화자를 확인하는 새로운 화자확인 알고리즘을 제안하였다. 스펙트럼 정보를 이용한 화자확인 실험은 스펙트럼의 상관계수와 절대차이합을 사용하였다. 그러나 스펙트럼을 이용한 화자 인증 실험을 통해 이러한 화자 인증 방식도 만족할 만한 결과를 얻지 못하였다. 이에 본 논문에서는 화자인증기의 성능향상을 위해 MFCC-HMM기반의 화자인증 알고리즘에 스펙트럼 정보를 이용한 화자인증 방법을 추가한 새로운 화자인증 알고리즘을 제안한다. 화자인증의 첫단계로 MFCC-HMM기반의 인증과정을 거치게 된다. MFCC-HMM 인증단계에서 결정되지 않은 경우에 다음 단계인 스펙트럼 정보를 이용한 인증단계로 넘어가 최종 인증과정 수행한다. 제안된 알고리즘의 검증을 위해 숫자음을 비밀단어로 선정하여 남성화자 5명, 여성화자 5명에 대해서 세 개의 음절로 이루어진 18가지 숫자음 단어를 1주일 간격으로 4회 수집 하였다. 수집된 음성데이터를 이용하여 실험을 한 결과 화자인증기의 성능향상을 확인할 수 있었다. 향후 연구과제는 화자 확인 알고리즘의 성능에 있어서 현재 1주일 간격으로 실험 데이터를 수집하여 실험을 실시하기는 했지만, 장기간에 걸쳐서 지속적인 사용자에 대한 음성 분석을 실시하여 목소리의 변화를 수용할 수 있는 보다 정확한 적응 학습 알고리즘을 개발해야 할 것이며 또한, 다른 사람과 확실히 구별될 수 있는 화자 개인의 고유의 특징을 찾아내는 연구는 계속되어야 할 것이다.
사람의 목소리에는 화자의 성별, 나이, 감정, 태도 등을 분별할 수 있는 여러 가지 정보들이 담겨져 있다. 이러한 정보들을 통해서 우리는 직접 말하는 이와 대면하지 않고 그 사람의 목소리만으로도 누구인지 판단해 낼 수 있다. 이렇듯 음성이 사람의 고유의 특징을 나타내므로 중요한 생체 인증 수단이 될 수 있다. 또한, 다른 인증 방법에서 요구되는 고가의 입력 장치들을 필요로 하지 않는다는 장점이 있다. 본 논문은 각 개인의 음성 특징을 이용하여 화자를 인식하는 알고리즘의 성능 향상에 관한 것이다. 현재 화자인식에서 주로 사용되고 있는 특징 값들은 음성 인식 기술에서 사용되고 있는 LPC(Linear Prediction Coefficient) 혹은 MFCC(Mel Frequency Cepstral Coefficient)방법 등이 있다. 그러나 이러한 특징 값들은 화자의 건강상태나 감정 혹은 의도된 발화모양에 따라서 많은 차이가 있다는 문제점이 있다. 본 논문에서는 화자의 변별력을 높일 목적으로 개별 음성의 스펙트럼 정보를 이용함으로서 최종 화자를 확인하는 새로운 화자확인 알고리즘을 제안하였다. 스펙트럼 정보를 이용한 화자확인 실험은 스펙트럼의 상관계수와 절대차이합을 사용하였다. 그러나 스펙트럼을 이용한 화자 인증 실험을 통해 이러한 화자 인증 방식도 만족할 만한 결과를 얻지 못하였다. 이에 본 논문에서는 화자인증기의 성능향상을 위해 MFCC-HMM기반의 화자인증 알고리즘에 스펙트럼 정보를 이용한 화자인증 방법을 추가한 새로운 화자인증 알고리즘을 제안한다. 화자인증의 첫단계로 MFCC-HMM기반의 인증과정을 거치게 된다. MFCC-HMM 인증단계에서 결정되지 않은 경우에 다음 단계인 스펙트럼 정보를 이용한 인증단계로 넘어가 최종 인증과정 수행한다. 제안된 알고리즘의 검증을 위해 숫자음을 비밀단어로 선정하여 남성화자 5명, 여성화자 5명에 대해서 세 개의 음절로 이루어진 18가지 숫자음 단어를 1주일 간격으로 4회 수집 하였다. 수집된 음성데이터를 이용하여 실험을 한 결과 화자인증기의 성능향상을 확인할 수 있었다. 향후 연구과제는 화자 확인 알고리즘의 성능에 있어서 현재 1주일 간격으로 실험 데이터를 수집하여 실험을 실시하기는 했지만, 장기간에 걸쳐서 지속적인 사용자에 대한 음성 분석을 실시하여 목소리의 변화를 수용할 수 있는 보다 정확한 적응 학습 알고리즘을 개발해야 할 것이며 또한, 다른 사람과 확실히 구별될 수 있는 화자 개인의 고유의 특징을 찾아내는 연구는 계속되어야 할 것이다.
In a human voice there are many information which one can distinguish the speaker's gender, age, emotion, and behavior. With this information, we can suppose who the speaker is without actually looking at the spekaer. Thus voice can be a device that can biometics because voice presents the character...
In a human voice there are many information which one can distinguish the speaker's gender, age, emotion, and behavior. With this information, we can suppose who the speaker is without actually looking at the spekaer. Thus voice can be a device that can biometics because voice presents the characteristics of human beings. Also, it is advantageous in that it does not demand costly installations as the other system. This paper is about the capacity development of algorithm that recognizes the speaker using the distinctive feature of the speaker's voice. In modern speaker-recognition technique, there are two ways to recognize a voice; LPC(Linear Prediction Coefficient) and/or MFCC(Mel Frequency Cepstrum Coefficient). However, these techniques have a disadvantage in that it gives different results depending on the spekaer's intention. In this paper, it proposes a new algorithm that recognizes the speaker more accurately using the information claimed from the speech signal spectrum. In the experiment of recognizing the speaker using the information gathered from speech signal spectrum, coefficient of correlation and the sum of absolute differentiation are used. However the result was not satifying. To solve this, we propose the MFCC-HMM based voice-recognition algorithm using the spectrum information. In the first step of this experiment, MFCC-HMM based voice-recognition technique is used. if one could not get a satifying result from this, he then uses the spectrum information as the next step. Each five male and female speakers participated in this experiment. To verify the suggested algorithm, number notes were used as the password to recognize the speakers. Made up of three syllables, 18 different kinds of number notes were cheched foiur times a week. after working with the gathered sources, there was an improvement in the voice-recognition technique. After this, although we still use the suggested experiment up to this day, the inivestigation of improving the voice-recognition technique of recognizing the speaker move accurately without complicated steps is needed.
In a human voice there are many information which one can distinguish the speaker's gender, age, emotion, and behavior. With this information, we can suppose who the speaker is without actually looking at the spekaer. Thus voice can be a device that can biometics because voice presents the characteristics of human beings. Also, it is advantageous in that it does not demand costly installations as the other system. This paper is about the capacity development of algorithm that recognizes the speaker using the distinctive feature of the speaker's voice. In modern speaker-recognition technique, there are two ways to recognize a voice; LPC(Linear Prediction Coefficient) and/or MFCC(Mel Frequency Cepstrum Coefficient). However, these techniques have a disadvantage in that it gives different results depending on the spekaer's intention. In this paper, it proposes a new algorithm that recognizes the speaker more accurately using the information claimed from the speech signal spectrum. In the experiment of recognizing the speaker using the information gathered from speech signal spectrum, coefficient of correlation and the sum of absolute differentiation are used. However the result was not satifying. To solve this, we propose the MFCC-HMM based voice-recognition algorithm using the spectrum information. In the first step of this experiment, MFCC-HMM based voice-recognition technique is used. if one could not get a satifying result from this, he then uses the spectrum information as the next step. Each five male and female speakers participated in this experiment. To verify the suggested algorithm, number notes were used as the password to recognize the speakers. Made up of three syllables, 18 different kinds of number notes were cheched foiur times a week. after working with the gathered sources, there was an improvement in the voice-recognition technique. After this, although we still use the suggested experiment up to this day, the inivestigation of improving the voice-recognition technique of recognizing the speaker move accurately without complicated steps is needed.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.