음성은 사람이 다른 도구 없이 사용하는 정보 전달 매체로서 가장 많이 이용될 뿐 아니라 가장 간편한 수단이다. 음성을 통하여 의사전달을 할 때 잡음레벨의 정도에 따라 음성을 통한 의사전달은 영향을 받게 된다. 또한, 음성 분석 및 인식 시스템은 잡음이 없거나 비교적 조용한 실험실 환경에서는 좋은 성능을 나타내지만, 실제 현장에서 사용할 경우에는 여러 가지 잡음 요인들에 의하여 성능이 현저히 저하된다. 이처럼 잡음이 끼치는 영향은 음성인식, 합성 및 분석과 같은 음성신호처리 분야에 있어서 매우 크다.
음성 신호처리 환경에서 잡음이 섞인 신호를 개선할 목적으로 음성향상 기법이 많이 이용되고 있다. 잡음추정 ...
음성은 사람이 다른 도구 없이 사용하는 정보 전달 매체로서 가장 많이 이용될 뿐 아니라 가장 간편한 수단이다. 음성을 통하여 의사전달을 할 때 잡음레벨의 정도에 따라 음성을 통한 의사전달은 영향을 받게 된다. 또한, 음성 분석 및 인식 시스템은 잡음이 없거나 비교적 조용한 실험실 환경에서는 좋은 성능을 나타내지만, 실제 현장에서 사용할 경우에는 여러 가지 잡음 요인들에 의하여 성능이 현저히 저하된다. 이처럼 잡음이 끼치는 영향은 음성인식, 합성 및 분석과 같은 음성신호처리 분야에 있어서 매우 크다.
음성 신호처리 환경에서 잡음이 섞인 신호를 개선할 목적으로 음성향상 기법이 많이 이용되고 있다. 잡음추정 알고리즘은 변화하는 환경에 빠르게 적응할 수 있어야 하며 음성신호의 영향을 줄이기 위해 음성신호가 존재하지 않는 구간에서만 잡음의 파워를 갱신한다. 이러한 방법은 음성구간검출이 선행되어야 한다. 그러나 잡음에 열화된 음성신호에 묵음구간이 존재하지 않을 경우, 위와 같이 음성검출을 통한 묵음구간에서의 잡음 추정 방법 및 SNR 추정 방법이 적용될 수 없다.
본 논문에서는 묵음구간이 존재하지 않는 연속음성신호에서 SNR을 추정하는 기법을 제안한다. 유성음의 안정구간에서는 단구간 내 피치의 변화가 매우 작아 피치주기에 따른 음성신호의 파형이 유사하게 나타난다. 따라서 상관관계가 적은 잡음이 음성에 부가되었을 때 피치주기에 따른 인접파형의 유사도를 통해 SNR을 추정한다. 무성음에서는 잡음의 영향이 수신신호의 성도성분 추정에 영향을 미치기 때문에 잡음환경에서 추정된 성도성분과 수신신호의 스펙트럼 간의 거리를 이용하여 SNR을 추정한다. 마지막으로, 음성신호의 에너지가 유성음에 대부분 분포하기 때문에, 부가성 잡음 환경에서 유성음의 에너지를 음성신호의 에너지로 근사화하여 SNR을 추정할 수 있다.
잡음환경에서의 실험 결과, 묵음구간이 존재하지 않는 연속 음성신호에 대해 백색잡음 환경에서 높은 SNR 추정 결과를 보여주었다. 또한 여러 잡음환경에서 절대적 SNR 추정결과 및 상대적 SNR 추정 결과를 확인하였다. 본 논문에서 제안한 유성음 영역에서의 추정방법 및 유·무성음의 에너지를 사용한 방법은 시간영역법으로서 간단한 연산을 통해 이루어지며, 무성음 영역에서의 추정방법은 협대역 음성신호에서도 성도특성으로부터 음성신호만을 이용한 잡음 레벨의 추정이 가능한 장점을 가진다. 또한 Vocoder에서 전송률 결정에 응용될 수 있으며, 음성향상 알고리즘에서 잡음제거 정도를 결정하기 위한 전처리법으로 활용이 가능하다. 또한 연속 음성신호에서 SNR 추정 결과에 따라 LPC 차수를 적응적으로 적용시켜 시스템의 효율을 높이는데 사용될 수 있다.
음성은 사람이 다른 도구 없이 사용하는 정보 전달 매체로서 가장 많이 이용될 뿐 아니라 가장 간편한 수단이다. 음성을 통하여 의사전달을 할 때 잡음레벨의 정도에 따라 음성을 통한 의사전달은 영향을 받게 된다. 또한, 음성 분석 및 인식 시스템은 잡음이 없거나 비교적 조용한 실험실 환경에서는 좋은 성능을 나타내지만, 실제 현장에서 사용할 경우에는 여러 가지 잡음 요인들에 의하여 성능이 현저히 저하된다. 이처럼 잡음이 끼치는 영향은 음성인식, 합성 및 분석과 같은 음성신호처리 분야에 있어서 매우 크다.
음성 신호처리 환경에서 잡음이 섞인 신호를 개선할 목적으로 음성향상 기법이 많이 이용되고 있다. 잡음추정 알고리즘은 변화하는 환경에 빠르게 적응할 수 있어야 하며 음성신호의 영향을 줄이기 위해 음성신호가 존재하지 않는 구간에서만 잡음의 파워를 갱신한다. 이러한 방법은 음성구간검출이 선행되어야 한다. 그러나 잡음에 열화된 음성신호에 묵음구간이 존재하지 않을 경우, 위와 같이 음성검출을 통한 묵음구간에서의 잡음 추정 방법 및 SNR 추정 방법이 적용될 수 없다.
본 논문에서는 묵음구간이 존재하지 않는 연속음성신호에서 SNR을 추정하는 기법을 제안한다. 유성음의 안정구간에서는 단구간 내 피치의 변화가 매우 작아 피치주기에 따른 음성신호의 파형이 유사하게 나타난다. 따라서 상관관계가 적은 잡음이 음성에 부가되었을 때 피치주기에 따른 인접파형의 유사도를 통해 SNR을 추정한다. 무성음에서는 잡음의 영향이 수신신호의 성도성분 추정에 영향을 미치기 때문에 잡음환경에서 추정된 성도성분과 수신신호의 스펙트럼 간의 거리를 이용하여 SNR을 추정한다. 마지막으로, 음성신호의 에너지가 유성음에 대부분 분포하기 때문에, 부가성 잡음 환경에서 유성음의 에너지를 음성신호의 에너지로 근사화하여 SNR을 추정할 수 있다.
잡음환경에서의 실험 결과, 묵음구간이 존재하지 않는 연속 음성신호에 대해 백색잡음 환경에서 높은 SNR 추정 결과를 보여주었다. 또한 여러 잡음환경에서 절대적 SNR 추정결과 및 상대적 SNR 추정 결과를 확인하였다. 본 논문에서 제안한 유성음 영역에서의 추정방법 및 유·무성음의 에너지를 사용한 방법은 시간영역법으로서 간단한 연산을 통해 이루어지며, 무성음 영역에서의 추정방법은 협대역 음성신호에서도 성도특성으로부터 음성신호만을 이용한 잡음 레벨의 추정이 가능한 장점을 가진다. 또한 Vocoder에서 전송률 결정에 응용될 수 있으며, 음성향상 알고리즘에서 잡음제거 정도를 결정하기 위한 전처리법으로 활용이 가능하다. 또한 연속 음성신호에서 SNR 추정 결과에 따라 LPC 차수를 적응적으로 적용시켜 시스템의 효율을 높이는데 사용될 수 있다.
As communication medium of information, speech is not only used a lot, but also is the most comfortable. When we have conversation by speech, transmission of the information, which wanted to be delivered, is affected by the noise level. Speech analysis and recognition system are operated well withou...
As communication medium of information, speech is not only used a lot, but also is the most comfortable. When we have conversation by speech, transmission of the information, which wanted to be delivered, is affected by the noise level. Speech analysis and recognition system are operated well without noise in laboratory. There is, however, lots of noise in practice. So the performance of system is reduced rapidly. Likewise, the effects of the noise have to be considered on the speech signal processing such as speech recognition, synthesis, and analysis.
In speech signal processing, speech enhancement is used to improve speech signal corrupted by noise. Noise estimation algorithm should be adopted quickly and applied on silence region to avoid effects of speech signal. So voice activity detection method must be done previously. However, if silence region is not existed on received signal, it could not be able to applied.
In this paper, we proposed SNR estimation method for continuous speech signal without silence region. For stationary region of voiced speech signal, waveform is very correlated by pitch period since voiced speech is quasi-periodic signal. So we can estimate the SNR by correlation of near waveform after dividing a frame for each pitch. For unvoiced speech signal, vocal track characteristic is reflected by noise, so we can estimate SNR by using spectral distance between spectrum of received signal and estimated vocal track. Lastly, energy of speech signal is mostly distributed on voiced region, so we can estimate SNR by the ratio of voiced region energy to unvoiced.
We confirmed the performance from experimental result. It shows high performance for white Gaussian noise circumstance. And for other noises, we obtained SNR estimation results, which are absolute and relative. The proposed estimation method on voiced speech and the method by using v·unvoiced region energy are operated with simple logic as time domain method. And the estimation method on unvoiced region is possible to estimated noise level for narrow-band speech signal by using vocal track properties. It can be applied to rate decision of vocoder and used for pre-processing to decide threshold of noise reduction. In addition, it can be used to improve system efficiency by appling different LPC order through estimated SNR adoptively.
As communication medium of information, speech is not only used a lot, but also is the most comfortable. When we have conversation by speech, transmission of the information, which wanted to be delivered, is affected by the noise level. Speech analysis and recognition system are operated well without noise in laboratory. There is, however, lots of noise in practice. So the performance of system is reduced rapidly. Likewise, the effects of the noise have to be considered on the speech signal processing such as speech recognition, synthesis, and analysis.
In speech signal processing, speech enhancement is used to improve speech signal corrupted by noise. Noise estimation algorithm should be adopted quickly and applied on silence region to avoid effects of speech signal. So voice activity detection method must be done previously. However, if silence region is not existed on received signal, it could not be able to applied.
In this paper, we proposed SNR estimation method for continuous speech signal without silence region. For stationary region of voiced speech signal, waveform is very correlated by pitch period since voiced speech is quasi-periodic signal. So we can estimate the SNR by correlation of near waveform after dividing a frame for each pitch. For unvoiced speech signal, vocal track characteristic is reflected by noise, so we can estimate SNR by using spectral distance between spectrum of received signal and estimated vocal track. Lastly, energy of speech signal is mostly distributed on voiced region, so we can estimate SNR by the ratio of voiced region energy to unvoiced.
We confirmed the performance from experimental result. It shows high performance for white Gaussian noise circumstance. And for other noises, we obtained SNR estimation results, which are absolute and relative. The proposed estimation method on voiced speech and the method by using v·unvoiced region energy are operated with simple logic as time domain method. And the estimation method on unvoiced region is possible to estimated noise level for narrow-band speech signal by using vocal track properties. It can be applied to rate decision of vocoder and used for pre-processing to decide threshold of noise reduction. In addition, it can be used to improve system efficiency by appling different LPC order through estimated SNR adoptively.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.