음성 신호처리 환경에서 잡음이 섞인 신호를 개선할 목적으로 음성향상 기법이 많이 이용되고 있다. 잡음추정 알고리즘은 변화하는 환경에 빠르게 적응할 수 있어야 하며 음성신호의 영향을 줄이기 위해 음성신호가 존재하지 않는 구간에서만 잡음의 파워를 갱신한다. 이러한 방법은 음성구간검출이 선행되어야 한다. 그러나 잡음에 열화된 음성신호에 묵음구간이 존재하지 않을 경우, 위와 같이 음성검출을 통한 묵음구간에서의 잡음 추정 방법 및 SNR 추정 방법이 적용될 수 없다. 본 논문에서는 묵음구간이 존재하지 않는 연속음성신호에서 SNR을 추정하는 기법을 제안한다. 유성음의 안정구간에서는 단구간 내 피치의 변화가 매우 작아 피치주기에 따른 음성신호의 파형이 유사하게 나타난다. 따라서 잡음이 음성에 부가되었을 때 피치주기에 따른 인접파형의 유사도를 통해 SNR을 추정한다. 무성음에서는 잡음의 영향이 수신신호의 성도성분 추정에 영향을 미치기 때문에 잡음환경에서 추정된 성도성분과 수신신호 스펙트럼 간의 거리를 이용하여 SNR을 추정한다. 마지막으로, 음성신호의 에너지가 유성음에 대부분 분포하기 때문에, 부가성 잡음 환경에서 유성음의 에너지를 음성신호의 에너지로 근사화하여 SNR을 추정할 수 있다.
음성 신호처리 환경에서 잡음이 섞인 신호를 개선할 목적으로 음성향상 기법이 많이 이용되고 있다. 잡음추정 알고리즘은 변화하는 환경에 빠르게 적응할 수 있어야 하며 음성신호의 영향을 줄이기 위해 음성신호가 존재하지 않는 구간에서만 잡음의 파워를 갱신한다. 이러한 방법은 음성구간검출이 선행되어야 한다. 그러나 잡음에 열화된 음성신호에 묵음구간이 존재하지 않을 경우, 위와 같이 음성검출을 통한 묵음구간에서의 잡음 추정 방법 및 SNR 추정 방법이 적용될 수 없다. 본 논문에서는 묵음구간이 존재하지 않는 연속음성신호에서 SNR을 추정하는 기법을 제안한다. 유성음의 안정구간에서는 단구간 내 피치의 변화가 매우 작아 피치주기에 따른 음성신호의 파형이 유사하게 나타난다. 따라서 잡음이 음성에 부가되었을 때 피치주기에 따른 인접파형의 유사도를 통해 SNR을 추정한다. 무성음에서는 잡음의 영향이 수신신호의 성도성분 추정에 영향을 미치기 때문에 잡음환경에서 추정된 성도성분과 수신신호 스펙트럼 간의 거리를 이용하여 SNR을 추정한다. 마지막으로, 음성신호의 에너지가 유성음에 대부분 분포하기 때문에, 부가성 잡음 환경에서 유성음의 에너지를 음성신호의 에너지로 근사화하여 SNR을 추정할 수 있다.
In speech signal processing, speech signal corrupted by noise should be enhanced to improve quality. Usually noise estimation methods need flexibility for variable environment. Noise profile is renewed on silence region to avoid effects of speech properties. So we have to preprocess finding voice re...
In speech signal processing, speech signal corrupted by noise should be enhanced to improve quality. Usually noise estimation methods need flexibility for variable environment. Noise profile is renewed on silence region to avoid effects of speech properties. So we have to preprocess finding voice region before noise estimation. However, if received signal does not have silence region, we cannot apply that method. In this paper, we proposed SNR estimation method for continuous speech signal. The waveform which is stationary region of voiced speech is very correlated by pitch period. So we can estimate the SNR by correlation of near waveform after dividing a frame for each pitch. For unvoiced speech signal, vocal track characteristic is reflected by noise, so we can estimate SNR by using spectral distance between spectrum of received signal and estimated vocal track. Lastly, energy of speech signal is mostly distributed on voiced region, so we can estimate SNR by the ratio of voiced region energy to unvoiced.
In speech signal processing, speech signal corrupted by noise should be enhanced to improve quality. Usually noise estimation methods need flexibility for variable environment. Noise profile is renewed on silence region to avoid effects of speech properties. So we have to preprocess finding voice region before noise estimation. However, if received signal does not have silence region, we cannot apply that method. In this paper, we proposed SNR estimation method for continuous speech signal. The waveform which is stationary region of voiced speech is very correlated by pitch period. So we can estimate the SNR by correlation of near waveform after dividing a frame for each pitch. For unvoiced speech signal, vocal track characteristic is reflected by noise, so we can estimate SNR by using spectral distance between spectrum of received signal and estimated vocal track. Lastly, energy of speech signal is mostly distributed on voiced region, so we can estimate SNR by the ratio of voiced region energy to unvoiced.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 연속 음성 입력신호에서 음성신호가 잡음에 열화된 경우, 수신된 음성신호 구간에서 SNR을 추정하는 방법을 제안하였다. 음성신호는 발생원리에 따라 유성음과 무성음으로 분류하고 구간에 따라 서로 다른 알고리즘을 적용하며, 수신된 연속 음성신호로부터 음성 신호의 특성을 이용하여 SNR을 추정하였다.
본 절에서는 잡음환경에서 수신된 연속 음성신호를 이용하여 SNR을 추정하는 방법을 제안한다. 연속 음성신호의 경우, 묵음구간이 존재하지 않으므로 음성신호 구간 안에서 SNR을 추정하게 된다.
제안 방법
SNR 추정을 위해 전달받은 피치의 시작 위치와 피치 주기 값을 그림 2의 ‘Speech Enhancer’를 거치기 전의 잡음 환경에서 입력받은 음성신호에 적용하며 이를 이용하여 음성신호를 분절한 후 인접 파형의 유사도를 이용하여 SNR을 추정한다 [11].
첫째, 유성음의 안정구간에서는 피치주기에 따라 음성파형을 분절한 뒤 인접 파형간의 상관관계를 통해 SNR을 추정하며, 에너지 정규화 후에 상관관계를 계산한다. 두 번째는 무성음 구간에서의 SNR 추정법으로 포만트 성분의 주파수 스펙트럼과 음성신호의 스펙트럼 간의 거리를 이용하여 SNR을 추정한다. 셋째, 입력받은 신호에 대해 유성음 구간의 에너지와 무성음 구간의 에너지를 이용하여 전 구간에 걸친 SNR을 추정한다.
추정결과를 살펴보면 NLF가 유성음, 무성음, 유・무성음 검출 방법에 따라 백색잡음 환경에서 높은 추정 결과를 보여주었다. 또한 여러 잡음 환경에서 절대적 SNR 추정결과 및 상대적 추정 결과를 확인하였다. NLFU를 통해 여러 잡음환경에서 첨가된 잡음의 세기가 유사하게 추정되었으나, 차량 내부 잡음, F16 조정실 잡음의 발생 특성이 잡음 추정시 반영되어 NLFU를 통한 SNR 추정 오차가 발생하였다.
본 논문에서는 연속 음성 입력신호가 잡음에 열화된 경우, 유성음 구간에서는 피치주기에 따른 인접파형의 유사도를 이용하고, 무성음 구간에서는 추정된 성도성분과 음성신호 스펙트럼과의 거리를 이용하여 SNR (Signal to Noise Ratio)을 추정하는 기법을 제안한다. 또한 유・무성음 구간에서의 에너지를 이용하여 SNR을 추정하는 기법을 제안한다. 논문의 구성은 서론에 이어 2장에서 음성생성모델과 성도성분을 추출하기 위한 선형예측분석에 대해 기술한다.
본 논문에서 제안된 알고리즘의 성능평가를 위해 백색(White), 차량 내부(Car interior), F16 조종실(F16 Cockpit), 바람소리(Wind), 선박(Ship) 잡음 환경에서 테스트를 수행하였다. 실험에 사용된 데이터는 남성과 여성 각 5명이 반복적으로 발성한 ‘국민교육헌장’을 이용하였다.
본 논문에서 제안하는 음성신호의 SNR 추정 방법은 구간에 따라 3가지로 나누어진다. 첫째, 유성음의 안정구간에서는 피치주기에 따라 음성파형을 분절한 뒤 인접 파형간의 상관관계를 통해 SNR을 추정하며, 에너지 정규화 후에 상관관계를 계산한다.
본 논문에서는 연속 음성 입력신호가 잡음에 열화된 경우, 유성음 구간에서는 피치주기에 따른 인접파형의 유사도를 이용하고, 무성음 구간에서는 추정된 성도성분과 음성신호 스펙트럼과의 거리를 이용하여 SNR (Signal to Noise Ratio)을 추정하는 기법을 제안한다. 또한 유・무성음 구간에서의 에너지를 이용하여 SNR을 추정하는 기법을 제안한다.
‘V/UV Discriminator’에서는 구간에 따른 SNR 추정 알고리즘 적용을 위해 유/무성음을 검출한다. 본 논문에서는 연속 음성신호를 대상으로 하기 때문에 에너지가 임계값 이상일 때 유성음으로 구분하며, 유성음 이외의 구간에 대해서는 무성음으로 분류한다.
정확한 안정구간 검출은 피치주기에 따른 음성신호의 단구간 유사성에 대한 신뢰도를 높이기 위해서 중요하다. 본 논문에서는 파형 에너지의 대칭성을 통하여 안정구간을 결정한다 [10].
두 번째는 무성음 구간에서의 SNR 추정법으로 포만트 성분의 주파수 스펙트럼과 음성신호의 스펙트럼 간의 거리를 이용하여 SNR을 추정한다. 셋째, 입력받은 신호에 대해 유성음 구간의 에너지와 무성음 구간의 에너지를 이용하여 전 구간에 걸친 SNR을 추정한다.
실험에 사용된 데이터는 남성과 여성 각 5명이 반복적으로 발성한 ‘국민교육헌장’을 이용하였다. 연속 음성신호에 대해서 테스트하기 위해 신호 구간 중 묵음구간을 검출하여 샘플에서 제거하였으며, 이때 실험 데이터는 8 kHz로 샘플링하고, 샘플당 비트수는 16 bits/sample를 사용하였다. 시간영역에서 프레임의 길이는 32 msec으로 하였다.
본 논문에서는 연속 음성 입력신호에서 음성신호가 잡음에 열화된 경우, 수신된 음성신호 구간에서 SNR을 추정하는 방법을 제안하였다. 음성신호는 발생원리에 따라 유성음과 무성음으로 분류하고 구간에 따라 서로 다른 알고리즘을 적용하며, 수신된 연속 음성신호로부터 음성 신호의 특성을 이용하여 SNR을 추정하였다.
음성생성에 대한 선형모델은 50년대 후반 Fant에 의해 개발되었는데, 음성출력을 음원이 여파기를 통과하여 나오는 신호로 가정하고, 음원과 성도의 각 부분을 독립적인 것으로 간주하는 선형예측모델을 제시하였다. 음원에 대한 모델로 유성음의 음원은 준주기적인 펄스, 무성음의 음원은 백색잡음을 사용하였고, 성대에서 성문이 음원에 미치는 영향은 성문모델로 모델링하였으며 [8], 이는 그림 1과 같이 나타낼 수 있다.
따라서 검출된 유성음의 안정구간에서 피치를 추출하여야 하며, 피치 주기에 따라 음성파형을 분절하기 위해서는 정확한 피치의 시작 위치와 피치 주기열이 필요하다. 이때 프레임 단위의 평균 피치가 아닌 시간의 변화에 따른 정확한 피치의 시작 위치와 그에 따른 피치 주기를 검출한다. SNR 추정을 위해 전달받은 피치의 시작 위치와 피치 주기 값을 그림 2의 ‘Speech Enhancer’를 거치기 전의 잡음 환경에서 입력받은 음성신호에 적용하며 이를 이용하여 음성신호를 분절한 후 인접 파형의 유사도를 이용하여 SNR을 추정한다 [11].
시간영역에서 프레임의 길이는 32 msec으로 하였다. 이때 프레임에 따른 샘플의 개수는 256개이며, 윈도우 오버랩은 25%로 하여 SNR 추정을 수행하였다. 무성음 구간에서는 해밍(Hamming) 윈도우 256 샘플을 이용하였다.
본 논문에서 제안하는 음성신호의 SNR 추정 방법은 구간에 따라 3가지로 나누어진다. 첫째, 유성음의 안정구간에서는 피치주기에 따라 음성파형을 분절한 뒤 인접 파형간의 상관관계를 통해 SNR을 추정하며, 에너지 정규화 후에 상관관계를 계산한다. 두 번째는 무성음 구간에서의 SNR 추정법으로 포만트 성분의 주파수 스펙트럼과 음성신호의 스펙트럼 간의 거리를 이용하여 SNR을 추정한다.
대상 데이터
실험에 사용된 데이터는 남성과 여성 각 5명이 반복적으로 발성한 ‘국민교육헌장’을 이용하였다.
데이터처리
그림 9에서 진행된 시뮬레이션 결과를 정리하면 표 2와 같이 정리할 수 있다. 무성음 구간의 SNR 추정은 유성음 구간과 다른 방식으로 진행하여 결과값을 직접 선도로 표현하였으며, 0 ㏈와 20 ㏈의 SNR값에서 NLFU값을 비교하였다. 0 ㏈에서는 모든 실험 결과값이 다소 낮게 나타났다.
이론/모형
따라서 잡음의 에너지가 커질 경우, 음성신호의 성도성분인 H(ω)의 주파수 스펙트럼과 수신신호의 주파수 스펙트럼 R(ω) 사이의 거리에 차이를 보이게 되며, 이를 이용하여 무성음 구간에서 SNR을 추정할 수 있다. 스펙트럼 거리(Spectral Distance)는 수정된 LSD(Log-Spectral Distance)를 이용하여 구한다. LSD는 식 (16)과 같다 [12].
성능/효과
이와 같은 경우, NLFU의 추출시 스케일 지수를 시스템에 적합하게 적용시켜 절대적 SNR 추정시 사용할 수 있다. NLFV,UV의 결과 분석구간이 길어짐에 따라 SNR 추정성능이 높게 나타났으며, 실험에 사용된 모든 잡음 환경에서 높은 추정 결과를 확인하였다.
를 나타낸다. 추정 결과를 살펴보면 백색잡음 환경에서 SNR의 변화에 따라 선형적으로 변화하는 NLFU의 변화특성을 확인할 수 있으며, SNR 전 실험 영역에 대해서 높은 SNR 추정 결과를 확인할 수 있다.
그림에서 가로축은 SNR을 나타내며, 세로축은 검출된 NLFV,UV를 나타낸다. 추정 결과를 살펴보면 백색잡음 환경에서 SNR의 변화에 따라 선형적으로 변화하는 NLFV,UV 의 변화특성을 확인할 수 있으며, SNR 전 실험 환경에서 대해서 높은 추정 결과를 확인할 수 있다.
추정결과를 살펴보면 NLF가 유성음, 무성음, 유・무성음 검출 방법에 따라 백색잡음 환경에서 높은 추정 결과를 보여주었다. 또한 여러 잡음 환경에서 절대적 SNR 추정결과 및 상대적 추정 결과를 확인하였다.
추정된 SNR 곡선을 살펴보면 약 240번째 프레임에서 20 dB로 추정결과에 수렴하며, 추정시작 지점으로부터 약 5.768 sec이 지난 후에 SNR이 추정되는 것을 알 수 있다. 또한 240번째 프레임 이후 평균 추정 오차는 평균 1.
후속연구
또한 구간 검출과 피치 검출에 의존적인 방법으로서 검출 오차에 의해 추정값의 신뢰도가 영향을 받게 된다. 따라서, 본 논문에서 제안한 SNR 추정방법에 가장 적합한 구간 검출 및 피치 검출 방법에 대한 연구와 연산량 감소를 위한 최적화 방법이 추후 연구되어야 할 것이다. 또한 연속 음성신호에 대한 SNR 추정방법이 전처리로 사용되는 시스템에 적용하여 시스템의 성능 개선에 대한 연구가 이루어져야 할 것이다.
따라서, 본 논문에서 제안한 SNR 추정방법에 가장 적합한 구간 검출 및 피치 검출 방법에 대한 연구와 연산량 감소를 위한 최적화 방법이 추후 연구되어야 할 것이다. 또한 연속 음성신호에 대한 SNR 추정방법이 전처리로 사용되는 시스템에 적용하여 시스템의 성능 개선에 대한 연구가 이루어져야 할 것이다.
연속 음성신호에서 SNR 추정방법은 QCELP와 같은 Vocoder에서 묵음 구간이 존재하지 않는 입력신호의 전송률 결정에 응용될 수 있으며, 음성향상 알고리즘에서 문턱치와 잡음제거 정도를 결정하기 위한 전처리법으로 활용이 가능하다. 또한 연속 음성신호에서 유・무성음 구간에 따른 SNR 추정 결과에 따라 LPC 차수를 적응적으로 적용시켜 시스템의 효율을 높이는데 사용될 수 있다. 그러나 입력신호의 길이가 짧은 경우 SNR 추정 오차가 크며, 구간검출과 피치검출이 필요하여 부가적인 연산이 필요하다.
연속 음성신호에서 SNR 추정방법은 QCELP와 같은 Vocoder에서 묵음 구간이 존재하지 않는 입력신호의 전송률 결정에 응용될 수 있으며, 음성향상 알고리즘에서 문턱치와 잡음제거 정도를 결정하기 위한 전처리법으로 활용이 가능하다. 또한 연속 음성신호에서 유・무성음 구간에 따른 SNR 추정 결과에 따라 LPC 차수를 적응적으로 적용시켜 시스템의 효율을 높이는데 사용될 수 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
잡음추정 알고리즘은 어떤 구간에서 잡음의 파워를 갱신하는가?
음성 신호처리 환경에서 잡음이 섞인 신호를 개선할 목적으로 음성향상 기법이 많이 이용되고 있다. 잡음추정 알고리즘은 변화하는 환경에 빠르게 적응할 수 있어야 하며 음성신호의 영향을 줄이기 위해 음성신호가 존재하지 않는 구간에서만 잡음의 파워를 갱신한다. 이러한 방법은 음성구간검출이 선행되어야 한다.
유성음의 안정구간에서 피치주기에 따른 음성신호의 파형이 유사하게 나타나는이유는?
본 논문에서는 묵음구간이 존재하지 않는 연속음성신호에서 SNR을 추정하는 기법을 제안한다. 유성음의 안정구간에서는 단구간 내 피치의 변화가 매우 작아 피치주기에 따른 음성신호의 파형이 유사하게 나타난다. 따라서 잡음이 음성에 부가되었을 때 피치주기에 따른 인접파형의 유사도를 통해 SNR을 추정한다.
검출된 유성음의 안정구간에서 피치를 추출하여야 하며, 피치 주기에 따라 음성파형을 분절하기 위해서 정확한 피치의 시작 위치와 피치 주기열이 필요한 이유를 설명하시오.
연속 음성신호의 유성음 구간에서는 피치의 주기에 따른 파형의 유사도를 이용하여 SNR을 추정한다. 따라서 검출된 유성음의 안정구간에서 피치를 추출하여야 하며, 피치 주기에 따라 음성파형을 분절하기 위해서는 정확한 피치의 시작 위치와 피치 주기열이 필요하다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.