본 논문은 피치를 추출하는 방법으로 자기상관을 이용하였다. 시간과 주파수 영역의 자기상관은 서로 다른 특성을 가지고 있으며, 각각 피치주기와 기본주파수에 대응된다. 본 논문에서는 시간과 주파수 영역에서의 자기상관을 결합하는 방법을 이용하였다. 이 방법은 자기상관에서 발생하는 피치 doubling과 having 에러를 크게 개선시킬 수 있었다. 하지만, 시간과 주파수 영역에서 유성음의 주기적 특성인 피치주기와 기본주파수는 서로 역수 관계이며, 특히 기본주파수의 에러는 FFT의 분해능에 의하여 발생된다. 이러한 영향을 줄이기 위하여 시간 영역과 주파수 영역에서의 자기상관 결합에 보간법을 적용함으로써 피치 검출율을 향상 시킬 수 있었다. 자기상관을 결합할 때 시간영역에서 찾은 피치후보들에 대해서만 주파수영역의 자기상관을 구함으로써 계산량은 감축될 수 있었다. 또한, 선형보간을 이용하여 기존방법 보다 FFT 계수를 8배 줄일 수 있었다. 그 결과, FFT 연산량과 주파수영역의 자기상관 계산량을 크게 감축하여 기존 방법 대비 알고리즘 처리시간을 약 9.5배 줄일 수 있었다.
본 논문은 피치를 추출하는 방법으로 자기상관을 이용하였다. 시간과 주파수 영역의 자기상관은 서로 다른 특성을 가지고 있으며, 각각 피치주기와 기본주파수에 대응된다. 본 논문에서는 시간과 주파수 영역에서의 자기상관을 결합하는 방법을 이용하였다. 이 방법은 자기상관에서 발생하는 피치 doubling과 having 에러를 크게 개선시킬 수 있었다. 하지만, 시간과 주파수 영역에서 유성음의 주기적 특성인 피치주기와 기본주파수는 서로 역수 관계이며, 특히 기본주파수의 에러는 FFT의 분해능에 의하여 발생된다. 이러한 영향을 줄이기 위하여 시간 영역과 주파수 영역에서의 자기상관 결합에 보간법을 적용함으로써 피치 검출율을 향상 시킬 수 있었다. 자기상관을 결합할 때 시간영역에서 찾은 피치후보들에 대해서만 주파수영역의 자기상관을 구함으로써 계산량은 감축될 수 있었다. 또한, 선형보간을 이용하여 기존방법 보다 FFT 계수를 8배 줄일 수 있었다. 그 결과, FFT 연산량과 주파수영역의 자기상관 계산량을 크게 감축하여 기존 방법 대비 알고리즘 처리시간을 약 9.5배 줄일 수 있었다.
An autocorrelation method is used in pitch estimation. Autocorrelation values in time and frequency domains, which have different characteristics, correspond to the pitch period and fundamental frequency, respectively. We utilize an integrated autocorrelation method in time and frequency domains. It...
An autocorrelation method is used in pitch estimation. Autocorrelation values in time and frequency domains, which have different characteristics, correspond to the pitch period and fundamental frequency, respectively. We utilize an integrated autocorrelation method in time and frequency domains. It can remove the errors of pitch doubling and having. In the time and frequency domains, pitch period and fundamental frequency have reciprocal relation to each other. Especially, fundamental frequency estimation ends up as an error because of the resolution of FFT. To reduce these artifacts, interpolation methods are applied in the integrated autocorrelation domain, which decreases pitch errors. Moreover, only for the pitch candidates found in a time domain, the corresponding frequency-domain autocorrelation values are calculated with reduced computational complexity. Using linear interpolation, we can decrease the required number of FFT coefficients by 8 times. Thus, compared to the conventional methods, computational complexity can be reduced by 9.5 times.
An autocorrelation method is used in pitch estimation. Autocorrelation values in time and frequency domains, which have different characteristics, correspond to the pitch period and fundamental frequency, respectively. We utilize an integrated autocorrelation method in time and frequency domains. It can remove the errors of pitch doubling and having. In the time and frequency domains, pitch period and fundamental frequency have reciprocal relation to each other. Especially, fundamental frequency estimation ends up as an error because of the resolution of FFT. To reduce these artifacts, interpolation methods are applied in the integrated autocorrelation domain, which decreases pitch errors. Moreover, only for the pitch candidates found in a time domain, the corresponding frequency-domain autocorrelation values are calculated with reduced computational complexity. Using linear interpolation, we can decrease the required number of FFT coefficients by 8 times. Thus, compared to the conventional methods, computational complexity can be reduced by 9.5 times.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 시간영역에서의 자기상관과 주파수 영역에서의 자기상관을 결합함으로써, 각각의 영역에서 발생하는 자기상관의 단점을 극복하고자 한다. 발성자의 음성이 저음인 경우, 시간영역의 자기상관은 피치 doubling 에러를 발생시킨다.
본 논문은 발성자의 노래나 허밍 등으로부터 음 높낮이 정보인 피치추출을 목적으로 하고 있다. 일반적으로 G.
제안 방법
없이 FFT 계수를 줄여서 계산량을 더욱 감축할 수 있음을 나타낸다. 계산량의 측정은 TACF에서 찾은 후보 피치에 따라서 FACIEI 계산량 차이가 발생하기 때문에 전체 발성음의 처리 수행 시간으로 측정하였다. 사용한 컴퓨터의 사양은 intel Quad Core 2.
729보다 우수하며, 10dB 이하의 배경 잡음에 대하여 YIN보다 우수한 성능을 나타낸다. 두 번째 실험은 기존에 널리 알려진 G.729, YIN 방법과 TFAC의 정밀한 피치 추출을 비교하는 것으로 결과는 표 2와 같다. 좀 더 정밀한 피치 추출을 확인하기 위하여 GER-5%를 측정하였다.
본 논문의 실험에서는 GER-10%를 측정하여 알고리즘의 성능을 평가하였다. 또한 피치 doublin昭과 hav访职의 영향을 확인하기 위하여 too low, too high 에러를 측정하였다. 예를 들어 GER-10%의 경우, 추출한 기본주파 수의값이 정확한 기본주파수를 기준으로 기본주파수의 상위 10% (+ error rate), 하위 10% (- error rate)일 경우 인식 성공 (acc), 상위 10% 이상일 경우 too high, 10% 이하일 경우 too low로 정의하며 이것을 그림 4에 도식화하였다.
실험에 사용된 모든 방법들은 분석프레임을 10msec씩 이동시키며 기본주파수를 추출하여 데이터베이스에서 제공된 피치정보와 비교하였다. 또한, 본 논문에서 제안하는 방법이 배경 잡음환경에 강인한지 확인하기 위하여 Jang's collection0)] NOISEX92의 volvo, babble, white 잡음을 각각 0, 10, 20, 30dB로 섞어서 사용하였다.
보간법은 여러 방법이 있으나, 본 논문에서는 splinee과 계산량이 적은 선형보간을 적용하였다. 보간법을 적용하는 목적은 크게 두 가지로 구분된다.
본 논문에서 제안하는 방법은 시간과 주파수 영역에서의 자기상관을 결합할 때, 보간법을 적용하는 것이다. 각각의 영역에서 발생하는 피치 doubling 에러와 having 에러는 시간과 주파수영역의 자기상관을 고려함으로써 해결하였다.
본 논문에서 제안하는 알고리즘은 시간과 주파수 영역의 자기상관을 보간하여 결합하는 방법이다. 시간과 주파수 영역의 자기상관을 결합하면 피치 doubling 에러와 having 에러를 개선시킬 수 있다.
본 논문에서 제안하는 알고리즘의 기본이 되는 시간 영역의 자기상관 (TACF)과 주파수영역의 자기상관 (FACF)을 결합한 자기상관은 보간하는 방법에 따라, 다음과 같이 3가지로 구분된다.
다. 본 논문에서는 보간법에 따라서 IACF1, IACF2, IACF3을 제안하였으며, 그 중에서 성능과 계산량 관점에서 가장 우수한 방법은 IACF3이다. IACF1은 TACF 와 FACIEI] 보간법을 각각 적용하였지만, 시간 영역의 후보피치에서만 FACF를 보간하여 결합하는 방법인 IACF2와 IACF3에 비해 성능차이가 거의 없었다.
having 에러이다. 본 논문에서는 피치추출 방법으로 자기상관을 이용하였으며, 시간과 주파수 영역을 고려하여 doubling과 having 에러를 줄이는 방법을 제안한다. 시간과 주파수영역의 분해능 불일치 문제는 보간법을 적용하여 해결하였으며, 보간법을 이용하여 계산량 또한 감축할 수 있었다.
729, YIN, TFAC의 성능을 비교한다. 세 번째는 TFAC와 보간을 적용 (IACF1, IACF2, IACF3) 한 실험을 비교한다. 마지막으로 비교적 작은 FFT 계수를 이용한 IACF3의 성능을 측정한다.
729, YIN 방법과 TFAC의 정밀한 피치 추출을 비교하는 것으로 결과는 표 2와 같다. 좀 더 정밀한 피치 추출을 확인하기 위하여 GER-5%를 측정하였다. 모든 배경 잡음 환경에 대하여 TFAC가 G.
지만 본 논문에서는 자기상관을 결합하는 과정에 보간법을 적용하였다.
첫 번째 실험에서 TFAC는 TACF와 FACF를 결합함으로써 시간과 주파수영역의 자기상관 에러를 줄이는 것으로, 기존 방법인 G.729, YIN과 비교한 결과는 표 1과 같다.
실험은 크게 4가지로 구성된다. 첫 번째는 시간과 주파수 영역에서 정규화된 자기상관 (TACF, FACF) 과각각의 자기상관을 결합한 방법 (TFAC⑼)을 비교한다. 두 번째는 G.
추출한 피치의 정확성을 측정하기 위하여 데이터베이스에서 제공된 정확한 기본주파수 (reference F0)를 기준으로 gross F0 error rate (GER)를 측정하였다. 본 논문의 실험에서는 GER-10%를 측정하여 알고리즘의 성능을 평가하였다.
대상 데이터
실험을 위하여 Jane's collection의 singing/hummin理 데이터베이스를 사용하였다"51. Jang's collectione 허밍 질의에 의한 오디오 검색 시스템 (query by singing humming system) 데이터베이스로써, 8초, 8kHz로 녹음된 음성파일이 2797개이며, 피치정보를 32msec 마다 세미 톤 형태로 제공한다.
세 번째 실험은 모두 1024 point 甲를 적용 하였으며, TFAC, IACF1, IACF2, IACF3의 성능을 표 3에서 나타낸다. 실험 결과에서 TFAC에 보간을 적용한 IACF1, IACF2, IACF3 방법들은 보간을 적용하지 않은 TFAC에 비해 성능이 향상되는 것을 확인할 수 있었다.
데이터처리
gross F0 error rate (GER)를 측정하였다. 본 논문의 실험에서는 GER-10%를 측정하여 알고리즘의 성능을 평가하였다. 또한 피치 doublin昭과 hav访职의 영향을 확인하기 위하여 too low, too high 에러를 측정하였다.
Jang's collectione 허밍 질의에 의한 오디오 검색 시스템 (query by singing humming system) 데이터베이스로써, 8초, 8kHz로 녹음된 음성파일이 2797개이며, 피치정보를 32msec 마다 세미 톤 형태로 제공한다. 실험에 사용된 모든 방법들은 분석프레임을 10msec씩 이동시키며 기본주파수를 추출하여 데이터베이스에서 제공된 피치정보와 비교하였다. 또한, 본 논문에서 제안하는 방법이 배경 잡음환경에 강인한지 확인하기 위하여 Jang's collection0)] NOISEX92의 volvo, babble, white 잡음을 각각 0, 10, 20, 30dB로 섞어서 사용하였다.
이론/모형
기존에는 시간과 주파수영역의 자기상관을 결합하는 방법으로 시간영역 T와 가장 인접한 %의 자기 상관 값을 식 (3)과 같이 이용하는 방법回을 사용하였다 (Time-Frequency domain Autocorr신ation, TFAC). 하
본 논문에서는 피치추출 방법으로 자기상관을 이용하였으며, 시간과 주파수 영역을 고려하여 doubling과 having 에러를 줄이는 방법을 제안한다. 시간과 주파수영역의 분해능 불일치 문제는 보간법을 적용하여 해결하였으며, 보간법을 이용하여 계산량 또한 감축할 수 있었다.
가 없어서 계산량을 크게 감축할 수 있는 장점을 갖는다. 여기서 사용된 보간법은 spline 방법이다 (Interpolated Autocorrelation Function 2, IACF2).
제안하는 알고리즘의 비교 평가를 위하여 기존에 잘 알려진 피치 추출 방법인 G.729®와 YIN'm을 이용하였다. 실험은 크게 4가지로 구성된다.
시간과 주파수는 서로 분해능이 달라서 8kHz, 1024 point FFT의 경우, 250Hz 이하에서는 FACF를 보간을 적용하고 须Hz이상에서는 TACF를 보간하여 시간과 주파수영역의 자기상관을 결합하였다. 즉, TACF와 FACF에 모두 보간을 적용하는 것으로 비교적 정확한 보간법인 spline을 이용하였다 (Interpolated Autocorrelation Function 1, IACF1).
긴 길이의 프레임과 창함수를 사용하는 경우 주파수영역에서 피치검출이 용이하다. 하지만, 분석 프레임 구간내에서 피치가 변화하는 경우 피치 검출은 어렵게 되며, 또한 많은 계산량이 필요한 단점이 있다 본 논문에서는 일반적으로 많이 사용하는 해밍윈도우를 사용하였으며, 프레임의 사이즈는 32.5ms를 이용하였다.
성능/효과
GER-10%에서 YIN의 경우는 G.729보다 좋은 성능을 나타내었고 일부 TFAC보다 좋은 성능을 나타내었지만, 정밀한 피치추출의 성능은 뒤떨어지는 것을 확인할 수 있다.
본 논문에서는 보간법에 따라서 IACF1, IACF2, IACF3을 제안하였으며, 그 중에서 성능과 계산량 관점에서 가장 우수한 방법은 IACF3이다. IACF1은 TACF 와 FACIEI] 보간법을 각각 적용하였지만, 시간 영역의 후보피치에서만 FACF를 보간하여 결합하는 방법인 IACF2와 IACF3에 비해 성능차이가 거의 없었다. 또한 IACF2와 IACF3에서는 각각 보간법의 성능이 비교적 좋은 spline방법과 계산량이 적고 간단한 선형보간방법을 적용하였으나, 피치추출에 있어서 성능 차이가 발생하지 않았기 때문에 가장 우수한 방법은 계산량이 적은 IACF3 이다.
IACF-2048은 큰 FFT 계수로 인하여 약 1404초의 처리시간이 필요했다. IACF3-512와 IACF3-256은 줄어든 FFT 계수로 인하여 FFT 계산과 FACF의 계산량이 크게 감축하여 각각 약 188초, 147초 정도의 처리시간이 필요하였다. 이처럼 선형보간을 적용시키면 적은 계산량으로도 우수한 성능을 얻을 수 있다.
또한, 선형보간법을 적용하여 FFT 차수를 기존 방법대비 8배 줄였으며, 이로 인하여 FFT 와 자기상관의 계산량을 효과적으로 감축할 수 있었다. 그리고, 시간영역에서 찾은 후보피치에만 주파수 영역의 자기 상관을 구함으로써, 계산량을 더욱 감축하여 알고리즘 처리시간이 기존 방법대비 약 9.5배 줄었다.
이러한 TACF와 FACF, 두지 빙-법을 결합한 TFAC는 too low error와 too high aror 모두 줄어든 것을 확인할 수 있다. 또한 1FAC 방법이 모든 배경잡음에 대하여 G.729보다 우수하며, 10dB 이하의 배경 잡음에 대하여 YIN보다 우수한 성능을 나타낸다. 두 번째 실험은 기존에 널리 알려진 G.
각각의 영역에서 발생하는 피치 doubling 에러와 having 에러는 시간과 주파수영역의 자기상관을 고려함으로써 해결하였다. 또한 보간법을 적용하여 주파수 영역에서 필요한 FFT의 차수를 줄임으로써 기존의 방법보다 성능과 계산량 측면에서 효율적인 알고리즘을 개발하였다.
본 논문에서는 시간과 주파수영역의 자기상관 결합에 선형 보간법을 적용하여 분해능 불일치를 해결함으로써 피치 검출율을 향상 시킬 수 있었다. 또한, 선형보간법을 적용하여 FFT 차수를 기존 방법대비 8배 줄였으며, 이로 인하여 FFT 와 자기상관의 계산량을 효과적으로 감축할 수 있었다. 그리고, 시간영역에서 찾은 후보피치에만 주파수 영역의 자기 상관을 구함으로써, 계산량을 더욱 감축하여 알고리즘 처리시간이 기존 방법대비 약 9.
좀 더 정밀한 피치 추출을 확인하기 위하여 GER-5%를 측정하였다. 모든 배경 잡음 환경에 대하여 TFAC가 G.729, YIN의 방법에 비해 우수한 성능을 나타낸다’ 특히, 10dB 이하의 배경잡음 환경에서는 시간영역만 고려된 G.729, YIN 보다 주파수영역까지 고려된 TFAC가 우수하였다.
하지만 시간과 주파 수영 역에서 피치주기와 기본주파수는 샘플링과 FFT 로 인하여 분해능이 서로 다르다. 본 논문에서는 시간과 주파수영역의 자기상관 결합에 선형 보간법을 적용하여 분해능 불일치를 해결함으로써 피치 검출율을 향상 시킬 수 있었다. 또한, 선형보간법을 적용하여 FFT 차수를 기존 방법대비 8배 줄였으며, 이로 인하여 FFT 와 자기상관의 계산량을 효과적으로 감축할 수 있었다.
실험 결과에서 TFAC에 보간을 적용한 IACF1, IACF2, IACF3 방법들은 보간을 적용하지 않은 TFAC에 비해 성능이 향상되는 것을 확인할 수 있었다. 시간과 주파수영역 모두를 보간한 방법 (IACF1) 은 IACF2와 IACF3에 비하여 계산량도 많지만, 일부 잡음에 대하여 IACF2와 IACF3에 비해 성능이 뒤떨어진다.
이와 반대로 주파수영역에서 피치를 찾는 방법으로 FACF에서는 too high error (having 에러에 대응)가 많이 발생한 것을 확인할 수 있었다. 이러한 TACF와 FACF, 두지 빙-법을 결합한 TFAC는 too low error와 too high aror 모두 줄어든 것을 확인할 수 있다. 또한 1FAC 방법이 모든 배경잡음에 대하여 G.
729, YIN, TACF에서는 too low eiror (doubling 에러에 대응)가 많이 발생하였다. 이와 반대로 주파수영역에서 피치를 찾는 방법으로 FACF에서는 too high error (having 에러에 대응)가 많이 발생한 것을 확인할 수 있었다. 이러한 TACF와 FACF, 두지 빙-법을 결합한 TFAC는 too low error와 too high aror 모두 줄어든 것을 확인할 수 있다.
후속연구
따라서, 향후에는 낮은 SN应과 norLstationary 배경 잡음에 대한 연구가 진행 되어야 할 것이다.
참고문헌 (15)
손상목, 홍성훈, 배명진, "IMBE VOCODER의 피치검색시간 단축에 관한 연구," 대한전자공학회 학술대회 논문집, vol. 10, no. 1, pp. 271-274, 1997.
Y. J. Kim and J. H. Chung, "Pitch synchronous cepstrum for robust speaker recognition over telephone channels," IET Electronics letters, vol. 40, no. 3, pp. 207-209, 2004.
H. Singer and S. Sagayama, "Pitch dependent phone modelling for HMM based speech recognition," in Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing, vol. 1, pp. 273-276, 1992.
S. -P. Heo, M. Suzuki, A. Ito, and S, Makino, "An effective music information retrieval method using three-dimensional continuous DP," IEEE Trans. MULTIMEDIA, vol. 8, no. 3, pp. 633-639, 2006.
J.-S. R. Jang and H. -R. Lee, "A general framework of progressive filtering and its application to Query by Singing/Humming," IEEE Trans. Audio, Speech, Language process., vol. 16, no. 2, pp. 350-358, 2008.
박호종, 윤제열, "오디오 신호의 다중 피치 검출 기술," 대한전자공학회 전자공학회지, vol. 37, no. 1, pp. 63-72, 2010.
ITU-T Recommendation G.729, Coding of Speech at 8 kbit/s using Conjugate-Structure Algebraic-Code-Excited Linear-Prediction (CS-ACELP).
M. Antonelli and A. Rizzi, "A Correntropy-based voice to MIDI transcription algorithm," in Proc. IEEE int. Multimedia Signal Processing Workshop, pp. 978-983, 2008.
Y. D. Cho, M. Y. Kim, and S. R. Kim, "A spectrally mixed excitation (SMX) vocoder with robust parameter determination," in Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing, vol. 2, pp. 601-604, 1998.
A. de Cheveigne and H. Kawahara, "YIN, a fundamental frequency estimation for speech and music," J. Acoust. Soc. Amer., vol. 111, no. 4, pp. 1917-1930, 2002.
A. Klapuri, "Multipitch analysis of polyphonic music and speech signals using an auditory model," IEEE Trans. Audio, Speech, Language Process., vol. 16, no. 2, pp. 255-266, 2008.
C. DeBoor, "A Practical Guide to Splines", New York: Springer-Verlag, 1978.
J.-S. R. Jang, "QBSH: A Corpus for designing QBSH (query by singing/humming) systems", Available at the "QBSH Corpus for Query by Singing/Humming" Link of the "Corpus page" at the organizer's homepage. [Online]. Available: http://www.cs.nthu.edu.tw/~jang
※ AI-Helper는 부적절한 답변을 할 수 있습니다.