The purposes of this study was to conduct a correlational analysis among $F_^{0}$, Jitter, Shimmer, and NHR (HNR), and NNE estimated by three speech analysis softwares, MDVP, Praat and Dr. Speech. Thirty females and 15 males with normal voice participated in the study. We used Sound Forge...
The purposes of this study was to conduct a correlational analysis among $F_^{0}$, Jitter, Shimmer, and NHR (HNR), and NNE estimated by three speech analysis softwares, MDVP, Praat and Dr. Speech. Thirty females and 15 males with normal voice participated in the study. We used Sound Forge 6.0 to record their voice. MDVP, Praat and Dr. Speech were used to measure the acoustic parameters. The Pearson correlation coefficient was determined through a statistical analysis. The results came out as follows: Firstly, there was a strong correlation between $F_^{0}$ and Shimmer of both instruments. However, there was no correlation between Jitter of both instruments. Secondly, Shimmer showed a stronger correlation with HNR, NHR, and NNE than Jitter. Therefore, Shimmer was considered to be more useful and sensitive parameter to identify dysphonic voice compared to jitter.
The purposes of this study was to conduct a correlational analysis among $F_^{0}$, Jitter, Shimmer, and NHR (HNR), and NNE estimated by three speech analysis softwares, MDVP, Praat and Dr. Speech. Thirty females and 15 males with normal voice participated in the study. We used Sound Forge 6.0 to record their voice. MDVP, Praat and Dr. Speech were used to measure the acoustic parameters. The Pearson correlation coefficient was determined through a statistical analysis. The results came out as follows: Firstly, there was a strong correlation between $F_^{0}$ and Shimmer of both instruments. However, there was no correlation between Jitter of both instruments. Secondly, Shimmer showed a stronger correlation with HNR, NHR, and NNE than Jitter. Therefore, Shimmer was considered to be more useful and sensitive parameter to identify dysphonic voice compared to jitter.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구의 초점은 우리가 빈번히 사용하는 음성분석 기기들에서 같은 음향단서를 나타내는데 있어서 그 차이를 어느 정도 보이는 가를 판단하여 각 기기들의 신뢰성을 확인하기 위한 것이었다. 위의 결과를 요약해보면 음도와 같은 비교적 일반적인 알고리즘을 사용하는 음향 단서는 기기 간 상관관계가 아주 높게 나타나는 것으로 판명되었다.
간의 상호활용 가능성에 대해서도 관심을 가지게 된다. 이러한 관점에서, 본 연구는 임상적으로 많이 활용되는 음성 분석기기인 MDVP와 Praat, Dr. Speech에서 얻을 수 있는 음성 매개변수들 간의 상관 정도를 분석해 봄으로써 특정 기기에서 얻어진 값이 다른 기기에서 얻을 수 있는 측정치의 상호 활용성을 검토해 보고자 한다.
제안 방법
MDVP의 측정치들(Fo, Jitter, Shimmer, Noise to Harmonic Ratio)과 Praat의 측정치들(Fo, Jitter, Shimmer)의 상관관계를 알아보기 위해 이변량 상관계수를 측정한 결과 다음과 같은 결과를 얻었다.
Multi-Speech의 MDVP advanced와 Praat 그리고 Dr. Speech의 음향학적 측정치에 관한 상관을 알아보기 위해 Multi-Speech (Model 5105)와 Praat (Version 4.0), Dr. Speech (Version 4.0)를 이용하였다.
각 피험자들의 음성 수집은 Sound Forge 6.0 (Sonic Foundry사 음성수집 소프트웨어)을 사용하여, 고정대에 부착된 마이크(SONY ECM-221X 피험자의 입과의 거리를 10 cm 정도 유지하면서 편안하게 /a/를 발성하게 하여 음성을 녹음하였다. 샘플링 모드는 44, 100 Hz, 16 bit, 스테레오 상태로 음성을 녹음하였다.
안정된 음성을 수집하기 위해 샘플 수집 전 간단한 대화를 30 초간 유도하였다. 각각의 발성에서 가장 안정된 동일 시간대의 2 초 구간을 설정하여 편집한 후, MDVP와 Praat 그리고 Dr. Speech에서 선택하여 음성을 분석하였다.
0 (Sonic Foundry사 음성수집 소프트웨어)을 사용하여, 고정대에 부착된 마이크(SONY ECM-221X 피험자의 입과의 거리를 10 cm 정도 유지하면서 편안하게 /a/를 발성하게 하여 음성을 녹음하였다. 샘플링 모드는 44, 100 Hz, 16 bit, 스테레오 상태로 음성을 녹음하였다. 안정된 음성을 수집하기 위해 샘플 수집 전 간단한 대화를 30 초간 유도하였다.
샘플링 모드는 44, 100 Hz, 16 bit, 스테레오 상태로 음성을 녹음하였다. 안정된 음성을 수집하기 위해 샘플 수집 전 간단한 대화를 30 초간 유도하였다. 각각의 발성에서 가장 안정된 동일 시간대의 2 초 구간을 설정하여 편집한 후, MDVP와 Praat 그리고 Dr.
대상 데이터
본 연구는 18-28 세 정상 성인 45 명(여성 30 명, 남성 15 명을 대상으로 하였다. 연구대상 선정 기준은 언어치료 현장에서 2 년 이상 경험이 있는 2 명의 언어치료사가 지각적 평가를 통해 피험자의 대화 음성을 듣고, 정상 음성, 을 지녔다고 판별된 자로서, 최근 6 개월 동안 후두 병력이나 알레르기 증상이 없었으며, 기타 폐질환, 신경계 질환, 구강 및 조음기관 관련 질환이 없는 자들이었다.
연구대상 선정 기준은 언어치료 현장에서 2 년 이상 경험이 있는 2 명의 언어치료사가 지각적 평가를 통해 피험자의 대화 음성을 듣고, 정상 음성, 을 지녔다고 판별된 자로서, 최근 6 개월 동안 후두 병력이나 알레르기 증상이 없었으며, 기타 폐질환, 신경계 질환, 구강 및 조음기관 관련 질환이 없는 자들이었다.
데이터처리
0 for Windows를 사용하였다. 피험자들이 발성한 /»에서 MDVP의 즉정치들 (Average Fundamental Frequency, Jitter, Shimmer, NHR) 과 Praat의 측정치들(Fo, Jitter, Shimmer) 그리고 Dr. Speech의 측정치 (Fo, Jitter, Shimmer, HNR, NNE) 간의 상관관계를 알아보기 위해 Pearson 계수를 산출하였다. 유의수준은 95%로 검정하였다.
성능/효과
Speech의 Jitter와 양의 상관이 있었다. MDVP의 Shimmer는 Dr. Speech의 Shimmer와 매우 높은 양의 상관관계가 있었고, HNR과는 매우 높은 음의 상관이 있는 것으로 나타났다. NHme NNE와는 어느 정도의 양의 상관이 있었으며, HNM과는 어느 정도 음의 상관이 있는 것으로 나타났다.
Speech의 Shimmer와 매우 높은 양의 상관관계가 있었고, HNR과는 매우 높은 음의 상관이 있는 것으로 나타났다. NHme NNE와는 어느 정도의 양의 상관이 있었으며, HNM과는 어느 정도 음의 상관이 있는 것으로 나타났다. NHR과 HNR의 상관계수가 마이너스로 나타난 것은 측정값이 Noise to harmonic ratio와 Harmonic to noise ratios.
않는 것으로, MDVP의 Shimmer 값이 증가할수록 Praat의 . Shimmer 값도 높은 상관관계를 가지면서 증가하며, 마지막으로 MDVP의 NHR 값이 증가할수록 Praat의 Shimmer 값도 유의하게 증가하지만, Jitter 값은 상관이 없었다.
내장된 파라미터인데, NNE와 MDVP의 NHR과의 상관도는 비교적 높지 않게 나타났으며, Jitter에 비해 Shimmer와 상관이 더 강한 것으로 나타났다.
결과를 바탕으로, MDVP의 Jitter 값의 변화에 따라 Praat의 Jitter 값이 유의하게 증가하지 않는 것으로, MDVP의 Shimmer 값이 증가할수록 Praat의 . Shimmer 값도 높은 상관관계를 가지면서 증가하며, 마지막으로 MDVP의 NHR 값이 증가할수록 Praat의 Shimmer 값도 유의하게 증가하지만, Jitter 값은 상관이 없었다.
결과를 바탕으로, MDV劳의 Jitter 값이 증가할수록 Dr. Speech의 Jitter치가 약하게 증가하는 것으로 나타났다. 또한 MDVP의 Shimmer 측정치의 변화에 따라 Dr.
Speech의 Shimmer 치와 HNR 값이 각각 양의 방향과 음의 방향으로 매우 상관이 높게 변화하는 것으로 나타났다. 그리고 MDVP의 NHR이 증가할수록 Dr. Speech의 Jitter, Shimmer, NNE가 증가하는 반면에 HNRe 감소하는 것으로 나타났다. 마지막으로, 다른 음향학적 측정 장비에서는 다루고 있지 않은 Dr.
다음으로 흥미로운 결과는 각 기기의 Shimmer치 간에 높은 상관이 나타난 반면에, MDVP와 Praat 간의 Jitter치는 상관이 없었고, MDVP와 Dr. Speech 간의 Jitter치의 상관도는 아주 낮게 나타났다는 점이다. 한편, 음성의 소음 정도와 관련된 파라미터인 NHR, HNR, NNE 등과는 Jitter에 비해 Shimmer가 훨씬 강한 상관을 나타내었다는 점도 홍미로운 사실이다.
두 기기 간의 상관분석 연구 결과, MDVP의 Fo는 Praat의 F0와 매우 높은 상관관계가 있었다. MDVP의 Jitter는 Praat의 Jitter 값과 상관이 없었다.
Speech의 Jitter치가 약하게 증가하는 것으로 나타났다. 또한 MDVP의 Shimmer 측정치의 변화에 따라 Dr. Speech의 Shimmer 치와 HNR 값이 각각 양의 방향과 음의 방향으로 매우 상관이 높게 변화하는 것으로 나타났다. 그리고 MDVP의 NHR이 증가할수록 Dr.
Speech의 Jitter, Shimmer, NNE가 증가하는 반면에 HNRe 감소하는 것으로 나타났다. 마지막으로, 다른 음향학적 측정 장비에서는 다루고 있지 않은 Dr. Speech의 NNE는 MDVP의 Shimmer와 NHR과는 어느 정도의 양의 상관관계를 가지는 것으로 나타났다.
본 연구 결과에서, 각 기기의 Fo, Jitter, Shimmer, HNR, NHR 간의 상관도에서 흥미로운 결과가 산출되었다. MDVP의 Fo와 Dr.
소음 대 배음의 비율을 나타내는 파라미터인 NHR과 배음 대 소음 비율을 나타내는 HNR 의 파라미터는 MDVP와 Dr. Speech에서 독립적으로 사용되어지는데, 이 두 측정치간에 비교적 높지 않은 음의 상관도가 나타났다는 것 또한 흥미로운 발견점이었다.
첫째는, 분석 기기들이 같은 알고리즘을 사용하는 경우이다. 수학적, 공학적으로 사용되고 있는 많은 음도 추출 알고리즘(pitch detection algorithm)이 자기상관(autocorrelation) 방법을 응용하는 등 크게 차이가 나지 않는다는 특징이 있어서, 같은 음성 데이터에서 비교적 일관적인 음도 추출 결과를 보이는 것으로 판단할 수 있다. 둘째, 비록 서로 다른 알고리즘을 사용하더라도 음도 측정은 대부분 시간영역(time domain) 의 분석이므로 FFT와 같은 주파수 영역 (frequency domain) 의 분석에 비하면 프로세싱으로 인한 정보의 손실。T 적다고 볼 수 있다「그러므로 음도의 절대수치 자체가 두 기기 간에 서로 다르다고 할지라도 그 패턴은 일정하게 유지되고 있을 가능성이 많아지므로 기기 간 수치들 간의 상관관계가 크게 나타나는 것이 타당해 보인다.
연구의 결과, MDVP의 Fo는 Dr. Speech의 Fo와 매우 높은 상관관계가 있었다. MDVP의 Jitter는 Dr.
것이었다. 위의 결과를 요약해보면 음도와 같은 비교적 일반적인 알고리즘을 사용하는 음향 단서는 기기 간 상관관계가 아주 높게 나타나는 것으로 판명되었다. 하지만 다른 음향 단서들은 기기간의 상관성에 의문이 제기될 정도의 상관관계를 보임으로써, .
MDVP의 Jitter는 Praat의 Jitter 값과 상관이 없었다. 한편, MDVP의 Shimmer는 Praat 의 Shimmer와 아주 높은 양의 상관관계가 있었으며, 마지막으로 MDVP의 NHRe Praat의 Shimmer와는.양의 상관이 있었다.
후속연구
그러면 적절하고 신뢰할 만한 음향단서를 찾아내고 이를 분석에 적극 활용할 수 있기 때문이다. 또 이렇게 함으로써, 개별적인 음성 분석기기들의 장단점을 파악할 수 있고, 여러가지 기기를 사용할 때 각 기기들마다 주로 분석해볼 음향단서를 개별적으로 결정할 수도 있을 것이다. 또한, 보다 많은 정상인 표본 집단을 대상으로 한 광범위한 음성분석 데이터 값들의 평균값을 알아봄과 동시에 이들 수치간의 상관도를 알아볼 필요도 있고, 음성장애의 적용에 있어보다 유용한 자료를 얻기 위해서 음성장애인을 대상으로 한 음성의 음향학적 파라미터 간의 상관도를 밝히는 연구 또한 매우 필요할 것이다.
또 이렇게 함으로써, 개별적인 음성 분석기기들의 장단점을 파악할 수 있고, 여러가지 기기를 사용할 때 각 기기들마다 주로 분석해볼 음향단서를 개별적으로 결정할 수도 있을 것이다. 또한, 보다 많은 정상인 표본 집단을 대상으로 한 광범위한 음성분석 데이터 값들의 평균값을 알아봄과 동시에 이들 수치간의 상관도를 알아볼 필요도 있고, 음성장애의 적용에 있어보다 유용한 자료를 얻기 위해서 음성장애인을 대상으로 한 음성의 음향학적 파라미터 간의 상관도를 밝히는 연구 또한 매우 필요할 것이다.
표화영 외, 2002, 고도흥, 2003). 이러한 연구로 얻어진 규준 데이터는 일반인의 음성 이상 유무를 분석하는 것 이외에도 특정 집단, 예를 들면, 성악가, 가수, 교사, 전화 교환수 등이 직업적으로 적절한 음성을 가지고 있는 가를 알아보는 데에도 활용할 수 있다.
둘째, 비록 서로 다른 알고리즘을 사용하더라도 음도 측정은 대부분 시간영역(time domain) 의 분석이므로 FFT와 같은 주파수 영역 (frequency domain) 의 분석에 비하면 프로세싱으로 인한 정보의 손실。T 적다고 볼 수 있다「그러므로 음도의 절대수치 자체가 두 기기 간에 서로 다르다고 할지라도 그 패턴은 일정하게 유지되고 있을 가능성이 많아지므로 기기 간 수치들 간의 상관관계가 크게 나타나는 것이 타당해 보인다. 이러한 추론이 맞다면, 이 논문에서 살펴본 세 가지 기기뿐만이 아니라 다른 기기들에 같은 음성데이터를 입력시키고 음도를 측정한다면 역시 상당히 높은 상관관계가 얻어질 것이다.
향후 과제로서, 이러한 상관관계의 분석을 많은 다른 기기들에 확장시키는 것이 필요하다. 그러면 적절하고 신뢰할 만한 음향단서를 찾아내고 이를 분석에 적극 활용할 수 있기 때문이다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.