음성 신호 분류에 따른 장애 음성의 변동률 분석, 비선형 동적 분석, 캡스트럼 분석의 유용성 The Utility of Perturbation, Non-linear dynamic, and Cepstrum measures of dysphonia according to Signal Typing원문보기
The current study assessed the utility of acoustic analyses the most commonly used in routine clinical voice assessment including perturbation, nonlinear dynamic analysis, and Spectral/Cepstrum analysis based on signal typing of dysphonic voices and investigated their applicability of clinical acous...
The current study assessed the utility of acoustic analyses the most commonly used in routine clinical voice assessment including perturbation, nonlinear dynamic analysis, and Spectral/Cepstrum analysis based on signal typing of dysphonic voices and investigated their applicability of clinical acoustic analysis methods. A total of 70 dysphonic voice samples were classified with signal typing using narrowband spectrogram. Traditional parameters of %jitter, %shimmer, and signal-to-noise ratio were calculated for the signals using TF32 and correlation dimension(D2) of nonlinear dynamic parameter and spectral/cepstral measures including mean CPP, CPP_sd, CPPf0, CPPf0_sd, L/H ratio, and L/H ratio_sd were also calculated with ADSV(Analysis of Dysphonia in Speech and VoiceTM). Auditory perceptual analysis was performed by two blinded speech-language pathologists with GRBAS. The results showed that nearly periodic Type 1 signals were all functional dysphonia and Type 4 signals were comprised of neurogenic and organic voice disorders. Only Type 1 voice signals were reliable for perturbation analysis in this study. Significant signal typing-related differences were found in all acoustic and auditory-perceptual measures. SNR, CPP, L/H ratio values for Type 4 were significantly lower than those of other voice signals and significant higher %jitter, %shimmer were observed in Type 4 voice signals(p<.001). Additionally, with increase of signal type, D2 values significantly increased and more complex and nonlinear patterns were represented. Nevertheless, voice signals with highly noise component associated with breathiness were not able to obtain D2. In particular, CPP, was highly sensitive with voice quality 'G', 'R', 'B' than any other acoustic measures. Thus, Spectral and cepstral analyses may be applied for more severe dysphonic voices such as Type 4 signals and CPP can be more accurate and predictive acoustic marker in measuring voice quality and severity in dysphonia.
The current study assessed the utility of acoustic analyses the most commonly used in routine clinical voice assessment including perturbation, nonlinear dynamic analysis, and Spectral/Cepstrum analysis based on signal typing of dysphonic voices and investigated their applicability of clinical acoustic analysis methods. A total of 70 dysphonic voice samples were classified with signal typing using narrowband spectrogram. Traditional parameters of %jitter, %shimmer, and signal-to-noise ratio were calculated for the signals using TF32 and correlation dimension(D2) of nonlinear dynamic parameter and spectral/cepstral measures including mean CPP, CPP_sd, CPPf0, CPPf0_sd, L/H ratio, and L/H ratio_sd were also calculated with ADSV(Analysis of Dysphonia in Speech and VoiceTM). Auditory perceptual analysis was performed by two blinded speech-language pathologists with GRBAS. The results showed that nearly periodic Type 1 signals were all functional dysphonia and Type 4 signals were comprised of neurogenic and organic voice disorders. Only Type 1 voice signals were reliable for perturbation analysis in this study. Significant signal typing-related differences were found in all acoustic and auditory-perceptual measures. SNR, CPP, L/H ratio values for Type 4 were significantly lower than those of other voice signals and significant higher %jitter, %shimmer were observed in Type 4 voice signals(p<.001). Additionally, with increase of signal type, D2 values significantly increased and more complex and nonlinear patterns were represented. Nevertheless, voice signals with highly noise component associated with breathiness were not able to obtain D2. In particular, CPP, was highly sensitive with voice quality 'G', 'R', 'B' than any other acoustic measures. Thus, Spectral and cepstral analyses may be applied for more severe dysphonic voices such as Type 4 signals and CPP can be more accurate and predictive acoustic marker in measuring voice quality and severity in dysphonia.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구를 위하여 대학병원 음성 센터에서 음성장애로 진단 받은 환자의 장애 음성을 대상으로 음성 신호를 분류하여 이에 따른 청지각적 평가 및 음향학적 분석을 실시하고 측정치를 비교하여 장애 음성의 특징을 파악하고, 현재 사용되는 음향학적 검사 측정치의 유용성을 검토하고자 한다.
, 2013). 본 연구에서는 정상인의 음성 신호와 비교하지는 않았으나, 다양한 음성 장애 신호들의 특성을 비선형 동적 분석을 통해 분석함으로써 장애 음성의 중증도에 따른 비선형적인 동역학 특징으로 기술할 수 있었다. 하지만 Type4와 같은 고차원계의 신호를 소음과 구분하지 못하는 단점이 있었다.
제안 방법
)프로그램을 사용하여, 모음 분석을 실시하였다<그림 -2>. /아/연장 발성 중 발성 시작과 종료 부분을 제외한 안정된 구간 1초를 다른 음향학적 분석과 동일하게 분석 대상으로 하였으며, CPP (Cepstral Peak Prominence, dB), CPP_sd(dB), CPPfo, CPPfo _sd(Hz), L/H ratio(dB), L/H ratio_sd(dB)를 각각 측정하였다. ADSV는 캡스트럼 분석을 통해 CPP (Cepstral Peak Prominence, dB), CPP_sd(dB), CPPfo(Hz), CPPfo_sd(Hz)값을 제공하며, 스팩트럼 분석을 통해 L/H ratio(dB), L/H ratio _sd(dB)값을 제공한다.
서울 소재 한 병원 음성언어치료실에서 녹음했다. Shure SM48 다이나믹마이크를 화자의 입에서 5cm정도 거리에 두었고, CSL(KayPENTAX)로 44,100 Hz 표본추출률, 16 bit 양자화하였다. 편안한 음도와 강도에서 모음 /아/를 5초 이상 3번 편안하게 발성하게 하게 하였으며, 분석치는 3번 반복한 것의 평균값을 사용하였다.
본 연구는 장애 음성을 음성신호 분류체계로 나누고, 신호 체계에 따른 장애 음성의 특징을 청지각적 평가 및 음향학적 분석인 변동률 분석과 비선형 동적 분석 및 캡스트럼 분석을 이용하여 다음과 같은 결론을 얻을 수 있었다. 이와 더불어, 음향학적 측정치인 %jitter, %shimmer, SNR, D2, CPP, L/H ratio측정치의 타당성을 조사하기 위하여 음성장애 중증도에 따른 장애 음성의 음성 신호 분류에 따라 각각의 측정치를 구하고 청지각적 평가와 비교하였다.
본 연구를 위하여, 음성 신호는 GoldWave 5.1 (GoldWave, St. John's, NL, Canada)를 사용하여 25kHz로 다운 샘플링하였으며, D2는 선행 연구들에서 사용한 위스콘신 주립대학교 의과대학 후두 생리학 실험실에서 개발된 비선형 동적 분석 소프트웨어를 이용하여 측정하였고(Jiang, Zhang & Ford, 2003; Jiang, Zhang & McGilligan, 2006), 변동률 분석과 같이, 모음 /아/연장 발성 중 발성시작과 종료부분을 제외한 안정된 구간 1초를 분석 대상을 하였다.
비선형 동적 분석에서 카오스 시스템의 정량적 분석을 위하여 상관 계수를 측정하였으며 시간지연으로 위상공간재구성을 구현하였다. 상관차원(correlation dimension, D2)은 복잡한 시스템의 움직임을 기술하는 데 필요로 하는 자유도(degree of freedom)의 수를 정량화한 수치를 말하며, 복잡한 체계일수록 복잡한 체계를 기술하는 데 더 많은 차원을 요구하므로 더 높은 수치를 지닌다.
002초의 시간 단계(time step: sec), 5Hz의 주파수 단계(frequency step: Hz), 재생 가능한 음량 범위(dynamic range: dB)는 40 dB로 설정하였으며 hamming window를 사용하였다. 생성된 스팩트로그램에 따라 스팩트로그램에 대한 전문 지식을 가진 1명의 훈련된 1급 언어치료사와 음향학자가 각각 음성 신호 분류를 시행하였고, 각 장애 음성에 대하여 일치하지 않을 경우 완전한 동의가 있을 때까지 음성 신호를 다시 재검토하여 논의를 거친 뒤 최종 분류하였다.
1)을 사용하여 협대역 스팩트로그램(narrowband spectrgram)을 생성하였다. 이를 위하여 50ms의 윈도우 길이, 0.002초의 시간 단계(time step: sec), 5Hz의 주파수 단계(frequency step: Hz), 재생 가능한 음량 범위(dynamic range: dB)는 40 dB로 설정하였으며 hamming window를 사용하였다. 생성된 스팩트로그램에 따라 스팩트로그램에 대한 전문 지식을 가진 1명의 훈련된 1급 언어치료사와 음향학자가 각각 음성 신호 분류를 시행하였고, 각 장애 음성에 대하여 일치하지 않을 경우 완전한 동의가 있을 때까지 음성 신호를 다시 재검토하여 논의를 거친 뒤 최종 분류하였다.
본 연구는 장애 음성을 음성신호 분류체계로 나누고, 신호 체계에 따른 장애 음성의 특징을 청지각적 평가 및 음향학적 분석인 변동률 분석과 비선형 동적 분석 및 캡스트럼 분석을 이용하여 다음과 같은 결론을 얻을 수 있었다. 이와 더불어, 음향학적 측정치인 %jitter, %shimmer, SNR, D2, CPP, L/H ratio측정치의 타당성을 조사하기 위하여 음성장애 중증도에 따른 장애 음성의 음성 신호 분류에 따라 각각의 측정치를 구하고 청지각적 평가와 비교하였다.
대상 데이터
%jitter, %shimmer와 같은 변동률 측정치와 SNR을 측정하기 위하여 TF32를 사용하였으며 모음 /아/연장 발성 중 발성시작과 종료부분을 제외한 안정된 구간 1초를 분석 대상을 하였다. 이 때, 변이성이 심한 장애 음성의 특성을 고려하여, token은 10으로 설정하였는데, 이는 100ms의 동일한 구간으로 신호를 분리하여 이를 평균한 값을 말한다.
Type 1은 성대 결절 5례, 성대 용종 4례, 위산 역류 2례, 후 두염 1례, 성대 부종 4례로 모두 기능적 음성장애였으며, 전체 기능적 음성장애 34례 중 16례(47%)에 해당하였다.
서울 소재 한 병원 음성언어치료실에서 녹음했다. Shure SM48 다이나믹마이크를 화자의 입에서 5cm정도 거리에 두었고, CSL(KayPENTAX)로 44,100 Hz 표본추출률, 16 bit 양자화하였다.
연구 대상은 서울 소재 대학병원에서 음성장애로 진단 받은 환자의 음성 데이터 100례 중 70례를 대상으로 하였으며, 성대 결절 5례, 성대 용종 12례, 위산역류 2례, 후두염 4례, 성대 부종 8례, 내전형 경련성 발성장애 8례, 파킨슨씨병 2례, 성대 반흔 6례, 과각화증 4례, 유두종 2례, 라인케 부종 2례, 육아종 1례, 성대 마비 10례, 후두암 4례였으며, 성별로는 남자 32명, 여자 38명이었으며, 연령은 20~76세로 평균 43.7(±10.02)이었다.
장애 음성 신호별 음질을 측정하였으며, GRBAS중 ‘G',’R','B' 평정의 청지각적 결과는 와 같다.
데이터처리
Spectral 및 캡스트럼 분석은 Kay Pentax사의 자동화된 ADSV(Analysis of Dysphonia in Speech and VoiceTM)프로그램을 사용하여, 모음 분석을 실시하였다<그림 -2>. /아/연장 발성 중 발성 시작과 종료 부분을 제외한 안정된 구간 1초를 다른 음향학적 분석과 동일하게 분석 대상으로 하였으며, CPP (Cepstral Peak Prominence, dB), CPP_sd(dB), CPPfo, CPPfo _sd(Hz), L/H ratio(dB), L/H ratio_sd(dB)를 각각 측정하였다.
본 연구에서 각 분석들 중에서 대표적인 측정치에 해당하는 음향학적 변수 %jitter, %shimmer, SNR, D2, CPP, L/H ratio와 청지각적 변수 ‘G', 'R', 'B'간 상관계수를 측정하기 위하여 상관 분석을 실시한 결과는 와 같으며, 모든 변수들 간에 통계적으로 유의하였다(p<.05).
음성 신호 간 청지각적 평정인 'G','R','B'의 차이를 살펴보기 위하여 교차 분석을 실시하였으며, 청지각적 평가와 음향학적 평가에 사용된 변수 들 간의 상관성을 살펴보기 위하여 Pearson 상관 분석을 실시하였으며, 유의 수준은 95%였다.
통계처리는 SPSS(version 19.0)를 이용하였으며 음성 신호 간 변동률분석, 비선형동역학 분석, 캡스트럼 분석치의 차이는 다변량 분산분석(Multivariate Analysis of Variance: MANOVA)을 통해 유의성을 검증하였다. 음성 신호 간 청지각적 평정인 'G','R','B'의 차이를 살펴보기 위하여 교차 분석을 실시하였으며, 청지각적 평가와 음향학적 평가에 사용된 변수 들 간의 상관성을 살펴보기 위하여 Pearson 상관 분석을 실시하였으며, 유의 수준은 95%였다.
Shure SM48 다이나믹마이크를 화자의 입에서 5cm정도 거리에 두었고, CSL(KayPENTAX)로 44,100 Hz 표본추출률, 16 bit 양자화하였다. 편안한 음도와 강도에서 모음 /아/를 5초 이상 3번 편안하게 발성하게 하게 하였으며, 분석치는 3번 반복한 것의 평균값을 사용하였다.
이론/모형
음성 신호를 분류하기 위하여 Praat (version 5.1)을 사용하여 협대역 스팩트로그램(narrowband spectrgram)을 생성하였다. 이를 위하여 50ms의 윈도우 길이, 0.
성능/효과
% jitter는 Type 1은 .3120(±.1473), Type 2는 .5377(±.2779), Type 3은 1.6461(±1.3093), Type 4는 4.8709(±3.0695)였으며, 다변량 분산 분석 결과, 음성 신호 간에 통계적으로 유의한 차이가 있었으며(F(3, 66)=27.87, p<.001), 본페로니 사후 검정 후 다중 비교결과, Type 4는 나머지 음성 신호와 유의한 차이가 있었다(p<.001).
% shimmer는 Type 1은 2.1022(±.6520), Type 2는 3.6724(±2 .1538), Type 3은 10.9051(±10.1827), Type 4는 25.7155(±19 .6091)이었으며, 다변량 분산 분석 결과, 음성 신호 간에 통계적으로 유의한 차이가 있었으며(F(3, 66)=16.69, p<.001), 본페로니 사후 검정 후 다중 비교 결과, Type 4는 나머지 음성 신호와 유의한 차이가 있었다(p<.001).
CPP는 다른 변수들과도 상관관계가 가장 높았으며, 특히, 음질을 나타내는 ’G', 'R', ‘B'와 상관관계가 가장 높아 음질을 예측할 수 있는 가장 높은 변수였다.
SNR은 Type 1은 23.23(±2.06), Type 2는 22.21(±14.57), Type 3은 12.08(±4.80), Type 4는 6.21(±3.90)이었으며, 다변량 분산 분석 결과, 음성 신호 간에 통계적으로 유의한 차이가 있었으며(F(3, 66)=16.34, p<.001), 본페로니 사후 검정 후 다중 비교 결과, Type 4는 Type 1과 Type 2 음성 신호와 유의한 차이가 있었다(p<.001).
장애 음성의 동적 특성을 구현한 신호별 위상공간재구성 결과는 <그림 5>와 같다. Type 1은 주기 공간에서 주기별 궤적이 거의 비슷한 경로를 반복하는 것으로 보이나, 신호가 증가할수록 더 복잡한 운동 형태를 보였으며, Type4는 주기궤적이 매우 불규칙적이며 일정한 패턴이 없이 카오스적으로 혼재되어 있는 것으로 나타났다.
Type 2는 성대 용종 2례, 내전형 경련성 발성장애 5례, 성대 부종 3례, 파킨슨씨병 1례, 후두염 2례, 성대 반흔 3례, 유두종 1례, 라인케부종 1례, 과각화증 2례가 있었으며, 기능적 음성장애는 8례로 전체 기능적 음성장애 중 24%(8/34)였으며, 기질적 음성장애는 총 6례로 전체 기질적 음성장애 환자의 38%(6/16)에 해당하였으며, 신경학적 음성장애는 총 6례로 전체 신경학적 음성장애 환자의 25%(6/20)에 해당하였다.
Type 3은 내전형 경련성 발성장애 2례, 성대 반흔 2례, 성대 용종 6례, 후두암 1례, 육아종 1례, 후두염 1례, 성대 마비 1례, 과각화증 1례, 파킨슨씨병 1례, 라인케부종 1례로 기능적 음성장애 9례, 기질적 음성장애 4례, 신경학적 음성장애 4례가 있었으며, 기능적 음성장애는 전체 기능적 음성장애 환자의 24%(9/34), 기질적 음성장애는 전체 기질적 음성장애 환자의 25%(4/16), 신경학적 음성장애는 전체 신경학적 음성장애 환자의 20%(4/20)에 해당하였다.
넷째, 장애 음성 신호별 스팩트럼 분석 결과, L/H ratio값은 Type4가 가장 낮았는데, 이는 4kHz이상 에너지가 Type4신호에서 더 높음을 시사한다. 심희정 외(2014)의 식도발성화자를 대상으로 정상 노인과 비교한 연구에서도 식도발성화자의 음성이 정상 노인의 음성에 비해 L/H ratio가 통계적으로 유의하게 낮았다고 보고하였으며, 식도발성과 같은 카오스적인 음성 신호일수록 낮은 L/H ratio를 보이는 것으로 생각된다.
다변량 분산 분석 결과, L/H ratio는 음성 신호 간에 통계적으로 유의한 차이를 보였으나(F(3, 66)=21.016, p<.001), L/H ratio_sd는 유의한 차이를 보이지 않았다(F(3, 66)=2.659, p>.05).
둘째, 장애 음성의 음성 신호별 %jitter와 %shimmer측정치는 Type 1신호에서 주기간 주파수 변동률과 강도 변동률이 가장 낮게 나타나 다른 장애 음성 신호에 비해 안정된 음성 신호로 나타났으며, 반면 Type4에서 가장 높게 나타나 Type4가 가장 불안정한 음성 신호 형태를 보였다. 한편, TF32의 경우, 전통적인 음향학적 분석 방법인 변동률 분석 시에 변동률 분석의 신뢰성을 나타내는 ‘err'과 ‘Trk’의 수치를 제공하는데, 본 연구에서 ‘err'과 ‘Trk’를 측정한 결과, 음성 신호의 주파수의 드라마틱한 변동의 수를 나타내는 ‘Trk’는 Type 1의 경우 1.
첫째, 장애 음성 신호를 분류한 결과, 거의 주기적 신호인 Type 1은 대부분 기능적 음성장애였으며, Type2는 기질적 음성장애가 가장 많았으나, 기능적 음성장애와 신경학적 음성장애의 음성 신호도 포함되어 있었고, Type4는 기능적 음성장애는 거의 없었으며, 신경학적 음성장애가 가장 많이 차지하였다. 따라서 기질적, 신경학적 문제를 가진 장애 음성일수록 더 비주기적이고 혼돈 신호를 갖는 것으로 나타났다. Choi 등(2012)의 연구에서도 성대 반흔 환자의 대부분에서 Type2와 Type3 음성 신호를 보여, 기질적 음성장애에서 비주기적이며 혼돈 신호의 특성이 나타날 수 있음을 제시하였다.
따라서, MDVP에서는 ‘err'과 ‘Trk’과 같은 수치를 제공하지 않으므로, MDVP를 이용한 장애음성의 %jitter, %shimmer, HNR과 같은 음향학적 측정치를 구할 때 경도의 거의 주기적 장애 음성 신호 외에는 변동률 분석을 적용할 때 신뢰성에 문제가 있으므로 해석에 주의를 요함을 시사하였다.
여섯째, 장애 음성 신호별 GRBAS중 ‘G',’R','B'평정을 실시한 결과, 신호 간에 유의한 차이가 있었으며 Type1은 G0R0B0으로 정상 음질을 보였고, Type2에서 Type 4 음성 신호로 갈수록 전체 Grade뿐 아니라 조조성(R) 및 기식성(B)에서도 점수가 증가하여 음질이 나빠짐을 알 수 있었다. 따라서, 음성 신호 분류체계가 장애 음성의 중증도를 효과적으로 반영할 수 있을 것으로 사료된다.
또한, Type3> Type2>Type1순으로 D2값이 증가하여 카오스적인 특성이 많을수록 상관 차원이 높음을 알 수 있었다.
또한, 음성 신호별 ‘Err'은 Type 1은 6.18(±12.10), Type 2는 7.40(±22.50), Type 3은 79.24 (±123.89), Type 4는 152.38(±178.34)이었으며, 음성 신호 간 통계적으로 유의한 차이가 있었고(F(3, 66)=7.27, p<.001), 본페로니 사후 검정 후 다중 비교 결과, Type 4는 Type 1과 Type 2 음성 신호와 유의한 차이가 있었다(p<.001).
마지막으로, 본 연구에서 측정된 청지각적 변수 ‘G', ‘R', ‘B' 와 음향학적 변수 %jitter, %shimmer, SNR, D2, CPP, L/H ratio간 상관 분석을 실시한 결과, 모든 변수들 간에 유의한 상관 관계가 있었으며, 특히 비선형 동적 분석의 상관 차원(D2)과 캡스트럼 분석의 CPP값이 다른 변수들과 높은 상관관계를 보였으며, 다른 음향학적 변수와 비교하여 CPP측정치가 청지각적 평정인 ‘G', ‘R', ‘B'와 가장 상관관계가 높아 음질을 예측하는 가장 민감한 지표였다.
캡스트럼 분석치인 CPP는 조화음의 정도를 나타내므로 Type1과 같은 주기적인 음성일수록 두드러진 캡스트럼 정점을 나타내며, 반대로 장애음성의 중증도가 심할수록 낮은 CPP측정치를 보인다. 본 연구 결과, Type4의 음성 신호에서 가장 낮은 CPP값을 보였는데, 본 연구에서 Type4 음성 신호의 50%가 일측성 성대마비 환자로서 이는 비주기적이고 카오스적인 성대 진동으로 인하여 조화음에 비해 소음이 높은 신호의 성격을 반영해 줌을 알 수 있다. 이와 마찬가지로, Balasubra- manium 등(2011)도 일측성 성대마비 환자를 대상으로 CPP값을 측정하였는데, 정상군에 비해 낮은 CPP값을 보고하여 본 연구와 유사한 결과를 나타내었다.
하지만, Type 4음성 신호의 대부분은 상관계수 측정이 불가능하였는데 Type4음성 신호는 음질 문제가 매우 심각한 장애 음성군이 대부분으로 소음이 많이 포함된 매우 비선형적인 음성 신호로서 정량적 측정이 불가능하였다. 본 연구에서 Type 4 신호의 대부분은 일측성 성대마비 환자였는데, 성문폐쇄부전의 정도가 심하여 모음 연장 발성 시 성대를 통하여 소음의 발생이 매우 많았다.
따라서, D2값은 백색소음에서는 계속해서 증가하여 수렴하는 값이 없으므로 비선형 음성 신호에서는 이러한 성대 원음에서 발생하는 소음이 백색소음의 성격인지 아니면 결정론계에서 발생한 신호인지를 판별해 내는 것이 중요하다. 본 연구에서 Type 4와 같은 음성 신호는 소음과 같은 성격을 띠어 수렴하는 D2값이 없어 측정치를 구할 수 없었으므로, 이러한 신호라면 스팩트럼이나 캡스트럼과 같은 분석을 사용해서 분석하는 것이 바람직하며, Type2나 Type3과 같은 낮은 차원의 결정론계 신호라면 상관 차원과 같은 비선형 동역학 변수들을 통해 음성 신호의 동적 특성을 기술하는 것이 바람직함을 알 수 있었다. 최근 신경장애 및 뇌과학 연구에서도 간질이나 정신 분열, 치매, 파킨슨씨병과 같은 비선형적인 뇌파 분석에서 생체 신호의 동역학 특성을 기술하는 연구들이 이루어지고 있으며 정상인의 뇌파와 동역학 특징을 비교하거나 치료 전후의 결과를 비교함으로써 비선형 분석이 임상적으로 유용한 진단도구로 사용될 수 있음을 시사하였다(Yang et al.
따라서 시계열 데이터가 얼마나 복잡한가를 정량화해 주는 수치로 사용된다. 본 연구에서도 장애 음성의 대부분은 불규칙하고 복잡한 파형을 가졌으며, 이러한 특성은 위상공간 재구성에서 음성 신호 타입이 증가함에 따라 복잡한 형태로 구현되었다. 무한대의 변수를 갖는 확률론 계 소음은 위상공간의 차원을 늘릴수록 상관차원이 계속 늘어나는 반면, 결정론 계 신호는 일정한 값의 차원을 갖게 된다.
셋째, 장애 음성 신호의 카오스나 다양한 동적 특성을 정량적으로 분석하거나 정성적으로 기술하기 위하여 비선형 동적 분석을 실시하였을 때, 음성 신호 분류 체계에 따라 위상 공간재구성과 상관차원을 통하여 Type2, Type3, Type4의 음성 신호에서 비선형 특성인 카오스 운동이 있음을 확인할 수 있었다. 즉, 주기적인 신호인 Type1은 규칙적인 동적 특성을 보였으며, 비주기적이거나 카오스적인 비선형적 장애 음성 신호를 보이는 Type2나 Type 3, Type 4의 음성 신호는 매우 복잡하고 불규칙적인 동적 특성을 나타내었다.
여섯째, 장애 음성 신호별 GRBAS중 ‘G',’R','B'평정을 실시한 결과, 신호 간에 유의한 차이가 있었으며 Type1은 G0R0B0으로 정상 음질을 보였고, Type2에서 Type 4 음성 신호로 갈수록 전체 Grade뿐 아니라 조조성(R) 및 기식성(B)에서도 점수가 증가하여 음질이 나빠짐을 알 수 있었다.
은 음성 신호 별 CPP측정치의 예이며, 본 연구 결과, Type1> 2> 3> 4순으로 Type4의 CPP측정치가 통계적으로 가장 유의하게 낮았다(p<.001).
이상의 결과를 종합해 볼 때, 본 연구에서는 Type 1 신호만이 변동률 분석에 적합하였으며, Type2와 Type 3는 변동률 분석보다는 비선형 동적 분석이 유용하였으며, 캡스트럼분석은Type4의 장애음성신호까지도 신뢰로운 분석이 가능하여 모든 음성신호에 유용하였다. 따라서, 장애 음성을 효과적으로 분석하기 위해서는 음성 신호 분류가 매우 유용하며, 신호 분류 체계가 장애 음성의 중증도를 반영할 뿐 아니라, 장애 음성 신호에 맞는 적절한 음향학적 분석법을 적용하는 데 도움을 줄 수있을 것이다.
장애 음성 신호 간 ‘G' 점수에 차이가 있는 지 알아보기 위하여 교차분석을 실시한 결과, 통계적으로 유의한 차이가 있었다(X2=115.39, p<.001).
장애 음성 신호 간 캡스트럼 분석치인 CPP, CPP_sd, CPPf0, CPPf0_sd의 차이를 보기 위하여 다변량 분산 분석을 실시한 결과, 음성 신호 간에 모두 통계학적으로 유의한 차이가 있었다(p<.05).
음성장애 분류에 따른 성별, 연령별 인구학적 정보는 <표 1>과 같다. 종류별로는 기능성 음성장애가 34례로 가장 많았으며, 기질적 음성장애 16례, 신경학적 음성장애 20례였다.
셋째, 장애 음성 신호의 카오스나 다양한 동적 특성을 정량적으로 분석하거나 정성적으로 기술하기 위하여 비선형 동적 분석을 실시하였을 때, 음성 신호 분류 체계에 따라 위상 공간재구성과 상관차원을 통하여 Type2, Type3, Type4의 음성 신호에서 비선형 특성인 카오스 운동이 있음을 확인할 수 있었다. 즉, 주기적인 신호인 Type1은 규칙적인 동적 특성을 보였으며, 비주기적이거나 카오스적인 비선형적 장애 음성 신호를 보이는 Type2나 Type 3, Type 4의 음성 신호는 매우 복잡하고 불규칙적인 동적 특성을 나타내었다. 또한, Type3> Type2>Type1순으로 D2값이 증가하여 카오스적인 특성이 많을수록 상관 차원이 높음을 알 수 있었다.
첫째, 장애 음성 신호를 분류한 결과, 거의 주기적 신호인 Type 1은 대부분 기능적 음성장애였으며, Type2는 기질적 음성장애가 가장 많았으나, 기능적 음성장애와 신경학적 음성장애의 음성 신호도 포함되어 있었고, Type4는 기능적 음성장애는 거의 없었으며, 신경학적 음성장애가 가장 많이 차지하였다. 따라서 기질적, 신경학적 문제를 가진 장애 음성일수록 더 비주기적이고 혼돈 신호를 갖는 것으로 나타났다.
한편, TF32의 경우, 전통적인 음향학적 분석 방법인 변동률 분석 시에 변동률 분석의 신뢰성을 나타내는 ‘err'과 ‘Trk’의 수치를 제공하는데, 본 연구에서 ‘err'과 ‘Trk’를 측정한 결과, 음성 신호의 주파수의 드라마틱한 변동의 수를 나타내는 ‘Trk’는 Type 1의 경우 1.31±3.40으로 Type 1만이 10미만이었으며, Type2는 61.26± 101.28, Type3은 405.81±493.12, Type4는 1741(±539.17)로 나머지 장애 음성 신호는 10을 넘어 변동률 분석이 부적합 것으로 나타났으며, Type 1 음성 신호만이 변동률 분석에 적합하였다.
후속연구
이상의 결과를 종합해 볼 때, 본 연구에서는 Type 1 신호만이 변동률 분석에 적합하였으며, Type2와 Type 3는 변동률 분석보다는 비선형 동적 분석이 유용하였으며, 캡스트럼분석은Type4의 장애음성신호까지도 신뢰로운 분석이 가능하여 모든 음성신호에 유용하였다. 따라서, 장애 음성을 효과적으로 분석하기 위해서는 음성 신호 분류가 매우 유용하며, 신호 분류 체계가 장애 음성의 중증도를 반영할 뿐 아니라, 장애 음성 신호에 맞는 적절한 음향학적 분석법을 적용하는 데 도움을 줄 수있을 것이다. 또한, TF32와 같은 기존의 변동률 분석을 이용하여 모든 장애 음성을 진단하고 기술하는 데는 제한점이 있었으며, 성대에 기질적, 구조적 혹은 신경학적 문제가 있을수록 더 복잡하고 비주기적이며 비선형적인 신호의 형태를 보이므로 음성 신호 분류에 따라 비선형적 동적 분석이나 큐프렌시 기반분석에 의한 캡스트럼 분석과 같은 방법으로 장애 음성을 진단하고 그 특성을 효과적으로 기술할 수 있을 것으로 보인다.
따라서, 장애 음성을 효과적으로 분석하기 위해서는 음성 신호 분류가 매우 유용하며, 신호 분류 체계가 장애 음성의 중증도를 반영할 뿐 아니라, 장애 음성 신호에 맞는 적절한 음향학적 분석법을 적용하는 데 도움을 줄 수있을 것이다. 또한, TF32와 같은 기존의 변동률 분석을 이용하여 모든 장애 음성을 진단하고 기술하는 데는 제한점이 있었으며, 성대에 기질적, 구조적 혹은 신경학적 문제가 있을수록 더 복잡하고 비주기적이며 비선형적인 신호의 형태를 보이므로 음성 신호 분류에 따라 비선형적 동적 분석이나 큐프렌시 기반분석에 의한 캡스트럼 분석과 같은 방법으로 장애 음성을 진단하고 그 특성을 효과적으로 기술할 수 있을 것으로 보인다. 본 연구는 국내 임상에서 흔히 발생하는 음성 질환의 음성 데이터를 사용하여 장애 음성을 신호 체계에 따라 분류하고 음성 신호 분류 체계에 맞는 적절한 음향학적 분석 방법과 해석을 제시했다는 점에서 의의가 있으며, 청지각적 평가와 함께 음향학적 평가 시 임상 가이드라인을 위한 기초 자료로 유용할 것으로 보인다.
또한, TF32와 같은 기존의 변동률 분석을 이용하여 모든 장애 음성을 진단하고 기술하는 데는 제한점이 있었으며, 성대에 기질적, 구조적 혹은 신경학적 문제가 있을수록 더 복잡하고 비주기적이며 비선형적인 신호의 형태를 보이므로 음성 신호 분류에 따라 비선형적 동적 분석이나 큐프렌시 기반분석에 의한 캡스트럼 분석과 같은 방법으로 장애 음성을 진단하고 그 특성을 효과적으로 기술할 수 있을 것으로 보인다. 본 연구는 국내 임상에서 흔히 발생하는 음성 질환의 음성 데이터를 사용하여 장애 음성을 신호 체계에 따라 분류하고 음성 신호 분류 체계에 맞는 적절한 음향학적 분석 방법과 해석을 제시했다는 점에서 의의가 있으며, 청지각적 평가와 함께 음향학적 평가 시 임상 가이드라인을 위한 기초 자료로 유용할 것으로 보인다.
따라서, 장애 음성을 신호 분류 체계에 따라 분류하고 음성 신호별 장애 음성의 특징을 음향학적 분석인변동률 분석과 비선형 동적 분석 및 캡스트럼 분석을 이용하여 장애 음성의 음향학적 측정치들의 유용성과 제한점을 조사해 볼 필요가 있다. 아울러, 청지각적 평가와 음향학적 측정치를 비교하여 장애 음성의 음질 분석에 대한 민감한 지표를 찾아낼 수 있을 뿐 아니라 이러한 연구를 바탕으로 장애 음성의 음향학적 평가에 대한 임상 가이드 라인을 제시하기 위한 기초 자료로 활용할 수 있을 것이다.
또한 서인효· 성철재(2013)는 마비말장애 화자를 대상으로 연결발화에서 CPP를 측정하였으며, CPP가 중증도 및 ’G','R','S' 와 높은 상관을 보였다. 하지만, 본 연구는 모음 대상으로만 분석한 결과를 비교하였으므로, 추후 연구에서는 자발화와 함께 상관관계를 비교해 볼 수 있을 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
음향학적 평가의 특징은?
음성 평가에 대한 과학 기술의 진보와 함께 정상 음성으로부터 장애 음성을 판별하고 중증도에 따라 분류할 뿐 아니라, 장애 음성의 특성을 잘 기술하고, 성대의 생체 역학적(biomechanical) 변화에 민감하고, 진단과 치료 변화 여부에 임상적으로 유용한 음성 평가 파라미터를 찾아내는 일은 매우 중요하다. 이러한 관점에서, 음향학적 평가는 비침습적이고, 청지각적 평가를 보완할 수 있는 객관적인 방법이며, 녹음 절차가 간단하여 임상적으로 보편적으로 사용되고 있는 방법이다. 그러나, 최근 선행 연구들에 의하면, 임상과 연구에서 현재 널리 사용되고 있는 컴퓨터 기반 음성 프로그램인 MDVP (Multi -Dimensional Voice Program)이나 PRAAT에 의한 장애 음성의 음향학적 분석 결과, 개개의 측정 변수들에 의한 결과들이 두 프로그램 간에 상당한 차이가 있으며, MDVP를 사용했을 때 장애 음성의 약 20% 정도는 분석이 불가능하였고, 이러한 장애 음성들이 Type 2나 Type 3 음성 신호에 해당하는 것으로 나타났다(Carding et al.
MDVP를 사용한 음향분석이 가지는 특징은?
이러한 관점에서, 음향학적 평가는 비침습적이고, 청지각적 평가를 보완할 수 있는 객관적인 방법이며, 녹음 절차가 간단하여 임상적으로 보편적으로 사용되고 있는 방법이다. 그러나, 최근 선행 연구들에 의하면, 임상과 연구에서 현재 널리 사용되고 있는 컴퓨터 기반 음성 프로그램인 MDVP (Multi -Dimensional Voice Program)이나 PRAAT에 의한 장애 음성의 음향학적 분석 결과, 개개의 측정 변수들에 의한 결과들이 두 프로그램 간에 상당한 차이가 있으며, MDVP를 사용했을 때 장애 음성의 약 20% 정도는 분석이 불가능하였고, 이러한 장애 음성들이 Type 2나 Type 3 음성 신호에 해당하는 것으로 나타났다(Carding et al., 2004).
MDVP 및 전통적인 음향학적 분석이 가지는 한계는?
, 2004). 또한 대부분의 전통적인 음향학적 분석들은 주기적이거나 준주기적(quasi-periodic)인 Type 1 신호만이 신뢰성 있는 변동률(perturbation) 분석이 가능하므로(Titze, 1995), 모음 연장 발성에서도 안정된 부분에 한하여 분석을 해야 하는 제한점을 지니고 있다. 따라서, 비주기적이거나 비선형적인 음성 신호들은 정확한 기본주파수 추출을 기반으로 하는 시간을 기반으로 하는 분석(time-domain based analysis)인 jitter, shimmer, 조화비대잡음비(HNR 혹은 SNR)와 같은 변동률 분석을 이용하여 분석하는 데는 한계가 있다.
참고문헌 (17)
Awan, S.N., & Roy, N. (2005). Acoustic prediction of voice type in women with functional dysphonia. Journal of Voice, 19(2), 268-82.
Balasubramanium, R. K., Bhat, J. S., Fahim, I. S., & Raju, I.R. (2011). Cepstral analysis of voice in unilateral adductor vocal fold palsy. Journal of Voice, 25(3), 326-329.
Carding, P.N., Steen, I.N., Webb, A., MacKenzie, K., Deary, I.J., & Wilson, J.A. (2004). The reliability and sensitivity to change of acoustic measures of voice quality. Clinical Otolaryngology and allied Sciences, 29(5), 538-44.
Choi, S. H., Zhang, Y., Jiang, J.J., Bless, D.M., & Welham, N.V. (2012). Nonlinear dynamic-based analysis of severe dysphonia in patients with vocal fold scar and sulcus vocalis. Journal of Voice, 26(5), 566-576.
Heman-Ackah, Y.D., Heuer, R.J., Michael, D.D., Ostrowski, R., Horman, M., Baroody, M.M., & Sataloff, R.T. (2003). Cepstral peak prominence: a more reliable measure of dysphonia. The Annals of Otology, Rhinology, and Laryngology, 112(4), 324-333.
Kang, Y., & Seong, C. (2012). A cepstral analysis of breathy voice with vocal fold paralysis. Journal of the Korean Society of Speech Sciences 4(2), 89-94. (강영애.성철재(2012). 성대마비로 인한 기식 음성에 대한 Cepstral 분석. 말소리와 음성과학, 4(2), 89-94).
Maryn, Y., Roy, N., De Bodt M., Van Cauwenberge, P., & Corthals, P. (2009). Acoustic measurement of overall voice quality: a meta-analysis. Journal of the Acoustical Society of America. 126(5), 2619-2634.
Seo, I., & Seong, C. (2013). Voice quality of dysarthric speakers in connected speech. Journal of the Korean Society of Speech Sciences, 5(4), 33-41. (서인효.성철재(2013). 연결발화에서 마비말화자의 음질 특성. 말소리와 음성과학, 5(4), 33-41.)
Shim, H. J., Jang, H. R., Shin, H. B., & Ko, D.H. (2014). Spectral and Cepstral analyses of Esophageal Speakers. Journal of the Korean Society of Speech Sciences, 6(2), 47-54. (심희정, 장효령, 신희백, 고도흥(2014). 식도발성화자 음성의 spectral & cepstrum 분석. 말소리와 음성과학, 6(2), 47-54.)
Sprecher, A., Olszewski, A., Jiang, J.J., & Zhang, Y. (2010). Updating signal typing in voice: addition of type 4 signals. Journal of Acoustical Society of America, 127(6), 3710-16.
Zhang, Y., & Jiang, J.J. (2008). Acoustic analyses of sustained and running voices from patients with laryngeal pathologies. Journal of Voice, 22, 1-9.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.