Diplophonia is generally defined as the perception of more than one fundamental frequency component in a voice. Its perceptual aspect has traditionally been used to evaluate diplophonia because the perceptions can be easily evaluated, but there are limitations in the validity of the reliability of t...
Diplophonia is generally defined as the perception of more than one fundamental frequency component in a voice. Its perceptual aspect has traditionally been used to evaluate diplophonia because the perceptions can be easily evaluated, but there are limitations in the validity of the reliability of the intra- and inter-raters, examination situation, and variation of voice sample. Therefore, the purpose of this study is to confirm the reliability and accuracy of auditory perceptual evaluation by comparing non-invasive indirect assessment methods (sound waveform and EGG analysis), and to identify their usefulness with diplophonia. A total of 28 diplophonic voices and 39 non-periodic voices were assessed. Three raters assessed the diplophonia by performing an auditory perception evaluation and identifying the quasi-periodic perturbations of the acoustic waveform and EGG. Among the three discrimination methods, intra- and inter-rater reliability, sensitivity, specificity, accuracy, positive likelihood ratio, and negative likelihood ratio were examined, and the McNemar test was performed to compare the discriminant agreement. The accuracy of the auditory perceptual evaluation (86.57%) was not significantly different from that of sound waveform acoustic (88.06%), but it was significantly different from that of EGG (83.33%). The reading time (6.02 s) for the auditory perceptual evaluation was significantly different from that for sound waveform analysis (30.15 s) and EGG analysis (16.41 s). In the discrimination of diplophonia, auditory perceptual evaluation has sufficient reliability and accuracy as compared to sound waveform and EGG. Since immediate feedback is possible, auditory perceptual evaluation is more convenient. Therefore, it can continue to be used as a tool to discriminate diplophonia in clinical practice.
Diplophonia is generally defined as the perception of more than one fundamental frequency component in a voice. Its perceptual aspect has traditionally been used to evaluate diplophonia because the perceptions can be easily evaluated, but there are limitations in the validity of the reliability of the intra- and inter-raters, examination situation, and variation of voice sample. Therefore, the purpose of this study is to confirm the reliability and accuracy of auditory perceptual evaluation by comparing non-invasive indirect assessment methods (sound waveform and EGG analysis), and to identify their usefulness with diplophonia. A total of 28 diplophonic voices and 39 non-periodic voices were assessed. Three raters assessed the diplophonia by performing an auditory perception evaluation and identifying the quasi-periodic perturbations of the acoustic waveform and EGG. Among the three discrimination methods, intra- and inter-rater reliability, sensitivity, specificity, accuracy, positive likelihood ratio, and negative likelihood ratio were examined, and the McNemar test was performed to compare the discriminant agreement. The accuracy of the auditory perceptual evaluation (86.57%) was not significantly different from that of sound waveform acoustic (88.06%), but it was significantly different from that of EGG (83.33%). The reading time (6.02 s) for the auditory perceptual evaluation was significantly different from that for sound waveform analysis (30.15 s) and EGG analysis (16.41 s). In the discrimination of diplophonia, auditory perceptual evaluation has sufficient reliability and accuracy as compared to sound waveform and EGG. Since immediate feedback is possible, auditory perceptual evaluation is more convenient. Therefore, it can continue to be used as a tool to discriminate diplophonia in clinical practice.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
따라서, 이중음성 판별에 있어 청지각적 평가의 임상적 유용성을 검증할 필요가 있다. 이를 위해, 이 연구에서는 비침습적인 간접적 평가방법 중, 이중음성 평가의 선행 연구들에서 사용되었던 청지각적 평가, 음성파형 분석, 전기성문파형 분석의 신뢰도, 정확도, 편리성을 비교함으로 청지각적 평가의 임상적 의의를 확인해 보고자 한다.
제안 방법
셋째, 음향학적 분석을 통하여 음성파형에서 준주기적 섭동과 협대역 스팩트로그램에서 서브하모닉이 나타나는 음성을 이중음성으로 분류하였다[5]. 넷째, 전기성문파형검사에서 준주기적 진동이 메타사이클로 관찰되는 샘플을 이중음성으로 분류하였다[6]. 다섯째, 하이스피드비디 오내시경 검사 상 비대칭적인 성대진동수를 나타내는 경우를 이중음성으로 분류하였다[7].
넷째, 전기성문파형검사에서 준주기적 진동이 메타사이클로 관찰되는 샘플을 이중음성으로 분류하였다[6]. 다섯째, 하이스피드비디 오내시경 검사 상 비대칭적인 성대진동수를 나타내는 경우를 이중음성으로 분류하였다[7].
동일한 음성샘플에 대한 청지각적 평가, 음성파형 분석, eletroglottograph(이하 EGG) 분석을 위하여 EGG(6103, Kay, NJ)와 마이크로폰(SM48, Shure, IL)을 다채널 정보 습득이 가능한 PCquirer 516(Scicon R&D, CA)에 연결하여 음성과 전기성문파형을 동시에 획득하였다().
첫째, 정상인 음성은 연구에서 제외하였고, 둘째, 병리적 음성을 청지각적으로 평가하여 두 개의 음도로 지각되는 음성을 이중음성으로 분류하였다[3]. 셋째, 음향학적 분석을 통하여 음성파형에서 준주기적 섭동과 협대역 스팩트로그램에서 서브하모닉이 나타나는 음성을 이중음성으로 분류하였다[5]. 넷째, 전기성문파형검사에서 준주기적 진동이 메타사이클로 관찰되는 샘플을 이중음성으로 분류하였다[6].
음성샘플은 다채널 평가시스템을 이용하여 대상자가 편안한 강도와 음도에서 연장 모음 /이/ 또는 /에/를 발성하는 동안 자료를 수집하였다.
음성파형 분석은 메타사이클의 준주기적 교란을 발견하기 위하여와 같이, Praat 6.0.16 (Paul Boersma and David Weenink, Institute for Phonetic Sciences, University of Amsterdam, The Netherlands)을 이용하여 확장된 음성파형에서 구간을 이동하면서 이중음성을 감별하였다[6], [16].
그림 3. 음성파형과 전기성문파형의 분석. A: 정성성인 (남/36)
이 연구에서는 이러한 제한점들을 확인하고자 청지각적 평가와 더불어 비침습적 방법인 음성파형 분석과 전기성문파형 분석을 실시하였고, 청지각적 평가의 신뢰도, 판별일치도, 판별 편리성을 비교 분석하였다. 연구의 결론은 다음과 같다.
실제적 의미에서의 황금기준이란 비록 완벽하지는 않지만, 현재의 지식과 기술을 고려하여 비교적 정확도가 높다고 인정된 방법을 적용하였을 때 나타나는 결과에 의한 판정기준을 일컫는다. 이런 의미에서 전통적으로 인정되어 오던 청지각적 평가, 음향학적 분석, 전기성문파형 검사의 진단에서 모두 이중음성으로 나온 음성샘플을 황금기준으로 두고 세 가지 평가 측도의 진단상의 상대적 감별 능력을 비교 평가하는 데 사용하였다. <표 2>의 식을 이용하여 각 판별 방법의 민감도(sensitivity), 특이도(specificity), 정확도(accuracy), 양성우도비(LR+, positive likelihood ratio), 음성우도비(LR-, negative likelihood ratio)를 살펴보았고, 판별 방법들 간에 성능에 차이를 살펴보기 위하여 이중 음성에 대한 두 진단평가 측도의 감별일치도는 차이가 없다라는 귀무가설 하에 맥니마 검정(McNemar's test)을 시행하였다.
첫째, 정상인 음성은 연구에서 제외하였고, 둘째, 병리적 음성을 청지각적으로 평가하여 두 개의 음도로 지각되는 음성을 이중음성으로 분류하였다[3]. 셋째, 음향학적 분석을 통하여 음성파형에서 준주기적 섭동과 협대역 스팩트로그램에서 서브하모닉이 나타나는 음성을 이중음성으로 분류하였다[5].
청지각적 평가, 음성파형을 이용한 평가, 전기성문파형을 이용한 평가, 총 3 가지 방법을 사용하였고, 결과는 이중음성의 출현 유무에 따라 이중음성(+)과 비주기적 음성(–)으로 평가하였다.
청지각적 평가는 Alvin[15]을 연구목적에 맞게 수정하여 사용하였다. 평가자들은 샘플을 듣고 두 개의 음도가 동시에 지각되는 것을 양성으로 정의하여 이중음성을 판별하였다[3].
판별 방법 간의 편리성은 샘플을 제시하고, 평가자가 판독결과를 표시하는 데까지 소요된 시간을 측정하여 비교하였다. 청지각적 평가는 Alvin에 저장된 판독시간을 활용하였고, 음성파형과 EGG는 스톱워치를 이용하여 측정하였다.
판별 방법에 따른 정확도를 비교하기 위하여, 사전평가를 통하여 황금기준이 되는 이중음성 28 개, 이중음성 39 개, 총 67 개의 샘플을 선정하였고, 이중음성을 양성으로 하여 이중음성과 비주기적 샘플의 판별 결과를 혼동 행렬의 이진 분류 척도로 95% 신뢰 구간에서 분석하였다.
판별 방법에 따른 신뢰도를 비교하기 위하여, 이중음성 샘플의 평가자 간과 평가자 내 신뢰도를 급내 상관계수(ICC, intraclass correlation coefficient)로 평가하였다. 평가자 내 신뢰도를 보기 위하여 20 개의 음성샘플을 무선 수집하여 반복 평가하였다.
평가자들은 샘플을 듣고 두 개의 음도가 동시에 지각되는 것을 양성으로 정의하여 이중음성을 판별하였다[3]. 평가자들의 필요에 따라 음성샘플을 반복 청취 가능하도록 하였고, 판별결과와 시간은 자동으로 저장되도록 하였다. 음성파형 분석은 메타사이클의 준주기적 교란을 발견하기 위하여와 <그림 2>같이, Praat 6.
대상 데이터
부산소재 대학병원에 내원한 환자 중 이비인후과 전문의에 의하여 후두질환으로 진단된 환자 중 이중음성(준주기적 음성) 28 명과 대조군으로 비주기적 음성 39 명, 총 67 명(평균연령 56.48± 12.45)의 음성샘플을 연구에 사용하였다().
샘플 선정을 위하여 한 명의 이비인후과 전문의와 한 명의 언어재활사가 참여하였고, 선행 연구들을 참조하여 다음의 기준을 모두 충족하는 샘플을 이중음성으로 선별하였다.
데이터처리
의 식을 이용하여 각 판별 방법의 민감도(sensitivity), 특이도(specificity), 정확도(accuracy), 양성우도비(LR+, positive likelihood ratio), 음성우도비(LR-, negative likelihood ratio)를 살펴보았고, 판별 방법들 간에 성능에 차이를 살펴보기 위하여 이중 음성에 대한 두 진단평가 측도의 감별일치도는 차이가 없다라는 귀무가설 하에 맥니마 검정(McNemar's test)을 시행하였다.
판별 방법에 따른 신뢰도를 비교하기 위하여, 이중음성 샘플의 평가자 간과 평가자 내 신뢰도를 급내 상관계수(ICC, intraclass correlation coefficient)로 평가하였다. 평가자 내 신뢰도를 보기 위하여 20 개의 음성샘플을 무선 수집하여 반복 평가하였다.
판별 방법에 따른 편리성을 비교하기 위하여, 이중음성 샘플 의 판독시간을 일원배치 분산분석(one-way ANOVA)으로 검증 하였고, 튜키의 정직 유의차 검정(Tukey’s honestly significant difference)을 이용하여 사후분석을 실시하였다.
이론/모형
16 (Paul Boersma and David Weenink, Institute for Phonetic Sciences, University of Amsterdam, The Netherlands)을 이용하여 확장된 음성파형에서 구간을 이동하면서 이중음성을 감별하였다[6], [16]. EGG 분석은 성문파형에서 메타사이클의 준주기적 교란을 발견하기 위하여 PCquire의 분석 소포트웨어를 이용하였다[5], [8]. <그림 3B>와 같이, 음성파형은 준주기적 교란의 파형이 연속적으로 3 개 이상 관찰될 때를 양성을 정의하여 이중음성으로 판별하였고, EGG도 동일한 기준으로 판별하였다.
판별 방법 간의 편리성은 샘플을 제시하고, 평가자가 판독결과를 표시하는 데까지 소요된 시간을 측정하여 비교하였다. 청지각적 평가는 Alvin에 저장된 판독시간을 활용하였고, 음성파형과 EGG는 스톱워치를 이용하여 측정하였다.
성능/효과
청지각적 평가의 검사자 간 신뢰도가 다른 평가방법에 비해 낮게 나타났으나, 95% 신뢰구간 내에서 세 평가 방법 간에 차이는 없었다. 검사자내 신뢰도는 음성파형이 가장 높게 나타났고, 청지각적 평가와 95% 신뢰구간에서 유의한 차이가 있었다.
둘째, 청지각적 평가는 비교적 높은 정확도를 보였으며, 음성 파형 분석의 정확도가 가장 높게 나타났다. 판별일치도를 비교한 결과, 청지각적 평가와 음성파형 분석 간에 차이가 없어 유사한 판별능력을 나타내 주었다[19].
세 가지 방법으로 이중음성과 비주기적 음성을 판별한 결과(), 민감도는 음성파형 94.87%, 청지각적 평가 92.31%, 전기성문파형 89.74% 순으로 나타났다.
셋째, 판독시간은 청지각적 평가가 가장 빠른 것으로 나타났다. 이중음성을 진단하는 직간접적 방법들이 있지만, 내시경을 이용한 직접적 관찰방법은 침습적이며, 주기 대 주기 분석이 가능한 검사들은 검사 및 판독까지 많은 시간이 소모된다.
43% 순으로 나타났 다. 정확도는 음성파형 88.06%, 청지각적 평가 86.57%, 전기성문파형 83.33% 순으로 나타났다. 양성우도비는 음성파형 15.
첫째, 청지각적 평가의 검사자 내와 검사자간 신뢰도는 .75 이상으로 다른 방법들과 비교하여 신뢰할만한 결과를 나타내 었다. 심리적 표상에 기반을 둔 청지각적 평가는 직관적인 의미가 있어 다른 도구적 평가보다 쉽게 평가할 수 있고, 그로 인해 임상적으로 널리 사용되고 있다.
청지각적 평가는 전기성문파형 분석보다는 높은 판별능력을 보여주었다. Dejonckere와 Lebacq[3]는 전기성문파형검사를 통하여 이중음성을 가진 대상자에게서 연속적으로 세 개의 다른 정점을 가진 파형이 주기적으로 반복되는 것을 보고하였다.
74% 순으로 나타났다. 특이도는 청지각적 평가 89.29%, 음성파형 78.27%, 전기성문파형 71.43% 순으로 나타났 다. 정확도는 음성파형 88.
판독 시간은 청지각적 평가는 평균 6.02 초(±1.12), 전기성문파형은 평균 16.41 초(±7.12), 음성파형은 평균 30.15 초(±10.41) 순으로 판독 시간이 길었다.
판별 방법에 따른 일치도를 비교하기 위해 맥니마 검정을 실시한 결과, 청지각적 평가는 음성파형 분석과 유의미한 차이가 없었고, 전기성문파형 분석과는 유의미한 차이가 있었다(p<.001).
판별 편리성을 비교하기 위하여 판독에 걸리는 시간을 일원배치 분산분석을 이용하여 비교한 결과, 세 가지 판별 방법 간에는 검사 결과를 판별하기까지 소요되는 시간은 통계적으로 유의한 차이(p<.001)를 보이는 것으로 나타났다().
후속연구
이중음성 판별에 있어 청지각적 평가는 신뢰도와 정확도 측면에서 적절한 것으로 나타났고, 사용성 측면에서 간편하게 임상에 적용할 수 있어 여전히 임상 현장에서 유용하게 사용될 수 있다. 그러나 보다 정확한 평가를 위해서 주기 대 주기 분석이 가능한 시공간적 평가 방법들과 함께 사용되어야 할 것이다.
더 나은 연구를 위해, 하이스피드 비디오내시경 기반의 다른 평가 방법들과의 비교가 필요할 것으로 보이며, 질환에 따른 이중음성의 특성을 살펴볼 필요가 있을 것으로 사료된다.
청지각적 평가가 신뢰할만한 결과를 나타내었지만, 보다 정확한 평가를 위해서는 후두경을 이용한 성대진동의 직접적 관찰이 실시되어야 할 것이다. 전통적으로 많이 이용되고 있는 스트로보스코피의 경우는 주기별로 하나의 이미지를 추출하여 가상의 영상을 만들어 내기 때문에 이중음성 평가에는 적절하지 않다[20].
질의응답
핵심어
질문
논문에서 추출한 답변
이중음성은 무엇인가?
이중음성은 일반적으로 발성 시 청지각적으로 두 개의 음도로 지각되는 음성으로 이는 질병의 특성이라기보다 음성 증상의 하나로 간주될 수 있다. 두 개의 음도로 지각되는 이중음성은 아직까지 합의된 정의는 없으며, 지각적, 음향학적, 생리학적 측면에서 정의될 수 있다.
주기 대 주기의 변화를 보아야 하는 이중음성 평가에 사용되는 방법은 무엇인가?
전통적으로 많이 이용되고 있는 스트로보스코피의 경우는 주기별로 하나의 이미지를 추출하여 가상의 영상을 만들어 내기 때문에 이중음성 평가에는 적절하지 않다[20]. 주기 대 주기의 변화를 보아야 하는 이중음성 평가에는 디지털 카이모그래피, 평면 스캐닝 디지털 카이모그래피, 성문영역파형, 나이퀴스트 플롯 등 하이스피드 비디오내시경을 이용한 후처리 방법들이 유용하게 활용되고 있다[21], [22]. 그러나 이러한 평가들은 본질적으로 하이스피드 비디오내시경을 기반으로 만들어지기 때문에 검사시간과 과정의 복잡성 등으로 임상환경에서 적용하기에 어려움이 있다[11].
이중음성의 모든 정의는 임상적 사용에 내포된 문제는 무엇인가?
이중음성의 모든 정의는 임상적 사용에 문제가 있다. 두 가지 음도의 존재라는 지각적 정의는 객관성 측면에서 제한점이 있 고, 음성파형의 정의는 주기 탐지와 음원의 독립적 결정에서 해결되지 않은 문제를 가지고 있다[12]. 성문 진동 수준에서 정의는 관찰 방법의 제약으로 어려움이 있다
참고문헌 (22)
Behrnman, A., Agresti, C., Blumstein, E., & Lee, N. (1998). Microphone and electroglottographic data from dysphonic patients: Type 1, 2 and 3 signals. Journal of Voice, 12(2), 249-260.
Moore, B. (2008). Basic auditory processes involved in the analysis of speech sounds. Philosophical Transactions of the Royal Society of London. Series B: Biological Sciences, 363 (1493), 947-963.
Cavalli, L., & Hirson, A. (1999). Diplophonia reappraised. Journal of Voice, 13(4), 542-556.
Yan, Y., Damrose, E., & Bless, D. (2007). Functional analysis of voice using simultaneous high-speed imaging and acoustic recordings. Journal of Voice, 21(5), 604-616.
Hirose, H., Kiritani, S., & Imagawa, H. (2002). Neurogenic diplophonia: A high-speed digital image analysis. Asia Pacific Journal of Speech, Language, and Hearing, 7(2), 71-78.
Kang, D., Wang, S., Park, H., Lee, J., Jeon, G., Choi, I., Kim, S., & Shin, B. (2017). Real-time simultaneous DKG and 2D DKG using high-speed digital camera. Journal of Voice, 31(2), 247.e1-247.e7.
Carding, P., Steen, I., Webb, A., Mackenzie, K., Deary, I., & Wilson, J. (2004). The reliability and sensitivity to change of acoustic measures of voice quality. Clinical Otolaryngology & Allied Sciences, 29(5), 538-544.
Kent, R. (1996). Hearing and believing: Some limits to the auditory-perceptual assessment of speech and voice disorders. American Journal of Speech-Language Pathology, 5(3), 7-23.
Bae, I., Kim, G., Lee, Y., Park, H., Kim, J., Lee, I., & Kwon, S. (2015). The effect on intervention program and auditory-perceptual discrimination feature of postlingual cochlear implant adults about pathological voice. Phonetics and Speech Science, 7(2), 9-17. (배인호.김근효.이연우.박희준.김진동.이일우.권순복 (2015). 병리적 음성에 대한 언어습득 이후 인공와우이식 성인의 청지각적 변별특성과 중재 프로그램의 효과. 말소리와 음성과학, 7(2), 9-17.)
Hillenbrand, J., & Gayvert, R. (2005). Open source software for experiment design and control. Journal of Speech, Language, and Hearing Research, 48(1), 45-60.
Hong, K., & Kim, H. (1999). Diplophonia in unilateral vocal fold paralysis and intracordal cyst. Otolaryngology - Head and Neck Surgery, 121(6), 815-819.
Lee, O., & Kim, S. (2009). A comparison of three equally-appearing interval scales for auditory-perceptual evaluation: preliminary study. Journal of Speech-Language & Hearing Disorder, 18(2), 1-15. (이옥분.김소연 (2009). 음성장애 청지각적 평가를 위한 등간척도법 비교. 언어치료연구, 18(2), 1-15.)
Keating, P., Garellek, M., & Kreiman, J. (2015). Acoustic properties of different kinds of creaky voice. Proceedings of the 18th International Congress of Phonetic Sciences, Glasgow, UK. 10-14 August, 2015.
Kim, G., Lee, Y., Bae, I., Park, H., Lee, J., Wang, S., & Kwon, S. (2016). A cepstral analysis of voices with glottic cancer and laryngeal leukoplakia: Sustained vowels and continuous speech. Journal of Speech-Language & Hearing Disorder, 25(3), 135-145. (김근효.이연우.배인호.박희준.이재석.왕수건.권순복 (2016). 성문암과 후두백반증 음성의 켑스트럼 분석 및 청지각적 평가: 연장모음과 연속발화. 언어치료연구, 25(3), 135-145.)
Deliyski, D., Petrushev, P., Bonilha, H., Gerlach, T., Martin-Harris, B., & Hillman, R. (2008). Clinical implementation of laryngeal high-speed videoendoscopy: Challenges and evolution. Folia Phoniatrica et Logopaedica, 60(1), 33-44.
Lee, J., Wang, S., Sung, E., Bae, I., Kim, T., & Lee, W. (2017). (in press). Clinical practicability of a newly developed real-time digital kymographic system. Journal of Voice.
Bae, I., Wang, S., Lee, J., Sung, E., Kim, S., Lee, Y., Kang, D., & Wang, Y. (2018). (in press) Efficacy of two-dimensional scanning digital kymography in evaluation of atrophic vocal folds. Journal of Voice.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.