Background and Objectives : Laryngeal cancer discrimination using voice signals is a non-invasive method that can carry out the examination rapidly and simply without giving discomfort to the patients. n appropriate analysis parameters and classifiers are developed, this method can be used effective...
Background and Objectives : Laryngeal cancer discrimination using voice signals is a non-invasive method that can carry out the examination rapidly and simply without giving discomfort to the patients. n appropriate analysis parameters and classifiers are developed, this method can be used effectively in various applications including telemedicine. This study examines voice analysis parameters used for laryngeal disease discrimination to help discriminate laryngeal diseases by voice signal analysis. The study also estimates the laryngeal cancer discrimination activity of the Gaussian mixture model (GMM) classifier based on the statistical modelling of voice analysis parameters. Materials and Methods : The Multi-dimensional voice program (MDVP) parameters, which have been widely used for the analysis of laryngeal cancer voice, sometimes fail to analyze the voice of a laryngeal cancer patient whose cycle is seriously damaged. Accordingly, it is necessary to develop a new method that enables an analysis of high reliability for the voice signals that cannot be analyzed by the MDVP. To conduct the experiments of laryngeal cancer discrimination, the authors used three types of voices collected at the Department of Otorhinorlaryngology, Pusan National University Hospital. 50 normal males voice data, 50 voices of males with benign laryngeal diseases and 105 voices of males laryngeal cancer. In addition, the experiment also included 11 voices data of males with laryngeal cancer that cannot be analyzed by the MDVP, Only monosyllabic vowel /a/ was used as voice data. Since there were only 11 voices of laryngeal cancer patients that cannot be analyzed by the MDVP, those voices were used only for discrimination. This study examined the linear predictive cepstral coefficients (LPCC) and the met-frequency cepstral coefficients (MFCC) that are the two major cepstrum analysis methods in the area of acoustic recognition. Results : The results showed that this met frequency scaling process was effective in acoustic recognition but not useful for laryngeal cancer discrimination. Accordingly, the linear frequency cepstral coefficients (LFCC) that excluded the met frequency scaling from the MFCC was introduced. The LFCC showed more excellent discrimination activity rather than the MFCC in predictability of laryngeal cancer. Conclusion : In conclusion, the parameters applied in this study could discriminate accurately even the terminal laryngeal cancer whose periodicity is disturbed. Also it is thought that future studies on various classification algorithms and parameters representing pathophysiology of vocal cords will make it possible to discriminate benign laryngeal diseases as well, in addition to laryngeal cancer.
Background and Objectives : Laryngeal cancer discrimination using voice signals is a non-invasive method that can carry out the examination rapidly and simply without giving discomfort to the patients. n appropriate analysis parameters and classifiers are developed, this method can be used effectively in various applications including telemedicine. This study examines voice analysis parameters used for laryngeal disease discrimination to help discriminate laryngeal diseases by voice signal analysis. The study also estimates the laryngeal cancer discrimination activity of the Gaussian mixture model (GMM) classifier based on the statistical modelling of voice analysis parameters. Materials and Methods : The Multi-dimensional voice program (MDVP) parameters, which have been widely used for the analysis of laryngeal cancer voice, sometimes fail to analyze the voice of a laryngeal cancer patient whose cycle is seriously damaged. Accordingly, it is necessary to develop a new method that enables an analysis of high reliability for the voice signals that cannot be analyzed by the MDVP. To conduct the experiments of laryngeal cancer discrimination, the authors used three types of voices collected at the Department of Otorhinorlaryngology, Pusan National University Hospital. 50 normal males voice data, 50 voices of males with benign laryngeal diseases and 105 voices of males laryngeal cancer. In addition, the experiment also included 11 voices data of males with laryngeal cancer that cannot be analyzed by the MDVP, Only monosyllabic vowel /a/ was used as voice data. Since there were only 11 voices of laryngeal cancer patients that cannot be analyzed by the MDVP, those voices were used only for discrimination. This study examined the linear predictive cepstral coefficients (LPCC) and the met-frequency cepstral coefficients (MFCC) that are the two major cepstrum analysis methods in the area of acoustic recognition. Results : The results showed that this met frequency scaling process was effective in acoustic recognition but not useful for laryngeal cancer discrimination. Accordingly, the linear frequency cepstral coefficients (LFCC) that excluded the met frequency scaling from the MFCC was introduced. The LFCC showed more excellent discrimination activity rather than the MFCC in predictability of laryngeal cancer. Conclusion : In conclusion, the parameters applied in this study could discriminate accurately even the terminal laryngeal cancer whose periodicity is disturbed. Also it is thought that future studies on various classification algorithms and parameters representing pathophysiology of vocal cords will make it possible to discriminate benign laryngeal diseases as well, in addition to laryngeal cancer.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이에 관한 기존 연구도 없는 실정이다. 따라서 본 논문에서는 후두암 음성감별에 mel scale의 유용성 여부를 파악하기 위해 MFCC와 LFCC의 성능을 실험을 통해 비교하였다. LFCC 특징 파라미터를 추출하는 과정은 다음과 같다(Fig.
분석 자체가 불가능해지는 문제점이 있다. 본 논문에서는 MDVP 분석이 불가능할 정도로 주기성이 훼손된 음성에 대해 효과적인 감별이 가능한 신뢰도 높은 분석 방법으로서, 음성인식 분야에서 널리 사용되어 온 켑스트럼 (cep strum) 파라미터 분석방법을 검토하였다. 실제로 음성인식 분야에 주로 사용되는 특징 파라미터는 linear predictive cepstral coefficients (LPCC) mel-frequency cepstral coefficients(MFCC)이며, 9" 본 논문에서는 이들과 더불어 MFCC의 변형된 형태인 linear frequency cepstral coefficients (LFCC) < 함께 검토하였다.
실제로 음성인식 분야에 주로 사용되는 특징 파라미터는 linear predictive cepstral coefficients (LPCC) mel-frequency cepstral coefficients(MFCC)이며, 9" 본 논문에서는 이들과 더불어 MFCC의 변형된 형태인 linear frequency cepstral coefficients (LFCC) < 함께 검토하였다. 이들 파라미터 분석 결과로부터 정상 음성 및 양성 후두질환 음성, 그리고 악성 후두질환 음성을 Gaussian mixture model(GMM)로 모델링한 GMM분류기를 통해 후두암 여부를 감별하고자 본연구를 시행하였다.
제안 방법
본 논문에서는 MDVP 분석이 불가능할 정도로 주기성이 훼손된 음성에 대해 효과적인 감별이 가능한 신뢰도 높은 분석 방법으로서, 음성인식 분야에서 널리 사용되어 온 켑스트럼 (cep strum) 파라미터 분석방법을 검토하였다. 실제로 음성인식 분야에 주로 사용되는 특징 파라미터는 linear predictive cepstral coefficients (LPCC) mel-frequency cepstral coefficients(MFCC)이며, 9" 본 논문에서는 이들과 더불어 MFCC의 변형된 형태인 linear frequency cepstral coefficients (LFCC) < 함께 검토하였다. 이들 파라미터 분석 결과로부터 정상 음성 및 양성 후두질환 음성, 그리고 악성 후두질환 음성을 Gaussian mixture model(GMM)로 모델링한 GMM분류기를 통해 후두암 여부를 감별하고자 본연구를 시행하였다.
97로 하였다. GMM 분류기의 훈련은 프레임 단위로 수행하고, 감별과정 역시 1차적으로 프레임 단위로 확률을 계산한 다음 전체 구간에 대해 누적 log 확률값을 구해서 발화 단위로 감별 판정을 하였다. 실험 결과는 후두암 전체 음성 데이터에 대해, 그리고 MDVP 분석이 불가능한 후두암 음성 데이터에 대해 민감도(sensitivity), 특이도(specificity) 및 예측도 (predictability) 를 구하였다.
5에 나타나 있다. 그림에서 볼 수 있듯이 GMM 분류기에서의 mixture 수를 1에서 10까지 증가시켜 가면서 실험을 하였다(Mixture의 수가 늘어나면 모델의 정밀성이 높아지지만, 제한된 데이터에 대해 추정해야 할 모델 파라미터의 수가 증가되므로 추정된 파라미터의 신뢰도가 떨어질 수 있다). 실험 결과, LPCC, MFCC 및 LFCC를 이용한 최고 예측도가 각각 91.
따라서 MDVP 분석이 불가능한 음성 신호에 대해서도 신뢰성이 높고 분석이 가능한 음성분석 방법이 필요하며, 본 논문에서는 이 문제의 해결을 위해 켑스트럼 파라미터들을 사용하였다.
실험결과의 일관성을 높이기 위해 학습 및 감별에 사용한 음성 데이터는 다수의 세트를 무작위로 선정하여 5번 실험을 수행한 후 이들의 평균 감별결과를 계산하였다. 음성 데이터의 샘플링 주파수는 16kHz이며, 양자화 비트 수는 16비트를 사용하였다.
대상 데이터
105개를 사용하였다. 그 외에도 기존의 MDVP (Multi-dimensional voice program) 분석이 불가능한 후두암 환자 남성 음성 데이터 11개도 포함하였다. 음성 데이터는 단모음 /아/ 발성만을 사용하였고, 정상인과 양성 후두질환 환자, 그리고 MDVP 분석이 가능한 후두암 환자 음성 데이터 중 2/3는 학습에, 나머지 1/3은 감별실험에 사용하였다.
본 논문에서는 후두암 감별 실험을 위해 부산대학교병원 이비인후과에서 수집한 정상 남자 음성 데이터 50개, 양성 후두질환 남자 음성 데이터 50개 및 남성 후두암환자 음성데이터 105개를 사용하였다. 그 외에도 기존의 MDVP (Multi-dimensional voice program) 분석이 불가능한 후두암 환자 남성 음성 데이터 11개도 포함하였다.
그 외에도 기존의 MDVP (Multi-dimensional voice program) 분석이 불가능한 후두암 환자 남성 음성 데이터 11개도 포함하였다. 음성 데이터는 단모음 /아/ 발성만을 사용하였고, 정상인과 양성 후두질환 환자, 그리고 MDVP 분석이 가능한 후두암 환자 음성 데이터 중 2/3는 학습에, 나머지 1/3은 감별실험에 사용하였다. MDVP로 분석되지 않는 후두암 환자의 음성 데이터는 학습에는 포함시키지 않고, 모두 감별실험에만 사용하였다.
음성 데이터의 샘플링 주파수는 16kHz이며, 양자화 비트 수는 16비트를 사용하였다. LPCC, MFCC 및 LFCC 등 켑스트럼 파라미터를 얻기 위해서 프레임에 Hamming 윈도우를 사용하였으며, pre-emphasis 계수는 0.
이론/모형
켑스트럼 파라미터들을 이용한 후두암 음성감별을 위해본 논문에서는 Gaussian mixture model (GMM) 분류기를 사용하였다. GMM 분류기는 음성감별 실험에 널리 사용되는 다층 퍼셉트론 신경회로망 분류기에 비해 사용 및 해석 면에서 유리하며, 선행연구를 통해 성능면에서 대등한 것으로 나타났다'2)
성능/효과
민감도와 특이도에 대한 평가도 함께 수행하였으며, 민감도 면에서는 MFCC가, 그리고 특이도 면에서는 LFCC와 LPCC가 상대적으로 우수한 성능을 나타내었다. 감별실험용 후두암 음성으로 MDVP 분석이 불가능한 데이터만을 이용한 경우에도 LPCC, MFCC 및 LFCC 모두 최고 90% 대의 예측도를 얻었으며, MDVP 분석 불능데이터를 모델 훈련에는 사용하지 않고 감별실험에만 사용했음을 고려할 때 상당히 높은 성능이 얻어졌다고 판단된다.
감별실험용 후두암 음성으로 MDVP 분석이 불가능한 데이터만을 이용한 경우에도 LPCC, MFCC 및 LFCC를 이용하여 각각 90.2%, 90.2% 및 90.7%의 예측도를 얻었으며, MDVP 분석불능 데이터를 모델 훈련에는 사용하지 않고 감별실험에만 사용했음을 고려할 때 상당히 높은 성능이 얻어졌다고 판단된다.
결론적으로 말기 후두암과 같이 주기성이 훼손된 경우라도 본 논문에서 적용한 켑스트럼 파라미터를 통해 비교적 정확한 감별이 가능하였다. 앞으로 후두암 감별 성능을 더욱 향상시키기 위하여 후두암 감별에 효과가 있는 다양한 음향 파라미터들을 켑스트럼 파라미터와 함께 적용하는 방안에 대해 계속 연구할 필요가 있다고 사료되며, 후두암 이외에도 양성 후두질환의 감별도 함께 적용할 예정이다.
1%로 나타났으며, LFCC의 성능이 가장 우수함을 알 수 있었다. 민감도와 특이도에 대한 평가도 함께 수행하였으며, 민감도 면에서는 MFCC가, 그리고 특이도 면에서는 LFCC 와 LPCC가 상대적으로 우수한 성능을 나타내었다.
1%로 나타났으며, LFCC의 성능이 가장 우수함을 알 수 있었다. 민감도와 특이도에 대한 평가도 함께 수행하였으며, 민감도 면에서는 MFCC가, 그리고 특이도 면에서는 LFCC 와 LPCC가 상대적으로 우수한 성능을 나타내었다.
본 논문에서는 MDVP 분석이 불가능한 말기 후두암 음성데이터에 대해서도 효과적으로 감별할 수 있는 신뢰도 높은 음성분석 방법으로 LPCC, MFCC 및 LFCC를 비교하였다 그 결과, MFCC에서 1kHz 이하의 낮은 주파수 스펙트럼의 특성에는 민감하고 1kHz 이상의 주파수 스펙트럼에는 상대적으로 둔감한 특성을 가지도록 mel 주파수 scaling을 적용하는 과정이 후두암의 감별에서는 유용성이 부각되지 못했다. 실험 결과 MFCC에서 mel 주파수 scaling 부분을제외시킨 LFCC가 MFCC보다 특이도 및 예측도 측면에서 우수하였고, 민감도에서만 MFCC가 LFCC보다 우수하였다.
실험 결과 MFCC에서 mel 주파수 scaling 부분을제외시킨 LFCC가 MFCC보다 특이도 및 예측도 측면에서 우수하였고, 민감도에서만 MFCC가 LFCC보다 우수하였다.
그림에서 볼 수 있듯이 GMM 분류기에서의 mixture 수를 1에서 10까지 증가시켜 가면서 실험을 하였다(Mixture의 수가 늘어나면 모델의 정밀성이 높아지지만, 제한된 데이터에 대해 추정해야 할 모델 파라미터의 수가 증가되므로 추정된 파라미터의 신뢰도가 떨어질 수 있다). 실험 결과, LPCC, MFCC 및 LFCC를 이용한 최고 예측도가 각각 91.3%, 88.7% 및 92.1%로 나타났으며, LFCC의 성능이 가장 우수함을 알 수 있었다. 민감도와 특이도에 대한 평가도 함께 수행하였으며, 민감도 면에서는 MFCC가, 그리고 특이도 면에서는 LFCC 와 LPCC가 상대적으로 우수한 성능을 나타내었다.
GMM 분류기의 훈련은 프레임 단위로 수행하고, 감별과정 역시 1차적으로 프레임 단위로 확률을 계산한 다음 전체 구간에 대해 누적 log 확률값을 구해서 발화 단위로 감별 판정을 하였다. 실험 결과는 후두암 전체 음성 데이터에 대해, 그리고 MDVP 분석이 불가능한 후두암 음성 데이터에 대해 민감도(sensitivity), 특이도(specificity) 및 예측도 (predictability) 를 구하였다.
후두암 감별 실험 결과, LPCC, MFCC 및 LFCC의 세 가지 켑스트럼 파라미터 중 예측도 관점에서 LFCC의 성능이 가장 우수하였다. 민감도와 특이도에 대한 평가도 함께 수행하였으며, 민감도 면에서는 MFCC가, 그리고 특이도 면에서는 LFCC와 LPCC가 상대적으로 우수한 성능을 나타내었다.
후속연구
결론적으로 말기 후두암과 같이 주기성이 훼손된 경우라도 본 연구에서 적용한 파라미터들로서 정확한 감별이 가능하였으나, 각각의 성대병변의 병태생리를 대변할 수 있는 파라미터와 다양한 분류 알고리듬에 대한 연구를 시행하면 후두암 이외에도 양성 후두질환의 감별도 가능할 것으로 사료되 었다.
감별이 가능하였다. 앞으로 후두암 감별 성능을 더욱 향상시키기 위하여 후두암 감별에 효과가 있는 다양한 음향 파라미터들을 켑스트럼 파라미터와 함께 적용하는 방안에 대해 계속 연구할 필요가 있다고 사료되며, 후두암 이외에도 양성 후두질환의 감별도 함께 적용할 예정이다.
음성신호의 분석은 전술한 특정 후두질환을 잘 반영할 수 있는 분석 파라미터가 일차적으로 중요하지만 이들의 분석 결과를 이용하여 후두질환을 감별하는 분류기 (classifier) 에 대한 연구가 동반되어야 가능하다. 이를 위하여 여러 분류기법들이 적용되었는데, 지금까지 후두암 감별 연구에 사용되어 온 분류기로는 다층 퍼셉트론 신경회로망 분류기와 다층 퍼셉트론 신경회로망과 대등한 성능을 보이면서도 사용 면에서 편리한 GMM 분류기, (2) 그외 k—nearest neighbor (k—NN) 분류기, "" Hidden Markov model (HMM) 분류기 등이 있다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.