[논문]켑스트럼 파라미터를 이용한 후두암 검진

이원범; 전경명; 권순복; 전계록; 김수미; 김형순; 양병곤; 조철우; 왕수건

문제 정의

이에 관한 기존 연구도 없는 실정이다. 따라서 본 논문에서는 후두암 음성감별에 mel scale의 유용성 여부를 파악하기 위해 MFCC와 LFCC의 성능을 실험을 통해 비교하였다. LFCC 특징 파라미터를 추출하는 과정은 다음과 같다(Fig.

분석 자체가 불가능해지는 문제점이 있다. 본 논문에서는 MDVP 분석이 불가능할 정도로 주기성이 훼손된 음성에 대해 효과적인 감별이 가능한 신뢰도 높은 분석 방법으로서, 음성인식 분야에서 널리 사용되어 온 켑스트럼 (cep strum) 파라미터 분석방법을 검토하였다. 실제로 음성인식 분야에 주로 사용되는 특징 파라미터는 linear predictive cepstral coefficients (LPCC) mel-frequency cepstral coefficients(MFCC)이며, 9" 본 논문에서는 이들과 더불어 MFCC의 변형된 형태인 linear frequency cepstral coefficients (LFCC) < 함께 검토하였다.

실제로 음성인식 분야에 주로 사용되는 특징 파라미터는 linear predictive cepstral coefficients (LPCC) mel-frequency cepstral coefficients(MFCC)이며, 9" 본 논문에서는 이들과 더불어 MFCC의 변형된 형태인 linear frequency cepstral coefficients (LFCC) < 함께 검토하였다. 이들 파라미터 분석 결과로부터 정상 음성 및 양성 후두질환 음성, 그리고 악성 후두질환 음성을 Gaussian mixture model(GMM)로 모델링한 GMM분류기를 통해 후두암 여부를 감별하고자 본연구를 시행하였다.

제안 방법

본 논문에서는 MDVP 분석이 불가능할 정도로 주기성이 훼손된 음성에 대해 효과적인 감별이 가능한 신뢰도 높은 분석 방법으로서, 음성인식 분야에서 널리 사용되어 온 켑스트럼 (cep strum) 파라미터 분석방법을 검토하였다. 실제로 음성인식 분야에 주로 사용되는 특징 파라미터는 linear predictive cepstral coefficients (LPCC) mel-frequency cepstral coefficients(MFCC)이며, 9" 본 논문에서는 이들과 더불어 MFCC의 변형된 형태인 linear frequency cepstral coefficients (LFCC) < 함께 검토하였다. 이들 파라미터 분석 결과로부터 정상 음성 및 양성 후두질환 음성, 그리고 악성 후두질환 음성을 Gaussian mixture model(GMM)로 모델링한 GMM분류기를 통해 후두암 여부를 감별하고자 본연구를 시행하였다.

97로 하였다. GMM 분류기의 훈련은 프레임 단위로 수행하고, 감별과정 역시 1차적으로 프레임 단위로 확률을 계산한 다음 전체 구간에 대해 누적 log 확률값을 구해서 발화 단위로 감별 판정을 하였다. 실험 결과는 후두암 전체 음성 데이터에 대해, 그리고 MDVP 분석이 불가능한 후두암 음성 데이터에 대해 민감도(sensitivity), 특이도(specificity) 및 예측도 (predictability) 를 구하였다.

5에 나타나 있다. 그림에서 볼 수 있듯이 GMM 분류기에서의 mixture 수를 1에서 10까지 증가시켜 가면서 실험을 하였다(Mixture의 수가 늘어나면 모델의 정밀성이 높아지지만, 제한된 데이터에 대해 추정해야 할 모델 파라미터의 수가 증가되므로 추정된 파라미터의 신뢰도가 떨어질 수 있다). 실험 결과, LPCC, MFCC 및 LFCC를 이용한 최고 예측도가 각각 91.

따라서 MDVP 분석이 불가능한 음성 신호에 대해서도 신뢰성이 높고 분석이 가능한 음성분석 방법이 필요하며, 본 논문에서는 이 문제의 해결을 위해 켑스트럼 파라미터들을 사용하였다.

실험결과의 일관성을 높이기 위해 학습 및 감별에 사용한 음성 데이터는 다수의 세트를 무작위로 선정하여 5번 실험을 수행한 후 이들의 평균 감별결과를 계산하였다. 음성 데이터의 샘플링 주파수는 16kHz이며, 양자화 비트 수는 16비트를 사용하였다.

대상 데이터

105개를 사용하였다. 그 외에도 기존의 MDVP (Multi-dimensional voice program) 분석이 불가능한 후두암 환자 남성 음성 데이터 11개도 포함하였다. 음성 데이터는 단모음 /아/ 발성만을 사용하였고, 정상인과 양성 후두질환 환자, 그리고 MDVP 분석이 가능한 후두암 환자 음성 데이터 중 2/3는 학습에, 나머지 1/3은 감별실험에 사용하였다.

본 논문에서는 후두암 감별 실험을 위해 부산대학교병원 이비인후과에서 수집한 정상 남자 음성 데이터 50개, 양성 후두질환 남자 음성 데이터 50개 및 남성 후두암환자 음성데이터 105개를 사용하였다. 그 외에도 기존의 MDVP (Multi-dimensional voice program) 분석이 불가능한 후두암 환자 남성 음성 데이터 11개도 포함하였다.

그 외에도 기존의 MDVP (Multi-dimensional voice program) 분석이 불가능한 후두암 환자 남성 음성 데이터 11개도 포함하였다. 음성 데이터는 단모음 /아/ 발성만을 사용하였고, 정상인과 양성 후두질환 환자, 그리고 MDVP 분석이 가능한 후두암 환자 음성 데이터 중 2/3는 학습에, 나머지 1/3은 감별실험에 사용하였다. MDVP로 분석되지 않는 후두암 환자의 음성 데이터는 학습에는 포함시키지 않고, 모두 감별실험에만 사용하였다.

음성 데이터의 샘플링 주파수는 16kHz이며, 양자화 비트 수는 16비트를 사용하였다. LPCC, MFCC 및 LFCC 등 켑스트럼 파라미터를 얻기 위해서 프레임에 Hamming 윈도우를 사용하였으며, pre-emphasis 계수는 0.

이론/모형

켑스트럼 파라미터들을 이용한 후두암 음성감별을 위해본 논문에서는 Gaussian mixture model (GMM) 분류기를 사용하였다. GMM 분류기는 음성감별 실험에 널리 사용되는 다층 퍼셉트론 신경회로망 분류기에 비해 사용 및 해석 면에서 유리하며, 선행연구를 통해 성능면에서 대등한 것으로 나타났다'2)

성능/효과

민감도와 특이도에 대한 평가도 함께 수행하였으며, 민감도 면에서는 MFCC가, 그리고 특이도 면에서는 LFCC와 LPCC가 상대적으로 우수한 성능을 나타내었다. 감별실험용 후두암 음성으로 MDVP 분석이 불가능한 데이터만을 이용한 경우에도 LPCC, MFCC 및 LFCC 모두 최고 90% 대의 예측도를 얻었으며, MDVP 분석 불능데이터를 모델 훈련에는 사용하지 않고 감별실험에만 사용했음을 고려할 때 상당히 높은 성능이 얻어졌다고 판단된다.

감별실험용 후두암 음성으로 MDVP 분석이 불가능한 데이터만을 이용한 경우에도 LPCC, MFCC 및 LFCC를 이용하여 각각 90.2%, 90.2% 및 90.7%의 예측도를 얻었으며, MDVP 분석불능 데이터를 모델 훈련에는 사용하지 않고 감별실험에만 사용했음을 고려할 때 상당히 높은 성능이 얻어졌다고 판단된다.

결론적으로 말기 후두암과 같이 주기성이 훼손된 경우라도 본 논문에서 적용한 켑스트럼 파라미터를 통해 비교적 정확한 감별이 가능하였다. 앞으로 후두암 감별 성능을 더욱 향상시키기 위하여 후두암 감별에 효과가 있는 다양한 음향 파라미터들을 켑스트럼 파라미터와 함께 적용하는 방안에 대해 계속 연구할 필요가 있다고 사료되며, 후두암 이외에도 양성 후두질환의 감별도 함께 적용할 예정이다.

1%로 나타났으며, LFCC의 성능이 가장 우수함을 알 수 있었다. 민감도와 특이도에 대한 평가도 함께 수행하였으며, 민감도 면에서는 MFCC가, 그리고 특이도 면에서는 LFCC 와 LPCC가 상대적으로 우수한 성능을 나타내었다.

1%로 나타났으며, LFCC의 성능이 가장 우수함을 알 수 있었다. 민감도와 특이도에 대한 평가도 함께 수행하였으며, 민감도 면에서는 MFCC가, 그리고 특이도 면에서는 LFCC 와 LPCC가 상대적으로 우수한 성능을 나타내었다.

본 논문에서는 MDVP 분석이 불가능한 말기 후두암 음성데이터에 대해서도 효과적으로 감별할 수 있는 신뢰도 높은 음성분석 방법으로 LPCC, MFCC 및 LFCC를 비교하였다 그 결과, MFCC에서 1kHz 이하의 낮은 주파수 스펙트럼의 특성에는 민감하고 1kHz 이상의 주파수 스펙트럼에는 상대적으로 둔감한 특성을 가지도록 mel 주파수 scaling을 적용하는 과정이 후두암의 감별에서는 유용성이 부각되지 못했다. 실험 결과 MFCC에서 mel 주파수 scaling 부분을제외시킨 LFCC가 MFCC보다 특이도 및 예측도 측면에서 우수하였고, 민감도에서만 MFCC가 LFCC보다 우수하였다.

실험 결과 MFCC에서 mel 주파수 scaling 부분을제외시킨 LFCC가 MFCC보다 특이도 및 예측도 측면에서 우수하였고, 민감도에서만 MFCC가 LFCC보다 우수하였다.

그림에서 볼 수 있듯이 GMM 분류기에서의 mixture 수를 1에서 10까지 증가시켜 가면서 실험을 하였다(Mixture의 수가 늘어나면 모델의 정밀성이 높아지지만, 제한된 데이터에 대해 추정해야 할 모델 파라미터의 수가 증가되므로 추정된 파라미터의 신뢰도가 떨어질 수 있다). 실험 결과, LPCC, MFCC 및 LFCC를 이용한 최고 예측도가 각각 91.3%, 88.7% 및 92.1%로 나타났으며, LFCC의 성능이 가장 우수함을 알 수 있었다. 민감도와 특이도에 대한 평가도 함께 수행하였으며, 민감도 면에서는 MFCC가, 그리고 특이도 면에서는 LFCC 와 LPCC가 상대적으로 우수한 성능을 나타내었다.

GMM 분류기의 훈련은 프레임 단위로 수행하고, 감별과정 역시 1차적으로 프레임 단위로 확률을 계산한 다음 전체 구간에 대해 누적 log 확률값을 구해서 발화 단위로 감별 판정을 하였다. 실험 결과는 후두암 전체 음성 데이터에 대해, 그리고 MDVP 분석이 불가능한 후두암 음성 데이터에 대해 민감도(sensitivity), 특이도(specificity) 및 예측도 (predictability) 를 구하였다.

후두암 감별 실험 결과, LPCC, MFCC 및 LFCC의 세 가지 켑스트럼 파라미터 중 예측도 관점에서 LFCC의 성능이 가장 우수하였다. 민감도와 특이도에 대한 평가도 함께 수행하였으며, 민감도 면에서는 MFCC가, 그리고 특이도 면에서는 LFCC와 LPCC가 상대적으로 우수한 성능을 나타내었다.

후속연구

결론적으로 말기 후두암과 같이 주기성이 훼손된 경우라도 본 연구에서 적용한 파라미터들로서 정확한 감별이 가능하였으나, 각각의 성대병변의 병태생리를 대변할 수 있는 파라미터와 다양한 분류 알고리듬에 대한 연구를 시행하면 후두암 이외에도 양성 후두질환의 감별도 가능할 것으로 사료되 었다.

감별이 가능하였다. 앞으로 후두암 감별 성능을 더욱 향상시키기 위하여 후두암 감별에 효과가 있는 다양한 음향 파라미터들을 켑스트럼 파라미터와 함께 적용하는 방안에 대해 계속 연구할 필요가 있다고 사료되며, 후두암 이외에도 양성 후두질환의 감별도 함께 적용할 예정이다.

음성신호의 분석은 전술한 특정 후두질환을 잘 반영할 수 있는 분석 파라미터가 일차적으로 중요하지만 이들의 분석 결과를 이용하여 후두질환을 감별하는 분류기 (classifier) 에 대한 연구가 동반되어야 가능하다. 이를 위하여 여러 분류기법들이 적용되었는데, 지금까지 후두암 감별 연구에 사용되어 온 분류기로는 다층 퍼셉트론 신경회로망 분류기와 다층 퍼셉트론 신경회로망과 대등한 성능을 보이면서도 사용 면에서 편리한 GMM 분류기, (2) 그외 k—nearest neighbor (k—NN) 분류기, "" Hidden Markov model (HMM) 분류기 등이 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

켑스트럼 파라미터를 이용한 후두암 검진
Laryngeal Cancer Screening using Cepstral Parameters 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

켑스트럼 파라미터를 이용한 후두암 검진 Laryngeal Cancer Screening using Cepstral Parameters 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

전경명 (6) 권순복 (22) 전계록 (109) 김수미 (3) 김형순 (72) 조철우 (38) 왕수건 (46)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

켑스트럼 파라미터를 이용한 후두암 검진
Laryngeal Cancer Screening using Cepstral Parameters 원문보기

AI 본문요약
AI-Helper