[논문]노인음성신호처리에서의 젠더 분석

이지연

doi:10.14400/jdc.2018.16.10.351

노인음성신호처리에서의 젠더 분석
Gender Analysis in Elderly Speech Signal Processing 원문보기

디지털융복합연구 = Journal of digital convergence, v.16 no.10, 2018년, pp.351 - 356

이지연 (중원대학교 생체의공학과)

초록
AI-Helper

화로 인한 성대의 변화는 음성의 주파수를 변화시킬 수 있으며, 그 노인음성 신호는 다양한 분석을 통해 정상음성 신호와 자동으로 구분할 수 있다. 본 연구의 목적은 기존 스마트 의료 시스템의 노령자 음성 인식 성능을 향상시키고, 음성을 이용한 편리한 인터페이스를 제공함으로써 빠르게 변화하고 있는 기술사회에서 제외될 수 있는 노인과 장애인들에게 쉽게 접근 할 수 있는 도구를 제공하는 것이다. 본 연구에서는 성 분석으로서, 연구 대상의 성별을 보고했고, 여성과 남성 음성 샘플 개수를 동일하게 사용하였다. 또한 젠더 분석을 적용하여 모든 연령의 목소리를 사용하지 않고 노령자의 목소리를 목표로 설정하여 실험을 수행하였다. 마지막으로, 우리는 성별 및 젠더 편견을 줄이기 위한 표준 및 참조 모델의 재검토 방법을 적용하였다. 본 연구에서는 70세에서 80세까지의 한국인 여성 10명과 남성 10명의 노령자 음성을 사용했다. 파형을 보고 직접 추출한 F0 값과 TF32와 Wavesufer 음성 분석 프로그램에서 추출된 F0를 비교했을 때, TF32보다 Wavesufer가 노인음성의 F0를 더 잘 분석하는 것을 알 수 있었다. 그러나 노령자 대상 노인음성용 음성분석프로그램이 필요하며, 노령자의 음성을 분석함으로써 기존 스마트 의료 시스템의 음성 인식 및 합성 성능을 향상시킬 수 있을 것으로 기대한다.

Abstract ▼ AI-Helper

Changes in vocal cords due to aging can change the frequency of speech, and the speech signals of the elderly can be automatically distinguished from normal speech signals through various analyzes. The purpose of this study is to provide a tool that can be easily accessed by the elderly and disabled people who can be excluded from the rapidly changing technological society and to improve the voice recognition performance. In the study, the gender of the subjects was reported as sex analysis, and the number of female and male voice samples was used equally. In addition, the gender analysis was applied to set the voices of the elderly without using voices of all ages. Finally, we applied a review methodology of standards and reference models to reduce gender difference. 10 Korean women and 10 men aged 70 to 80 years old are used in this study. Comparing the F0 value extracted directly with the waveform and the F0 extracted with TF32 and the Wavesufer speech analysis program, Wavesufer analyzed the F0 of the elderly voice better than TF32. However, there is a need for a voice analysis program for elderly people. In conclusions, analyzing the voice of the elderly will improve speech recognition and synthesis capabilities of existing smart medical systems.

주제어

표/그림 (3)

그림 Fig. 1. Waveform of elderly
표 Table 1. Elderly voice database
표 Table 2. Comparison among various extraction methods of fundamental frequency(F0)

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구는 노령자의 음성을 분석함으로써 기존 스마트 의료 시스템의 음성 인식 및 합성 성능을 향상시킬 것이다. 이것은 또한 빠른 사회화에서 제외 된 노인 및 장애인에게 음성과 같은 쉬운 접근 수단을 제공하여 많은 기기를 다루는데 도움이 될 것으로 기대한다.

제안 방법

2010년 노령화에 따른 건강한 정상 성인의 음향음성학 특성 비교 연구를 통해, /아/, /이/, /우/의 세 모음을 사용하여 모음 간의 음향음성학 평균을 비교하였다. 50, 60, 70대 남성은 /아/, /이 /, /우/ 모음에서 연령증가에 따른 음향학적 변수의 평균 차이가 확인 되었지만 여성의 경우에는 /이/ 모음에서만 의미 있는 차이를 보였다.
최근 Lee는 한국 노인 신호에 대한 객관적이고 신뢰할 수 있는 샘플 선택 방법으로써 이동 윈도우 방법(Moving window method)을 제안했다. Jitter(%) 및 Shimmer(%) 및 신호 대 잡음비(Signal to noise ratio, SNR (dB))의 최소 perturbation 값을 활용했다. 또한 최소 perturbation 과 음향 파라미터의 평균값을 비교하고 노인음성 신호 샘플에서 생성 된 perturbation 측정에 대한 이동 윈도우의 영향을 조사했다[10].
본 연구에서는 70 세에서 80 세까지의 한국인 20 명(여성 10 명, 남성 10 명)의 노령자 음성을 사용했다. 그리고 노인 음성에 젠더분석을 적용하여 TF32, Wavesufer를 이용하여 고령자의 음성의 기본주파수를 분석하였다. 파형을 보고 직접 추출한 F0 값과 TF32와 Wavesufer 음성 분석 프로그램에서 추출된 F0를 비교했을 때, TF32보다 Wavesufer가 노인 음성의 F0를 더 잘 분석하는 것을 알 수 있었다.
젠더 분석은 여성과 남성 음성의 차이에 대한 분석을 위한 기초를 제공하며 이는 잘못된 가정과 고정 관념을 낮출 수 있다. 노인음성신호처리에서의 젠더 분석의 필요성을 설명하기 위해, 본 연구에서는 성 분석으로서, 연구 대상의 성별을 보고했고, 여성과 남성 음성 샘플 개수를 동일하게 사용하였다. 또한 젠더 분석을 적용하여 모든 연령의 목소리를 사용하지 않고 노령자의 목소리를 목표로 설정하여 실험을 수행하였다.
본 연구에서는 네 번째 성 분석방법을 적용하여, 성별 똑같은 음성 샘플 개수를 사용했고, 노인여성과 남성 집단의 음성에 존재하는 연구 대상의 성별별 특징을 분석하였다. 다섯 번째 젠더 분석에 의해서 모든 연령의 목소리를 사용하지 않고 노령자의 음성을 목표로 설정하여 실험을 수행하였다. 마지막으로 열 번째 분석을 적용하여 성별 및 젠더의 편견을 줄이기 위해 표준 및 참조 모델을 재검토하였다.
노인음성신호처리에서의 젠더 분석의 필요성을 설명하기 위해, 본 연구에서는 성 분석으로서, 연구 대상의 성별을 보고했고, 여성과 남성 음성 샘플 개수를 동일하게 사용하였다. 또한 젠더 분석을 적용하여 모든 연령의 목소리를 사용하지 않고 노령자의 목소리를 목표로 설정하여 실험을 수행하였다. 마지막으로, 성별 및 젠더 편견을 줄이기 위한 표준 및 참조 모델의 재검토 방법을 적용하였다.
Jitter(%) 및 Shimmer(%) 및 신호 대 잡음비(Signal to noise ratio, SNR (dB))의 최소 perturbation 값을 활용했다. 또한 최소 perturbation 과 음향 파라미터의 평균값을 비교하고 노인음성 신호 샘플에서 생성 된 perturbation 측정에 대한 이동 윈도우의 영향을 조사했다[10].
다섯 번째 젠더 분석에 의해서 모든 연령의 목소리를 사용하지 않고 노령자의 음성을 목표로 설정하여 실험을 수행하였다. 마지막으로 열 번째 분석을 적용하여 성별 및 젠더의 편견을 줄이기 위해 표준 및 참조 모델을 재검토하였다. 따라서 11가지의 젠더분석 방법을 모두 다 활용할 필요는 없고, 연구 목적에 맞는 젠더분석 방법을 취사선택하여 적용하면 된다.
또한 젠더 분석을 적용하여 모든 연령의 목소리를 사용하지 않고 노령자의 목소리를 목표로 설정하여 실험을 수행하였다. 마지막으로, 성별 및 젠더 편견을 줄이기 위한 표준 및 참조 모델의 재검토 방법을 적용하였다.
본 연구에서는 네 번째 성 분석방법을 적용하여, 성별 똑같은 음성 샘플 개수를 사용했고, 노인여성과 남성 집단의 음성에 존재하는 연구 대상의 성별별 특징을 분석하였다. 다섯 번째 젠더 분석에 의해서 모든 연령의 목소리를 사용하지 않고 노령자의 음성을 목표로 설정하여 실험을 수행하였다.
젠더 분석은 여성과 남성의 차이에 대한 견고한 분석을 위한 기초를 제공하며, 잘못된 가정과 고정 관념에 근거한 분석 가능성을 축소하고자 노력한다. 본 연구에서는 노인음성신호처리에서의 젠더 분석의 필요성을 설명하고, 노인음성에 젠더분석을 적용하여 TF32, Wavesufer를 이용하여 고령자의 음성의 기본주파수를 분석 하였다. 이것은 노인을 위한 기존 스마트 의료 시스템의 음성 인식 성능을 향상시킨다.

대상 데이터

노인 음성 샘플은 음성 정보 기술 산업 진흥 센터(SiTEC)에서 수집되었다. 이 데이터베이스에서 70 세에서 80 세까지의 한국인 10명 (여성 5명, 남성 5 명)의 노인 목소리를 선택하여 사용하였다.
본 연구에서는 70 세에서 80 세까지의 한국인 20 명(여성 10 명, 남성 10 명)의 노령자 음성을 사용했다. 그리고 노인 음성에 젠더분석을 적용하여 TF32, Wavesufer를 이용하여 고령자의 음성의 기본주파수를 분석하였다.
노인 음성 샘플은 음성 정보 기술 산업 진흥 센터(SiTEC)에서 수집되었다. 이 데이터베이스에서 70 세에서 80 세까지의 한국인 10명 (여성 5명, 남성 5 명)의 노인 목소리를 선택하여 사용하였다. 노인 음성 샘플은 22.

성능/효과

결론적으로 연구개발 초기 단계에서부터 성·젠더 분석의 보완 및 강화로 지식재산 및 산업기술의 선도적 경쟁력 확보가 중요하다는 것을 보여주고 있다[16].
따라서 고령자의 목소리는 노화에 따른 후두 변화에 의해 소리의 음향 특성과 함께 이해되어야하고 그것은 기본 주파수(F0)로 측정된다[4,5]. 결론적으로, 노인의 목소리는 유아, 청소년, 젊은 성인, 중년의 목소리 등과 구별할 수 있다. 노인의 목소리 분석은 젠더 분석의 시작이 될 수 있다.
따라서 사회 변화에 부응하기 위해 다차원인 측면에서 음성을 해석하고, 적절한 중재 방안을 제공하기 한 목적으로 음향음성 분석기기가 임상에서 활용되어야한다. 결론적으로, 유아, 청소년, 젊은 성인, 중년의 목소리 등과 구별할 수 있는 노인의 목소리 분석은 과학기술에서의 젠더 혁신 의 시작이 될 수 있다.
여섯 번째, 성·젠더와 교차하는 요소 분석이다. 유전적 특징, 나이, 성 호르몬, 생식 상태, 체성분, 동반질환/증상, 신체사이즈, 장애 여부, 민족, 국적, 지리적 위치, 사회경제적 지위, 학력, 종교, 라이프스타일, 언어 등의 요소나 변수는 사용자나 고객, 피험자의 생물학적, 사회문화적, 심리적 측면을 보여준다.
그리고 노인 음성에 젠더분석을 적용하여 TF32, Wavesufer를 이용하여 고령자의 음성의 기본주파수를 분석하였다. 파형을 보고 직접 추출한 F0 값과 TF32와 Wavesufer 음성 분석 프로그램에서 추출된 F0를 비교했을 때, TF32보다 Wavesufer가 노인 음성의 F0를 더 잘 분석하는 것을 알 수 있었다. 그러나 Wavesufer 보다 더 노인음성을 정확하게 분석 할 수 있는 노인음성 분석용 음성분석 프로그램의 개발이 필요하다.

후속연구

2000년도 “연령에 따른 한국인의 음향지표 변화와 특성” 연구에서는 다음과 같은 결론을 발표하였다, 음성분석을 위한 음향지표는 연령간의 차이와 40, 50대에서 노화현상으로 인한 변화가 두드러진 것을 알 수 있다. 그러므로 현재까지 적용되어 온 획일화된 정상역치에 의해 환자의 음향지표를 분석하는 것은 부적절한 것으로 판단되며, 각 연령 군에 따라 각각의 음향지표에 대한 정상역치를 적용하여 음향학적 분석을 시행해야 될 것이다. 각각의 연령대에 따라 서로 다른 정상 역치를 적용함으로써 음성질환 환자의 조기 진단과 정상적인 연령 증가에 따른 음성 변화와의 감별에 도움이 될 것으로 생각된다[18].
이것은 노인을 위한 기존 스마트 의료 시스템의 음성 인식 성능을 향상시킨다. 또한 음성을 이용한 편리한 인터페이스를 제공함으로써 빠르게 변화하고 있는 기술사회에서 제외될 수 있는 노인과 장애인들에게 쉽게 접근 할 수 있는 도구를 제공 할 것이다.
본 연구는 노령자의 음성을 분석함으로써 기존 스마트 의료 시스템의 음성 인식 및 합성 성능을 향상시킬 것이다. 이것은 또한 빠른 사회화에서 제외 된 노인 및 장애인에게 음성과 같은 쉬운 접근 수단을 제공하여 많은 기기를 다루는데 도움이 될 것으로 기대한다.
열 번째, 표준과 참조 모델 재검토이다. 특정 남녀 집단에 대한 연구 결과를 바탕으로 개발 된 표준 및 참조 모델은 추후 연구결과의 활용 시 잘못된 성과를 초래할 수 있다. 그리고 가용자료를 바탕으로 개발된 표준과 참조 모델은 보건 및 생명의학 연구과 공학 혁신 과정에서 내리는 표집 결정에 부작용을 보일 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	현재 음성 인터페이스는 어떠한 상황인가?	의료 복지 시스템을 위해 음성 인터페이스를 갖춘 스마트 디바이스가 활발하게 개발되고 있지만 대부분의 의료 기기의 경우 고령자를 고려하지 않은 인터페이스로 인해 음성 인식 및 합성시스템의 성능이 하락되는 경향을 보인다[1,2]. 현재 음성 인터페이스는 청년, 중년 및 고령자의 평균 음성 패턴을 기반으로 한 최적화 된 방법을 사용하기 때문에 표준에서 조금 벗어난 경우 음성 합성 및 인식 성능이 저하 될 수 있다[2,3]. 따라서 노인음성신호처리 연구가 필요하다.
	노인의 목소리 분석으로 무엇을 가능케 하는가?	결론적으로, 노인의 목소리는 유아, 청소년, 젊은 성인, 중년의 목소리 등과 구별할 수 있다. 노인의 목소리 분석은 젠더 분석의 시작이 될 수 있다.
	파라미터를 이용한 음향 분석은 노인 신호 분석에 어떠하다고 평가받는가?	노인 신호와 관련된 많은 연구가 발표되었지만 Jitter(%) 및 Shimmer(%) 파라미터를 이용한 음향 분석에 기반을 두고 있다[3, 5-7]. 그러나 이 파라미터들은 기본 주파수(F0)에 기반하고 있기 때문에, 노인 신호의 비주기성을 측정하기 위해서는 매우 신뢰성 있는 피치 검출 알고리즘이 필요하다 [8,9]. 최근 Lee는 한국 노인 신호에 대한 객관적이고 신뢰할 수 있는 샘플 선택 방법으로써 이동 윈도우 방법(Moving window method)을 제안했다. Jitter(%) 및 Shimmer(%) 및 신호 대 잡음비(Signal to noise ratio, SNR (dB))의 최소 perturbation 값을 활용했다.

참고문헌 (21)

J. Lee. (2014). KHIDI Brief. Korea Health Industry Development Institute. 140(2014), 1-2.
J. I. Yi, Y. K. Kim & G. J. Kim. (2017). A Study on Improving English Pronunciation and Intonation utilizing Fluency Improvement system, Journal of the Korea Convergence Society, 8(11), 1-6.
J. C. Hwang. (2017). Voice Recognition Performance Improvement using the Convergence of Voice signal Feature and Silence Feature Normalization in Cepstrum Feature Distribution, Journal of the Korea Convergence Society, 8(5), 13-17.
J. C. Kahane. (1981). Anatomic and physiologic changes in the aging peripheral speech mechanism, Edited D. S. Beasley & G. A. Davis, Grune & Stratton, New York, 21-45.
S. Y. Lee. (2011). The overall speaking rate and articulation rate of normal elderly people, Graduate program in speech and language pathology, Master these, Yonsei University.
R. T. Sataloff, D. C. Rogen, M. Hawkshaw & J. R. Spiegel. (1997). The three ages of voice. The aging adult voice, Journal of Voice, 11(2), 156-160.
S. Lee & S. Kim. (2014). Elderly speech analysis for improving elderly speech recognition, Communications of the KOREA Information Science Society, 32(11), 15-20.
J. Y. Lee & S. H. Choi. (2012). Perturbation analysis using a moving window for disordered voices, International Journal of Engineering, Science, and Innovative Technology, 3(1), 1-10.
J. Y. Lee. (2016). Fundamental Frequency Characteristics using Moving Window Method for Korean Elderly Voices, International Journal of Engineering and Technology, 8(3), 1589-1599.
J. B. Alonso, J. de Leon, I. Alonso & M. A. Ferrer. (2001). Automatic Detection of Pathologies in the Voice by HOS Based Parameters, EURASIP Journal on Applied Signal Processing, 4(2001), 275-284.
J. Y. Lee, S. Jeong & M. S. Hahn. (2008). Pathological Voice Detection Using Efficient Combination of Heterogeneous Features, IEICE Transactions on Information and Systems, E91-D(2), 367-370.
J. Y. Lee, S. Jeong, H. S. Choi & M. S. Hahn. (2008). Objective pathological voice quality assessment based on HOS features, IEICE Transactions on Information and Systems, E91-D(12), 2888-2891.
J. Y. Lee. (2012). A two-stage approach using Gaussian mixture models and higher-order statistics for a classification of normal and pathological voices, Advances in Signal Processing on Euraship, 252(2012). http://asp.eurasipjournals.com/content/2012/1/252.
J. Y. Lee, S. B. Jeong, M. S. Hahn, A. Sprecher & J. J. Jiang. (2011). An efficient approach using HOS-based parameters in the LPC residual domain to classify breathy and rough voices, Biomedical Signal Processing and Control, 6(2), 186-196.

상세보기
J. Y. Lee. (2017). Feature Extraction of Elderly Signals based on Bicoherence Estimation for Automated Medical Diagnosis System, International Journal of Control and Automation, 10(2), 115-128. http//dx.doi.org/10.14257/ijca.2017.10.2.10

상세보기
KOFWST, Gendered Innovations, http://gister.re.kr/#!/main
WISET (2013). Science and Technology Gender Innovation. Seoul : WISET. ISBN 978-89-97520-24-4
H. T. Kim, S. H. Cho, S. M. Youn, D. I. Sun & M. S. Kim. (2000). The Changes and Characteristics of Acoustic Parameters with Aging in Korean, Korean J Otolaryngol, 2000(43), 69-74.
S. W. Kim, H. H. Park, E. S. Park & H. S. Choi. (2010). Acoustic Characteristics of Normal Healthy Koreans with Advancing age, Phonetics and Speech Sciences, 2(4), 19-28.
P. H. Milenkovic. University of Wisconsin-Madison http://userpages.chorus.net/cspeech/
https://en.wikipedia.org/wiki/WaveSurfer

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증