오디오 스타일변환 기반 음성 변환을 이용한 고령 화자의 음성 데이터 전처리 기술에 관한 연구 A study for the elderly speech data preprocessing technique with voice conversion based on audio style transfer원문보기
CUI (Conversational User Interface)란 오랫동안 진행된 인간과 기계 상호작용의 결과로 사람들의 자연스러운 대화를 모방하여 컴퓨터와 상호작용하는 새로운 패러다임이다. 이는 특히 전자기기 작동에 익숙지 않아 쉽게 사용을 할 수 없는 고연령층을 위한 기술이다. 한국은 2018년 65세 이상인 고령 인구의 비율이 14%를 넘어가 본격적인 고령사회로 접어들었다. 이러한 사회 현상에도 불구하고 한국에서는 고령화자 음성의 특성과 그의 개선 및 복원에 관한 연구는 다른 나라에 비해 거의 진행되지 않고 있다. 고령화자 음성은 그 소리가 작고, 발음이 부정확하여 젊은 층의 표준발음을 기준으로 하여 만든 일반적인 음성 인식기에 적합하지 않다. 이러한 고령 화자의 음성 특성을 고려하여 본 연구는 오디오 스타일변환을 이용해 고령 화자의 음성 ...
CUI (Conversational User Interface)란 오랫동안 진행된 인간과 기계 상호작용의 결과로 사람들의 자연스러운 대화를 모방하여 컴퓨터와 상호작용하는 새로운 패러다임이다. 이는 특히 전자기기 작동에 익숙지 않아 쉽게 사용을 할 수 없는 고연령층을 위한 기술이다. 한국은 2018년 65세 이상인 고령 인구의 비율이 14%를 넘어가 본격적인 고령사회로 접어들었다. 이러한 사회 현상에도 불구하고 한국에서는 고령화자 음성의 특성과 그의 개선 및 복원에 관한 연구는 다른 나라에 비해 거의 진행되지 않고 있다. 고령화자 음성은 그 소리가 작고, 발음이 부정확하여 젊은 층의 표준발음을 기준으로 하여 만든 일반적인 음성 인식기에 적합하지 않다. 이러한 고령 화자의 음성 특성을 고려하여 본 연구는 오디오 스타일변환을 이용해 고령 화자의 음성 데이터 전처리를 통해 거동이 불편한 독거노인, 노인성 음성 질환을 앓고 있는 환자 등이 사용하는 음성인식 시스템의 인식 성능을 높여 사용의 편리함을 도모하고 단순한 잡음 감쇄, 정규화 등의 전처리 효과만으로는 원본 데이터에 없는 새로운 데이터를 새로 생성할 수는 없는 기존 음성기술의 단점을 보완하기 위해 진행하였다. 본 연구에서는 2005년 국립국어원에서 보급한 서울말 낭독체 발화말뭉치를 이용하여 실험을 진행하였다. 이 데이터 중 음성의 질이 가장 떨어지는 고령 화자를 성별로 각각 한 명씩 선정하였다. 이렇게 선정한 68세 여성, 71세 남성 화자의 음성 데이터 33개를 음성 변환을 수행하였다. 오디오 스타일변환에 사용한 스타일 음성은 일본 나고야 대학에서 개발한 SPRocket의 결과물이다. 이를 사용하여 원시 화자를 고령화자, 목표 화자를 20대의 젊은 화자로 하여 음성 변환시킨 결과물을 사용하였다. 본 연구에서 제안한 딥러닝 알고리즘은 2D Random CNN을 두 번 훈련하는 것으로 구성된 SeniorCNN이다. 노인 음성에 SPRocket으로 음성 변환시킨 음성의 스타일을 입히는 용도로 설계한 SeniorCNN을 작동시키기 위해서는 두 개의 스타일 음성이 필요하다. 첫 번째 단계에서는 GMM 기반의 전통적인 음성 통계학적인 기법을 사용한 일반 음성 변환 결과를, 두 번째 단계에서는 보코더 없이 변환한 음성의 음성 변환 결과를 스타일 음성으로 사용하였다. 음성 변환의 결과 분석을 위해 SeniorCNN 훈련을 거친 음성 데이터를 ETRI에서 공개한 음성인식 API에 인식시켜 음성 변환 작업 단계별 단어 오류율을 비교하였고, 음성품질 평가의 객관적인 척도로 사용되는 PESQ와 이를 변환한 MOS 값을 이용하여 SeniorCNN의 결과 음성을 SPRocket의 결과 음성과 원래 음성 데이터와 비교하여 음성인식 성능을 측정하였다. 단어 오류율은 SeniorCNN의 두 단계를 모두 통과시켰을 때 전반적으로 3% 정도 증가하였으나 ETRI 음성인식 결과는 음성 데이터를 전송해 API에서 인식시킬 때마다 항상 일정한 텍스트를 출력하는 것이 아니고 젊은 화자의 음성도 단어 오류율이 10% 정도인 것을 참작하여 결과를 분석해 보니 SeniorCNN 훈련 전 원래 고령 화자의 음성에서 인식하지 못한 단어와 어구들을 SeniorCNN의 훈련을 통과한 음성으로 음성인식 시켰을 때는 정확한 단어와 어구로 인식하기도 한다는 것을 확인할 수 있었다. 변환한 음성별 PESQ와 이를 MOS로 변환한 값을 구해 분석한 결과 SPRocket으로만 음성 변환한 값보다는 이를 스타일 음성으로 사용하여 SeniorCNN으로 훈련한 음성 데이터의 PESQ, MOS 모두 더 큰 값을 나타냈다. SeniorCNN 훈련결과는 첫 번째 CNN 훈련만 통과시킨 중간 결과 음성이 두 번째 CNN까지 통과시킨 것에 비해서 단어 오류율과 PESQ, MOS 모두 더 우월한 수치를 나타내어 CNN 훈련을 여러 번 반복하는 것이 반드시 좋은 결과를 나타내는 것은 아니라는 것을 확인할 수 있었다. 또한, 본 연구는 CNN 훈련 시 사용하는 활성화 함수에 따라 최종 결과 음성의 품질이 어떻게 달라지는지를 비교 및 분석하였다. 가장 많이 쓰이는 활성화 함수 ReLU와 ReLU에서 파생된 활성화 함수 Leaky ReLU, ELU 이렇게 세 개의 활성화 함수를 이용해서 SeniorCNN 훈련을 수행한 결과 ELU를 사용하여 훈련 시킨 음성파일이 남성, 여성화자 모두 WER이 가장 낮고 PESQ와 MOS가 가장 높게 나왔다. 이것으로 보아 노인 화자의 음성 강화 및 복원을 위한 SeniorCNN 훈련에서는 활성화 함수 ELU를 사용하는 것이 가장 적합하다는 것을 확인할 수 있었다.
CUI (Conversational User Interface)란 오랫동안 진행된 인간과 기계 상호작용의 결과로 사람들의 자연스러운 대화를 모방하여 컴퓨터와 상호작용하는 새로운 패러다임이다. 이는 특히 전자기기 작동에 익숙지 않아 쉽게 사용을 할 수 없는 고연령층을 위한 기술이다. 한국은 2018년 65세 이상인 고령 인구의 비율이 14%를 넘어가 본격적인 고령사회로 접어들었다. 이러한 사회 현상에도 불구하고 한국에서는 고령화자 음성의 특성과 그의 개선 및 복원에 관한 연구는 다른 나라에 비해 거의 진행되지 않고 있다. 고령화자 음성은 그 소리가 작고, 발음이 부정확하여 젊은 층의 표준발음을 기준으로 하여 만든 일반적인 음성 인식기에 적합하지 않다. 이러한 고령 화자의 음성 특성을 고려하여 본 연구는 오디오 스타일변환을 이용해 고령 화자의 음성 데이터 전처리를 통해 거동이 불편한 독거노인, 노인성 음성 질환을 앓고 있는 환자 등이 사용하는 음성인식 시스템의 인식 성능을 높여 사용의 편리함을 도모하고 단순한 잡음 감쇄, 정규화 등의 전처리 효과만으로는 원본 데이터에 없는 새로운 데이터를 새로 생성할 수는 없는 기존 음성기술의 단점을 보완하기 위해 진행하였다. 본 연구에서는 2005년 국립국어원에서 보급한 서울말 낭독체 발화말뭉치를 이용하여 실험을 진행하였다. 이 데이터 중 음성의 질이 가장 떨어지는 고령 화자를 성별로 각각 한 명씩 선정하였다. 이렇게 선정한 68세 여성, 71세 남성 화자의 음성 데이터 33개를 음성 변환을 수행하였다. 오디오 스타일변환에 사용한 스타일 음성은 일본 나고야 대학에서 개발한 SPRocket의 결과물이다. 이를 사용하여 원시 화자를 고령화자, 목표 화자를 20대의 젊은 화자로 하여 음성 변환시킨 결과물을 사용하였다. 본 연구에서 제안한 딥러닝 알고리즘은 2D Random CNN을 두 번 훈련하는 것으로 구성된 SeniorCNN이다. 노인 음성에 SPRocket으로 음성 변환시킨 음성의 스타일을 입히는 용도로 설계한 SeniorCNN을 작동시키기 위해서는 두 개의 스타일 음성이 필요하다. 첫 번째 단계에서는 GMM 기반의 전통적인 음성 통계학적인 기법을 사용한 일반 음성 변환 결과를, 두 번째 단계에서는 보코더 없이 변환한 음성의 음성 변환 결과를 스타일 음성으로 사용하였다. 음성 변환의 결과 분석을 위해 SeniorCNN 훈련을 거친 음성 데이터를 ETRI에서 공개한 음성인식 API에 인식시켜 음성 변환 작업 단계별 단어 오류율을 비교하였고, 음성품질 평가의 객관적인 척도로 사용되는 PESQ와 이를 변환한 MOS 값을 이용하여 SeniorCNN의 결과 음성을 SPRocket의 결과 음성과 원래 음성 데이터와 비교하여 음성인식 성능을 측정하였다. 단어 오류율은 SeniorCNN의 두 단계를 모두 통과시켰을 때 전반적으로 3% 정도 증가하였으나 ETRI 음성인식 결과는 음성 데이터를 전송해 API에서 인식시킬 때마다 항상 일정한 텍스트를 출력하는 것이 아니고 젊은 화자의 음성도 단어 오류율이 10% 정도인 것을 참작하여 결과를 분석해 보니 SeniorCNN 훈련 전 원래 고령 화자의 음성에서 인식하지 못한 단어와 어구들을 SeniorCNN의 훈련을 통과한 음성으로 음성인식 시켰을 때는 정확한 단어와 어구로 인식하기도 한다는 것을 확인할 수 있었다. 변환한 음성별 PESQ와 이를 MOS로 변환한 값을 구해 분석한 결과 SPRocket으로만 음성 변환한 값보다는 이를 스타일 음성으로 사용하여 SeniorCNN으로 훈련한 음성 데이터의 PESQ, MOS 모두 더 큰 값을 나타냈다. SeniorCNN 훈련결과는 첫 번째 CNN 훈련만 통과시킨 중간 결과 음성이 두 번째 CNN까지 통과시킨 것에 비해서 단어 오류율과 PESQ, MOS 모두 더 우월한 수치를 나타내어 CNN 훈련을 여러 번 반복하는 것이 반드시 좋은 결과를 나타내는 것은 아니라는 것을 확인할 수 있었다. 또한, 본 연구는 CNN 훈련 시 사용하는 활성화 함수에 따라 최종 결과 음성의 품질이 어떻게 달라지는지를 비교 및 분석하였다. 가장 많이 쓰이는 활성화 함수 ReLU와 ReLU에서 파생된 활성화 함수 Leaky ReLU, ELU 이렇게 세 개의 활성화 함수를 이용해서 SeniorCNN 훈련을 수행한 결과 ELU를 사용하여 훈련 시킨 음성파일이 남성, 여성화자 모두 WER이 가장 낮고 PESQ와 MOS가 가장 높게 나왔다. 이것으로 보아 노인 화자의 음성 강화 및 복원을 위한 SeniorCNN 훈련에서는 활성화 함수 ELU를 사용하는 것이 가장 적합하다는 것을 확인할 수 있었다.
The Conversational User Interface (CUI) is a new paradigm that interacts with computers by mimicking the natural conversations of people as a result of long-standing human-machine interactions. This technology is especially for elderly people who are not familiar with the operation of electronic dev...
The Conversational User Interface (CUI) is a new paradigm that interacts with computers by mimicking the natural conversations of people as a result of long-standing human-machine interactions. This technology is especially for elderly people who are not familiar with the operation of electronic devices and cannot use them easily. In 2018, more than 14% of the Korean population aged 65 or older: Korea entered full-scale aging society. In spite of these social phenomena, studies on the characteristics of aging voices and their improvement and restoration are hardly conducted in Korea. The aging voice is small, the pronunciation is inaccurate and it is not suitable for the general speech recognizer made based on the standard pronunciation of the young. In consideration of the voice characteristics of the elderly speakers, this study improves the recognition performance of the speech recognition system used by elderly people who are uncomfortable and elderly speakers who suffer from senile voice diseases by preprocessing the voice data of the elderly speakers using audio style transfer. In order to improve the convenience of use, simple preprocessing effects, such as noise reduction and normalization, have been made to compensate for the shortcomings of the existing voice technology, which cannot generate new data that is not in the original data. In this study, experiments were carried out using a Seoul speech reading corpus supplied by the National Institute of Korean Language in 2005. Among the data, one elderly speaker with the lowest voice quality was selected per gender. 33 speech data of 68-year-old female speaker and 71-year-old male speaker were subjected to voice conversion. The style voice used for audio style transfer is the result of SPRocket developed by Nagoya University in Japan. The result of voice conversion was made by selecting source speaker as aging speaker and target speaker as young speaker in 20s. The deep learning algorithm proposed in this study is SeniorCNN, which consists of training 2D Random CNN two times. Two style voices are required to operate SeniorCNN designed to apply the style of voice converted into SPRocket to voice of elderly voice. In the first step, general speech conversion results using GMM-based traditional speech statistical techniques were used. In the second step, vocoder-free-based speech conversion results were used as style speech. This result data was recognized by ETRI's public speech recognition API to compare WER (Word Error Rate) for each voice conversion task step. We compared the results of SeniorCNN's speech with the quality of SPRocket's speech and the voice data itself, and the speech recognition performance of the data. WER increased by 3% overall when passing both steps of SeniorCNN, but the result of ETRI voice recognition does not always output a constant text every time whenever the speech data is transmitted and recognized by the API. Given the Just only WER, it is difficult to assess the absolute performance of SeniorCNN. For this reason, the results of the speech recognition showed that there are cases that the words and phrases that were not recognized in the voice of the old aged speaker before the SeniorCNN training were recognized as the correct words and phrases when they were recognized by ETRI API after SeniorCNN training. As a result of analyzing the PESQ for each voice and the value converted to MOS, the value trained by SeniorCNN using the style voice was higher than that of SPRocket. However, I could confirm that the results of SeniorCNN training are superior to both WER and PESQ-MOS, compared to the intermediate CNN passing only the first CNN training to the second CNN. As a result of the experiments, repeating CNN training several times did not necessarily indicate good results. In addition, this study compared and analyzed how the final result voice quality varies according to the activation function used in CNN training. The most commonly used activation functions, ReLU and ReLU-derived activation functions, Leaky ReLU were used. SeniorCNN training by using these three activation functions showed that for both male and female speakers, the voice files trained using ELU had the lowest WER and the PESQ and MOS were the highest. This suggests that the activation function ELU is most suitable for SeniorCNN training for speech reinforcement and reconstruction of elderly speakers.
The Conversational User Interface (CUI) is a new paradigm that interacts with computers by mimicking the natural conversations of people as a result of long-standing human-machine interactions. This technology is especially for elderly people who are not familiar with the operation of electronic devices and cannot use them easily. In 2018, more than 14% of the Korean population aged 65 or older: Korea entered full-scale aging society. In spite of these social phenomena, studies on the characteristics of aging voices and their improvement and restoration are hardly conducted in Korea. The aging voice is small, the pronunciation is inaccurate and it is not suitable for the general speech recognizer made based on the standard pronunciation of the young. In consideration of the voice characteristics of the elderly speakers, this study improves the recognition performance of the speech recognition system used by elderly people who are uncomfortable and elderly speakers who suffer from senile voice diseases by preprocessing the voice data of the elderly speakers using audio style transfer. In order to improve the convenience of use, simple preprocessing effects, such as noise reduction and normalization, have been made to compensate for the shortcomings of the existing voice technology, which cannot generate new data that is not in the original data. In this study, experiments were carried out using a Seoul speech reading corpus supplied by the National Institute of Korean Language in 2005. Among the data, one elderly speaker with the lowest voice quality was selected per gender. 33 speech data of 68-year-old female speaker and 71-year-old male speaker were subjected to voice conversion. The style voice used for audio style transfer is the result of SPRocket developed by Nagoya University in Japan. The result of voice conversion was made by selecting source speaker as aging speaker and target speaker as young speaker in 20s. The deep learning algorithm proposed in this study is SeniorCNN, which consists of training 2D Random CNN two times. Two style voices are required to operate SeniorCNN designed to apply the style of voice converted into SPRocket to voice of elderly voice. In the first step, general speech conversion results using GMM-based traditional speech statistical techniques were used. In the second step, vocoder-free-based speech conversion results were used as style speech. This result data was recognized by ETRI's public speech recognition API to compare WER (Word Error Rate) for each voice conversion task step. We compared the results of SeniorCNN's speech with the quality of SPRocket's speech and the voice data itself, and the speech recognition performance of the data. WER increased by 3% overall when passing both steps of SeniorCNN, but the result of ETRI voice recognition does not always output a constant text every time whenever the speech data is transmitted and recognized by the API. Given the Just only WER, it is difficult to assess the absolute performance of SeniorCNN. For this reason, the results of the speech recognition showed that there are cases that the words and phrases that were not recognized in the voice of the old aged speaker before the SeniorCNN training were recognized as the correct words and phrases when they were recognized by ETRI API after SeniorCNN training. As a result of analyzing the PESQ for each voice and the value converted to MOS, the value trained by SeniorCNN using the style voice was higher than that of SPRocket. However, I could confirm that the results of SeniorCNN training are superior to both WER and PESQ-MOS, compared to the intermediate CNN passing only the first CNN training to the second CNN. As a result of the experiments, repeating CNN training several times did not necessarily indicate good results. In addition, this study compared and analyzed how the final result voice quality varies according to the activation function used in CNN training. The most commonly used activation functions, ReLU and ReLU-derived activation functions, Leaky ReLU were used. SeniorCNN training by using these three activation functions showed that for both male and female speakers, the voice files trained using ELU had the lowest WER and the PESQ and MOS were the highest. This suggests that the activation function ELU is most suitable for SeniorCNN training for speech reinforcement and reconstruction of elderly speakers.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.