In modern society, speech recognition technology is emerging as an important technology for identification in electronic commerce, forensics, law enforcement, and other systems. In this study, we aim to develop an age classification algorithm for extracting only MFCC(Mel Frequency Cepstral Coefficie...
In modern society, speech recognition technology is emerging as an important technology for identification in electronic commerce, forensics, law enforcement, and other systems. In this study, we aim to develop an age classification algorithm for extracting only MFCC(Mel Frequency Cepstral Coefficient) expressing the characteristics of speech in Korean and applying it to deep learning technology. The algorithm for extracting the 13th order MFCC from Korean data and constructing a data set, and using the artificial intelligence algorithm, deep artificial neural network, to classify males in their 20s, 30s, and 50s, and females in their 20s, 40s, and 50s. finally, our model confirmed the classification accuracy of 78.6% and 71.9% for males and females, respectively.
In modern society, speech recognition technology is emerging as an important technology for identification in electronic commerce, forensics, law enforcement, and other systems. In this study, we aim to develop an age classification algorithm for extracting only MFCC(Mel Frequency Cepstral Coefficient) expressing the characteristics of speech in Korean and applying it to deep learning technology. The algorithm for extracting the 13th order MFCC from Korean data and constructing a data set, and using the artificial intelligence algorithm, deep artificial neural network, to classify males in their 20s, 30s, and 50s, and females in their 20s, 40s, and 50s. finally, our model confirmed the classification accuracy of 78.6% and 71.9% for males and females, respectively.
본 연구에서는 한국어 음성에서 음성의 특징을 표현하는 Mel Frequency Cepstral Coefficient(MFCC)만을 추출하여 딥러닝 기술에 적용한 연령 분류 알고리즘을 개발을 목표로 한다. Mel Frequency Cepstral Coefficient는 일정 구간에 대한 스펙트럼을 분석하여 특징을 추출하는 기법으로[6], 음성 관련 연구에서 많이 사용하는 특징점이다.
제안 방법
본 연구는 한국어 음성 파일인 ‘서울말 낭독체 발화 말뭉치’[9]를 이용하여 음성의 특징을 나타내는 MFCC만을 추출한 데이터셋을 구성하고 심층 인공 신경망의 하이퍼 파라미터를 변경시키며 화자의 연령을 분류하는 인공지능 모델을 학습시켰다(그림 1). 러닝 기술인 인공지능 모델은 Holdout 학습 방법으로 학습을 진행하였고, 심층 인공 신경망의 경우, 학습을 진행하는 도중 기울기 소실(Vanishing Gradient) 문제가 야기되는 시그모이드, 탄젠트 함수 대신 비선형 함수인 ReLU(Rectified Linear Unit)을 활성화 함수(Activation Function)로 사용하여 인공지능의 구성 모듈을 변경시켜 학습시켰다[7].
본 연구에서는 한국어 음성 데이터에서 13차 MFCC를 추출하여 데이터셋을 구성하고, 심층 인공 신경망(DNN; Deep Neural Network)을 사용하여 20대, 30대, 50대의 남성을 분류하는 알고리즘과 20대, 40대, 50대의 여성을 분류하는 알고리즘을 제안하였다. 제안하는 모델의 성능을 비교하기 위해서 기존 연구에서 사용했던 SVM보다 성능이 좋은 랜덤 포레스트[8]의 분류 정확도와 비교하여 성능을 평가하였다.
본 연구에서는 한국어 음성 데이터에서 13차 MFCC를 추출하여 데이터셋을 구성하고, 심층 인공 신경망(DNN; Deep Neural Network)을 사용하여 20대, 30대, 50대의 남성을 분류하는 알고리즘과 20대, 40대, 50대의 여성을 분류하는 알고리즘을 제안하였다. 제안하는 모델의 성능을 비교하기 위해서 기존 연구에서 사용했던 SVM보다 성능이 좋은 랜덤 포레스트[8]의 분류 정확도와 비교하여 성능을 평가하였다.
대상 데이터
본 연구에 사용된 데이터셋은 ‘서울말 낭독체 발화 말뭉치’로써[9], 2002년에 개발하여 2005년도에 공개 및 분배한 음성 데이터베이스이다. 총 19개 소설에 대한 문장이 녹음되어 있으며, 20대의 남녀, 30대의 남성, 40대의 여성, 50대의 남녀, 60대 이상의 남녀 화자의 발화가 문장별로 구성되어 있고, 16bit 양자화 및 16kHZ로 표본 추출되어 있다.
총 19개 소설에 대한 문장이 녹음되어 있으며, 20대의 남녀, 30대의 남성, 40대의 여성, 50대의 남녀, 60대 이상의 남녀 화자의 발화가 문장별로 구성되어 있고, 16bit 양자화 및 16kHZ로 표본 추출되어 있다. 이 중 파일이 손실된 부분을 제외시키고, 남성과 여성의 데이터셋을 분리하여 데이터셋을 구성하고 인공지능 모델 학습에 사용되었다(표 1).
본 연구에 사용된 데이터셋은 ‘서울말 낭독체 발화 말뭉치’로써[9], 2002년에 개발하여 2005년도에 공개 및 분배한 음성 데이터베이스이다. 총 19개 소설에 대한 문장이 녹음되어 있으며, 20대의 남녀, 30대의 남성, 40대의 여성, 50대의 남녀, 60대 이상의 남녀 화자의 발화가 문장별로 구성되어 있고, 16bit 양자화 및 16kHZ로 표본 추출되어 있다. 이 중 파일이 손실된 부분을 제외시키고, 남성과 여성의 데이터셋을 분리하여 데이터셋을 구성하고 인공지능 모델 학습에 사용되었다(표 1).
데이터처리
성능을 평가하기 위한 인덱스는 정확히 분류되는 정도를 나타내는 정확도로 나타냈다. 또한, 이 모델의 성능을 비교하기 위해 동일한 특징점을 사용한 랜덤 포레스트의 분류 정확도와 비교하였다.
본 연구에서 제안하는 모델 성능은 전체 데이터를 학습데이터와 테스트 데이터로 구분하여 평가하는 Hold-out 학습방법을 통해서 평가하였다. 성능을 평가하기 위한 인덱스는 정확히 분류되는 정도를 나타내는 정확도로 나타냈다. 또한, 이 모델의 성능을 비교하기 위해 동일한 특징점을 사용한 랜덤 포레스트의 분류 정확도와 비교하였다.
이론/모형
두 가지 모델에 공통적으로 학습에 사용된 손실함수(Loss Function)는 분류 모델에 일반적으로 사용되는 손실 함수인 범주형 교차엔트로피(Categorical Cross-entropy)를 이용하였다. 범주형 교차엔트로피는 다음 식(6)과 같이 정의되며, 여기서 yk*(t)와 yk(t)는 k번째 클래스에 속한 n번째 학습 데이터에 대한 네트워크의 목표(정답)과 산출된 결과(예측 값)을 의미한다.
두 가지 모델의 학습은 Mini-batch를 이용한 확률적 기울기 하강법(Stochastic Gradient Descent)를 이용하여 진행하였다. 이러한 확률적 기울기 하강법의 경우 매번 학습에서 전체 학습 데이터에 대하여 손실함수를 산출하지 않고, 학습 데이터에서 무작위로 추출된 데이터에 대해서 손실함수를 계산하고 이에 따른 오차를 업데이트를 하는 방식으로 학습이 진행된다.
본 연구에서 제안하는 모델 성능은 전체 데이터를 학습데이터와 테스트 데이터로 구분하여 평가하는 Hold-out 학습방법을 통해서 평가하였다. 성능을 평가하기 위한 인덱스는 정확히 분류되는 정도를 나타내는 정확도로 나타냈다.
성능/효과
9%의 여성 연령 분류 정확도를 얻었다. 기술의 성능을 비교하기 위하여 동일한 데이터셋을 이용하여 랜덤 포레스트에 적용한 결과, 본 연구에서 개발한 알고리즘이 랜덤 포레스트의 성능보다 남녀 각각 26.8%, 27.28%의 높은 정확도를 보였다.
본 연구에서는 한국어 음성데이터를 이용하여 딥러닝 기반 연령 분류 알고리즘을 개발하였고, 78.6%의 남성 연령분류 정확도와 71.9%의 여성 연령 분류 정확도를 얻었다. 기술의 성능을 비교하기 위하여 동일한 데이터셋을 이용하여 랜덤 포레스트에 적용한 결과, 본 연구에서 개발한 알고리즘이 랜덤 포레스트의 성능보다 남녀 각각 26.
후속연구
그래서 충분한 데이터 확보를 하지 못한 한계로 분류 정확도의 결과에도 영향을 끼쳤을 것이다. 그러나 추후에 전 연령대에 있어 더 많은 양의 화자 발화 음성데이터를 확보한다면 보다 높은 성능의 모델 제시가 가능할 것으로 기대되어 진다.
본 연구에서도 기존 음성 분류 연구에서 많이 쓰이는 13차 MFCC를 학습 데이터셋의 특징점으로 사용하였다[11,12]. 그러나 추후에는 피치나 주기 등의 운율적인 특징점[3]과 음성 에너지적인 특징점[14], 그리고 이를 통해 얻은 데이터 특징점들의 통계적인 특징점을 추출하여 데이터셋을 구성하여 인공지능 알고리즘 모델을 학습시킬 수도 있을 것이다.
여러 가지 한계에도 불구하고 본 연구에서는 딥러닝 기술을 이용하여 한국어 음성만을 통한 연령 구분 모델을 제시하였고, 추후에 데이터의 추가 확보 및 모델의 고도화를 진행한다면 범죄 수사나 전자상거래 등 실생활에 응용될 수 있는 가능성을 확인하였다.
질의응답
핵심어
질문
논문에서 추출한 답변
확률적 기울기 하강법은 어떠한 방식으로 학습이 진행되는가?
두 가지 모델의 학습은 Mini-batch를 이용한 확률적 기울기 하강법(Stochastic Gradient Descent)를 이용하여 진행하였다. 이러한 확률적 기울기 하강법의 경우 매번 학습에서 전체 학습 데이터에 대하여 손실함수를 산출하지 않고, 학습 데이터에서 무작위로 추출된 데이터에 대해서 손실함수를 계산하고 이에 따른 오차를 업데이트를 하는 방식으로 학습이 진행된다. 이러한 확률적 기울기 하강법의 장점은 학습 데이터의 무작위 추출을 통한 난수성을 통하여, 알고리즘 손실함수가 국소 최저치(Local Minima)에 도달하여 학습이 원활이 진행되지 못하는 문제를 해결하고 종국에는 전역 최저치(Global Minima)까지 도달할 수 있다는 장점을 지닌다.
확률적 기울기 하강법의 장점은 무엇인가?
이러한 확률적 기울기 하강법의 경우 매번 학습에서 전체 학습 데이터에 대하여 손실함수를 산출하지 않고, 학습 데이터에서 무작위로 추출된 데이터에 대해서 손실함수를 계산하고 이에 따른 오차를 업데이트를 하는 방식으로 학습이 진행된다. 이러한 확률적 기울기 하강법의 장점은 학습 데이터의 무작위 추출을 통한 난수성을 통하여, 알고리즘 손실함수가 국소 최저치(Local Minima)에 도달하여 학습이 원활이 진행되지 못하는 문제를 해결하고 종국에는 전역 최저치(Global Minima)까지 도달할 수 있다는 장점을 지닌다. 본 연구에서는 512 샘플의 크기를 가지는 Minibatch를 구성하여 학습을 진행하였으며, 확률적 기울기 하강법을 기반으로 하는 Adam 최적화기(Optimizer)[13]을 적용하여 네트워크의 학습을 수행하였다.
음성 정보를 통한 화자 인식 기술의 장점을 기반으로 어떠한 영향을 주고 있는가?
화자 인식 기술에 있어 음성 정보를 통한 화자 인식 기술은 영상 정보나 다양한 생체 정보를 통한 화자 인식 기술에 비해 측정 장비 및 측정 방법에 있어 비교적 간편하게 화자의 성별, 연령대 등의 정보를 획득할 수 있다. 이러한 장점을 기반으로 현대 사회에서 음성 화자 인식 기술은 전자 상거래, 법의학, 법 집행 등의 시스템에서 신원을 확인하는 데 있어 중요한 기술로 부상하고 있다[1]. 또한, 음성 기술의 발달과 오디오 컨텐츠 및 전자 상거래 시스템의 지속적인 확대로 인해 화자 인식의 중요성은 더욱 증가하고 있는 추세다[1].
참고문헌 (14)
J.H.L. Hansen and T. Hasan, "Speaker recognition by machines and humans: A tutorial review," IEEE Signal Proc. Mag., vol. 32, no. 6, pp. 74-99, 2015.
Schuller, B., Steidl, S., Batliner, A., Burkhardt, F., Devillers, L., Muller, C., Narayanan, S, "The INTERSPEECH 2010 Paralinguistic Challenge," In: Proc. INTERSPEECH 2010, Makuhari, Japan, 2010, pp. 2794-2797.
M. Li, K. J. Han, and S. Narayanan, "Automatic speaker age and gender recognition using acoustic and prosodic level information fusion," Computer Speech & Language, vol. 27, no. 1, pp. 151-167, 2013.
Phuoc Nguyen, Trung Le, Dat Tran, Xu Huang, and Dharmendra Sharma. "Fuzzy support vector machines for age and gender classification," In INTERSPEECH 2010, Makuhari, Japan, 2010, pp. 2806-2809.
강우현, 이강현, 강태균, 김남수. "I-벡터 특징을 이용하는 NN 기반의 화자 연령 분류,"한국통신학회 학술대회논문집, 2015, pp. 589-590.
Logan, Beth. "Mel Frequency Cepstral Coefficients for Music Modeling," ISMIR, vol. 270, 2000.
Y. LeCun, Y. Bengio, and G. Hinton, "Deep learning," Nature, vol. 521, 2015.
Katerenchuk, Denys. "Age Group Classification with Speech and Metadata Multimodality Fusion." Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers," vol. 2, 2017.
Muda, L., M. Begam and I. Elamvazuthi (2010). "Voice recognition algorithms using mel frequency cepstral coefficient (MFCC) and dynamic time warping (DTW) techniques," arXiv preprint arXiv:1003.4083.
D. Mahmoodi, H. Marvi, M. Taghizadeh, A. Soleimani, F. Razzazi, and M. Mahmoodi, "Age estimation based on speech features and support vector machine," in Proceedings of the 3rd Computer Science and Electronic Engineering Conference (CEEC '11), July. 2011, pp. 60-64.
A. Kumar, P. Agarwal, P. Dighe, S. S. Bhiksha Raj, and K. Prahallad, "Speech Emotion Recognition by AdaBoost Algorithm and Feature Selection for Support Vector Machines," http://home.iitk.ac.in/?subhali/reports/reportiptse.pdf.
KINGMA, Diederik P.; BA, Jimmy. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.
B. D. Barkana and J. Zhou, "A new pitch-range based feature set for a speaker's age and gender classification," Appl. Acoust., vol. 98, pp. 52-61, 2015.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.