[논문]한국어 음성을 이용한 연령 분류 딥러닝 알고리즘 기술 개발

소순원; 유승민; 김주영; 안현준; 조백환; 육순현; 김인영

doi:10.9718/jber.2018.39.2.63

Abstract ▼ AI-Helper

In modern society, speech recognition technology is emerging as an important technology for identification in electronic commerce, forensics, law enforcement, and other systems. In this study, we aim to develop an age classification algorithm for extracting only MFCC(Mel Frequency Cepstral Coefficie...

In modern society, speech recognition technology is emerging as an important technology for identification in electronic commerce, forensics, law enforcement, and other systems. In this study, we aim to develop an age classification algorithm for extracting only MFCC(Mel Frequency Cepstral Coefficient) expressing the characteristics of speech in Korean and applying it to deep learning technology. The algorithm for extracting the 13th order MFCC from Korean data and constructing a data set, and using the artificial intelligence algorithm, deep artificial neural network, to classify males in their 20s, 30s, and 50s, and females in their 20s, 40s, and 50s. finally, our model confirmed the classification accuracy of 78.6% and 71.9% for males and females, respectively.

주제어

AI 본문요약
AI-Helper

문제 정의

본 연구에서는 한국어 음성에서 음성의 특징을 표현하는 Mel Frequency Cepstral Coefficient(MFCC)만을 추출하여 딥러닝 기술에 적용한 연령 분류 알고리즘을 개발을 목표로 한다. Mel Frequency Cepstral Coefficient는 일정 구간에 대한 스펙트럼을 분석하여 특징을 추출하는 기법으로[6], 음성 관련 연구에서 많이 사용하는 특징점이다.

제안 방법

본 연구는 한국어 음성 파일인 ‘서울말 낭독체 발화 말뭉치’[9]를 이용하여 음성의 특징을 나타내는 MFCC만을 추출한 데이터셋을 구성하고 심층 인공 신경망의 하이퍼 파라미터를 변경시키며 화자의 연령을 분류하는 인공지능 모델을 학습시켰다(그림 1). 러닝 기술인 인공지능 모델은 Holdout 학습 방법으로 학습을 진행하였고, 심층 인공 신경망의 경우, 학습을 진행하는 도중 기울기 소실(Vanishing Gradient) 문제가 야기되는 시그모이드, 탄젠트 함수 대신 비선형 함수인 ReLU(Rectified Linear Unit)을 활성화 함수(Activation Function)로 사용하여 인공지능의 구성 모듈을 변경시켜 학습시켰다[7].
본 연구에서는 한국어 음성 데이터에서 13차 MFCC를 추출하여 데이터셋을 구성하고, 심층 인공 신경망(DNN; Deep Neural Network)을 사용하여 20대, 30대, 50대의 남성을 분류하는 알고리즘과 20대, 40대, 50대의 여성을 분류하는 알고리즘을 제안하였다. 제안하는 모델의 성능을 비교하기 위해서 기존 연구에서 사용했던 SVM보다 성능이 좋은 랜덤 포레스트[8]의 분류 정확도와 비교하여 성능을 평가하였다.
본 연구에서는 한국어 음성 데이터에서 13차 MFCC를 추출하여 데이터셋을 구성하고, 심층 인공 신경망(DNN; Deep Neural Network)을 사용하여 20대, 30대, 50대의 남성을 분류하는 알고리즘과 20대, 40대, 50대의 여성을 분류하는 알고리즘을 제안하였다. 제안하는 모델의 성능을 비교하기 위해서 기존 연구에서 사용했던 SVM보다 성능이 좋은 랜덤 포레스트[8]의 분류 정확도와 비교하여 성능을 평가하였다.

대상 데이터

본 연구에 사용된 데이터셋은 ‘서울말 낭독체 발화 말뭉치’로써[9], 2002년에 개발하여 2005년도에 공개 및 분배한 음성 데이터베이스이다. 총 19개 소설에 대한 문장이 녹음되어 있으며, 20대의 남녀, 30대의 남성, 40대의 여성, 50대의 남녀, 60대 이상의 남녀 화자의 발화가 문장별로 구성되어 있고, 16bit 양자화 및 16kHZ로 표본 추출되어 있다.
총 19개 소설에 대한 문장이 녹음되어 있으며, 20대의 남녀, 30대의 남성, 40대의 여성, 50대의 남녀, 60대 이상의 남녀 화자의 발화가 문장별로 구성되어 있고, 16bit 양자화 및 16kHZ로 표본 추출되어 있다. 이 중 파일이 손실된 부분을 제외시키고, 남성과 여성의 데이터셋을 분리하여 데이터셋을 구성하고 인공지능 모델 학습에 사용되었다(표 1).
본 연구에 사용된 데이터셋은 ‘서울말 낭독체 발화 말뭉치’로써[9], 2002년에 개발하여 2005년도에 공개 및 분배한 음성 데이터베이스이다. 총 19개 소설에 대한 문장이 녹음되어 있으며, 20대의 남녀, 30대의 남성, 40대의 여성, 50대의 남녀, 60대 이상의 남녀 화자의 발화가 문장별로 구성되어 있고, 16bit 양자화 및 16kHZ로 표본 추출되어 있다. 이 중 파일이 손실된 부분을 제외시키고, 남성과 여성의 데이터셋을 분리하여 데이터셋을 구성하고 인공지능 모델 학습에 사용되었다(표 1).

데이터처리

성능을 평가하기 위한 인덱스는 정확히 분류되는 정도를 나타내는 정확도로 나타냈다. 또한, 이 모델의 성능을 비교하기 위해 동일한 특징점을 사용한 랜덤 포레스트의 분류 정확도와 비교하였다.
본 연구에서 제안하는 모델 성능은 전체 데이터를 학습데이터와 테스트 데이터로 구분하여 평가하는 Hold-out 학습방법을 통해서 평가하였다. 성능을 평가하기 위한 인덱스는 정확히 분류되는 정도를 나타내는 정확도로 나타냈다. 또한, 이 모델의 성능을 비교하기 위해 동일한 특징점을 사용한 랜덤 포레스트의 분류 정확도와 비교하였다.

이론/모형

두 가지 모델에 공통적으로 학습에 사용된 손실함수(Loss Function)는 분류 모델에 일반적으로 사용되는 손실 함수인 범주형 교차엔트로피(Categorical Cross-entropy)를 이용하였다. 범주형 교차엔트로피는 다음 식(6)과 같이 정의되며, 여기서 yk^*(t)와 yk(t)는 k번째 클래스에 속한 n번째 학습 데이터에 대한 네트워크의 목표(정답)과 산출된 결과(예측 값)을 의미한다.
두 가지 모델의 학습은 Mini-batch를 이용한 확률적 기울기 하강법(Stochastic Gradient Descent)를 이용하여 진행하였다. 이러한 확률적 기울기 하강법의 경우 매번 학습에서 전체 학습 데이터에 대하여 손실함수를 산출하지 않고, 학습 데이터에서 무작위로 추출된 데이터에 대해서 손실함수를 계산하고 이에 따른 오차를 업데이트를 하는 방식으로 학습이 진행된다.
본 연구에서 제안하는 모델 성능은 전체 데이터를 학습데이터와 테스트 데이터로 구분하여 평가하는 Hold-out 학습방법을 통해서 평가하였다. 성능을 평가하기 위한 인덱스는 정확히 분류되는 정도를 나타내는 정확도로 나타냈다.

성능/효과

9%의 여성 연령 분류 정확도를 얻었다. 기술의 성능을 비교하기 위하여 동일한 데이터셋을 이용하여 랜덤 포레스트에 적용한 결과, 본 연구에서 개발한 알고리즘이 랜덤 포레스트의 성능보다 남녀 각각 26.8%, 27.28%의 높은 정확도를 보였다.
본 연구에서는 한국어 음성데이터를 이용하여 딥러닝 기반 연령 분류 알고리즘을 개발하였고, 78.6%의 남성 연령분류 정확도와 71.9%의 여성 연령 분류 정확도를 얻었다. 기술의 성능을 비교하기 위하여 동일한 데이터셋을 이용하여 랜덤 포레스트에 적용한 결과, 본 연구에서 개발한 알고리즘이 랜덤 포레스트의 성능보다 남녀 각각 26.

후속연구

그래서 충분한 데이터 확보를 하지 못한 한계로 분류 정확도의 결과에도 영향을 끼쳤을 것이다. 그러나 추후에 전 연령대에 있어 더 많은 양의 화자 발화 음성데이터를 확보한다면 보다 높은 성능의 모델 제시가 가능할 것으로 기대되어 진다.
본 연구에서도 기존 음성 분류 연구에서 많이 쓰이는 13차 MFCC를 학습 데이터셋의 특징점으로 사용하였다[11,12]. 그러나 추후에는 피치나 주기 등의 운율적인 특징점[3]과 음성 에너지적인 특징점[14], 그리고 이를 통해 얻은 데이터 특징점들의 통계적인 특징점을 추출하여 데이터셋을 구성하여 인공지능 알고리즘 모델을 학습시킬 수도 있을 것이다.
여러 가지 한계에도 불구하고 본 연구에서는 딥러닝 기술을 이용하여 한국어 음성만을 통한 연령 구분 모델을 제시하였고, 추후에 데이터의 추가 확보 및 모델의 고도화를 진행한다면 범죄 수사나 전자상거래 등 실생활에 응용될 수 있는 가능성을 확인하였다.

질의응답

핵심어	질문	논문에서 추출한 답변
	확률적 기울기 하강법은 어떠한 방식으로 학습이 진행되는가?	두 가지 모델의 학습은 Mini-batch를 이용한 확률적 기울기 하강법(Stochastic Gradient Descent)를 이용하여 진행하였다. 이러한 확률적 기울기 하강법의 경우 매번 학습에서 전체 학습 데이터에 대하여 손실함수를 산출하지 않고, 학습 데이터에서 무작위로 추출된 데이터에 대해서 손실함수를 계산하고 이에 따른 오차를 업데이트를 하는 방식으로 학습이 진행된다. 이러한 확률적 기울기 하강법의 장점은 학습 데이터의 무작위 추출을 통한 난수성을 통하여, 알고리즘 손실함수가 국소 최저치(Local Minima)에 도달하여 학습이 원활이 진행되지 못하는 문제를 해결하고 종국에는 전역 최저치(Global Minima)까지 도달할 수 있다는 장점을 지닌다.
	확률적 기울기 하강법의 장점은 무엇인가?	이러한 확률적 기울기 하강법의 경우 매번 학습에서 전체 학습 데이터에 대하여 손실함수를 산출하지 않고, 학습 데이터에서 무작위로 추출된 데이터에 대해서 손실함수를 계산하고 이에 따른 오차를 업데이트를 하는 방식으로 학습이 진행된다. 이러한 확률적 기울기 하강법의 장점은 학습 데이터의 무작위 추출을 통한 난수성을 통하여, 알고리즘 손실함수가 국소 최저치(Local Minima)에 도달하여 학습이 원활이 진행되지 못하는 문제를 해결하고 종국에는 전역 최저치(Global Minima)까지 도달할 수 있다는 장점을 지닌다. 본 연구에서는 512 샘플의 크기를 가지는 Minibatch를 구성하여 학습을 진행하였으며, 확률적 기울기 하강법을 기반으로 하는 Adam 최적화기(Optimizer)[13]을 적용하여 네트워크의 학습을 수행하였다.
	음성 정보를 통한 화자 인식 기술의 장점을 기반으로 어떠한 영향을 주고 있는가?	화자 인식 기술에 있어 음성 정보를 통한 화자 인식 기술은 영상 정보나 다양한 생체 정보를 통한 화자 인식 기술에 비해 측정 장비 및 측정 방법에 있어 비교적 간편하게 화자의 성별, 연령대 등의 정보를 획득할 수 있다. 이러한 장점을 기반으로 현대 사회에서 음성 화자 인식 기술은 전자 상거래, 법의학, 법 집행 등의 시스템에서 신원을 확인하는 데 있어 중요한 기술로 부상하고 있다[1]. 또한, 음성 기술의 발달과 오디오 컨텐츠 및 전자 상거래 시스템의 지속적인 확대로 인해 화자 인식의 중요성은 더욱 증가하고 있는 추세다[1].

참고문헌 (14)

J.H.L. Hansen and T. Hasan, "Speaker recognition by machines and humans: A tutorial review," IEEE Signal Proc. Mag., vol. 32, no. 6, pp. 74-99, 2015.

상세보기
Schuller, B., Steidl, S., Batliner, A., Burkhardt, F., Devillers, L., Muller, C., Narayanan, S, "The INTERSPEECH 2010 Paralinguistic Challenge," In: Proc. INTERSPEECH 2010, Makuhari, Japan, 2010, pp. 2794-2797.
M. Li, K. J. Han, and S. Narayanan, "Automatic speaker age and gender recognition using acoustic and prosodic level information fusion," Computer Speech & Language, vol. 27, no. 1, pp. 151-167, 2013.

상세보기
Phuoc Nguyen, Trung Le, Dat Tran, Xu Huang, and Dharmendra Sharma. "Fuzzy support vector machines for age and gender classification," In INTERSPEECH 2010, Makuhari, Japan, 2010, pp. 2806-2809.
강우현, 이강현, 강태균, 김남수. "I-벡터 특징을 이용하는 NN 기반의 화자 연령 분류,"한국통신학회 학술대회논문집, 2015, pp. 589-590.
Logan, Beth. "Mel Frequency Cepstral Coefficients for Music Modeling," ISMIR, vol. 270, 2000.
Y. LeCun, Y. Bengio, and G. Hinton, "Deep learning," Nature, vol. 521, 2015.
Katerenchuk, Denys. "Age Group Classification with Speech and Metadata Multimodality Fusion." Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers," vol. 2, 2017.
윤태진, 강윤정, "한국어 대용량발화말뭉치의 단모음분석," 말소리와 음성과학, 제6권, 제3호, 2014, pp. 139-145.

원문보기 상세보기
Muda, L., M. Begam and I. Elamvazuthi (2010). "Voice recognition algorithms using mel frequency cepstral coefficient (MFCC) and dynamic time warping (DTW) techniques," arXiv preprint arXiv:1003.4083.
D. Mahmoodi, H. Marvi, M. Taghizadeh, A. Soleimani, F. Razzazi, and M. Mahmoodi, "Age estimation based on speech features and support vector machine," in Proceedings of the 3rd Computer Science and Electronic Engineering Conference (CEEC '11), July. 2011, pp. 60-64.
A. Kumar, P. Agarwal, P. Dighe, S. S. Bhiksha Raj, and K. Prahallad, "Speech Emotion Recognition by AdaBoost Algorithm and Feature Selection for Support Vector Machines," http://home.iitk.ac.in/?subhali/reports/reportiptse.pdf.
KINGMA, Diederik P.; BA, Jimmy. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.
B. D. Barkana and J. Zhou, "A new pitch-range based feature set for a speaker's age and gender classification," Appl. Acoust., vol. 98, pp. 52-61, 2015.

상세보기

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

한국어 음성을 이용한 연령 분류 딥러닝 알고리즘 기술 개발
Development of Age Classification Deep Learning Algorithm Using Korean Speech 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

한국어 음성을 이용한 연령 분류 딥러닝 알고리즘 기술 개발 Development of Age Classification Deep Learning Algorithm Using Korean Speech 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

소순원 (1) 유승민 (2) 김주영 (1) 안현준 (1) 조백환 (1) 김인영 (52)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

한국어 음성을 이용한 연령 분류 딥러닝 알고리즘 기술 개발
Development of Age Classification Deep Learning Algorithm Using Korean Speech 원문보기

AI 본문요약
AI-Helper