[논문]Variable Max Pooling을 적용한 CNN – LSTM 기반 음성 감정 인식

윤상혁

[학위논문] Variable Max Pooling을 적용한 CNN – LSTM 기반 음성 감정 인식
CNN – LSTM based Speech Emotion Recognition using Variable Max Pooling 원문보기

윤상혁 (건국대학 대학원 컴퓨터공학과 국내석사)

초록 ▼
AI-Helper

음성 감정 인식이란 음성 데이터만 사용하여 화자의 감정을 인식하는 모델을 말한다. 음성 감정 인식을 위해 음성 신호를 Mel-Spectrogram으로 변환 후 CNN과 LSTM을 결합한 모델을 제안한다. 기존 모델은 전체 음성 데이터 중 특정 구간만 학습한다. 본 논문에서 제안하는 모델은 음성 데이터 전체를 학습하기 위해 모델의 입력 크기를 길이가 가장 긴 음성 데이터의 크기에 맞추며 입력 크기보다 짧은 데이터는 0으로 덧붙인다. 0으로 덧붙일 시 여러 레이어를 거치더라도 0을 덧붙인 부분의 비율은 유지된다. 따라서 길이가 짧은 음성 신호를 입력할 경우 CNN, Max-Pooling 레이어를 여러 번 거치면 유의미한 값을 소실하게 된다. 이를 해결하기 위해 Variable Max-Pooling을 제안한다. Variable Max-Pooling은 실제 데이터만 참조하여 Max-Pooling을 적용한다. 실제 데이터 크기와 출력 크기에 맞게 pool 크기를 가변적으로 조정하며 이후 레이어가 실제 데이터만 참조할 수 있도록 도와준다. Variable Max-Pooling을 적용하여 음성 신호 전체를 학습 및 추론할 수 있으며 정확도를 측정한 결과 기존 83.56%에서 85%로 향상되었다.

Abstract ▼ AI-Helper

Speech emotion recognition refers to recognizing speaker’s emotion using only speech signals. We propose a model combining CNN and LSTM after converting speech signals into Mel-Spectrogram for speech emotion recognition. Existing models learn only a specific section of entire speech signal. For training entire speech data, proposed model’s input size is set as the longest speech data length and if a speech data is shorter than model’s input size, that speech data is padded with 0. The proportion of 0 padded section is maintained even if it passed multiple layers. Therefore, when a short-length speech signal is input, significant values are lost after passing through the CNN and Max Pooling layers several times. To solve this problem, we proposed Variable Max Pooling. Variable Max Pooling applies Max Pooling by referring only to actual data. The pool size is variably adjusted according to the actual data size and output size, and it helps later layers referred only actual data. By applying Variable Max Pooling, it is possible to learn and infer the entire speech signal. As a result, the accuracy was improved from 83.56% to 85%.

주제어

학위논문 정보

저자	윤상혁
학위수여기관	건국대학 대학원
학위구분	국내석사
학과	컴퓨터공학과
지도교수	박능수
발행연도	2022
총페이지	29
키워드	Speech emotion recognition CNN LSTM Mel-Spectrogram Machine Learning
언어	kor
원문 URL	http://www.riss.kr/link?id=T16082199&outLink=K
정보원	한국교육학술정보원

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명(한글), 저자명(한글), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문) 관리번호, 논문명(한글), 논문명(영문), 저자명(한글), 저자명(영문), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문)
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[학위논문] Variable Max Pooling을 적용한 CNN – LSTM 기반 음성 감정 인식
CNN – LSTM based Speech Emotion Recognition using Variable Max Pooling 원문보기

초록 ▼
AI-Helper

Abstract ▼ AI-Helper

주제어

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[학위논문] Variable Max Pooling을 적용한 CNN – LSTM 기반 음성 감정 인식 CNN – LSTM based Speech Emotion Recognition using Variable Max Pooling 원문보기

초록 ▼ 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[학위논문] Variable Max Pooling을 적용한 CNN – LSTM 기반 음성 감정 인식
CNN – LSTM based Speech Emotion Recognition using Variable Max Pooling 원문보기

초록 ▼
AI-Helper