[논문]효과음 자막 생성을 위한 딥러닝 기반의 다중 사운드 분류

정현영; 김규미; 김현희

문제 정의

현재의 자막 생성기술인 음성 인식(Speech To Text, STT) 기술은 대사만을 자막으로 생성해 낸다는 점에서, 대사 이외의 음향효과와 같은 소리 정보를 알리는 자막이 필요한 배리어프리영화에 적용하기엔 부족한 점이 있다. 따라서 본 논문은 화면에 나타나지 않은 소리정보도 자막으로 나타내는 사운드 기반의 자막 생성을 위한 다중 사운드 분류 모델을 제안하였다.
본 논문은 대사 뿐 아니라 효과음도 자막으로 나타낼 수 있는 사운드 기반 자동 자막 생성을 제안하며, 이의 첫 단계로 다양한 사운드를 분류해 낼 수 있는 다중 사운드 분류 모델을 연구하였다.

제안 방법

[그림 2]는 고속 푸리에 변환을 통해 계산된 사운드 데이터이다. 고속 푸리에 변환을 통해 사운드 데이터를 샘플링 된 특징 값으로 추출하여 기계학습에 적용하였다.
다음으로 고속 푸리에 변환을 사용하여 데이터로부터 시간적 흐름의 소리 정보를 주파수의 흐름으로 변환하였다. 고속 푸리에 변환 기법[1]을 이용하면 임의의 신호를 수학적 변수로 변환할 수 있기 때문에 현재 음성분석, 지진파 분석 등 신호 분석에서 널리 사용되고 있다.
본 연구에선 강아지, 고양이, 사람의 사운드 데이터를 수집 후 고속 푸리에 변환(Fast Fourier Transform)을 적용하고 주성분 분석(PCA)을 통해 사운드의 특징을 추출하였다. 다음으로 다중 클래스 사운드 분류에 적절한 기계 학습 모델을 찾아내기 위해서, 가우시안 나이브 베이즈, 로지스틱 회귀, 랜덤 포레스트, 딥러닝까지 총 4가지 기계학습 모델을 적용하였다. 네 가지 모델의 분류 정확도를 비교한 결과, 주성분 분석을 적용한 딥러닝 모델이 81.
본 연구에선 강아지, 고양이, 사람의 사운드 데이터를 수집 후 고속 푸리에 변환(Fast Fourier Transform)을 적용하고 주성분 분석(PCA)을 통해 사운드의 특징을 추출하였다. 다음으로 다중 클래스 사운드 분류에 적절한 기계 학습 모델을 찾아내기 위해서, 가우시안 나이브 베이즈, 로지스틱 회귀, 랜덤 포레스트, 딥러닝까지 총 4가지 기계학습 모델을 적용하였다.
사운드 데이터의 경우 복합한 특징 벡터를 가지고 있기 때문에 단순한 기계학습보다 딥러닝 모델에서 더 좋은 분류 결과를 보였으며, 주성분 분석 과정을 통하여 분류에 큰 영향을 미치는 성분을 추출하였다. 이를 딥러닝 모델에 적용했을 때, 주성분 분석을 적용하지 않은 모델에 비해 월등이 좋은 성능을 나타냈다는 점에서, 사운드 데이터를 분류하는데 특징 벡터의 분석과정이 큰 의미가 있음을 알 수 있었다.

대상 데이터

[그림 4]는 다중 사운드 분류를 위한 5층으로 구성된 완전연결구조의 딥러닝 모델의 학습과정을 나타낸다. 고속 푸리에 변환(FFT) 함수로 계산하여 주성분 분석을 적용한 데이터는 6개의 입력 노드를 거친다. 은닉층의 노드가 16, 15, 8, 5로 구성된 본 모델은 활성화 함수로 'relu'를 사용하고 있으며, 가중치 최적화를 위한 함수는 'adam'을 적용하였고, 고양이, 강아지, 사람을 분류하기 위해 3개의 출력 노드를 가지고 있다.
[그림 1]은 데이터 전처리 과정을 나타낸 것이다. 고양이 167개, 강아지 112개, 사람 100개의 사운드 데이터를 트레이닝 데이터로 수집했으며, 테스트 데이터로는 각 클래스별로 50개씩의 사운드 데이터를 「내 어깨 위 고양이, 밥」, 「화이트 갓」 등 다양 한 영화로부터 추출하여 활용했다. 이때, 사람의 사운드 데이터는 여성 50%, 남성 50%로 동일하게 수집하였으며, 연령별 사운드의 차이를 고려하여 각 아이 15%, 성인 20%, 노인 15%로 연령대를 고르게 수집하였다.
[그림 3]은 각각의 주성분 벡터가 이루는 축에 투영한 결과의 분산의 비율과 누적 비율을 나타낸다. 이를 통해 방향벡터가 큰 6개의 성분(component)을 주성분으로 선택하여 입력 데이터로 사용하였다.

데이터처리

데이터를 효과적으로 분류하기 위하여 Z-score 표준화(Standard Scaler)한 후 주성분 분석(Principal Component Analysis)을 통해 차원을 축소하였다.
[표 1]은 고속 푸리에 변환된 트레이닝 데이터의 각 분류별 25%를 검증 데이터로 분리해 준 전체 데이터의 개수이다. 테스트 데이터에 적용하기 전, 모델을 검증하기 위한 검증용 데이터와 트레이닝 데이터는 Z-score 표준화와 주성분 분석을 각각(따로) 진행하였다.

이론/모형

고속 푸리에 변환(FFT) 함수로 계산하여 주성분 분석을 적용한 데이터는 6개의 입력 노드를 거친다. 은닉층의 노드가 16, 15, 8, 5로 구성된 본 모델은 활성화 함수로 'relu'를 사용하고 있으며, 가중치 최적화를 위한 함수는 'adam'을 적용하였고, 고양이, 강아지, 사람을 분류하기 위해 3개의 출력 노드를 가지고 있다. 최대 학습 횟수는 200회로 설정하였으며, L2 규제를 위한 매개 변수인 알파(alpha)값은 0.

성능/효과

강아지와 사람은 각 82%와 88%로 높은 Fl-score를 보였지만, 고양이는 75%로 비교적 낮은 F1-score를 보였다.
다음으로 다중 클래스 사운드 분류에 적절한 기계 학습 모델을 찾아내기 위해서, 가우시안 나이브 베이즈, 로지스틱 회귀, 랜덤 포레스트, 딥러닝까지 총 4가지 기계학습 모델을 적용하였다. 네 가지 모델의 분류 정확도를 비교한 결과, 주성분 분석을 적용한 딥러닝 모델이 81.3%의 정확도로 가장 높은 성능을 내는 것을 알 수 있었다.
또한 추가적인 연구에 고양이와 강아지 소리가 동시에 나오는 테스트 데이터를 넣어 주었을 때, 강아지로 인식하는 것으로 보아, 강아지의 소리가 인식이 더 잘 되는 것을 알 수 있었다.
[표 2]는 가우시안 나이브 베이즈, 랜덤 포레스트, 로지스틱 회귀, 딥러닝 총 4가지 모델에 트레이닝 데이터와 테스트 데이터를 넣은 후 정확도를 보여준다. 로지스틱 회귀 모델에서 검증 정확도가 191%를 넘겨 가장 최적 모델로 보이는 듯 했으나, 테스트 데이터에 적용하였을 때는 77%로 나타났다.
본 연구의 다중 사운드 분류 모델은 81% 정확도라는 결과를 냈으나, 영어가 아닌 언어의 데이터를 넣었을 때 성능이 크게 떨어졌다는 것을 고려하면 데이터셋의 확대가 이루어졌을 때 더 좋은 성능을 낼 수 있을 것이라 기대된다. 또한 향후 자동 자막 생성 기술와 접목된다면 대사 뿐 아니라 화면에 나타나지 않는 사운드까지 자막으로 나타낼 수 있다는 점에서 배리어프리영화에 적용하여 원활한 영화 공급 및 취약계층이 문화적 권리를 향유하는데 큰 도움이 될 것이라 기대된다.
사람의 사운드 데이터의 경우, 트레이닝 데이터의 언어가 전부 영어로 이루어져 있으며, 테스트 데이터의 언어도 영어로 이루어져 있어 높은 F1-score를 보였다. 하지만 다른 언어가 테스트 데이터로 들어왔을 때는 낮은 F1 score를 보였다.
사운드 데이터의 경우 복합한 특징 벡터를 가지고 있기 때문에 단순한 기계학습보다 딥러닝 모델에서 더 좋은 분류 결과를 보였으며, 주성분 분석 과정을 통하여 분류에 큰 영향을 미치는 성분을 추출하였다. 이를 딥러닝 모델에 적용했을 때, 주성분 분석을 적용하지 않은 모델에 비해 월등이 좋은 성능을 나타냈다는 점에서, 사운드 데이터를 분류하는데 특징 벡터의 분석과정이 큰 의미가 있음을 알 수 있었다.

후속연구

본 연구에서 제인한 다중 사운드 분류 모델을 자막생성에 활용한다면 효과음도 자막으로 생성해 낼 수 있다. 또한 본 연구의 모델은 고양이, 강아지, 사람으로 이루어진 3개의 클래스로만 분류를 해냈지만, 향후 데이터의 확대를 통해 더 다양하고 세밀한 효과음까지 자막으로 표현할 수 있으리라 기대한다.
본 연구의 다중 사운드 분류 모델은 81% 정확도라는 결과를 냈으나, 영어가 아닌 언어의 데이터를 넣었을 때 성능이 크게 떨어졌다는 것을 고려하면 데이터셋의 확대가 이루어졌을 때 더 좋은 성능을 낼 수 있을 것이라 기대된다. 또한 향후 자동 자막 생성 기술와 접목된다면 대사 뿐 아니라 화면에 나타나지 않는 사운드까지 자막으로 나타낼 수 있다는 점에서 배리어프리영화에 적용하여 원활한 영화 공급 및 취약계층이 문화적 권리를 향유하는데 큰 도움이 될 것이라 기대된다.
본 연구에서 제인한 다중 사운드 분류 모델을 자막생성에 활용한다면 효과음도 자막으로 생성해 낼 수 있다. 또한 본 연구의 모델은 고양이, 강아지, 사람으로 이루어진 3개의 클래스로만 분류를 해냈지만, 향후 데이터의 확대를 통해 더 다양하고 세밀한 효과음까지 자막으로 표현할 수 있으리라 기대한다.
제안한 모델을 활용하여 분류된 효과음을 자막으로 생성하면, 동물의 소리도 자막으로 볼 수 있어 청각 장애인들을 위한 자막 서비스가 보다 생동감있게 제공될 수 있을 것으로 기대된다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

효과음 자막 생성을 위한 딥러닝 기반의 다중 사운드 분류
A Multiclass Sound Classification Model based on Deep Learning for Subtitles Production of Sound Effect 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

효과음 자막 생성을 위한 딥러닝 기반의 다중 사운드 분류 A Multiclass Sound Classification Model based on Deep Learning for Subtitles Production of Sound Effect 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

효과음 자막 생성을 위한 딥러닝 기반의 다중 사운드 분류
A Multiclass Sound Classification Model based on Deep Learning for Subtitles Production of Sound Effect 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper