[논문]오디오 음량 자동 제어를 위한 콘텐츠 분류 기술 개발

이영한; 조충상; 김제우

오디오 음량 자동 제어를 위한 콘텐츠 분류 기술 개발
Audio Contents Classification based on Deep learning for Automatic Loudness Control 원문보기

이영한 (전자부품연구원) , 조충상 (전자부품연구원) , 김제우 (전자부품연구원)

오디오 음량을 자동으로 제어하는데 있어 음성이 있는 구간에 대해서 음량이 급격히 줄어드는 것을 막기 위해 콘텐츠에 대한 분석이 필요하다. 본 논문에서는 방송 음량을 조절을 위한 세부 기술로 딥러닝 기반의 콘텐츠 분류 기술을 제안한다. 이를 위해 오디오를 무음, 음성, 음성/오디오 혼합, 오디오의 4개로 정의하고 이를 처리하기 위한 mel-spectrogram을 이용하여 2D CNN 기반의 분류기를 정의하였다. 또한 학습을 위해 방송 오디오 데이터를 활용하여 학습/검증 데이터 셋을 구축하였다. 제안한 방식의 성능을 확인하기 위해 검증 데이터셋을 활용하여 정확도를 측정하였으며 약 81.1%의 정확도를 가지는 것을 확인하였다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 모델 용량을 증가시켰을 때의 성능을 확인하기 위해 표 2에 언급한 계층 증가 모델에 대해 학습을 진행하였다. 학습에 사용한 하이퍼 파라미터는 이전과 동일하게 설정하였으며 학습 횟수를 30 epochs 기준으로 하였다.
본 논문에서는 오디오 음량 자동 제어를 위한 콘텐츠 분류 기술을 제안하였다. 제안된 알고리즘은 2D CNN을 통해 구현되었으며, 검증 데이터셋에 대해 81.
하지만 일반적으로 방송 음량을 일률적으로 조절하기 때문에 평균적으로 높은 음량으로 인해 작은 음량이 더욱 낮게 조절되는 단점이 존재한다 [4]. 이를 해결하기 위해 본 논문에서는 음성의 명료도를 강화할 수 있는 사람의 청각 특성을 고려하여 콘텐츠를 분류하고 이를 활용하여 오디오 음량을 적응적으로 제어하는 알고리즘의 활용할 수 있는 오디오 콘텐츠 분류 기술을 제안한다.

제안 방법

모델 학습을 위해 오디오 데이터를 구축하였다. 구축에 사용한 음원은 방송 콘텐츠 중, 영화, 뉴스, 스포츠 중계의 장르에 대해서 선정하였으며 정답지 작업을 위해 음원을 청취 후 클래스 레이블 작업을 진행하였다. 구축된 데이터는 400 ms 프레임 단위 기준으로 약 38,000여 개의 데이터로 이루어 졌으며, 훈련/검증/테스트 데이터셋의 비율을 7:2:1 로 하였다.
표 1은 baseline으로 구성한 모델과 이를 활용하여 계층을 추가한 모델에 대한 상세 정의이다. 기본 모듈은 커널 크기를 5로 하는 2Dconvolutional layer (Conv.)와 batch normalization (BN), rectified linear unit (ReLU)으로 구성되어 있으며 하나의 모듈을 거칠 때마다 2D max-pooling을 통해 채널별 파라미터를 축소시키는 반면에 채널 수를 2배씩 증가시켰다. 최종단에서 fully –connected layer를 이용하여 최종 클래스의 확률을 획득하였다.
이에 대해 512 sample shift의 2048-point STFT을 이용한 주파수 변환을 하였으며 청각적 특성을 고려하기 위해 128개의 mel-filterbank를 적용하여 2채널의(128×38) 크기의 2차원 데이터인 mel-spectrogram을 생성하였다.
최종단에서 fully –connected layer를 이용하여 최종 클래스의 확률을 획득하였다.

대상 데이터

구축에 사용한 음원은 방송 콘텐츠 중, 영화, 뉴스, 스포츠 중계의 장르에 대해서 선정하였으며 정답지 작업을 위해 음원을 청취 후 클래스 레이블 작업을 진행하였다. 구축된 데이터는 400 ms 프레임 단위 기준으로 약 38,000여 개의 데이터로 이루어 졌으며, 훈련/검증/테스트 데이터셋의 비율을 7:2:1 로 하였다.
모델 학습을 위해 오디오 데이터를 구축하였다. 구축에 사용한 음원은 방송 콘텐츠 중, 영화, 뉴스, 스포츠 중계의 장르에 대해서 선정하였으며 정답지 작업을 위해 음원을 청취 후 클래스 레이블 작업을 진행하였다.
0001로 하였다. 총 학습은 10,000 여회의 반복에 해당하는 12 epochs로 설정하였으며 mini-batch 의 크기는 32 샘플로 정의하여 학습하였다.

이론/모형

딥러닝 프레임워크로는 PyTorch v0.3 [5]을 사용하였으며 오디오 전처리를 위해서는 librosa 라이브러리[6]를 활용하였다. 오디오 콘텐츠 분류기의 모델 학습을 위해 beta_1 0.

성능/효과

학습에 사용한 하이퍼 파라미터는 이전과 동일하게 설정하였으며 학습 횟수를 30 epochs 기준으로 하였다. 그림 3에서 확인할 수 있듯이, 모델의 용량이 커짐에 따라 훈련 데이터의 분류 성능(붉은선)은 92%대로 수렴구간 없이 증가하는 반면, 검증 데이터의 성능(분홍선)은 오히려 20 epoch 이후 감소함을 나타내었다. 이러한 현상은 훈련 데이터로 모델이 과학습되는 overfitting 현상으로 데이터를 증가시키거나 정규화 기법이 필요한 것으로 나타난다.
본 논문에서는 오디오 음량 자동 제어를 위한 콘텐츠 분류 기술을 제안하였다. 제안된 알고리즘은 2D CNN을 통해 구현되었으며, 검증 데이터셋에 대해 81.1 %의 정확도를 가지는 것을 확인하였다. 이는 오디오 음량 자동 제어에 있어 콘텐츠별 제어 정책을 분리함으로써 명료도를 확보하는 자동 제어 기술을 개발하는데 포함될 수 있다.
훈련 데이터(주황색) 및 검증 데이터(붉은색)가 80% 대로 수렴하는 것을 확인할 수 있다. 최종적으로 12 epoch를 통해 획득한 콘텐츠 분류 정확도는 81.1% 이다.
그림 2는 제안한 baseline 모델의 정확도 그래프이다. 훈련 데이터(주황색) 및 검증 데이터(붉은색)가 80% 대로 수렴하는 것을 확인할 수 있다. 최종적으로 12 epoch를 통해 획득한 콘텐츠 분류 정확도는 81.

후속연구

향후 계획으로 confusion matrix 분석을 통해 클래스 재정의를 진행할 예정이며, 모델 복잡도 증가에 따라 훈련/검증 성능 차이를 줄이기 위한 추가 데이터 구축 및 모델 최적화 연구를 진행하고자 한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

오디오 음량 자동 제어를 위한 콘텐츠 분류 기술 개발
Audio Contents Classification based on Deep learning for Automatic Loudness Control 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

오디오 음량 자동 제어를 위한 콘텐츠 분류 기술 개발 Audio Contents Classification based on Deep learning for Automatic Loudness Control 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

오디오 음량 자동 제어를 위한 콘텐츠 분류 기술 개발
Audio Contents Classification based on Deep learning for Automatic Loudness Control 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper