[논문]배경음악 분리를 위한 확장된 합성곱을 이용한 멀티 밴드 멀티 스케일 DenseNet

허운행; 김혜미; 권오욱

doi:10.7776/ask.2019.38.6.697

[국내논문] 배경음악 분리를 위한 확장된 합성곱을 이용한 멀티 밴드 멀티 스케일 DenseNet
Multi-band multi-scale DenseNet with dilated convolution for background music separation 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.38 no.6, 2019년, pp.697 - 702

허운행 (충북대학교 일반대학원 제어로봇공학전공) , 김혜미 (한국전자통신연구원 차세대콘텐츠연구본부) , 권오욱 (충북대학교 전자공학부)

초록
AI-Helper

방송 콘텐츠의 혼합 신호에서 배경음악 신호를 분리하는 확장된 합성곱을 이용한 멀티 밴드 멀티 스케일 DenseNet을 제안한다. 확장된 합성곱은 스펙트로그램의 다양한 스케일 문맥 정보를 학습하기 용이하도록 한다. 컴퓨터 모의실험 결과, 제안한 구조는 신호대잡음비(Signal to Noise Ratio, SNR) 0 dB, -10 dB의 환경에서 각각 0.15 dB, 0.27 dB의 신호대왜곡비(Signal to Distortion Ratio, SDR)를 개선하였다.

Abstract ▼ AI-Helper

We propose a multi-band multi-scale DenseNet with dilated convolution that separates background music signals from broadcast content. Dilated convolution can learn the multi-scale context information represented by spectrogram. In computer simulation experiments, the proposed architecture is shown to improve Signal to Distortion Ratio (SDR) by 0.15 dB and 0.27 dB in 0dB and -10 dB Signal to Noise Ratio (SNR) environments, respectively.

Keyword

표/그림 (10)

그림 Fig. 1. Dense block.
그림 Fig. 2. Composite function.
그림 Fig. 3. Compression.
그림 Fig. 4. MDenseNet architecture.
그림 Fig. 5. MMDenseNet architecture.
그림 Fig. 6. DMMDenseNet architecture.
그림 Fig. 7. Dilated dense block.
그림 Fig. 8. [2, 1], [1, 2], [2, 2] dilated convolution (5×3, 3×5, 5×5 kernel size).
표 Table 1. Details of the proposed architecture.
표 Table 2. Experimental results of background music separation in broadcast contents.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이 방법은시맨틱 분할 태스크에서 좋은 결과를 보여주었다. 본 연구에서는 dilated convolution을 dense block에 추가한 소스 분리 구조 dilated MMDenseNet(DMMDense-Net)을 제안한다.
본 연구에서는 방송 콘텐츠의 배경음악을 분리하기 위한 딥러닝 구조를 제안하였다. 딥러닝 구조의 수용범위를 효과적으로 늘이기 위해서 dilated convolution을 추가하였다.

제안 방법

이러한 이유로 자동 음악 검색 기술을 위한 배경음악 분리 기술이 필요하다. 본 연구에서는 방송 콘텐츠의 음악과 음성이 혼합된 신호에서 배경음악을 분리하였다.
Convolutional Neural Network(CNN) 기반 U-Net은 수용범위(receptive field)를 효과적으로 늘이기 위하여 다운 샘플링 과정인 인코더와 업 샘플링 과정인 디코더 구조를 가진다. 또한, 정보 전달과 오류 전파에 용이하도록 다운 샘플링과 업 샘플링 과정에서 같은 크기의 특징맵(feature map)을 연결하였다.
본 연구에서는 dilated convolution^[12]을 DenseNet 구조에 추가하여 dilated dense block을 만들었다. Dilated convolution은 해상도를 잃지 않고 문맥 정보를 효과적으로 학습할 수 있다.
다운 샘플링은 2 × 2 커널의 average pooling을 이용하였고, 업 샘플링은 2 × 2 커널의 transposed convolution[15]을 이용하였다.
이러한 특성을 딥러닝 구조에 적용하기 위하여 입력의 주파수 축을 반으로 나눈 각 밴드 “Low”, “High”와 전체 주파수 “Full”에 대하여서로 다른 MDenseNet 구조를 삽입하였다.
테스트 데이터는 0 dB, –10dB의 SNR로 혼합하여 각 SNR에 따른 분리 성능을 측정하였다.
∥₁은 L1 norm으로서, 행렬 각 요소의 절댓값의 합을 나타낸다. 잡음과 같은 이상치(outlier)가 많이 존재하지 않는 신호에서 실험을 하여서 이상치에 영향을 많이 받지 않는 목적함수를 사용하였다.
음성 데이터는 다양한 장르의 방송 콘텐츠 90 h에서 순수 음성만 존재하는 구간만 추출하였다. 추출된 음성을 12 s씩 구간을 나누어 총 3,646개의 약 12시간에 해당하는 음성 데이터를 만들었다.
8은 [2, 1], [1, 2], [2, 2]의 dilation ratio를 가지는 5 × 3, 3 × 5, 5 × 5 커널의 합성곱 과정을 보여준다. 본연 구에서는 위의 세 가지 dilated convolution에 대하여 각각 실험하였다. 합성곱의 dilation ratio에 따라 [2,1]은 frequency dilated convolution, [1, 2]는 time dilated convolution이라 한다.
k는 growth rate, L은 composite layer개수, θ은 compression rate이다. 다운 샘플링은 Average Pooling(AP)을 사용하였고, 업 샘플링은 Transposed Convolution(TC)을 사용하였다.
평가 지표로 분리된 배경음악 신호의 Signal to Distortion Ratio(SDR), Signal to Interference Ratio(SIR),Signal to Artifact Ratio(SAR) 3개의 지표를 측정하였다.^[17] 보통 분리 성능을 비교할 때 SDR을 비교한다.
실험은 U-Net,Wave-U-Net, MDenseNet, MMDenseNet과 제안한 구조의 성능을 비교하였다. Dilated block에 [2, 1], [1,2], [2, 2] dilation rate의 dilated convolution을 적용하여 세 개의 제안구조 실험을 하였다. Table 2에는 위의 dilation rate 순서대로 FDMMDenseNet(FrequencyDMMDenseNet), TDMMDenseNet(Time DMMDenseNet),2DMMDenseNet([2,2] DMMDenseNet)로 표기하였다.
본 연구에서는 방송 콘텐츠의 배경음악을 분리하기 위한 딥러닝 구조를 제안하였다. 딥러닝 구조의 수용범위를 효과적으로 늘이기 위해서 dilated convolution을 추가하였다. 분리한 배경음악에 음성이 가장 적게 남아 있는 구조는 Wave-U-Net이였다.

대상 데이터

학습 데이터는 음성의 볼륨이 음악의 볼륨보다 큰 방송물의 특성을 적용하여 음악을 기준으로 –30 dB~ 0 dB의 Signal to Noise Ratio(SNR)로 임의로 혼합하여 혼합 신호를 만든다.
배경음악 신호 분리 실험을 위하여 음악과 음성데이터셋을 수집하였다.^[16] 음악 데이터는 다양한 장르의 대중가요 3,646곡에서 각 곡당 12 s씩 임의로 선택하였다.
[16] 음악 데이터는 다양한 장르의 대중가요 3,646곡에서 각 곡당 12 s씩 임의로 선택하였다. 음성 데이터는 다양한 장르의 방송 콘텐츠 90 h에서 순수 음성만 존재하는 구간만 추출하였다.
^[16] 음악 데이터는 다양한 장르의 대중가요 3,646곡에서 각 곡당 12 s씩 임의로 선택하였다. 음성 데이터는 다양한 장르의 방송 콘텐츠 90 h에서 순수 음성만 존재하는 구간만 추출하였다. 추출된 음성을 12 s씩 구간을 나누어 총 3,646개의 약 12시간에 해당하는 음성 데이터를 만들었다.
3,646개의 음악, 음성 데이터들을 반으로 나누어각 1,823개씩 학습 및 테스트 데이터로 사용하였다. 학습 데이터는 음성의 볼륨이 음악의 볼륨보다 큰 방송물의 특성을 적용하여 음악을 기준으로 –30 dB~ 0 dB의 Signal to Noise Ratio(SNR)로 임의로 혼합하여 혼합 신호를 만든다.
음향 신호는 16 kHz의 샘플링 주파수를 가지고, 모노 환경에서 실험하였다. 입력으로 사용하는 스펙트로그램은 1,024 윈도우 사이즈와 256 이동 사이즈를사용하여 얻는다.
Table 2에는 위의 dilation rate 순서대로 FDMMDenseNet(FrequencyDMMDenseNet), TDMMDenseNet(Time DMMDenseNet),2DMMDenseNet([2,2] DMMDenseNet)로 표기하였다. U-Net, Wave-U-Net은 공개된 코드^₁₎[8]를 사용하였고,MDenseNet, MMDenseNet 구조는 직접 구현하여 실험하였다.

데이터처리

Table 2는 실험 결과를 나타낸다. 실험은 U-Net,Wave-U-Net, MDenseNet, MMDenseNet과 제안한 구조의 성능을 비교하였다. Dilated block에 [2, 1], [1,2], [2, 2] dilation rate의 dilated convolution을 적용하여 세 개의 제안구조 실험을 하였다.

이론/모형

혼합된 신호에서 음악 신호를 분리하기 위해서 신호 분리 태스크에서 사용하는 모델을 이용하였다. 기존부터 혼합된 신호에서 원하는 신호를 분리하는 기술은 많은 연구가 이루어지고 있다.

성능/효과

U-Net은 실험한 구조 중에 가장 낮은 성능을 보이고, Wave-U-Net은 U-Net과 비교하여 혼합 SNR 0 dB에서 0.41 dB, 혼합 SNR –10 dB에서 0.30 dB SDR을 개선하였다.
혼합SNR –10 dB에서 제안 구조인 FDMMDenseNet은 MMDenseNet보다 0.27 dB SDR을 개선하여 제안한 구조 중 가장 높은 성능을 보였다.
MMDenseNet은 MDenseNet보다 혼합 SNR 0 dB에서 0.28 dB, 혼합 SNR –10 dB에서 0.25 dB SDR을 개선하였다.
25 dB SDR을 개선하였다. 혼합 SNR 0 dB에서 제안 구조인 2DMMDenseNet은 MMDenseNet보다 0.15 dB SDR을 개선하여 제안한 구조 중 가장 높은 성능을 보였다. 혼합SNR –10 dB에서 제안 구조인 FDMMDenseNet은 MMDenseNet보다 0.
스펙트로그램 도메인에서는 혼합 신호의 위상 정보를 이용할 수밖에 없는 시스템 구조적 한계가 있다. 이러한 단점에도 불구하고 SNR 0 dB 테스트 환경에서 2DMMDenseNet이, SNR -10 dB 테스트 환경에서 FDMMDenseNet이 가장 높은 성능을 보였다.

질의응답

핵심어	질문	논문에서 추출한 답변
	SDR의 distortion 오류는 무엇인가?	[17] 보통 분리 성능을 비교할 때 SDR을 비교한다. SIR의 interference 오류와 SAR의 artifact 오류의 합을 SDR의 distortion 오류로 정의하기 때문에, SDR은 SIR과 SAR을 모두 고려한 분리 성능 결과이다.
	DenseNet의 장점은 무엇인가?	두 구조는 모두 CNN 기반이고, 인코더와 디코더 구조를 가진다. DenseNet은 각 합성곱(convolution)의 입력과 출력을 매번 연결하여 정보전달에 용이한 장점이 있다.
	방송콘텐츠의 배경음악을 다루는데 자동 음악 검색 기술이 필요한 이유는?	방송 콘텐츠에서 배경음악은 저작권과 관련하여 민감한 문제를 가진다. 방송물에서 배경음악으로 쓰이는 음악 제목, 음악 구간 등의 정보는 사람이 입력한다. 사람이 직접 입력하기 때문에 정보가 정확하지 않고, 시간과 노동이 많이 들어간다. 이러한 문제점을 해결하기 위하여 자동 음악 검색 기술이 필요하다.

참고문헌 (17)

D. D. Lee and H. S. Seung, "Algorithms for nonnegative matrix factorization," Proc. NIPS, 556-562 (2001).
J. Le Roux, J. Hershey, and F. Weninger, "Deep NMF for speech separation," Proc. IEEE Int. Conf. Acoust., Speech Signal Process, 66-70 (2015).
A. A. Nugraha, A. Liutkus, and E. Vincent, "Multichannel music separation with deep neural networks," Proc. EUSIPCO. 1748-1752 (2015).
A. Jansson, E. Humphrey, N. Montecchio, R. Bittner, A. Kumar, and T. Weyde, "Singing voice separation with deep U-Net convolutional Networks," Proc. ISMIR, 323-332 (2017).
N. Takahashi and Y. Mitsufuji, "Multi-scale multiband DenseNets for audio source separation," Proc. WASPAA. 261-265 (2017).
O. Ronneberger, P. Fischer, and T. Brox, "U-net: Convolutional networks for biomedical image segmentation," Proc. Int. Conf. Medical Image Computing and Computer-Assisted Intervention, 234-241 (2015).
G. Huang, Z. Liu, K. Q. Weinberger, and L. Maaten, "Densely connected convolutional networks," Proc. CVPR. 4700-4708 (2017).
D. Stoller, S. Ewert, and S. Dixon, "Wave-u-net: A multi-scale neural network for end-to-end audio source separation," Proc. ISMIR. (2018).
D. Ward, R. D. Mason, R. C. Kim, F.-R. Stoter, A. Liutkus, and M. D. Plumbley, "SISEC 2018: State of the art in musical audio source separation-subjective selection of the best algorithm," Proc. 4th Workshop on Intelligent Music Production, (2018).
N. Takahashi, P. Agrawal, N. Goswami, and Y. Mitsufuji, "PhaseNet: Discretized phase modeling with deep neural networks for audio source separation," Proc. Interspeech, 2713-2717 (2018).
N. Takahashi, N. Goswami, and Y. Mitsufuji, "MM DenseLSTM: An efficient combination of convolutional and recurrent neural networks for audio source separation," Proc. IWAENC. 106-110 (2018).
F. Yu and V. Koltun, "Multi-scale context aggregation by dilated convolutions," Proc. Int. Conf. Learn. Representations, (2016).
S. Ioffe and C. Szegedy, "Batch normalization: Accelerating deep network training by reducing internal covariate shift," Proc. ICML. 448-456 (2015).
X. Glorot, A. Bordes, and Y. Bengio, "Deep sparse rectifier neural networks," Proc. AISTATS. 315-323 (2011).
V. Dumoulin and F. Visin, "A guide to convolution arithmetic for deep learning," arXiv preprint arXiv: 1603.07285 (2016).
H. Kim, J. Kim, and J. Park, "Music-speech separation based background music identification in TV programs" (in Korean), Proc. HCI KOREA, 1158-1161 (2019).
A. Liutkus, F. Stoter, Z. Rafii, D. Kitamura, B. Rivet, N. Ito, N. Ono, and J. Fontecave, "The 2016 Signal separation evaluation campaign," Proc. LVA/ICA. 66-70 (2017).

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증