[논문]소프트맥스를 이용한 딥러닝 음악장르 자동구분 투표 시스템

배준; 김장영

doi:10.6109/jkiice.2019.23.1.27

소프트맥스를 이용한 딥러닝 음악장르 자동구분 투표 시스템
Deep Learning Music genre automatic classification voting system using Softmax 원문보기

한국정보통신학회논문지 = Journal of the Korea Institute of Information and Communication Engineering, v.23 no.1, 2019년, pp.27 - 32

배준 (Department of Computer Science, The University of Suwon) , 김장영 (Department of Computer Science, The University of Suwon)

초록
AI-Helper

인간이 가진 뛰어난 능력 중의 하나인 곡 분류 과정을 딥러닝 알고리즘을 통해 구현하는 연구는 단일데이터를 이용한 유니모달 모델, 멀티모달 모델, 뮤직비디오를 이용한 멀티모달 방식 등이 있다. 이 연구에서는 곡의 스펙트로그램을 짧은 샘플들로 분할하여 각각을 CNN으로 분석한 뒤 그 결과를 투표하는 시스템을 제안하여 더 좋은 결과를 얻었다. 딥러닝 알고리즘 중 CNN이 RNN에 비해 음악 장르 구분에 있어 우수한 성능을 보였으며 CNN과 RNN을 같이 적용했을 때 성능이 좋아짐을 알 수 있었다. 음악샘플을 나누어 각각의 CNN 결과를 투표하는 시스템이 이전 모델에 비해 좋은 결과를 나타내었고 이 모델에 Softmax 레이어를 추가한 모델이 가장 좋은 성능을 보였다. 디지털 미디어의 폭발적인 성장과 수많은 스트리밍 서비스 속에서 음악장르의 자동분류에 대한 필요는 점점 증가하고 있는 추세이다. 향후 연구에서는 미분류 곡의 비율을 낮추고 최종적으로 미분류된 곡들의 장르구분에 대한 알고리즘을 개발할 필요가 있을 것이다.

Abstract ▼ AI-Helper

Research that implements the classification process through Deep Learning algorithm, one of the outstanding human abilities, includes a unimodal model, a multi-modal model, and a multi-modal method using music videos. In this study, the results were better by suggesting a system to analyze each song's spectrum into short samples and vote for the results. Among Deep Learning algorithms, CNN showed superior performance in the category of music genre compared to RNN, and improved performance when CNN and RNN were applied together. The system of voting for each CNN result by Deep Learning a short sample of music showed better results than the previous model and the model with Softmax layer added to the model performed best. The need for the explosive growth of digital media and the automatic classification of music genres in numerous streaming services is increasing. Future research will need to reduce the proportion of undifferentiated songs and develop algorithms for the last category classification of undivided songs.

주제어

표/그림 (8)

그림 Fig. 1 Deep Learning Music genre automatic classification voting system flow chart (proposed model overview)
그림 Fig. 2 Spectrogram of a song (X:Time,Y:Frequency)
그림 Fig. 3 Divided Spectrogram
그림 Fig. 4 CNN Structure [11]
그림 Fig. 5 music classification voting system
그림 Fig. 6 music classification softmax system
그림 Fig. 7 Truncation of music classification
표 Table. 1 Classification Confidence Rate Comparison

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이 연구에서는 음악의 스펙트로그램을 여러개의 샘플로 나누어 각의 CNN(Convolutional Neural Network) 결과를 투표 시스템을 이용해 곡의 장르를 구분하는 방법을 제안한다. 그리고 Softmax 레이어 방식을 추가해 딥러닝 곡 분류의 성능을 높이는 방식에 대해 알아보기로 한다.
대신에 여기서는 인간처럼 짧은 구절만으로도 노래를 분류할 수 있는 방법을 연구해보기로 한다. 인간이 3초안에 음악을 분류할 수 있다면 왜 컴퓨터는 할 수 없는가?

제안 방법

다음에 Fourie’s Transform을 이용해 오디오 데이타를 프리퀀시로 변환하여 스펙트로그램(spectrogram)으로 바꿔준다(1).
음악 장르 구분에 대한 연구는 MFC, Spectral Centroid 등 신호 처리 이론을 바탕으로 한 음악의 특성을 추출해내는 방식이 주를 이루었다. 이런 추출 특성을 머신러닝을 이용해 장르를 구분하는 방법이 연구되었다.
클래식을 예로 들면 교향곡, 실내악 등을 구분하지 않고 크게 클래시컬 음악으로 통합하여 구분하였다. 음악을 6개의 장르- 하드코어, 록, 일렉트로, 클래식, 재즈 그리고 랩- 으로 나누어 각 장르별 음악을 수집한 뒤 그 음원으로부터 중요한 정보를 추출하기 시작했다. 노래는 아주 긴 연속된 값의 집합이다.
분류 확신도에 대한 각 모델들의 실험결과를 표로 나타내면 다음과 같다 (표 1). 이 실험에서는 6개의 각 장르별 - 하드코어, 록, 일렉트로, 클래식, 재즈 그리고 랩- 500개의 총 3,000개의 노래를 스펙트로그램으로 변환하고 128X128 픽셀로 분할하여 34,200개의 스펙트로그램 조각들로 만들었다. 이를 다음 알고리즘들을 이용하여 분류하였고 다음과 같은 결과를 얻었다.
이 연구에서는 음악의 스펙트로그램을 여러개의 샘플로 나누어 각의 CNN(Convolutional Neural Network) 결과를 투표 시스템을 이용해 곡의 장르를 구분하는 방법을 제안한다. 그리고 Softmax 레이어 방식을 추가해 딥러닝 곡 분류의 성능을 높이는 방식에 대해 알아보기로 한다.
이러한 오류를 줄이기 위하여 전체 곡을 작은 샘플로 나누고 각각의 샘플을 CNN 분석하여 그 결과들의 총합으로 장르 구분을 하는 투표 시스템을 제안한다.
이제 Deep Convolutional Neural Network 를 이용해 이 샘플들을 분류하도록 교육시키는데 Tensorflow’s wrapper TFLearn를 사용한다.
장르 구분 시스템의 마지막 레이어에 소프트맥스 레이어를 추가해서 시스템이 장르를 지정하기 보다는 그 가능성을 표시할 수 있도록 하였다. 이를 '분류 확신도‘라고 명한다 (2).
너무나 다양한 음악 장르가 있기 때문에 각 음악의 서브 장르를 통합하여 몇 개의 대표 장르로 구분하는 작업이 필요하다. 클래식을 예로 들면 교향곡, 실내악 등을 구분하지 않고 크게 클래시컬 음악으로 통합하여 구분하였다. 음악을 6개의 장르- 하드코어, 록, 일렉트로, 클래식, 재즈 그리고 랩- 으로 나누어 각 장르별 음악을 수집한 뒤 그 음원으로부터 중요한 정보를 추출하기 시작했다.

이론/모형

이런 추출 특성을 머신러닝을 이용해 장르를 구분하는 방법이 연구되었다. SVM(Suport Vector Machine) 방식이 주를 이루었고 KNN(K-Nearest Neighbors), GMM(Gaussian Mixture Model) 등 여러 방식이 이용되었다.

성능/효과

6개의 장르- 하드코어, 록, 일렉트로, 클래식, 재즈 그리고 랩- 으로 나누어진 2,000개의 노래와 12,000개의 128X128 픽셀의 스펙트로그램 조각들을 이용한 결과 이 모델은 90%의 정확도를 나타내었다. 이것은 노래의 작은 조각들을 사용한 것을 고려했을 때 상당히 좋은 결과라고 할 수 있다.
CNN이 RNN에 비해 음악 장르 구분에 있어 우수한 성능을 보였으며 CNN과 RNN을 같이 적용했을 때 성능이 좋아짐을 알 수 있었다. 음악샘플을 나누어 각각의 CNN 결과를 투표하는 시스템이 이전 모델에 비해 좋은 결과를 나타내었고 이 모델에 소프트맥스 레이어를 추가한 모델이 가장 좋은 성능을 보였다.
CNN이 RNN에 비해 음악 장르 구분에 있어 우수한 성능을 보였으며 CNN과 RNN을 같이 적용했을 때 성능이 좋아짐을 알 수 있었다. 음악샘플을 나누어 각각의 CNN 결과를 투표하는 시스템이 이전 모델에 비해 좋은 결과를 나타내었고 이 모델에 소프트맥스 레이어를 추가한 모델이 가장 좋은 성능을 보였다.
디지털 미디어의 폭발적인 성장과 수많은 스트리밍 서비스 속에서 음악장르의 자동분류에 대한 필요는 점점 증가하고 있는 추세이다[13]. 이 논문에서는 기존 CNN, RNN 등을 이용한 연구를 발전시켜 소프트맥스 레이어를 이용한 투표 시스템으로 곡 장르분류의 확신도를 높이는 모델을 만들어 실험 결과 기존 방식에 비해 우수한 결과를 도출해내었다.

후속연구

향후 연구에서는 미분류 곡의 비율을 낮추고 최종적으로 미분류된 곡들의 장르구분에 대한 알고리즘을 개발할 필요가 있을 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	소프트맥스 함수는 언제사용되는가?	소프트맥스(Softmax) 함수는 여려 개의 클래스를 구분할 때 마지막 뉴련의 활성화 함수로 시그모이드를 사용하면 출력값을 공정하게 평가하기 어려울 때 사용한다. 소프트맥스는 뉴런의 출력 값에 지수함수를 적용하되 모든 뉴런에서 나온 값으로 정규화하는 형태를 가진다.
	소프트맥스 레이어를 이용한 투표시스템은 기존 방식에 비해 곡 장르분류의 확신도를 어떻게 변화시켰는가?	기존 방식은 곡들의 일정부분만을 딥러닝하여 음악장르를 구분하였기 때문에 곡의 구성이 복잡한 음악의 장르구분에는 약한 면을 보였으나 소프트맥스 레이어를 이용한 투표 시스템은 곡의 모든 부분을 일정하게 나누어 각의 딥러닝 결과를 투표하여 곡의 장르를 결정하는 시스템으로 장르구분의 확신도를 높였다.
	딥러닝을 통해 곡 분류 과정을 할때 CNN이 RNN에 비해 뛰어난 점은?	이 연구에서는 곡의 스펙트로그램을 짧은 샘플들로 분할하여 각각을 CNN으로 분석한 뒤 그 결과를 투표하는 시스템을 제안하여 더 좋은 결과를 얻었다. 딥러닝 알고리즘 중 CNN이 RNN에 비해 음악 장르 구분에 있어 우수한 성능을 보였으며 CNN과 RNN을 같이 적용했을 때 성능이 좋아짐을 알 수 있었다. 음악샘플을 나누어 각각의 CNN 결과를 투표하는 시스템이 이전 모델에 비해 좋은 결과를 나타내었고 이 모델에 Softmax 레이어를 추가한 모델이 가장 좋은 성능을 보였다.

참고문헌 (13)

S. Kim, D. Kim, and B. Suh, "Music Genre Classification using Multimodal Deep Learning," International Journal of Information and Communication Engineering, vol. 9, no. 4, pp. 358-362, Aug. 2011.
Potla Revathi, "Analytical Hierarchy Process in Fuzzy Comprehensive Evaluation Method," Asia-pacific Journal of Convergent Research Interchange, vol.1, no.3, pp. 41-52, September 2015.
B. Macfee, "Learning Content Similarity for Music Recommendation," Journal of latex class files, vol. 6, no. 1, pp. 1-2, Jan. 2017.
D Cabrera, "A Computer Program for Psycho-acoustical Analysis," Australian Acoustical Society Conference, vol. 24, no. 1, pp. 47-54, Mar. 2014
J. C. Na, "Optimization in Cooperative Spectrum Sensing," Asia-pacific Journal of Convergent Research Interchange, vol. 3, no. 1, pp. 19-31, March 2017.
D. J. Kim, and P. L. Manjusha, "Building Detection in High Resolution Remotely Sensed Images based on Automatic Histogram-Based Fuzzy C-Means Algorithm," Asia-pacific Journal of Convergent Research Interchange, vol. 3, no. 1, pp. 57-62, March 2017.
T. S. Slininger, Y. Xu, and R. D. Lorenz. "Enhancing estimation accuracy by applying cross- correlation image tracking to self-sensing including evaluation on a low saliency ratio machine," Energy Conversion Congress and Expositionvol, vol. 22, no. 5, pp. 23-28, May 2016.
L. Maaten, and G. Hinton, "Learning Content Similarity for Music Recommendation Visualizing Data using T-SNE," Journal of Machine Learning Research, vol. 9, no. 1, pp. 2579-2605, Nov. 2008.
J. Bae, and J. Kim, "Engine Sound Design for Electric Vehicle by using Software Synthesizer," Journal of the Korea Institute of Information and Communication Engineering, vol. 21, no. 8, pp 1547-1552, Aug. 2017.
V. K. Rao, R. Caytiles, "Subgraph with Set Similarity in a Database," Asia-pacific Journal of Convergent Research Interchange, vol. 3, no. 2, pp. 29-37, Jun. 2017.
Aphex34, Own work, CC BY-SA 4.0 [Internet]. Available: https://commons.wikimedia.org/w/index.php?curid45679374.
B. Han, S. Rho, S. Jun, and E. Hwang, "Music emotion classification and context-based music ecommendation," Multimedia Tools Application, vol. 47, no. 3, pp. 433-460, May 2010.

상세보기
J. Bae, J. Kim, and Y. Yang, "Physical modeling synthesizing of 25 strings Gayageum using white noise as exciter," Journal of the Korea Institute of formation and Communication Engineering, vol. 22, no. 5, pp. 740-746, May 2018.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증