[논문]생성적 적대 신경망(GAN)을 이용한 딥러닝 음악 장르 분류 시스템 모델 개선

배준

doi:10.6109/jkiice.2020.24.7.842

초록
AI-Helper

아이튠즈, 스포티파이, 멜론 등 음악시장은 바야흐로 스트리밍의 시대로 접어들었고, 음악 소비자의 취향에 맞는 음악 선곡과 제안을 위해 음악장르 자동 구분 시스템에 대한 요구와 연구가 활발하다. 이전 논문에서 제안한 소프트 맥스를 이용한 딥러닝 음악장르 자동구분 투표 시스템을 더욱 발전시켜 생성적 적대 신경망(GAN)을 이용하여 이전 시스템의 미흡한 점이었던 장르 미분류 곡들에 대한 정확도를 높이는 방법을 제안한다. 이전 연구에서는 전체 곡을 작은 샘플 로 나누고 각각의 샘플을 CNN 분석하여 그 결과들의 총합으로 장르 구분을 하는 투표 시스템으로 곡 장르분류 정확도를 높일 수 있었다. 하지만 곡의 스펙트로그램이 곡의 장르를 파악하기에 모호한 곡의 경우에는 미분류 곡으로 남겨놓을 수밖에 없었다. 이 논문에서는 생성적 적대 신경망을 이용하여 미분류 곡의 스펙트로그램을 판독하기 쉬운 장르의 스펙트로그램으로 바꾸어 미분류 곡의 장르 구분 정확도를 높이는 시스템을 제안하고 그 실험결과 기존 방식에 비해 우수한 결과를 도출해낼 수 있었다.

Abstract ▼ AI-Helper

Music markets have entered the era of streaming. In order to select and propose music that suits the taste of music consumers, there is an active demand and research on an automatic music genre classification system. We propose a method to improve the accuracy of genre unclassified songs, which was ...

Music markets have entered the era of streaming. In order to select and propose music that suits the taste of music consumers, there is an active demand and research on an automatic music genre classification system. We propose a method to improve the accuracy of genre unclassified songs, which was a lack of the previous system, by using a generative adversarial network (GAN) to further develop the automatic voting system for deep learning music genre using Softmax proposed in the previous paper. In the previous study, if the spectrogram of the song was ambiguous to grasp the genre of the song, it was forced to leave it as an unclassified song. In this paper, we proposed a system that increases the accuracy of genre classification of unclassified songs by converting the spectrogram of unclassified songs into an easy-to-read spectrogram using GAN. And the result of the experiment was able to derive an excellent result compared to the existing method.

주제어

표/그림 (7)

그림 Fig. 1 Deep Learning Music genre automatic classification voting system flow chart (proposed model overview)
그림 Fig. 2 Music Classification Voting System
그림 Fig. 3 Truncation of Music Classification
그림 Fig. 4 Generative Adversarial Network framework [7]
그림 Fig. 5 Proposed Architecture
그림 Fig. 6 Refiner Network
표 Table. 1 Classification Error Rate Comparison

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

생성기는 만들어낸 가짜 이미지가 진짜 이미지인 것처럼 보여지길 원한다. 여기에서 생성기의 목적은 판별기가 진짜로 판단하게 만드는 손글씨 숫자를 만드는 것이다. 반대로 판별기의 목적은 생성기가 만든 가짜 이미지를 찾아내는 것이다.
즉 판별기는 검토한 각각의 데이터 인스턴스가 실제 트레이닝 데이터 세트인지 아닌지를 판단한다(그림4). 예로서 MNIST 데이터 세트와 같은 손으로 쓴 숫자를 생성한다고 가정할 때 그것이 진짜인지 판단하는 것이 목표이다.
이 논문에는 이러한 도메인 전이를 이용하여 미분류 곡의 스펙트로그램을 판독하기 쉬운 장르의 스펙트로 그램으로 바꾸어 미분류곡의 장르 구분 정확도를 높이는 시스템을 제안한다.
이 논문에서는 생성적 적대 신경망(GAN)을 이용하여 판단이 모호한 음악의 스펙트로그램 이미지를 스타일과 도메인 전이(Style and Domain transfer)를 통해 좀 더 판단이 용이한 장르의 이미지로 변화시켜 장르 구분의 정확도를 높이는 방법을 연구하고 기본 방식과 정확도 비교를 통해 우수성을 입증한다.
이러한 미분류곡의 장르 분류 정확도를 개선하기 위해 생성적 적대 신경망(GAN)을 이용한 딥러닝 음악 장르 분류 시스템 모델을 제안한다.
향상시킬 수 있을까? 판단이 모호한 음악의 스펙트로그램 이미지를 스타일 전이를 통해 좀 더 판단이 용이한 장르의 이미지로 변화시켜 장르 구분의 정확도를 높이는 방법에 대해 논의한다.

제안 방법

예를 들면 낮은 확신도의 조각을 투표에서 제외하였다. 또한 투표에서 확실한 승자가 없으면 전체 투표 자체를 무효화하였다. 정확도 향상을 위하여 70% 미만의 투표를 받은 곡은 장르 구분에서 제외시켜 장르 미분류곡으로 남겨두었다 (그림 3).
이 실험에서는 6개의 각 장르별 -하드코어, 록, 일렉트로, 클래식, 재즈 그리고 힙합- 500개의 총 3, 000개의 노래를 스펙트로그램으로 변환하고 128X128 픽셀로 분할하여 34, 200개의 스펙트로그램 조각들로 만들었다. 훈련의 마지막 단계(모든 계증이 추가될 때)에서 판별기의 입력 텐서와 생성기의 출력 텐서의 크기는 128× 128 픽셀이다.
이 제안모델에서는 공유 생성기 G를 설정해 사용한다. 장르를 분류할 음악들에 모두 공통적으로 적용되고 점진적으로 학습된다.
수정을 가했다. 장르 구분 시스템의 마지막 레이어에 소프트맥스 레이어를 추가해서 시스템이 장르를 지정하기 보다는 그 가능성을 표시할 수 있도록 하였다. 이를 ‘분류 확신도’라고 명명한다.

이론/모형

이후 이렇게 추출되어진 특성을 머신러닝을 이용해 장르를 구분하는 방법이 연구되었다. SVM(Support Vector Machine) 방식이 주를 이루었고 KNN(K-Nearest Neighbors), GMM(Gaussian Mixture Model) 등 여러 방식이 이용되었다.

성능/효과

6개의 장르 -하드코어, 록, 일렉트로, 클래식, 재즈 그리고 힙합- 으로 나누어진 2,000개의 노래와 12, 000개의 128X128 픽셀의 스펙트로그램 조각들을 이용한 결과이 모델은 90%의 정확도를 나타내었다. 이것은 노래의 작은 조각들을 사용한 것을 고려했을 때 상당히 좋은 결과라고 할 수 있다.
시대로 접어들었다. 음악 소비자의 취향에 맞는 음악 선곡과 제안을 위해 음악장르 자동 분류 시스템에 대한 요구와 연구가 활발한 지금 이전 논문에서 제안한 소프트맥스를 이용한 딥러닝 음악 장르 자동구분 투표 시스템을 더욱 발전시켜 생성적 적대 신경망(GAN)을 이용하여 이전 시스템의 미흡한 점이었던 장르 미분류 곡들에 대한 정확도를 높이는 방법을 제안하고 실험 결과 기존 방식에 비해 우수한 결과를 도출해낼 수 있었다. 이러한 방식을 이용하여 음악소비자가 좋아하고 원하는 장르의 음악을 추천해주는데 더욱 정확한 큐레이션이 가능해질 수 있을 것이다.
때 더 적은 비율로 나타났다. 음악샘플을 나누어 각각의 CNN 결과를 투표하는 시스템이 이전 모델에 비해 좋은 결과를 나타내었고 이 모델에 GAN을 적용한 것이 미분류 된 곡이 가장 적게 나오는 결과를 보였다.
장르 미분류 곡의 비율이 RNN 기법에 비해 CNN을 적용했을 때 적게 나왔으며 CNN과 RNN을 같이 적용했을 때 더 적은 비율로 나타났다. 음악샘플을 나누어 각각의 CNN 결과를 투표하는 시스템이 이전 모델에 비해 좋은 결과를 나타내었고 이 모델에 GAN을 적용한 것이 미분류 된 곡이 가장 적게 나오는 결과를 보였다.

후속연구

이 논문의 생성적 적대 신경망을 이용한 시스템은 미분류곡의 비율을 줄일 수 있었지만, 아직 유사한 스펙트럼을 가진 곡의 장르분류는 완벽하지 않은 한계점이 있다. 향후 생성적 적대 신경망 시스템의 정확도를 개선하는 연구가 필요할 것으로 생각된다.
음악 소비자의 취향에 맞는 음악 선곡과 제안을 위해 음악장르 자동 분류 시스템에 대한 요구와 연구가 활발한 지금 이전 논문에서 제안한 소프트맥스를 이용한 딥러닝 음악 장르 자동구분 투표 시스템을 더욱 발전시켜 생성적 적대 신경망(GAN)을 이용하여 이전 시스템의 미흡한 점이었던 장르 미분류 곡들에 대한 정확도를 높이는 방법을 제안하고 실험 결과 기존 방식에 비해 우수한 결과를 도출해낼 수 있었다. 이러한 방식을 이용하여 음악소비자가 좋아하고 원하는 장르의 음악을 추천해주는데 더욱 정확한 큐레이션이 가능해질 수 있을 것이다.
이 논문의 생성적 적대 신경망을 이용한 시스템은 미분류곡의 비율을 줄일 수 있었지만, 아직 유사한 스펙트럼을 가진 곡의 장르분류는 완벽하지 않은 한계점이 있다. 향후 생성적 적대 신경망 시스템의 정확도를 개선하는 연구가 필요할 것으로 생각된다.

참고문헌 (13)

S. Kim, D. Kim, and B. Suh, "Music Genre Classification using Multimodal Deep Learning," International Journal of Information and Communication Engineering, vol. 9, no. 4, pp.358-362, Aug. 2011.
J. Bae, J. Kim, "Deep Learnig Music Genre Automatic Classification voting System using Softmax" Journal of the Korea Institute of formation and Communication Engineering, vol. 23, no. 1, pp .27-32, Jan.2019.
B.Macfee, "Learning Content Similarity for Music Recommendation," Journal of latex class files, vol. 6, no. 1, pp.1-2, Jan. 2017.
L. Maaten, G. Hinton, "Learning Content Similarity for Music Recommendation Visualizing Data using T-SNE," Journal of Machine Learning Research, vol. 9, no. 1, pp.2579-2605, Nov. 2008.
T.Yuan. "TF. Learn: TensorFlow's high-level module for distributed machine learning." arXiv preprint arXiv, pp.25-32, vol.1612, no.1,Jan.2016.
L.Yu, O.Tuzel. "Coupled generative adversarial networks." Advances in neural information processing systems. vol.3, no.2, pp.469-477, May. 2016.
B.David, T.Schumm, and L.Metz. "Began: Boundary equilibrium generative adversarial networks." arXiv preprint arXiv, vol.170, no.10717 , pp 32-40, Nov. 2017.
T.Silva, Own work, CC BY-SA 4.0 [Internet]. Available: https://www.freecodecamp.org/news/an-intuitive-introduction-to-generative-adversarial-networks-gans-7a2264a81394/
L. A. Gatys, A. S. Ecker, and M. Bethge, "Image style transfer using convolutional neural networks," in Computer Vision and Pattern Recognition (CVPR), IEEE Conference on. IEEE, vol.2, no.3, pp. 2414-2423, May. 2016.
J. Zhu, T. Park, P. Isola, and A. A. Efros, "Unpaired image-to-image translation using cycle-consistent adversarial networks," in IEEE International Conference on Computer Vision, ICCV vol. 35, no. 8, pp. 2242-2251, Jun. 2017.
D. P. Kingma, M. Welling, "Auto-encoding variational bayes," CoRR, vol 4, no.3, pp. 24-27, Sep. 2016.
Y. Bengio, A. C. Courville, and P. Vincent, "Representation learning:A review and new perspectives," IEEE Trans. Pattern Anal. Mach.Intell., vol. 35, no. 8, pp. 1798-1828, Jan.2013.

상세보기
J. Chung, S.Ahn, and Y. Bengio, "Hierarchical multiscale recurrent neural networks". In Proc. ICLR, vol. 24, no. 1, pp. 47-54, Mar. 2017.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

생성적 적대 신경망(GAN)을 이용한 딥러닝 음악 장르 분류 시스템 모델 개선
Deep Learning Music Genre Classification System Model Improvement Using Generative Adversarial Networks (GAN) 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (7)

표/그림 (7)

AI 본문요약
AI-Helper

문제 정의

제안 방법

이론/모형

성능/효과

후속연구

참고문헌 (13)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

생성적 적대 신경망(GAN)을 이용한 딥러닝 음악 장르 분류 시스템 모델 개선 Deep Learning Music Genre Classification System Model Improvement Using Generative Adversarial Networks (GAN) 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (7) 모든 표/그림 보기

표/그림 (7) 슬라이드로 보기

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

이론/모형

성능/효과

후속연구

참고문헌 (13)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

생성적 적대 신경망(GAN)을 이용한 딥러닝 음악 장르 분류 시스템 모델 개선
Deep Learning Music Genre Classification System Model Improvement Using Generative Adversarial Networks (GAN) 원문보기

초록
AI-Helper

표/그림 (7)

표/그림 (7)

AI 본문요약
AI-Helper