[논문]음악 장르 분류를 위한 부밴드 분해와 특징 차수 축소에 관한 연구

서진수; 김정현; 박지현

doi:10.7776/ask.2017.36.2.144

[국내논문] 음악 장르 분류를 위한 부밴드 분해와 특징 차수 축소에 관한 연구
An investigation of subband decomposition and feature-dimension reduction for musical genre classification 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.36 no.2, 2017년, pp.144 - 150

서진수 (강릉원주대학교 전자공학과) , 김정현 (한국전자통신연구원 콘텐츠 연구본부) , 박지현 (한국전자통신연구원 콘텐츠 연구본부)

초록
AI-Helper

음악 장르는 음악 검색 및 분류 등의 정보 처리 시스템 구현에 있어서 필수적인 요소이다. 일반적으로 장르 분류를 위한 스펙트럼 특징은 음악의 화음 및 강약 구조를 표현하기 위해 부밴드로 분해하여 구해진다. 본 논문은 음악 장르 분류 성능 개선을 위한 특징 추출을 위한 부밴드 분해 방법에 관해 연구하였다. 또한 부밴드 음악 특징의 차수를 줄일 수 있는 방법에 대해서도 연구하였다. 널리 사용되고 있는 장르 데이터셋들에서 실험을 수행하여 널리 사용되고 있는 옥타브 스케일보다 세분화된 부밴드 분해가 장르 분류 성능을 향상시킬 수 있으며, 특징 차수 축소를 결합하여 분류기의 계산량도 줄일 수 있음을 보였다.

Abstract ▼ AI-Helper

Musical genre is indispensible in constructing music information retrieval system, such as music search and classification. In general, the spectral characteristics of a music signal are obtained based on a subband decomposition to represent the relative distribution of the harmonic and the non-harmonic components. In this paper, we investigate the subband decomposition parameters in extracting features, which improves musical genre classification accuracy. In addition, the linear projection methods are studied to reduce the resulting feature dimension. Experiments on the widely used music datasets confirmed that the subband decomposition finer than the widely-adopted octave scale is conducive in improving genre-classification accuracy and showed that the feature-dimension reduction is effective reducing a classifier's computational complexity.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

음악 장르 분류를 위한 부밴드 특징의 성능을 분석하여 최적의 부밴드 개수를 찾았다. 또한 부밴드 음악 특징의 차수를 줄일 수 있도록 특징 분포 및 장르 분류에 적응적인 변환행렬을 적용하는 방법에 대해서도 연구하였다. 널리 사용되고 있는 장르 데이터셋들에서 실험을 수행하여 세분화된 부밴드 분해가 장르 분류 성능을 향상시킬 수 있으며, 특징 차수 축소를 결합하여 분류기의 계산량도 줄일 수 있음을 보였다.
본 논문에서는 음악 장르 분류에 좋은 성능을 보인 스펙트럼의 극값에 대한 연구를 수행하였다. 이러한 극값은 화음의 구조와 세기 등의 정보와 밀접한 연관이 있어서 음악 장르 분류에 좋은 성능을 보였다.
본 논문에서는 인간 청각 모델에 기반한 멜 스케일 상에서 부밴드를 분해하고 몇 개의 부밴드를 사용하는 것이 음악 장르 분류에 적합한 지를 확인하였다.
1에 주어진 바와 같이 프레임 레벨 특징을 추출하고, 프레임들을 모은 세그먼트 레벨 특징 요약으로 구성되며, 세그먼트 레벨 요약 특징이 학습된 분류기의 입력으로 사용된다. 본 논문에서는 프레임 레벨 특징 추출 시 부밴드 개수와 세그먼트 레벨 특징의 차원 축소에 관해서 연구하였다.
본 논문은 어떻게 음악 신호 스펙트럼을 나누어 분석하는 것이 장르 분류 성능에 도움이 되는 지에 대한 연구이다.
본 논문은 음악 장르 분류를 위한 부밴드 선택 및 차원축소에 관한 연구이다.
본 논문은 음악 장르 분류를 위한 부밴드 선택 방법에 관한 논문이다. 음악 장르 분류를 위한 부밴드 특징의 성능을 분석하여 최적의 부밴드 개수를 찾았다.

제안 방법

(3)의 최대와 최소값을 구한다. 3 s 길이에 해당하는 인접한 128개의 프레임들을 모아서 세그먼트를 구성하고 각 부밴드 특징의 평균과 표준편차를 구해서 세그먼트 특징으로 이용한다. 세그먼트 특징들로 선형 SVM 장르 분류기를 학습하고 분류 실험을 수행하였다.
이는 특정 가수의 음색 유사성이 분류기에 영향을 미치기 때문으로, 공정한 장르 분류 알고리즘 성능 평가가 되지 못한다. 따라서 본 논문에서는^[12]에서 제안한 바와 같이 공정한 장르 분류 성능 평가가 되도록 특정 가수의 노래들이 학습과 테스트셋 중에서 한쪽에만 포함되도록 조정하였다.
본 논문은 어떻게 음악 신호 스펙트럼을 나누어 분석하는 것이 장르 분류 성능에 도움이 되는 지에 대한 연구이다. 본 논문에서는 부밴드를 인간의 청각 지각을 모사한 멜 스케일^[6]로 나누고, 멜 스케일 상에서 부밴드의 개수를 가변해 가면서부밴드 스펙트럼의 분포 특징을 추출하였다. 부밴드 스펙트럼 분포 특징으로는 기존 연구들^[3,5]에서 좋은 성능을 보인 스펙트럼의 최대값과 최소값인 극값을 고려하였다.
^[5] 하지만 이러한 옥타브 스케일 부밴드 사용에 대해서 어떠한 성능 검증도 이루어지지 않았다. 본 논문에서는 특징 추출 시에 인간의 청각을 모사한 멜 스케일 상에서 부밴드의 개수를 가변하였다. 인간의 청각에 대한 실험을 통해서, 스펙트럼의 주파수 1000 Hz 이하에서는 주파수와 멜스케일이 선형 관계에 가깝고, 그 이상에서는 로그 함수 형태에 가깝다고 알려져 있다.
본 장에서는 II장에서 제시한 바와 같이 부밴드 스펙트럼 극값 기반 음악 장르 분류기에 부밴드 개수를 가변 시켜가면서 장르 분류 성능을 확인하였다. 장르 분류 성능 검증을 위해서 널리 사용되고 있는 두 가지 음악 데이터셋인 ISMIR과 GTZAN을 사용하였다.
부밴드 극값 특징을 추출하기 위해서 멜 스케일 상에서 균등하게 대역을 분해하였다.
3 s 길이에 해당하는 인접한 128개의 프레임들을 모아서 세그먼트를 구성하고 각 부밴드 특징의 평균과 표준편차를 구해서 세그먼트 특징으로 이용한다. 세그먼트 특징들로 선형 SVM 장르 분류기를 학습하고 분류 실험을 수행하였다.
실험에 사용되는 음악 파일들을 모노로 바꾸고 22050 Hz로 샘플링 주파수를 맞춘후, 1024 길이의 해닝 윈도우를 50 %씩 겹쳐 가면서 적용하고 FFT를 취해서 각 프레임의 스펙트럼을 구한다.
실험에서는 LFDA외에도 PCA(Principal Component Analysis), DCT (Discrete Cosine Transform), Haar 변환도 적용하여 성능을 비교하였다.
얻어진 특징벡터 Z_i를 이용하여 장르 분류기를 학습한다. 차원 축소를 통해서 분류기 학습 및 실제 적용 시에 4B 차원이 아닌 r차원 벡터를 사용함으로써 계산량을 줄일 수 있다.
음악 장르 분류를 위한 부밴드 특징의 성능을 분석하여 최적의 부밴드 개수를 찾았다.
학습된 분류기를 이용하여 입력 음악 파일의 특징에 대해서 장르 분류를 수행한다.

대상 데이터

GTZAN 데이터셋^[11]은 블루스, 클래식, 컨츄리, 디스코, 힙합, 재즈, 메탈, 팝, 레게, 락의 10개의 장르에 각각 100곡씩 30 s 길이의 1000개의 음악파일로 이루어져있다. 주어진 1000개의 음악 파일을 500곡씩 학습과 테스트셋으로 나누었다. 같은 가수의 노래들이 학습과 테스트셋 양쪽에 나누어 포함될 경우 분류 성능이 높게 나오는 경향이 있다.

이론/모형

본 논문에서는 LFDA를 적용하였다.
부밴드 개수의 증가에 따라서 늘어난 특징의 차수를 줄이기 위해서 LFDA(Local Fisher Discriminant Analysis)[7,8]를 적용하였다.

성능/효과

MFCC와 대비해서는 각 데이터셋 별로 4 %와 7 % 분류 성능을 개선함을 확인하였다.
과 같은 차수인 24차로 줄인 경우의 분류 성공율은 Table 1에 주어져 있다. 같은 차수로 줄일 경우에도 OSC와 대비해서 각 데이터셋 별로 1.2 %와 3.5 % 분류 성능을 개선함을 확인하였다. MFCC와 대비해서는 각 데이터셋 별로 4 %와 7 % 분류 성능을 개선함을 확인하였다.
기존의 OSC 결과^[5]와 비교할 때 더 많은 수의 부밴드를 사용하는 것이 장르 분류 성능을 향상 시킬 수 있음을 알 수 있다. 기존의 6개 옥타브 스케일 밴드를 사용한 OSC결과와 비교하여 ISMIR과 GTZAN 데이터셋 모두에서 최대 5 % 내외의 분류 성공률 개선이 가능함을 확인하였다.
널리 사용되고 있는 장르 데이터셋들에서 실험을 수행하여 세분화된 부밴드 분해가 장르 분류 성능을 향상시킬 수 있으며, 특징 차수 축소를 결합하여 분류기의 계산량도 줄일 수 있음을 보였다.
두 데이터셋 모두에서 특징의 분포적 특징을 고려하는 LFDA와 PCA가 고정 베이시스를 사용하는 DCT와 Haar 변환에 비해서 우수한 성능을 보였다.
3과 4에 도시하였다. 실험 결과 부밴드 개수가 늘어남에 따라 특징 차수가 높아지고 분류성공율도 높아짐을 확인할 수 있다. 다만 부밴드 개수가 14개 이상이 되면 더 이상 성능이 크게 증가하지 않음을 알 수 있다.
이러한 실험 결과들로부터 오디오 스펙트럼 분석 시에 부밴드의 위치 및 개수를 정하는 것이 성능에 중요한 영향을 미치며, 특징 분포 및 장르 분류에 적응적인 변환행렬을 이용하여 특징 차수를 줄일 수 있음을 확인하였다.

질의응답

핵심어	질문	논문에서 추출한 답변
	음악 장르는 무엇에 필수적인 요소인가?	음악 장르는 음악 검색 및 분류 등의 정보 처리 시스템 구현에 있어서 필수적인 요소이다. 일반적으로 장르 분류를 위한 스펙트럼 특징은 음악의 화음 및 강약 구조를 표현하기 위해 부밴드로 분해하여 구해진다.
	장르 분류에 사용되는 대표적인 스펙트럼 특징에는 무엇이 있는가?	음악 장르 분류를 위해서는 장르 간의 차이를 두드러지게 할 수 있는 특징을 사용해야 하며, 일반적으로 스펙트럼 기반의 음색 특징이 널리 사용되어 왔다. 장르 분류에 사용되는 대표적인 스펙트럼 특징에는 MFCC (MelFrequency Cepstral Coefficients),[2,3] OSC(Octavebased Spectral Contrast)[5] 등이 있다. 이러한 스펙트럼 특징들은 음악 신호를 짧은 길이의 프레임(수 십에서 수 백 ms)으로 나누고 각 프레임에 퓨리에 변환을 취하여 얻어진다.
	장르 분류에 사용되는 대표적인 스펙트럼 특징들은 어떻게 얻어지는가?	장르 분류에 사용되는 대표적인 스펙트럼 특징에는 MFCC (MelFrequency Cepstral Coefficients),[2,3] OSC(Octavebased Spectral Contrast)[5] 등이 있다. 이러한 스펙트럼 특징들은 음악 신호를 짧은 길이의 프레임(수 십에서 수 백 ms)으로 나누고 각 프레임에 퓨리에 변환을 취하여 얻어진다. 프레임 레벨의 스펙트럼 특징만으로는 음악 장르를 신뢰성 있게 분류할 수 없으므로, 프레임 레벨 특징들을 모아서 1 s에서 30 s 길이의 음악 신호 세그먼트에서의 평균, 분산, 상관관계 등의 통계학적 특성을 구한다.

참고문헌 (13)

Z. Fu, G. Lu, K. M. Ting, and D. Zhang, "A survey of audio-based music classification and annotation," IEEE Trans. Multimedia 13, 303-319 (2011).

상세보기
B. L. Sturm, "A survey of evaluation in music genre recognition," in Proc. AMR-2012, 29-66 (2012).
J. Seo, "Study on the performance of spectral contrast MFCC for musical genre classification" (in Korean), J. Acoust. Soc. Kr. 29, 265-269 (2010).
S.-C. Lim, S.-J. Jang, S.-P. Lee, and M. Y. Kim, "Music genre classification system using decorrelated filter bank" (in Korean), J. Acoust. Soc. Kr. 30, 100-106 (2011).

원문보기 상세보기
D. Jiang, L. Lu, H. Zhang, J. Tao, and L. Cai, "Music type classification by spectral contrast feature," in Proc. ICME-2002, 113-116 (2002).
D. O'Shaughnessy, Speech Communication: Human and Machine (Addison-Wesley, Boston, 1987), pp. 150.
M. Sugiyama, "Dimensionality reduction of multimodal labeled data by local fisher discriminant analysis," J. Mach. Learn. Res. 8, 1027-1061 (2007).
S. Pedagadi, J. Orwell, S. Velastin, and B. Boghossian, "Local fisher discriminant analysis for pedestrian reidentification," in Proc. CVPR, 3318-3325 (2013).
P. Loizou and O. Poroy, "Minimum spectral contrast needed for vowel identification by normal-hearing and cochlear implant listeners," J. Acoust. Soc. Am. 110, 1619-1627 (2001).

상세보기
S. Umesh, L. Cohen, and D. Nelson, "Fitting the mel scale," in Proc. ICASSP, 217-220 (1999).
G. Tzanetakis and P. Cook, "Musical genre classification of audio signals," IEEE Trans. Speech and Audio Process. 10, 293-302 (2002).

상세보기
B. L. Sturm, "An analysis of the GTZAN music genre dataset," in Proc. ACM workshop on Music information retrieval with user-centered and multimodal strategies, 7-12 (2012).
A.K. Jain, Fundamentals of Digital Image Processing (Prentice-Hall, Trenton, 1989), pp. 150-161.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증