[논문]음악 장르 분류를 위한 새로운 자동 Taxonomy 구축 알고리즘

최택성; 문선국; 박영철; 윤대희; 이석필

문제 정의

본 논문에서는 계층적인 오디오 장르에 따른 오디오신호의 자동 분류 시스템을 제안하였다. 제안된 알고리즘은 모든 가능한 노드들의 분류 확률을 예측하여 예측된분류 성능값이 가장 좋은 조합을 Taxonomy로 구축하는것이다.
본 논문에서는 오디오 장르의 계층구조를 만들 때 모든 가능한 장르 쌍들의 분류 확률 예측을 기반으로 자동으로 구축하는 알고리즘을 제안하고 이를 분석한다.
본 논문에서는 이러한 단점들을 극복하기 위하여 새로운 taxonomy 구축방법을 제안하였다 제안된 알고리즘은 오디오 장르의 계층구조를 만들 때 모든 가능한 장르쌍들의 분류 확률 예측을 기반으로 자동으로 구축하여 자동분류 시스템의 분류 성능을 높인다. 분류 확률 예측을 위해 모든 가능한 클러스터 쌍들을 나누어 놓고 wrapper algorithm [1 이을 이용하여 각각의 클러스터 쌍들을 가장잘 분리할 수 있는 특징벡터를 추출한다.
본 연구의 목표는 주어진 특징 벡터들을 사용하여 최상의 분류 성능을 가지는 taxonomy를 자동으로 구축하는것이다. 핵심적인 아이디어는 분류 성능을 예측하여 장르들간의 관계를 추론하는 것이다.

제안 방법

표에서 구성된 범주라는 것은 각각의 클래스가 이루어진 장르 범주들이다. 2 클래스로 이루어진 각각의 노드에서의 분류 성능을 측정하여 표 3의 혼동매트릭스를 구성하였다. 표에서 보듯이 Node3 에서 클래스 5와 클래스 (2, 6)의 분류성능이 좋지 못한데 특징벡터 분석결과 world ⑹가 rock_po ⑸와 상당히 유사한 특성을 보였기 때문이다.
사용한 기존의 다중 범주 분류기는 다음과 같다. Multi-class support vector machine [18], K-nearest neighbor (KNN) [14], Gaussian mixture model (GMM) [19]과 Neural network (NN)〔2이와 같은 다양한 다중 범주 분류기와 비교하였다. 제안된 알고리듬의 성능을 측정하기 위하여 2 클래스의 분류에 적합한 one-versus-one support vector machine을 사용하였다.
이를 위해 여러 프레임이 모인 구간을 texture window로 정의한다. [2], 본 논문에서는 참고문헌 [2]에서 제시한 texture window를 1 초에 해당하는 100개의 프레임으로 두고 평균과 분산을 구하였다. 따라서 각 파라미터 마다 2개의 고차원 파라미터가 추출된다.
강한 것을 관찰할 수 있다. [2], 본 연구에서는 참고문헌 (2)의 방법과 같이 리듬 히스토그램을 형성한 후 히스토그램의 특징을 나타내는 6차의 파라미터 (RHYTHM 를 추출하여 사용하였다.
특징벡터를 추출할 때에는 training set과 development set의 모든 곡에서 최종적으로 하나의 특징벡터를 추출하였다. 각 음악에서 최초 30초부터 음악이 끝나기 30초 전까지의 오디오 신호를 대상으로 특징벡터를 추출하였다. 프레임 기반의 특징벡터는 texture window마다 추출된 고차원의 특징벡터를 한 곡 전체에 대하여 평균과 분산을 구하여 히스토그램 기반의 특징벡터와 결합하였다.
여기서는 (k-1) 개의 후보 노드들이 생긴다. 각각의 노드들에서는 상위노드의 경우와 마찬 가지로 k-fold cross validation 과정을 진행하여 분류 성능을 예측하며, 예측 값 중에 가장높은 값을 가지는 클러스터 쌍을 second lev이 taxonomy 로 구축한다. 결국 과정 (2)~⑸를 반복하여 최하단 level 의 클러스터들 모두가 범주 조합이 아닌 1개의 범주일 때끝나게 된다.
이는 공정한 실험이 되지 못한다. 따라서 다중 범주 분류기와 똑 같은 차수를 사용하기 위해서 제안된 알고리즘에서는 최상위레벨에서 다중 범주 분류기와 똑 같은 차수의 특징벡터를선택한 후에 아랫단의 모든 노드에서는 최상위 레벨에서 선택된 특징벡터 만을 가지고 그 중에서 더 적은 차수 의특징벡터 만을 선택하는 방식으로 실험을 진행하였다. 이렇게 하면 제안된 알고리즘에서 필요한모든 특징벡터를 이미 최상위 레벨에서 추출하였기 때문에 추가적인 특징벡터가 필요 없게 된다.
본 논문에서는 다중 피치 검출 알고리즘을 사용하여 피치를 추출하였다 [12], 이렇게 추출된 피치는 악보에서 사용되는 값으로 바꾸고 곡 전체에 대하여 히스토그램을 구성한 후 6차의 피치 파라미터 (PITCH)를 추출하였다 [2].
본 논문에서는 분류 성능 예측시 에 wrapper 알고리즘을 사용함으로써 실제 데이터의 분류 성능을 잘 예측하여 가장 성능이 좋은 특징벡터 들을 선택하였다.
(2). 본 연구에서는 한 곡에 대하여 하나의 특징벡터가 나오도록 설계하였다. 프레임기반 특징벡터는 1곡 전체에 대하여 하나의 특징벡터로 표현되어야 한다.
따라서 표준편차의 3배 (정규 분포로 가정할 경우 평균에서 가장 먼 1%)가 넘는 표본은 제외하였다. 성능 평가는 전체 샘플 중 범주를 제대로 찾는 샘플의 비를 측정하여 평가하였다.
추출된 특징벡터를 이용하여 훈련 데이터에 대해 k-fold cross validation 을 통해 모든 가능한 클러스터 에서의 분류 성능을 예측함으로써 가장 높은 예측 성능치에 해당하는 쌍들을 묶어 노드를 형성하는 방법을 사용한다. 이렇게 구축된 모든노드들에 2—class support vector machine (SVM) 분류기를 적용하여 훈련시키며, 테스트 데이터에 대해 동일한 2-class SVM으로 분류를 실행한다.
프레임 기반의 특징벡터들은 20ms 윈도우 안에 포함된 오디오 신호에 따라 매우 급격하게 변할 수 있다. 이렇게 변화가 심한 특징벡터가 장르 등을 표현하는 특징벡터로써 의미가 있기 위해서 여러 프레임 동안 특징벡터의 통계적 특성을 추출하여 고차원의 특징벡터를 구성하였다. 이를 위해 여러 프레임이 모인 구간을 texture window로 정의한다.
이렇게 하여 만들어진 2개의 클러스터로 이루어진 각각의 후보 노드 들에서 각각의 훈련 데이터베이스를 k등분하여 k-foldcross validation 과정을 진행하여 분류 성능을 예측한다.
프레임기반 특징벡터는 1곡 전체에 대하여 하나의 특징벡터로 표현되어야 한다. 이를 위해 한 곡 전체에 대하여 texture window를 통해 구한 고차원 특징벡터의 평균을 구하여 하나의 특징벡터를 추출하였다.
나타내었다. 자동적으로 장르 계층을 구축할 때 앞서 언급한대로 wrapper 알고리즘을 사용하여 특징벡터 선택과 분류 성능 예측을 동시에 시행한다. 따라서 wrapper 알고리즘을 이용하면 각각의 노드에서 가장 분류성능이 좋은 특징벡터들을 추출할 수 있다.
자동 분류 시스템을 제안하였다. 제안된 알고리즘은 모든 가능한 노드들의 분류 확률을 예측하여 예측된분류 성능값이 가장 좋은 조합을 Taxonomy로 구축하는것이다. 제안된 알고리즘에서의 분류 확률 예측은 모든 가능한 장르 쌍들을 나누어 놓고 각각의 장르 쌍들을 가장 잘 분리할 수 있는 특징벡터를 wrapper algorithm을 이용하여 추출하여 추출된 특징벡터를 이용하여 훈련 데이터를 k-fold cross validation을 이용하여 분류기에 적용시 키 어 모든 가능한 장르 쌍들의 분류 성능 값을 예측하였다.
일반적으로 장르분류 시스템은 크게 특징벡터 추출과 장르 분류의 두 가지 과정으로 이루어진다 [1]-[3]. 첫 번째 과정에서 음악신호로부터 오디오의 피礼 음색, 박자 등의 특징을 추출하며 두 번째 과정에서 추출된 특징벡터들을 이용하여 입력된 음악의 장르를 분류한다.
제안된 알고리즘에서의 분류 확률 예측은 모든 가능한 장르 쌍들을 나누어 놓고 각각의 장르 쌍들을 가장 잘 분리할 수 있는 특징벡터를 wrapper algorithm을 이용하여 추출하여 추출된 특징벡터를 이용하여 훈련 데이터를 k-fold cross validation을 이용하여 분류기에 적용시 키 어 모든 가능한 장르 쌍들의 분류 성능 값을 예측하였다. 최종적으로 후보가 되는 노드중에서 예측값이 가장 좋은 조합을 Taxonomy로 구축하였다.
분류 확률 예측을 위해 모든 가능한 클러스터 쌍들을 나누어 놓고 wrapper algorithm [1 이을 이용하여 각각의 클러스터 쌍들을 가장잘 분리할 수 있는 특징벡터를 추출한다. 추출된 특징벡터를 이용하여 훈련 데이터에 대해 k-fold cross validation 을 통해 모든 가능한 클러스터 에서의 분류 성능을 예측함으로써 가장 높은 예측 성능치에 해당하는 쌍들을 묶어 노드를 형성하는 방법을 사용한다. 이렇게 구축된 모든노드들에 2—class support vector machine (SVM) 분류기를 적용하여 훈련시키며, 테스트 데이터에 대해 동일한 2-class SVM으로 분류를 실행한다.
오디오 파일들은 44100 Hz, 16-bit, 모노 형식으로 저장되었다. 특징벡터를 선택할 때와 모델을 만들때에는 training set을 사용하였고 테스트를 할 때에는 development set을 사용하였다. 특징벡터를 추출할 때에는 training set과 development set의 모든 곡에서 최종적으로 하나의 특징벡터를 추출하였다.
따라서 wrapper 알고리즘을 이용하면 각각의 노드에서 가장 분류성능이 좋은 특징벡터들을 추출할 수 있다. 특징벡터의 차수에따른 분류 성능 측정을 위하여 wrapper 알고리즘에서 특징벡터의 차수를 변화시켜가면서 실험하였다.
표 4에서의 최하단의 2-class SVM based on proposed algorithme 제안된 알고리즘을 사용하여 구축된 자동 Taxonomy를 support vector ma산line을 사용하여 분류성능을 측정한 것이다.
각 음악에서 최초 30초부터 음악이 끝나기 30초 전까지의 오디오 신호를 대상으로 특징벡터를 추출하였다. 프레임 기반의 특징벡터는 texture window마다 추출된 고차원의 특징벡터를 한 곡 전체에 대하여 평균과 분산을 구하여 히스토그램 기반의 특징벡터와 결합하였다.

대상 데이터

구성되어 있다. Training set는 이assical 이 320 곡, electronic0] 115곡, jazz_blues가 26곡, metal_jpunk 가 45곡, rock_popo] 101곡, world가 122곡으로 이루어져 있다. 오디오 파일들은 44100 Hz, 16-bit, 모노 형식으로 저장되었다.
제안된 알고리즘의 실험을 위해 사용된 음악 DB는 ISMIR2004 Audio Description Contest 에서 장르 구분대회를 위해 제공된 음악을 사용하였다 [17], 이 데이터베이스는 classical (1), electronic (2), jazzj)lues (3), metal _punk (4), rocejpop (5), world ⑹의 6개의 범주로 구성되어 있으며 training set과 development set0] 각각 729 곡으로 구성되어 있다. Training set는 이assical 이 320 곡, electronic0] 115곡, jazz_blues가 26곡, metal_jpunk 가 45곡, rock_popo] 101곡, world가 122곡으로 이루어져 있다.

데이터처리

제안된 알고리즘은 모든 가능한 노드들의 분류 확률을 예측하여 예측된분류 성능값이 가장 좋은 조합을 Taxonomy로 구축하는것이다. 제안된 알고리즘에서의 분류 확률 예측은 모든 가능한 장르 쌍들을 나누어 놓고 각각의 장르 쌍들을 가장 잘 분리할 수 있는 특징벡터를 wrapper algorithm을 이용하여 추출하여 추출된 특징벡터를 이용하여 훈련 데이터를 k-fold cross validation을 이용하여 분류기에 적용시 키 어 모든 가능한 장르 쌍들의 분류 성능 값을 예측하였다. 최종적으로 후보가 되는 노드중에서 예측값이 가장 좋은 조합을 Taxonomy로 구축하였다.

이론/모형

시스템의 분류 성능을 높인다. 분류 확률 예측을 위해 모든 가능한 클러스터 쌍들을 나누어 놓고 wrapper algorithm [1 이을 이용하여 각각의 클러스터 쌍들을 가장잘 분리할 수 있는 특징벡터를 추출한다. 추출된 특징벡터를 이용하여 훈련 데이터에 대해 k-fold cross validation 을 통해 모든 가능한 클러스터 에서의 분류 성능을 예측함으로써 가장 높은 예측 성능치에 해당하는 쌍들을 묶어 노드를 형성하는 방법을 사용한다.
이런 수동 분류의 문제를 해결하기 위해 혼동 매트릭스 (confusion matrix)를 이용하여 계층을 클러스터 링 하는 자동 분류법을 사용한다. M.
Multi-class support vector machine [18], K-nearest neighbor (KNN) [14], Gaussian mixture model (GMM) [19]과 Neural network (NN)〔2이와 같은 다양한 다중 범주 분류기와 비교하였다. 제안된 알고리듬의 성능을 측정하기 위하여 2 클래스의 분류에 적합한 one-versus-one support vector machine을 사용하였다.

성능/효과

그러나 표 3 에서 보듯이 Node3에서의 성능이 다른 노드에 비해서 떨어져서 전체 Taxonomy의 분류성능에 영향을 주어 추가적인 분류 성능 향상을 방해하였다. 이는 기본적으로 2절에서 추출된 특징벡터들은 기존에 미리정해지거나 많이 알려진 장르 분류에 적합한 것이 많았기때문이다.
우수한 성능을 보였다. 따라서 제안된 알고리즘은 적은 차수 즉 적은 연산량을 사용하여 기존의 분류기들 보다 매우 좋은 성능을 보임을 확인하였다. 이는 저전력의 응용분야에 제안된 알고리즘이 매우 효과적임을 보여주었다.
또한 30차를 사용한 제안된 알고리즘의 성능은 83%를 보였으며 이는 100차를 사용한 기존의 다중 범주 분류기들보다 우수한 성능을 보였다. 따라서 제안된 알고리즘은 적은 차수 즉 적은 연산량을 사용하여 기존의 분류기들 보다 매우 좋은 성능을 보임을 확인하였다.
본 논문에서 사용한 특징벡터들은 크게 음색 표현 특징벡터, 리듬의 특성을 나타내는 특징벡터, pitch의 특징을 나타내는 특징벡터로 구분될 수 있다. 図[이[12].
따라서 제안된 알고리즘은 적은 차수 즉 적은 연산량을 사용하여 기존의 분류기들 보다 매우 좋은 성능을 보임을 확인하였다. 이는 저전력의 응용분야에 제안된 알고리즘이 매우 효과적임을 보여주었다.
제안된 알고리즘을 이용한 분류성능은 최하단의 레벨까지의 누적 분류 성능이다. 즉 최상위 레벨에서부터 최하단의 노드에 있는 분류성능을 차례로 곱하여 얻어진값0KE 성능 비교 결과 모든 차수에 대해서 제안된 알고리즘을 이용한 분류 시스템은 기존의 분류 시스템들보다 성능이 우수함을 보였다.
제안된 알고리즘을 이용한 분류의 성능 검증 결과 기존의 다중 범주 분류 방법들 보다 5% 에서 25% 정도의 성능향상을 이루어 좋은 성능을 보임을 확인하였다
누적 분류 성능이다. 즉 최상위 레벨에서부터 최하단의 노드에 있는 분류성능을 차례로 곱하여 얻어진값0KE 성능 비교 결과 모든 차수에 대해서 제안된 알고리즘을 이용한 분류 시스템은 기존의 분류 시스템들보다 성능이 우수함을 보였다.

후속연구

이를 개선하고 추가적인 분류 성능을 향상을 얻어내기 위해서는 구축된 Taxonomy에서 각각의 노드에 적합한 새로운장르 의존적인 특징벡터 개발이 필요하다. 향후 각각의 노드에서의 장르 의존적인 특징벡터를 개발하여 추가적인 분류성능 향상을 위한 연구가 필요하다
이를 개선하고 추가적인 분류 성능을 향상을 얻어내기 위해서는 구축된 Taxonomy에서 각각의 노드에 적합한 새로운장르 의존적인 특징벡터 개발이 필요하다. 향후 각각의 노드에서의 장르 의존적인 특징벡터를 개발하여 추가적인 분류성능 향상을 위한 연구가 필요하다

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

음악 장르 분류를 위한 새로운 자동 Taxonomy 구축 알고리즘
New Automatic Taxonomy Generation Algorithm for the Audio Genre Classification 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (20)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

음악 장르 분류를 위한 새로운 자동 Taxonomy 구축 알고리즘 New Automatic Taxonomy Generation Algorithm for the Audio Genre Classification 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (20)

이 논문을 인용한 문헌

저자의 다른 논문 :

최택성 (2) 문선국 (1) 박영철 (88) 윤대희 (147)

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

음악 장르 분류를 위한 새로운 자동 Taxonomy 구축 알고리즘
New Automatic Taxonomy Generation Algorithm for the Audio Genre Classification 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper