본 논문에서는 음악 장르 분류를 위한 새로운 자동 Taxonomy 구축 알고리즘을 제안한다. 제안된 알고리즘은 모든 가능한 노드들의 분류 확률을 예측하여 예측된 분류 성능값이 가장 좋은 조합을 Taxonomy로 구축하는 것이다. 제안된 알고리즘에서의 분류 확률 예측은 훈련 데이터를 k-fold cross validation을 이용하여 분류기에 적용함으로써 이루어진다. 제안된 알고리즘을 기반으로 한 분류 성능 측정은 2 클래스로 이루어진 각각의 노드에 2개 범주 분류에 효과적인 support vector machine을 적용함으로써 이루어진다. 제안된 알고리즘의 성능 검증을 위해 음색, 리듬, 피치 등 오디오 신호의 특징을 나타내는 다양한 파라미터를 오디오 신호로부터 추출하여 제안된 알고리즘과 기존의 다중 범주 분류기들을 이용하여 분류성능을 평가하였다. 다양한 실험결과 제안된 알고리즘은 기존의 알고리즘에 비하여 5%에서 25%정도의 분류 성능이 향상된 것을 확인할 수 있었고 특히 낮은 차원의 특징벡터를 이용한 분류 실험에서는 10% 에서 25% 향상된 좋은 성능을 보였다.
본 논문에서는 음악 장르 분류를 위한 새로운 자동 Taxonomy 구축 알고리즘을 제안한다. 제안된 알고리즘은 모든 가능한 노드들의 분류 확률을 예측하여 예측된 분류 성능값이 가장 좋은 조합을 Taxonomy로 구축하는 것이다. 제안된 알고리즘에서의 분류 확률 예측은 훈련 데이터를 k-fold cross validation을 이용하여 분류기에 적용함으로써 이루어진다. 제안된 알고리즘을 기반으로 한 분류 성능 측정은 2 클래스로 이루어진 각각의 노드에 2개 범주 분류에 효과적인 support vector machine을 적용함으로써 이루어진다. 제안된 알고리즘의 성능 검증을 위해 음색, 리듬, 피치 등 오디오 신호의 특징을 나타내는 다양한 파라미터를 오디오 신호로부터 추출하여 제안된 알고리즘과 기존의 다중 범주 분류기들을 이용하여 분류성능을 평가하였다. 다양한 실험결과 제안된 알고리즘은 기존의 알고리즘에 비하여 5%에서 25%정도의 분류 성능이 향상된 것을 확인할 수 있었고 특히 낮은 차원의 특징벡터를 이용한 분류 실험에서는 10% 에서 25% 향상된 좋은 성능을 보였다.
In this paper, we propose a new automatic taxonomy generation algorithm for the audio genre classification. The proposed algorithm automatically generates hierarchical taxonomy based on the estimated classification accuracy at all possible nodes. The estimation of classification accuracy in the prop...
In this paper, we propose a new automatic taxonomy generation algorithm for the audio genre classification. The proposed algorithm automatically generates hierarchical taxonomy based on the estimated classification accuracy at all possible nodes. The estimation of classification accuracy in the proposed algorithm is conducted by applying the training data to classifier using k-fold cross validation. Subsequent classification accuracy is then to be tested at every node which consists of two clusters by applying one-versus-one support vector machine. In order to assess the performance of the proposed algorithm, we extracted various features which represent characteristics such as timbre, rhythm, pitch and so on. Then, we investigated classification performance using the proposed algorithm and previous flat classifiers. The classification accuracy reaches to 89 percent with proposed scheme, which is 5 to 25 percent higher than the previous flat classification methods. Using low-dimensional feature vectors, in particular, it is 10 to 25 percent higher than previous algorithms for classification experiments.
In this paper, we propose a new automatic taxonomy generation algorithm for the audio genre classification. The proposed algorithm automatically generates hierarchical taxonomy based on the estimated classification accuracy at all possible nodes. The estimation of classification accuracy in the proposed algorithm is conducted by applying the training data to classifier using k-fold cross validation. Subsequent classification accuracy is then to be tested at every node which consists of two clusters by applying one-versus-one support vector machine. In order to assess the performance of the proposed algorithm, we extracted various features which represent characteristics such as timbre, rhythm, pitch and so on. Then, we investigated classification performance using the proposed algorithm and previous flat classifiers. The classification accuracy reaches to 89 percent with proposed scheme, which is 5 to 25 percent higher than the previous flat classification methods. Using low-dimensional feature vectors, in particular, it is 10 to 25 percent higher than previous algorithms for classification experiments.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 이러한 단점들을 극복하기 위하여 새로운 taxonomy 구축방법을 제안하였다 제안된 알고리즘은 오디오 장르의 계층구조를 만들 때 모든 가능한 장르쌍들의 분류 확률 예측을 기반으로 자동으로 구축하여 자동분류 시스템의 분류 성능을 높인다. 분류 확률 예측을 위해 모든 가능한 클러스터 쌍들을 나누어 놓고 wrapper algorithm [1 이을 이용하여 각각의 클러스터 쌍들을 가장잘 분리할 수 있는 특징벡터를 추출한다.
본 논문에서는 오디오 장르의 계층구조를 만들 때 모든 가능한 장르 쌍들의 분류 확률 예측을 기반으로 자동으로 구축하는 알고리즘을 제안하고 이를 분석한다.
본 연구의 목표는 주어진 특징 벡터들을 사용하여 최상의 분류 성능을 가지는 taxonomy를 자동으로 구축하는것이다. 핵심적인 아이디어는 분류 성능을 예측하여 장르들간의 관계를 추론하는 것이다.
본 논문에서는 계층적인 오디오 장르에 따른 오디오신호의 자동 분류 시스템을 제안하였다. 제안된 알고리즘은 모든 가능한 노드들의 분류 확률을 예측하여 예측된분류 성능값이 가장 좋은 조합을 Taxonomy로 구축하는것이다.
제안 방법
자동 분류 시스템을 제안하였다. 제안된 알고리즘은 모든 가능한 노드들의 분류 확률을 예측하여 예측된분류 성능값이 가장 좋은 조합을 Taxonomy로 구축하는것이다. 제안된 알고리즘에서의 분류 확률 예측은 모든 가능한 장르 쌍들을 나누어 놓고 각각의 장르 쌍들을 가장 잘 분리할 수 있는 특징벡터를 wrapper algorithm을 이용하여 추출하여 추출된 특징벡터를 이용하여 훈련 데이터를 k-fold cross validation을 이용하여 분류기에 적용시 키 어 모든 가능한 장르 쌍들의 분류 성능 값을 예측하였다.
일반적으로 장르분류 시스템은 크게 특징벡터 추출과 장르 분류의 두 가지 과정으로 이루어진다 [1]-[3]. 첫 번째 과정에서 음악신호로부터 오디오의 피礼 음색, 박자 등의 특징을 추출하며 두 번째 과정에서 추출된 특징벡터들을 이용하여 입력된 음악의 장르를 분류한다.
분류 확률 예측을 위해 모든 가능한 클러스터 쌍들을 나누어 놓고 wrapper algorithm [1 이을 이용하여 각각의 클러스터 쌍들을 가장잘 분리할 수 있는 특징벡터를 추출한다. 추출된 특징벡터를 이용하여 훈련 데이터에 대해 k-fold cross validation 을 통해 모든 가능한 클러스터 에서의 분류 성능을 예측함으로써 가장 높은 예측 성능치에 해당하는 쌍들을 묶어 노드를 형성하는 방법을 사용한다. 이렇게 구축된 모든노드들에 2—class support vector machine (SVM) 분류기를 적용하여 훈련시키며, 테스트 데이터에 대해 동일한 2-class SVM으로 분류를 실행한다.
추출된 특징벡터를 이용하여 훈련 데이터에 대해 k-fold cross validation 을 통해 모든 가능한 클러스터 에서의 분류 성능을 예측함으로써 가장 높은 예측 성능치에 해당하는 쌍들을 묶어 노드를 형성하는 방법을 사용한다. 이렇게 구축된 모든노드들에 2—class support vector machine (SVM) 분류기를 적용하여 훈련시키며, 테스트 데이터에 대해 동일한 2-class SVM으로 분류를 실행한다.
강한 것을 관찰할 수 있다. [2], 본 연구에서는 참고문헌 (2)의 방법과 같이 리듬 히스토그램을 형성한 후 히스토그램의 특징을 나타내는 6차의 파라미터 (RHYTHM 를 추출하여 사용하였다.
본 논문에서는 다중 피치 검출 알고리즘을 사용하여 피치를 추출하였다 [12], 이렇게 추출된 피치는 악보에서 사용되는 값으로 바꾸고 곡 전체에 대하여 히스토그램을 구성한 후 6차의 피치 파라미터 (PITCH)를 추출하였다 [2].
프레임 기반의 특징벡터들은 20ms 윈도우 안에 포함된 오디오 신호에 따라 매우 급격하게 변할 수 있다. 이렇게 변화가 심한 특징벡터가 장르 등을 표현하는 특징벡터로써 의미가 있기 위해서 여러 프레임 동안 특징벡터의 통계적 특성을 추출하여 고차원의 특징벡터를 구성하였다. 이를 위해 여러 프레임이 모인 구간을 texture window로 정의한다.
이를 위해 여러 프레임이 모인 구간을 texture window로 정의한다. [2], 본 논문에서는 참고문헌 [2]에서 제시한 texture window를 1 초에 해당하는 100개의 프레임으로 두고 평균과 분산을 구하였다. 따라서 각 파라미터 마다 2개의 고차원 파라미터가 추출된다.
(2). 본 연구에서는 한 곡에 대하여 하나의 특징벡터가 나오도록 설계하였다. 프레임기반 특징벡터는 1곡 전체에 대하여 하나의 특징벡터로 표현되어야 한다.
프레임기반 특징벡터는 1곡 전체에 대하여 하나의 특징벡터로 표현되어야 한다. 이를 위해 한 곡 전체에 대하여 texture window를 통해 구한 고차원 특징벡터의 평균을 구하여 하나의 특징벡터를 추출하였다.
이렇게 하여 만들어진 2개의 클러스터로 이루어진 각각의 후보 노드 들에서 각각의 훈련 데이터베이스를 k등분하여 k-foldcross validation 과정을 진행하여 분류 성능을 예측한다.
여기서는 (k-1) 개의 후보 노드들이 생긴다. 각각의 노드들에서는 상위노드의 경우와 마찬 가지로 k-fold cross validation 과정을 진행하여 분류 성능을 예측하며, 예측 값 중에 가장높은 값을 가지는 클러스터 쌍을 second lev이 taxonomy 로 구축한다. 결국 과정 (2)~⑸를 반복하여 최하단 level 의 클러스터들 모두가 범주 조합이 아닌 1개의 범주일 때끝나게 된다.
본 논문에서는 분류 성능 예측시 에 wrapper 알고리즘을 사용함으로써 실제 데이터의 분류 성능을 잘 예측하여 가장 성능이 좋은 특징벡터 들을 선택하였다.
오디오 파일들은 44100 Hz, 16-bit, 모노 형식으로 저장되었다. 특징벡터를 선택할 때와 모델을 만들때에는 training set을 사용하였고 테스트를 할 때에는 development set을 사용하였다. 특징벡터를 추출할 때에는 training set과 development set의 모든 곡에서 최종적으로 하나의 특징벡터를 추출하였다.
특징벡터를 추출할 때에는 training set과 development set의 모든 곡에서 최종적으로 하나의 특징벡터를 추출하였다. 각 음악에서 최초 30초부터 음악이 끝나기 30초 전까지의 오디오 신호를 대상으로 특징벡터를 추출하였다. 프레임 기반의 특징벡터는 texture window마다 추출된 고차원의 특징벡터를 한 곡 전체에 대하여 평균과 분산을 구하여 히스토그램 기반의 특징벡터와 결합하였다.
각 음악에서 최초 30초부터 음악이 끝나기 30초 전까지의 오디오 신호를 대상으로 특징벡터를 추출하였다. 프레임 기반의 특징벡터는 texture window마다 추출된 고차원의 특징벡터를 한 곡 전체에 대하여 평균과 분산을 구하여 히스토그램 기반의 특징벡터와 결합하였다.
따라서 표준편차의 3배 (정규 분포로 가정할 경우 평균에서 가장 먼 1%)가 넘는 표본은 제외하였다. 성능 평가는 전체 샘플 중 범주를 제대로 찾는 샘플의 비를 측정하여 평가하였다.
나타내었다. 자동적으로 장르 계층을 구축할 때 앞서 언급한대로 wrapper 알고리즘을 사용하여 특징벡터 선택과 분류 성능 예측을 동시에 시행한다. 따라서 wrapper 알고리즘을 이용하면 각각의 노드에서 가장 분류성능이 좋은 특징벡터들을 추출할 수 있다.
따라서 wrapper 알고리즘을 이용하면 각각의 노드에서 가장 분류성능이 좋은 특징벡터들을 추출할 수 있다. 특징벡터의 차수에따른 분류 성능 측정을 위하여 wrapper 알고리즘에서 특징벡터의 차수를 변화시켜가면서 실험하였다.
사용한 기존의 다중 범주 분류기는 다음과 같다. Multi-class support vector machine [18], K-nearest neighbor (KNN) [14], Gaussian mixture model (GMM) [19]과 Neural network (NN)〔2이와 같은 다양한 다중 범주 분류기와 비교하였다. 제안된 알고리듬의 성능을 측정하기 위하여 2 클래스의 분류에 적합한 one-versus-one support vector machine을 사용하였다.
이는 공정한 실험이 되지 못한다. 따라서 다중 범주 분류기와 똑 같은 차수를 사용하기 위해서 제안된 알고리즘에서는 최상위레벨에서 다중 범주 분류기와 똑 같은 차수의 특징벡터를선택한 후에 아랫단의 모든 노드에서는 최상위 레벨에서 선택된 특징벡터 만을 가지고 그 중에서 더 적은 차수 의특징벡터 만을 선택하는 방식으로 실험을 진행하였다. 이렇게 하면 제안된 알고리즘에서 필요한모든 특징벡터를 이미 최상위 레벨에서 추출하였기 때문에 추가적인 특징벡터가 필요 없게 된다.
표에서 구성된 범주라는 것은 각각의 클래스가 이루어진 장르 범주들이다. 2 클래스로 이루어진 각각의 노드에서의 분류 성능을 측정하여 표 3의 혼동매트릭스를 구성하였다. 표에서 보듯이 Node3 에서 클래스 5와 클래스 (2, 6)의 분류성능이 좋지 못한데 특징벡터 분석결과 world ⑹가 rock_po ⑸와 상당히 유사한 특성을 보였기 때문이다.
표 4에서의 최하단의 2-class SVM based on proposed algorithme 제안된 알고리즘을 사용하여 구축된 자동 Taxonomy를 support vector ma산line을 사용하여 분류성능을 측정한 것이다.
제안된 알고리즘에서의 분류 확률 예측은 모든 가능한 장르 쌍들을 나누어 놓고 각각의 장르 쌍들을 가장 잘 분리할 수 있는 특징벡터를 wrapper algorithm을 이용하여 추출하여 추출된 특징벡터를 이용하여 훈련 데이터를 k-fold cross validation을 이용하여 분류기에 적용시 키 어 모든 가능한 장르 쌍들의 분류 성능 값을 예측하였다. 최종적으로 후보가 되는 노드중에서 예측값이 가장 좋은 조합을 Taxonomy로 구축하였다.
대상 데이터
제안된 알고리즘의 실험을 위해 사용된 음악 DB는 ISMIR2004 Audio Description Contest 에서 장르 구분대회를 위해 제공된 음악을 사용하였다 [17], 이 데이터베이스는 classical (1), electronic (2), jazzj)lues (3), metal _punk (4), rocejpop (5), world ⑹의 6개의 범주로 구성되어 있으며 training set과 development set0] 각각 729 곡으로 구성되어 있다. Training set는 이assical 이 320 곡, electronic0] 115곡, jazz_blues가 26곡, metal_jpunk 가 45곡, rock_popo] 101곡, world가 122곡으로 이루어져 있다.
구성되어 있다. Training set는 이assical 이 320 곡, electronic0] 115곡, jazz_blues가 26곡, metal_jpunk 가 45곡, rock_popo] 101곡, world가 122곡으로 이루어져 있다. 오디오 파일들은 44100 Hz, 16-bit, 모노 형식으로 저장되었다.
데이터처리
제안된 알고리즘은 모든 가능한 노드들의 분류 확률을 예측하여 예측된분류 성능값이 가장 좋은 조합을 Taxonomy로 구축하는것이다. 제안된 알고리즘에서의 분류 확률 예측은 모든 가능한 장르 쌍들을 나누어 놓고 각각의 장르 쌍들을 가장 잘 분리할 수 있는 특징벡터를 wrapper algorithm을 이용하여 추출하여 추출된 특징벡터를 이용하여 훈련 데이터를 k-fold cross validation을 이용하여 분류기에 적용시 키 어 모든 가능한 장르 쌍들의 분류 성능 값을 예측하였다. 최종적으로 후보가 되는 노드중에서 예측값이 가장 좋은 조합을 Taxonomy로 구축하였다.
이론/모형
이런 수동 분류의 문제를 해결하기 위해 혼동 매트릭스 (confusion matrix)를 이용하여 계층을 클러스터 링 하는 자동 분류법을 사용한다. M.
시스템의 분류 성능을 높인다. 분류 확률 예측을 위해 모든 가능한 클러스터 쌍들을 나누어 놓고 wrapper algorithm [1 이을 이용하여 각각의 클러스터 쌍들을 가장잘 분리할 수 있는 특징벡터를 추출한다. 추출된 특징벡터를 이용하여 훈련 데이터에 대해 k-fold cross validation 을 통해 모든 가능한 클러스터 에서의 분류 성능을 예측함으로써 가장 높은 예측 성능치에 해당하는 쌍들을 묶어 노드를 형성하는 방법을 사용한다.
Multi-class support vector machine [18], K-nearest neighbor (KNN) [14], Gaussian mixture model (GMM) [19]과 Neural network (NN)〔2이와 같은 다양한 다중 범주 분류기와 비교하였다. 제안된 알고리듬의 성능을 측정하기 위하여 2 클래스의 분류에 적합한 one-versus-one support vector machine을 사용하였다.
성능/효과
본 논문에서 사용한 특징벡터들은 크게 음색 표현 특징벡터, 리듬의 특성을 나타내는 특징벡터, pitch의 특징을 나타내는 특징벡터로 구분될 수 있다. 図[이[12].
제안된 알고리즘을 이용한 분류성능은 최하단의 레벨까지의 누적 분류 성능이다. 즉 최상위 레벨에서부터 최하단의 노드에 있는 분류성능을 차례로 곱하여 얻어진값0KE 성능 비교 결과 모든 차수에 대해서 제안된 알고리즘을 이용한 분류 시스템은 기존의 분류 시스템들보다 성능이 우수함을 보였다.
누적 분류 성능이다. 즉 최상위 레벨에서부터 최하단의 노드에 있는 분류성능을 차례로 곱하여 얻어진값0KE 성능 비교 결과 모든 차수에 대해서 제안된 알고리즘을 이용한 분류 시스템은 기존의 분류 시스템들보다 성능이 우수함을 보였다.
또한 30차를 사용한 제안된 알고리즘의 성능은 83%를 보였으며 이는 100차를 사용한 기존의 다중 범주 분류기들보다 우수한 성능을 보였다. 따라서 제안된 알고리즘은 적은 차수 즉 적은 연산량을 사용하여 기존의 분류기들 보다 매우 좋은 성능을 보임을 확인하였다.
우수한 성능을 보였다. 따라서 제안된 알고리즘은 적은 차수 즉 적은 연산량을 사용하여 기존의 분류기들 보다 매우 좋은 성능을 보임을 확인하였다. 이는 저전력의 응용분야에 제안된 알고리즘이 매우 효과적임을 보여주었다.
따라서 제안된 알고리즘은 적은 차수 즉 적은 연산량을 사용하여 기존의 분류기들 보다 매우 좋은 성능을 보임을 확인하였다. 이는 저전력의 응용분야에 제안된 알고리즘이 매우 효과적임을 보여주었다.
그러나 표 3 에서 보듯이 Node3에서의 성능이 다른 노드에 비해서 떨어져서 전체 Taxonomy의 분류성능에 영향을 주어 추가적인 분류 성능 향상을 방해하였다. 이는 기본적으로 2절에서 추출된 특징벡터들은 기존에 미리정해지거나 많이 알려진 장르 분류에 적합한 것이 많았기때문이다.
제안된 알고리즘을 이용한 분류의 성능 검증 결과 기존의 다중 범주 분류 방법들 보다 5% 에서 25% 정도의 성능향상을 이루어 좋은 성능을 보임을 확인하였다
후속연구
이를 개선하고 추가적인 분류 성능을 향상을 얻어내기 위해서는 구축된 Taxonomy에서 각각의 노드에 적합한 새로운장르 의존적인 특징벡터 개발이 필요하다. 향후 각각의 노드에서의 장르 의존적인 특징벡터를 개발하여 추가적인 분류성능 향상을 위한 연구가 필요하다
이를 개선하고 추가적인 분류 성능을 향상을 얻어내기 위해서는 구축된 Taxonomy에서 각각의 노드에 적합한 새로운장르 의존적인 특징벡터 개발이 필요하다. 향후 각각의 노드에서의 장르 의존적인 특징벡터를 개발하여 추가적인 분류성능 향상을 위한 연구가 필요하다
참고문헌 (20)
L. Lu and H. Zhang, "Content analysis for audio classification and segmentation," IEEE Trans. on Speech and Audio Process., 10(5), 504-516, Sep. 2002
C. Yang, Database retrieval based on spectral similarity, (Stanford Univ. Database Group, Stanford, CA, Tech, Rep. 2001-14, 2001)
Tao Li and Mitsunori Ogihara, "Music genre classification with taxonomy," Proc. Int. Conf. Acoustics, Speech, Signal Processing (ICASSP), 197-200, 2005
Juan Jose Burred and Alexander Lerch, "A hierarchical approach to automatic musical genre classification," Proc. of the 6th Int. Conference on Digital Audio Effects (DAFX-03), London, UK, Sept. 8-11, 2003
E. Scheirer and M. Slaney, "Construction and evaluation of a robust multifeature speech/music discriminator," Proc. Int. Conf. Acoustics, Speech, Signal Processing (ICASSP), 1331-1334, 1997
Beth Logan, "Mel Frequency Cepstral Coefficients for music modeling," in Proc. of the First International Symposium on Music Information Retrieval (ISMIR), 2000
S.Essid, G.Richard, and B.David, "Instrument Recognition in Polyphonic Music Based on Automatic taxonomies," IEEE Trans. Audio, Speech, and Lang. Process., 14(1), 68-80, Jan. 2006
G. Peeters, "A large set of audio fetures for sound description (similarity and classification) in the CUIDADO project," CUIDADO I.S.T. Project Report, 2004
D.-N. Jiang, L. Lu, H.-J. Zhang, J.-H. Tao, and L.-H. Cai, "Music type classification by spectral contrast feature,"Proc. of IEEE Int. Conf. on Multimedia and Expo (ICME02), Lausanne Switzerland, Aug, 2002
S. Essid, G. Richard and B. David, "Musical instrument recognition based on class pairwise feature selection," Proc. 5th Int. Conf. Music Information Retrieval (ISMIR), Barcelona, Spain, Oct. 2004
T. Tolenen and M. Karjalainen, "A computationally efficient multipitch analysis model," IEEE Trans. Speech, Audio Process, 8(6), 708-716, Nov. 2000
Huan Liu and Lei Yu, "Toward integrating feature selection algorithmsfor classification and clustering," IEEE Trans. on Knowledge and Data Eng., 17(4), April 2005
V. Vapnik,"The nature of statistical learning theory,"New York; Springer-Verlag, 1995
D. A. Reynolds and R. C. Rose, "Robust test-independent speaker identification using Gaussian mixture speaker models," IEEE Trans. Speech, Audio Process., 3(1), 47-60, Nov. 1996
S-Y. Kung and J-N. Hwang, "Neural networks for intelligent multimedia processing," Proceedingsof the IEEE, 86(6), 1244-1272, June 1998
이 논문을 인용한 문헌
저자의 다른 논문 :
활용도 분석정보
상세보기
다운로드
내보내기
활용도 Top5 논문
해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다. 더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.