일부 음악 장르 분류에 관한 기존 연구에서는 특징 추출을 위한 구간 선택 시 사람이 직접 곡의 주요 구간을 지정하는 방법을 사용하였다. 이러한 방법은 분류 성능이 좋은 반면 수작업으로 인한 부담으로 새롭게 등록되는 음악들에 대해 지속적으로 적용하기가 곤란하다. 수작업 없이 음악 특징을 추출하기 위해 최근 음악 장르 분류와 관련된 연구에서는 자동으로 추출구간을 선정하는 방법을 사용하고 있지만 이러한 연구의 대부분이 고정된 구간 (예, 30초 이후의 30초 구간)에서 특징을 추출하는 관계로 분류의 정확도가 떨어지는 문제점을 갖고 있다. 본 논문에서는 이러한 문제점을 해결하기 위해 곡 전체 구간에 대하여 반복구간들을 파악하고 이들의 위치와 에너지를 고려하여 곡을 대표할 수 있는 단일 대표구간을 선정한 후, 대표구간으로 부터 특징을 추출하여 장르 분류시스템에 적용하는 방법을 제안하였다. 실험 결과, 기존 고정구간을 사용한 방법에 비해 괄목할 만한 성능 향상을 얻을 수 있었다.
일부 음악 장르 분류에 관한 기존 연구에서는 특징 추출을 위한 구간 선택 시 사람이 직접 곡의 주요 구간을 지정하는 방법을 사용하였다. 이러한 방법은 분류 성능이 좋은 반면 수작업으로 인한 부담으로 새롭게 등록되는 음악들에 대해 지속적으로 적용하기가 곤란하다. 수작업 없이 음악 특징을 추출하기 위해 최근 음악 장르 분류와 관련된 연구에서는 자동으로 추출구간을 선정하는 방법을 사용하고 있지만 이러한 연구의 대부분이 고정된 구간 (예, 30초 이후의 30초 구간)에서 특징을 추출하는 관계로 분류의 정확도가 떨어지는 문제점을 갖고 있다. 본 논문에서는 이러한 문제점을 해결하기 위해 곡 전체 구간에 대하여 반복구간들을 파악하고 이들의 위치와 에너지를 고려하여 곡을 대표할 수 있는 단일 대표구간을 선정한 후, 대표구간으로 부터 특징을 추출하여 장르 분류시스템에 적용하는 방법을 제안하였다. 실험 결과, 기존 고정구간을 사용한 방법에 비해 괄목할 만한 성능 향상을 얻을 수 있었다.
In some previous works on musical genre classification, human experts specify segments of a song for extracting musical features. Although this approach might contribute to performance enhancement, it requires manual intervention and thus can not be easily applied to new incoming songs. To extract m...
In some previous works on musical genre classification, human experts specify segments of a song for extracting musical features. Although this approach might contribute to performance enhancement, it requires manual intervention and thus can not be easily applied to new incoming songs. To extract musical features without the manual intervention, most of recent researches on music genre classification extract features from a pre-determined part of a song (for example, 30 seconds after initial 30 seconds), which may cause loss of accuracy. In this paper, in order to alleviate the accuracy problem, we propose a new method, which extracts features from representative segments (or main theme part) identified by structure analysis of music piece. The proposed method detects segments with repeated melody in a song and selects representative ones among them by considering their positions and energies. Experimental results show that the proposed method significantly improve the accuracy compared to the approach using a pre-determined part.
In some previous works on musical genre classification, human experts specify segments of a song for extracting musical features. Although this approach might contribute to performance enhancement, it requires manual intervention and thus can not be easily applied to new incoming songs. To extract musical features without the manual intervention, most of recent researches on music genre classification extract features from a pre-determined part of a song (for example, 30 seconds after initial 30 seconds), which may cause loss of accuracy. In this paper, in order to alleviate the accuracy problem, we propose a new method, which extracts features from representative segments (or main theme part) identified by structure analysis of music piece. The proposed method detects segments with repeated melody in a song and selects representative ones among them by considering their positions and energies. Experimental results show that the proposed method significantly improve the accuracy compared to the approach using a pre-determined part.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
앞으로 곡의 반복 구간 중 하나의 대표구간이 아닌 여러 반복 구간을 선택하여 이로부터 특징을 추출하는 연구를 수행하고자 한다. 다중 대표구간을 선택하는 방법과 선택된 대표구간의 정보를 조합하는 방법을 달리하면서 성능을 비교해 보고자 한다.
본 논문에서는 내용 기반 장르 분류를 위하여 곡 내 반복 구간 탐색 후 위치와 에너지 가중치를 통하여 대표 구간을 선택하고 이 구간에서 특징을 추출하여 이를 활용하는 방법에 대해 살펴보았다. 곡의 반복구간 탐색에 관련된 연구는 음악의 썸네일 추출이나 지능형 구간 탐색과 같은 음악 청취자나 검색자를 위한 연구에서 진행되어 왔으나 장르 분류와 같은 내용 기반 분류 및 판별 분야 쪽에서는 연구 사례가 없었다.
가설 설정
i) Ne 3 이상이어야 한다.
본 논문에서는 파악되는 반복 구간 수를 줄이기 위해 [15]에서와 동일하게 반복 구간의 길이는 10초 (중첩을 고려하면 최소 3개의 연속 그룹이 합쳐져야 10초를 넘올 수 있다) 이상이 되어야 하는 것으로 가정하였다. 첫 번째 조건은 이를 나타낸다.
2 절에 기술된 음색 특징인 Spectral Shape(SS), Spectral Contrast(SC), MFCC와 DWCHs 특징을 사용하였다. 우선 각 특징들의 성능 비교를 위해, 곡의 특징은 중앙에 있을 확률이 높다는 가정 하에 곡의 중앙 부분 15초에서 특징들을 추출, 7가지 특징 조합에 대한 성능을 살펴보면 표 2와 같다.
제안 방법
9를 사용하였다. (3)에서는 12차원의 특징벡터를 추출한 뒤 차원 축소를 위해 K-L 변환을 사용하였으나 본 연구에서는 K-L변환을 사용하지 않고 12차의 특징 벡터 모두를 사용하였다.
그 중 [2] 는 다양한 음악 장르 판정 연구의 기반이나 비교 대상이 되는 연구로, 음악 장르 판정을 위하여 기존에 사용하는 음향 특징과 음악에 관련된 특징들에 대해 비교하였다. 10개의 장르를 대상으로 하였으며 다양한 특징점의 조합에 대하여 다양한 학습 알고리즘을 사용하여 비교 하였다. 이 연구에서 사용한 대표적인 특징점으로는 기존 음성인식 및 음향판별 분야에서 널리 쓰인 특징들인 음색적 특징(Timbral Features)인 Centroid, Rolloff, Flux, ZCR(Zero Crossing Rate), MFCCfMel-Frequency Cepstrum Coefficient) 와 음악을 표현하는 특징으로 비트(Beat)와 하모니(Harmony)를 표현하기 위한 특징인 비트 히스토그램(Beat Histogram)과 피치 히스토그램(Pitch Histogram)을 사용하였다.
DWCHs는 [4] 에서 제안된 음악 특성으로 장르 판별에 좋은 성능을 나타내어 본 논문에서도 이 특징을 사용하였다’ DWCHs 특징을 추출하기 위하여 음원을 다우 비치 웨이블릿 필터(Db8)을 사용하여 7레벨 변환 후각 주파수 밴드별로 웨이블릿 계수를 히스토그램화하여 각기 첫 세 개의 모멘트(평균, 분산, 왜도)와 밴드별 에너지(웨이블릿 계수 제곱의 합)를 추출하여 사용하였다
Contrast를 사용하였다. MFCC 특징 추출 시 본 논문에서는 이산 코사인 변환(DCT)의 상위 13차 계수까지를 사용하였다. 그리고 Spectral Contrast 특징 추출 시, [3] 의 연구에서와 동일하게 각 6옥타브 밴드 -0~500, 500-1000, 1000~2000, 2000-4000, 4000~ 8000, 8000-16000(Hz) - 별로 통과한 파워 스펙트럼의 하위 a% 에너지합인 Volleye, 그리고 이 Valleye 값과 상위 a% 에너지 합인 Ra 欢의 차이인 SGmg 로 구성된 12차의 특징 벡터를 추출하여 사용하였다.
곡 전 구간의 크로마그램을 추출한 뒤 반복 구간을 탐색하기 위해서 추출한 크로마그램을 5초 간격(20개의 프레임)으로 3/4의 크기씩 중첩시키며 그룹화를 하게 된다. 이렇게 그룹화된 크로마그램 그룹(20개의 크로마그램으로 구성)을 사용하여 그룹 간의 유사도를 계산하게 된다.
MFCC 특징 추출 시 본 논문에서는 이산 코사인 변환(DCT)의 상위 13차 계수까지를 사용하였다. 그리고 Spectral Contrast 특징 추출 시, [3] 의 연구에서와 동일하게 각 6옥타브 밴드 -0~500, 500-1000, 1000~2000, 2000-4000, 4000~ 8000, 8000-16000(Hz) - 별로 통과한 파워 스펙트럼의 하위 a% 에너지합인 Volleye, 그리고 이 Valleye 값과 상위 a% 에너지 합인 Ra 欢의 차이인 SGmg 로 구성된 12차의 특징 벡터를 추출하여 사용하였다. 이때。값으로 0.
경계선을 추정한다. 그리고 소악절 경계선을 추정한 후 소악절 내의 연속 구간에서 가사 즉 사람의 음향이 연속되는 부분을 검출하여 소악절 경계점을 파악하게 된다. 이때, 사람 음향이 연속되는 부분은 사람의 음향 주파수대역인 125~ 1000Hz의 에너지만을 추출하여 에너지의 최저점(Valley) 지점을 기반으로 파악하게 된다.
기존 고정구간 방법과의 성능 비교를 위하여 노래 전체 길이의 20%, 50%, 80% 지점에서 특징을 추출할 경우랑 본 제안 방법에 의해 선택된 대표구간에서 추출한 경우의 비교 실험을 하였다. 실험 결과는 표 3과 같다’ 실험 결과를 살펴볼 때, 고정구간 방법에서는 곡의 80% 위치에서 특징을 추출하고 이를 신경망 학습 알고리즘을 사용하여 학습할 경우의 성능이 가장 좋음을 알 수 있다.
다음 절에서는 내용 기반 음악 장르 판정에 대한 기존 연구들을 살펴보고 본 연구의 토대가 되는 음악 구조 분석을 통한 썸네일.추출 방법들에 대해서 살펴본다.
선택하였다. 단, H5]와의 차이점은 [15]에서는 썸네일을 생성하기 위해 크로마그램을 통한 반복 구간 탐색 후 반복 구간 간의 관계를 통한 구조분석을 사용하였으나, 본 연구에선 이를 제외한 체 단순한 반복 구간만을 탐색하였고, [15] 에서 다중 썸네일에서 단일 썸네일을 추출하기 위해 사용자 피드백에 기초한 방법을 사용하였지만 본 논문에서는 사용자 개입 없이 내용을 바탕으로 가중치를 계산, 자동으로 단일의 대표 구간을 추출하는 방법을 사용하였다.
적용시켜 하나를 선택하였다. 대표구간 선택 방법에 따라 성능이 달라질 수 있기 때문에 본 논문에서는 기본적인 선택 방법으로 반복 구간 중 첫 구간, 마지막 구간을 선택할 경우, 3丄3절에 기술한 위치 가중치와 에너지 가중치를 단일로 사용할 경우와 제안된 두 가중치를 모두 사용하여 선택한 경우의 성능 비교 실험을 하였다. 실험 결과는 표 4와 같다.
대표구간을 이용할 경우의 성능 평가를 위하여 두 가지의 비교 실험을 하였다. 첫 번째는 본 논문에서 제안한 방법에 의해 선택된 대표구간에서 특징을 추출한 경우와 기존 방법에서 사용하는 고정구간에서 특징을 추출할 경우의 성능 비교를 하였다.
첫 번째는 본 논문에서 제안한 방법에 의해 선택된 대표구간에서 특징을 추출한 경우와 기존 방법에서 사용하는 고정구간에서 특징을 추출할 경우의 성능 비교를 하였다. 두 번째는 대표구간 선택 방법의 타당성을 보이기 위반복 구간 반복구간 중에서 대표구간을 선택하는 방법을 달리하면서 실험하였다.
따라서 음향 신호 부분마다 차이가 많이 나는 음색 특징들을 추출하기 위해서 먼저 작은 윈도우를 사용한 단구간 푸리에 변환(STFT)을 적용하여 국부적인 음색특징을 추출한 후 다시 이들의 전역적인 표준 분산의 특징(평균, 표준편차)을 추출하게 된다. 이러한 방법을 사용하게 되어도 음향 신호의 변화량이 많은 특징에 따라 전체적 프레임들의 특징 계수의 분산의 차이가 심하게 나타나 표준 분산으로 모델링하기에 무리가 있다.
[14] 에서는 음악의 단일 썸네일이라 볼 수 있는 스니핏 (SnippetX 추출하기 위하여 크게 기본 특징 추출, 특이점 검출(Salience Detection), 음악 구조 분석, 그리고 스니핏 생성이라는 네 가지 단스니 핏을어 스니핏을 추출하였다. 먼저, 기본 특징으로 Spectral Co단 구간ast 와 MFCC를 단구간 푸리에 변환을 사용하여 각 프레임별로 추출하였다, 특이점 검출은 기본 특징들을 사용한 주요 멜로디의 반복 빈도 가중치, 구간별 에너지의 세기, 구간의 위치에 따른 가중치 이 세 가지의 가중치를 통하여 각 프레임의 특이점들을 파악하게 된다. 각 특이점은 가중치로 표현되는데 이를 특이점 가중치라 한다.
본 논문에서는 내용 기반 음악 장르 분류를 위하여 곡 전체 내용 중 대표 구간 하나를 선정하여 대표 구간 내의 특징들을 추출하고 이를 학습과 분류를 위한 특징으로 사용하는 방법을 사용한다.
본 논문에서는 이 두 가중치의 유효성을 판단하기 위해 4장에 기술된 바와 같이 각 가중치를 단독으로 사용할 경우와 식 (6) 과 같이 두 가중치를 곱하여 사용할 경우의 실험을 하였다. 실험 전에는 두 가중치를 곱하여 사용할 경우가 성능이 좋을 것으로 예상했으나 실제 실험 결과는 그렇지 않았다.
본 논문에서도 이 Texture Window를 적용시켜 음색 특징을 추출하였다.
크로마 정의[16]에 의하면 모든 옥타브에 존재하는 키를 대상으로 하여야 하지만 [13] 에서는 OdL 옥타브에서 ath 옥타브 범위를 지정하여 사용하였다. 본 논문의 실험에서는 1옥타브에서 5옥타브 범위(必Octh =5)로 설정하여 크로마벡터를 추출하였다.
특징 벡터를 추출해야 한다. 본 연구에서는 기존 연구들에서 사용된 음악 특징들을 특징 벡터의 요소로 선택하였다. 선택된 특징들과 각 특징의 간략한 설명은 표 1과 같다.
본 연구에서는 여러 반복 구간 중 하나를 대표구간으로 선택하고 이로부터 특징을 추출하여 사용하였다. 나머지 반복구간의 특징은 전혀 고려되어지지 않고 있는데 이를 효과적으로 이용한다면 좀 더 분류 성능을 향상시킬 수 있을 것이다.
분류된 장르의 음악 데이타베이스를 구축하기 위하여 2005 MIREXD에서 제공한 음악 데이타들과 MIREX 학습용 데이타의 경우 장르별 파일의 수가 클래식에 집중된 경향이 있어 장르별 데이타의 수를 맞추기 위해, 인터넷으로부터 수집한 MP3 파일 2)을 추가한 후 음악 정보 웹사이트인 AllMusic3)의 분류에 맞춰 8개의 장르로 분류된 데이타베이스를 구축하였다. 각 8개의 장르는 클래식(Classic), 일렉트로닉(Electronic), 재즈(Jazz), 메탈(Metal), 리듬 앤 블루스(R&B), 락(Rock) 그리고 월드(World)로 각 장르별 약 100개의 파일로 구성하여 총 700개의 파일로 이루어졌다.
우선 실험에 사용될 특징은 3.2 절에 기술된 음색 특징인 Spectral Shape(SS), Spectral Contrast(SC), MFCC와 DWCHs 특징을 사용하였다. 우선 각 특징들의 성능 비교를 위해, 곡의 특징은 중앙에 있을 확률이 높다는 가정 하에 곡의 중앙 부분 15초에서 특징들을 추출, 7가지 특징 조합에 대한 성능을 살펴보면 표 2와 같다.
음색 특징에는 여러 가지가 있으나 본 논문에서는 주파수 스펙트럼의 여러 분산 학적 특징을 나타내는 Spectral Shape, 사람의 청각 모델에 기반 한 MFCC 그리고 옥타브 밴드 기반의 음색의 대비를 표현하는 Spectral Contrast를 사용하였다. MFCC 특징 추출 시 본 논문에서는 이산 코사인 변환(DCT)의 상위 13차 계수까지를 사용하였다.
10개의 장르를 대상으로 하였으며 다양한 특징점의 조합에 대하여 다양한 학습 알고리즘을 사용하여 비교 하였다. 이 연구에서 사용한 대표적인 특징점으로는 기존 음성인식 및 음향판별 분야에서 널리 쓰인 특징들인 음색적 특징(Timbral Features)인 Centroid, Rolloff, Flux, ZCR(Zero Crossing Rate), MFCCfMel-Frequency Cepstrum Coefficient) 와 음악을 표현하는 특징으로 비트(Beat)와 하모니(Harmony)를 표현하기 위한 특징인 비트 히스토그램(Beat Histogram)과 피치 히스토그램(Pitch Histogram)을 사용하였다.
방법을 제안하였다. 이 연구에서는 음악의 절을 파악하기 위해 프레임별로 크로마(Chroma)를 추출하고 이를 통해 크로마그램을 만들어낸 후, 크로마그램간 유사도를 통하여 연속적이고 대칭적인 멜로디 구간 즉, 반복 구간 탐색하고 이 반복 구간 중에 전주, 간주, 후렴부에 해당되는 부분은 제외하였다. 전주, 간주, 후렴부는 보통 사람의 음성 없이 악기 연주로만 구성되기 때문에 이를 팀〃지하기 위하여 ZCR과 에너지, 음고, 세 가지 정보를 통하여 사람의 음성이 들어간 부분을 탐지하였다.
있으리라 본다. 이러한 이유에서 본 논문에서는 곡의 반복구간을 검출 후, 이 중 곡 전체를 대표할 구간을 선정하고 이 대표 구간에서 특징을 추출하여 이를 자동 분류에 적용하는 실험을 하였다’
이렇게 그룹화된 크로마그램 그룹(20개의 크로마그램으로 구성)을 사용하여 그룹 간의 유사도를 계산하게 된다. 그룹간의 유사도는 거리에 반비례하는데, 그룹 G、 의 크로마그램 그룹을 꺼, %, 气, …, %라 하고 그룹 q 의 크로마그램 그룹을 伉, ㎛, 处, …应V라 하면, %과 q 의 거리는 표준 유클리디안 거리 ED(、x, y)는 각 유클리디안 거리의 합으로 계산하게 된다(식 (5) 참고).
첫 번째는 위치에 대한 가중치 (%)로, 기존의 음악 썸네일 추출관련 연구들[14, 15]에 따르면 대다수의 음악들의 주요 내용이 곡 전체 중 중앙 부분에 위치하는 경향이 있는 것으로 나타나고 있다. 이를 바탕으로 곡 전체 길이 §의 중앙 위치인 에 가중치를 1로 하여 외부로 갈수록 점차 낮아져 시작 부분과 끝부분은 0이 되는 Hamming윈도우를 사용하여 위치 가중치를 부여하였다. 또 다른 가중치는 평균 에너지를 에너지 가중치 %로, 이는 반복 구간 중 낮은 에너지를 가지는 부분은 서주나 간주일 가능성이 높고, 곡 내에 하이라이트 구간이 다른 구간에 비해 에너지가 높다는 가정에 근거한 것이다.
이러한 방법을 사용하게 되어도 음향 신호의 변화량이 많은 특징에 따라 전체적 프레임들의 특징 계수의 분산의 차이가 심하게 나타나 표준 분산으로 모델링하기에 무리가 있다. 이를 위해 [2] 에서는 Texture Window와 Analysis Window를 제안하여 음색 특징의 추출에 사용하였다’ 일반적으로 고속푸리에 변환을 사용하기 위하여 각 신호에 적용시키는 작은 윈도우로 Analysis Window를 사용하고 음향 신호의 변화량에 따른 국지적인 표준 분산의 특징을 적용시키기 위해 Texture Window를 적용시켜 국지적인 음색 특징의 표준 분산적 특징(평균, 표준편차)을. 표현하게 하였다(그림 4 참고).
이를 위해 반복 구간이 얼마나 내용 추출에 있어 중요한지를 판별하여야 하는데, 본 논문에서는 두 가지 가중치를 고려하였다. 첫 번째는 위치에 대한 가중치 (%)로, 기존의 음악 썸네일 추출관련 연구들[14, 15]에 따르면 대다수의 음악들의 주요 내용이 곡 전체 중 중앙 부분에 위치하는 경향이 있는 것으로 나타나고 있다.
이 연구에서는 음악의 절을 파악하기 위해 프레임별로 크로마(Chroma)를 추출하고 이를 통해 크로마그램을 만들어낸 후, 크로마그램간 유사도를 통하여 연속적이고 대칭적인 멜로디 구간 즉, 반복 구간 탐색하고 이 반복 구간 중에 전주, 간주, 후렴부에 해당되는 부분은 제외하였다. 전주, 간주, 후렴부는 보통 사람의 음성 없이 악기 연주로만 구성되기 때문에 이를 팀〃지하기 위하여 ZCR과 에너지, 음고, 세 가지 정보를 통하여 사람의 음성이 들어간 부분을 탐지하였다. 최종적으로, 사람의 음성이 들어간 반복 구간을 다중 썸네일로 추출하고 다시 사용자의 피드백을 기반으로 단일 썸네일을 추출하였다.
비교 실험을 하였다. 첫 번째는 본 논문에서 제안한 방법에 의해 선택된 대표구간에서 특징을 추출한 경우와 기존 방법에서 사용하는 고정구간에서 특징을 추출할 경우의 성능 비교를 하였다. 두 번째는 대표구간 선택 방법의 타당성을 보이기 위반복 구간 반복구간 중에서 대표구간을 선택하는 방법을 달리하면서 실험하였다.
전주, 간주, 후렴부는 보통 사람의 음성 없이 악기 연주로만 구성되기 때문에 이를 팀〃지하기 위하여 ZCR과 에너지, 음고, 세 가지 정보를 통하여 사람의 음성이 들어간 부분을 탐지하였다. 최종적으로, 사람의 음성이 들어간 반복 구간을 다중 썸네일로 추출하고 다시 사용자의 피드백을 기반으로 단일 썸네일을 추출하였다.
뚜렷한 성능 향상을 얻을 수 없었다. 하지만 특징 조합에 의해 약간의 성능 차이가 있을 수 있기 때문에 다음에 살펴보게 될 대표구간 선택에 의한 성능 평가에서는 표 1의 특징들을 모두 사용하여 평가하였다.
대상 데이터
분류된 데이타베이스를 구축하였다. 각 8개의 장르는 클래식(Classic), 일렉트로닉(Electronic), 재즈(Jazz), 메탈(Metal), 리듬 앤 블루스(R&B), 락(Rock) 그리고 월드(World)로 각 장르별 약 100개의 파일로 구성하여 총 700개의 파일로 이루어졌다. 음악 데이타베이스를 구성하고 있는 모든 음악 파일의 포맷은 MP3이고 샘플링 레이트는 44100Hz 이다.
데이터처리
음색 특징을 추출하기 위한 파라메터 값으로는 23ms 의 Analysis Window를 20ms씩 이동시키며 음색 특징을 추출하였으며, 0.6s의 Texture Window를 0.5s씩 이동시키며 국부적 Timbral Texture의 분산 특징으로 Texture 내의 평균과 표준편차를 추출하였다.
이론/모형
사용하였다. 각 학습 알고리즘에 대한 평가는 데이타마이닝 라이브러리인 Weka6)를 사용하였다
내용 기반 분류를 위한 학습 알고리즘으론 일반적으로 학습에 있어 분류율이 좋기로 알려진 Support Vector Machine (SVM)4), 인공신경망 (ANN) 그리고 k값이 1 인 Nearest-Neighbor(k-NN(1)) 와 k 값이 5인 Nearest-Neighbor(k-NN(5)) 알고리즘을 사용하였고, 각 학습 알고리즘의 성능을 평가하기 위해 n~Fold Cross Validation$을 사용하였다. 각 학습 알고리즘에 대한 평가는 데이타마이닝 라이브러리인 Weka6)를 사용하였다
본 논문에서는 [15] 의 방법과 거의 동일한 방법으로 대표구간을 선택하였다. 단, H5]와의 차이점은 [15]에서는 썸네일을 생성하기 위해 크로마그램을 통한 반복 구간 탐색 후 반복 구간 간의 관계를 통한 구조분석을 사용하였으나, 본 연구에선 이를 제외한 체 단순한 반복 구간만을 탐색하였고, [15] 에서 다중 썸네일에서 단일 썸네일을 추출하기 위해 사용자 피드백에 기초한 방법을 사용하였지만 본 논문에서는 사용자 개입 없이 내용을 바탕으로 가중치를 계산, 자동으로 단일의 대표 구간을 추출하는 방법을 사용하였다.
우리가 일상적으로 접하고 있는 가요의 경우, 다른 가사이나 같은 멜로디를 가진 부분들이 반복되고 있는 것이 그 예이다. 본 논문에서는 비슷한 멜로디로 이루어진 반복구간을 탐색하기 위해 기본적으로 [15]에서 제안한 크로마그램 기반의 방법을 사용한다. [15]에서는 개략적인 방법만 소개되어 있어 구현에 필요한 부분(예, 크로마그램 그룹 간의 유사도, 반복 구간 연결 알고리즘 등)을 추가하였다.
연구하고 있다. 이 연구에서는 하위 장르 판별 및 실제 장르를 찾기 위하여 베이지안 집합(Bayesian Aggregation)^- 통한 계층형 장르 트리의 탐색 및 판별 방법을 사용하고 있다.
성능/효과
SS 특징에 SC 특징을 조합했을 때 그 성능 향상이 가장 뚜렷하며 SS와 SC 조합에 다른 특징을 추가했을 경우는 성능 향상이 미미하거나 학습 알고리즘에 따라서 더 떨어지는 경우도 있었다’ 표 1에 기술한 특징 전체를 조합했을 경우에도 마찬가지로 SS와 SC 조합에 비해 뚜렷한 성능 향상을 얻을 수 없었다. 하지만 특징 조합에 의해 약간의 성능 차이가 있을 수 있기 때문에 다음에 살펴보게 될 대표구간 선택에 의한 성능 평가에서는 표 1의 특징들을 모두 사용하여 평가하였다.
ii) M 번째 그룹에서 시작하는 N 개의 그룹의 최소거리 목록 집합들을 ], ..., N- 1 라 하면, 7方+1 门… 门 %奸m 老 0이어야 한다
실험 전에는 두 가중치를 곱하여 사용할 경우가 성능이 좋을 것으로 예상했으나 실제 실험 결과는 그렇지 않았다. 결론적으로 위치 가중치를 고려하지 않아도 에너지 가중치만으로도 충분히 대표구간을 선택할 수 있음을 알 수 있었다.
또한, 옥타브 밴드 기반의 Spectral Contrast을 다른 음색적 특징과 같이 사용한 경우가 사용하지 않은 경우보다 (SS_MFCC vs. SS_SC_MFCC) SVM 알고리즘을 기준으로 약 10% 정도의 높은 성능 향상을 보여주는 것으로 나타났다.
곡의 반복구간 탐색에 관련된 연구는 음악의 썸네일 추출이나 지능형 구간 탐색과 같은 음악 청취자나 검색자를 위한 연구에서 진행되어 왔으나 장르 분류와 같은 내용 기반 분류 및 판별 분야 쪽에서는 연구 사례가 없었다. 반복구간을 이용한 대표구간 탐색 방법을 장르 분류 시스템에 적용시켜 본 결과, 단순한 곡의 고정된 구간에서 특징을 추출한 것보다 주목할 만한 성능 향상이 있었다.
실험 결과는 표 3과 같다’ 실험 결과를 살펴볼 때, 고정구간 방법에서는 곡의 80% 위치에서 특징을 추출하고 이를 신경망 학습 알고리즘을 사용하여 학습할 경우의 성능이 가장 좋음을 알 수 있다. 본 연구에서 제안한 방법인 대표구간 선택에 의한 장르 분류인 경우도 신경망 학습알고리즘을 사용할 경우가 가장 좋았으며 고정위치의 최대 성능인 68.6610%보다 약 4% 향상된 72.0630% 분류 성능을 보여주었다 (표 3 참고).
비교 실험을 하였다. 실험 결과는 표 3과 같다’ 실험 결과를 살펴볼 때, 고정구간 방법에서는 곡의 80% 위치에서 특징을 추출하고 이를 신경망 학습 알고리즘을 사용하여 학습할 경우의 성능이 가장 좋음을 알 수 있다. 본 연구에서 제안한 방법인 대표구간 선택에 의한 장르 분류인 경우도 신경망 학습알고리즘을 사용할 경우가 가장 좋았으며 고정위치의 최대 성능인 68.
최종적으로, 특이점 검출 단계에서 파악된 특이점 중 가중치가 가장 높은 특이점을 선택하고 이를 포함하는 소악절을 식별함으로써 스니 핏을 얻게 된다. 이렇게 얻어진 스니핏의 성능을 파악하기 위하여 개인적인 설문 평가로 좋음, 그럭저럭, 만족스럽지 못함을 나타내는 3, 2, 1의 세 가지 평가치로 조사하였는데 전체적으로 2.62 정도의 성능 평가를 얻었다.
후속연구
나머지 반복구간의 특징은 전혀 고려되어지지 않고 있는데 이를 효과적으로 이용한다면 좀 더 분류 성능을 향상시킬 수 있을 것이다. 앞으로 곡의 반복 구간 중 하나의 대표구간이 아닌 여러 반복 구간을 선택하여 이로부터 특징을 추출하는 연구를 수행하고자 한다.
나머지 반복구간의 특징은 전혀 고려되어지지 않고 있는데 이를 효과적으로 이용한다면 좀 더 분류 성능을 향상시킬 수 있을 것이다. 앞으로 곡의 반복 구간 중 하나의 대표구간이 아닌 여러 반복 구간을 선택하여 이로부터 특징을 추출하는 연구를 수행하고자 한다. 다중 대표구간을 선택하는 방법과 선택된 대표구간의 정보를 조합하는 방법을 달리하면서 성능을 비교해 보고자 한다.
참고문헌 (16)
Aucouturier, J.-J. and Pachet, F., "Representing musical genre: A state of the art," Journal of new musical research, Vol. 32, No. 1, pp. 83-93, 2003
Tzanetakis, G. and Cook, P., "Musical genre classification of audio signals," Speech and Audio Processing, IEEE Transactions on Vol. 10, No. 5, pp. 293-302, 2002
Jiang, D., Lu, L., Zhang, H., Tao, J. and Cai, L., "Music type classification by spectral contrast feature," Proc. of ICME `02, Vol. 1, pp. 113-116, 2002
Li, T., Ogihara, M. and Li, Q., "A comparative study on content-based music genre classification," Proc. of the 26th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 282-289, 2003
Li, T. and Ogihara, M., "Music genre classification with taxonomy," Proc. of ICASSP '05, Vol. 5, pp. 197-200, March 2005
Burred, J. J. and Lerch, A., "A Hierarchical Approach to automatic Musical Genre Classification," Proc. of the 6th Int. Conference on Digital Audio Effects (DAFx-03), 2003
DeCoro, C., Barutcuoglu, Z., and Fiebrink, R., "Bayesian Aggregation for Hierarchical Genre Classification," Proc. of International Symposium on Music Information Retrieval 2007, 2007
Kim, Y. K. and Brian, Y., "Singer Identification in Popular Music Recordings Using Voice Coding Features," Proc. of Int'l Conf. on Music Information Retrieval, 2002
Zhang, T., "Automatic Singer Identification," Proc. of IEEE Int'l Conf. on Multimedia and Expo, IEEE CS Press, 2003
Shao, X., Maddage, N.C., Xu, C. and Kankanhalli, M.S., "Automatic music summarization based on music structure analysis," Proc. of ICASSP'05, Vol. 2, pp. 1169-1172, 2005
Shiu, Y., Jeong, H. and Kuo, C.-C. J., "Musical structure analysis using similarity matrix and dynamic programming," Proc. of SPIE, Multimedia systems and applications, Vol. 3, pp. 398-409, 2005
Paulus, J. and Klapuri, A., "Music Structure Analysis by Finding Repeated Parts," Proc. of ACM AMCMM'06, pp. 59-67, 2006
Goto, M., "SmartMusicKIOSK: music listening station with chorus-search function," Proc. of the 16th annual ACM symposium on User interface software and technology, pp. 31-40, 2003
Lu, L. and Zhang, H., "Automated extraction of music snippets," Proc. of the 11'th ACM inter- national conference on Multimedia, pp. 140-147, 2003
Zhang, T. and Samadani, R., "Automatic Generation of Music Thumbnails," Proc. of IEEE International Conference on Multimedia and Expo, pp. 228-231, 2007
※ AI-Helper는 부적절한 답변을 할 수 있습니다.