[논문]커버곡 검색을 위한 크로마 n-gram 선택에 관한 연구

서진수; 김정현; 박지현

doi:10.7776/ask.2017.36.6.436

문제 정의

[1-3]본 논문은 라이브 버전 및 리메이크 등을 통해서 재녹음된 음악인 커버곡을 찾는 검색 방법에 관한 것이다. 자동으로 커버곡을 찾을 수 있게 되면 유튜브 등을 통한 무단 저작권 침해에 대해서 대응할 수 있을 것으로 기대된다.
또한 음악 신호의 길이가 다를 경우 크로마 벡터 수열의 길이도 달라지게 되고, n-gram 벡터의 개수도 달라지게 된다. 따라서 본 논문에서는 음악 신호로부터 얻어지는 n-gram 벡터들 중에서 중복성을 줄이고, 고정된 개수의 대표적인 n-gram들 만을 선택하는 방법을 제안하였다. 두 음악신호가 커버곡인지 판별하기 위해서 음악신호로부터 선택된 n-gram 집합 들 간에 거리 계산 방법도 제안하였다.
본 논문에서는 Fig. 1에 주어진 바와 같이 크로마 벡터 수열을 가공하여 검색에 용이한 고정된 길이의 크로마 전곡 특징을 구하는 것에 목표를 두고 연구를 진행하였다. 일반적으로 하나의 크로마 벡터는 커버곡을 판별할 수 있을 정도의 변별력이 없으므로, 인접한 크로마 벡터들을 모아서 더 큰 길이의 벡터로 만드는 n-gram을 이용한다.
본 논문은 n-gram 기반 커버곡 검색에 관한 연구이다. II장에서 크로마 수열로부터 t-tab n-gram을 구하는 방법, n-gram 선택 방법, n-gram 집합 간 비교 방법을 제안한다.
본 논문은 커버곡 검색을 위한 n-gram 집합 선택 방법에 관한 논문이다. 음원별로 길이가 상이하므로 n-gram 벡터의 개수도 차이가 있어서 이를 보정하기 위해서 n-gram들 중 일부만을 선택하는 방법이 필요하다.
1의 검색기 동작 시에 DB 저장 공간의 소모도 커지게 된다. 이러한 두 가지 문제점을 해결하기 위해서 본 논문에서는 음악 한곡으로부터 얻은 n-gram들 중에서 k개의 n-gram 만을 선택하는 방법을 제안한다. 이러한 방법으로 가장 널리 사용되고 있는 방법은 k-means 군집화이다.

가설 설정

1에 도시된 바와 같이 검색 대상 DB상의 음악도 모두 k개의 n-gram을 선택하여 저장되어 있고 A= (A₁, A₂, …, A_k)라고 하자. 또한 두 n-gram 집합인 Q와 A는 Reference [4]에 나온 바와 같이 전곡의 평균 크로마 벡터를 각각 구하고 평균 크로마 벡터간의 상호 상관(cross correlation)이 최대가 되는 OTI(Optimal Transposition Index)를 구하여, 각 n-gram을 OTI 만큼 순환 이동(cyclic shift) 하여 음악의 조 변화를 미리 맞추어 두었다고 가정한다. 두 n-gram 집합인 Q와 A간의 거리를 구하기 위해서, 먼저 k행 k열 거리 행렬D를 다음과 같이 각 원소 벡터 쌍 간의 유클리디안 거리로 정의한다.

제안 방법

[5]실험에 사용되는 음악 파일들을 모노로 바꾸고 22050 Hz로 샘플링 주파수를 맞춘후, 4410길이의 윈도우를 50 %씩겹쳐 가면서 프레임의 피치를 구해서 옥타브 단위로 나누고 각 옥타브에서 12개의 크로마에 해당하는 값들을 구한다. 옥타브별로 얻어진 크로마 값을 다 더하면 최종적으로 12차수의 크로마 벡터가 얻어진다.
일반적으로 하나의 크로마 벡터는 커버곡을 판별할 수 있을 정도의 변별력이 없으므로, 인접한 크로마 벡터들을 모아서 더 큰 길이의 벡터로 만드는 n-gram을 이용한다.^[7,8] 본 논문에서는 연속된 n개의 크로마 벡터를 사용하지 않고, 중간에 t개의 프레임을 건너뛰면서 n개의 프레임을 사용하는 t-tab n-gram을 제안하였다. 또한 음악 신호의 길이가 다를 경우 크로마 벡터 수열의 길이도 달라지게 되고, n-gram 벡터의 개수도 달라지게 된다.
본 음원과 커버곡 음원간의 n-gram 집합 간 거리가 원본 음원과 다른 원본 음원들간의 n-gram 집합 간 거리에 비해서 작을 경우에 커버곡 검색이 성공한 것으로 한다. covers80 데이터셋에 있는 각 원본 음원에 대해서 데이터셋 내의 음원들과 거리 비교를 수행하고 가장 거리값이 작은 것이 커버곡이 맞은 경우의 확률을 구해서 검색 성능으로 사용하였다. 실험결과에서 k-means 방법의 경우 반복 군집화 방법으로 초기값에 따라서 선택된 n-gram이 달라지게 되므로, 본 논문의 k-means 방법의 커버곡 검색 성능은 5번 반복 수행한 평균치이다.
본 논문에서는 상호거리 최대화와 k-means 방법을 적용하여 n-gram을 선택하였고, 성능 및 장단점에 대해서 비교하였다. 널리 사용되고 있는 커버곡 데이터셋에서 실험을 수행하여 커버곡 검색을 위한 최적의 n-gram 길이, 탭간격, 집합의 크기를 찾았다. 실험을 통해서 음악으로부터 얻은 n-gram들을 모두 사용하는 것보다 고정된 길이의 n-gram 집합을 선택하여 사용하는 것이 특징 DB 저장공간을 줄이고 커버곡 검색 성능을 개선할 수 있음을 확인하였다.
따라서 본 논문에서는 음악 신호로부터 얻어지는 n-gram 벡터들 중에서 중복성을 줄이고, 고정된 개수의 대표적인 n-gram들 만을 선택하는 방법을 제안하였다. 두 음악신호가 커버곡인지 판별하기 위해서 음악신호로부터 선택된 n-gram 집합 들 간에 거리 계산 방법도 제안하였다.
5 s당 1개씩의 12차 크로마 벡터가 나오도록 했다. 리샘플링된 크로마 수열로부터 t-tab n-gram을 구성하고, 상호거리 최대화 방법 또는 k-means 방법을 적용하여 최종적으로 선택된 k개의 n-gram으로 이루어진 집합을 구한다. 각 음악으로부터 선택된 n-gram 집합 간의 거리는 (4)의 수식을 이용해서 구한다.
음원별로 길이가 상이하므로 n-gram 벡터의 개수도 차이가 있어서 이를 보정하기 위해서 n-gram들 중 일부만을 선택하는 방법이 필요하다. 본 논문에서는 상호거리 최대화와 k-means 방법을 적용하여 n-gram을 선택하였고, 성능 및 장단점에 대해서 비교하였다. 널리 사용되고 있는 커버곡 데이터셋에서 실험을 수행하여 커버곡 검색을 위한 최적의 n-gram 길이, 탭간격, 집합의 크기를 찾았다.
일반적으로 하나의 크로마 벡터는 커버곡을 판별할 수 있을 정도의 변별력이 없으므로, 인접한 크로마 벡터들을 모아서 더 큰 길이의 벡터로 만드는 n-gram을 이용한다.^[7,8] 본 논문에서는 연속된 n개의 크로마 벡터를 사용하지 않고, 중간에 t개의 프레임을 건너뛰면서 n개의 프레임을 사용하는 t-tab n-gram을 제안하였다. 또한 음악 신호의 길이가 다를 경우 크로마 벡터 수열의 길이도 달라지게 되고, n-gram 벡터의 개수도 달라지게 된다.
1에 주어진 바와 같이 프레임 레벨 특징을 추출하고 요약하여 DB에 저장하고, 입력 음악의 특징과 비교하여 가장 가까운 음악을 커버곡으로 판정하게 된다. 본 논문에서는 프레임 레벨 특징 요약 방법으로 n-gram을 사용하고, 한 곡의 음악신호로부터 얻어진 n-gram들 중에서 일부를 선택하여 저장하는 방법을 제안한다.
본 장에서는 II장에서 제시한 바와 같이 n-gram의 길이 n, 탭간격 t, n-gram 집합 크기 k를 가변시켜가면서 커버곡 인식 성능을 확인하였다. 커버곡 성능 검증을 위해서 음원 및 성능이 공개되어 있는 covers80 데이터셋^[9]을 사용하였다.
따라서 본 논문에서 다루는 크로마 n-gram에 k-means 군집화를 적용할 경우 상대적으로 발현 횟수는 적지만 변별력이 높은 n-gram들이 군집화 과정에서 누락될 수 있다. 이러한 단점을 보완하기 위해서 선택된 n-gram 들 간의 거리값이 최대화 되는 상호거리 최대화 샘플링 방법을 제안한다. 즉 어떤 음악 신호로부터 얻은 n-gram 벡터 수열 G= (G₁, G₂, …, G_N)로 표기하면, G로부터 k개의 n-gram을 선택하여 S = (S₁, S₂, …, S_k)를 구성하되, 다음과 같이 선택된 n-gram들 간의 상호거리합인 D_S가 최대가 되도록 한다.

대상 데이터

커버곡 성능 검증을 위해서 음원 및 성능이 공개되어 있는 covers80 데이터셋^[9]을 사용하였다. 미국 콜롬비아 대학에서 커버곡 실험을 위해서 수집된 covers80 데이터셋은 원본곡과 커버곡 쌍 80개로 이루어진 것으로 모두 160곡으로 구성되어있다.
본 장에서는 II장에서 제시한 바와 같이 n-gram의 길이 n, 탭간격 t, n-gram 집합 크기 k를 가변시켜가면서 커버곡 인식 성능을 확인하였다. 커버곡 성능 검증을 위해서 음원 및 성능이 공개되어 있는 covers80 데이터셋^[9]을 사용하였다. 미국 콜롬비아 대학에서 커버곡 실험을 위해서 수집된 covers80 데이터셋은 원본곡과 커버곡 쌍 80개로 이루어진 것으로 모두 160곡으로 구성되어있다.

이론/모형

실험대상 음악들로부터 크로마 수열을 얻기위해서 Matlab 기반의 Chroma Toolbox^[6]를 사용하였으며, 크로마를 얻는 방법 중 음색에 대한 불변성을 개선한 CRP(Chroma DCT-Reduced log Pitch)를 적용하였다.^[5]실험에 사용되는 음악 파일들을 모노로 바꾸고 22050 Hz로 샘플링 주파수를 맞춘후, 4410길이의 윈도우를 50 %씩겹쳐 가면서 프레임의 피치를 구해서 옥타브 단위로 나누고 각 옥타브에서 12개의 크로마에 해당하는 값들을 구한다.

성능/효과

하지만 k-means 군집화 방법의 경우 군집 대상 벡터들이 특정 벡터 공간에 몰려 있을 경우 그 주변에서만 군집을 형성하는 제약이 있다. 따라서 본 논문에서 다루는 크로마 n-gram에 k-means 군집화를 적용할 경우 상대적으로 발현 횟수는 적지만 변별력이 높은 n-gram들이 군집화 과정에서 누락될 수 있다. 이러한 단점을 보완하기 위해서 선택된 n-gram 들 간의 거리값이 최대화 되는 상호거리 최대화 샘플링 방법을 제안한다.
상호거리 최대화 방법은 k-means 군집화와는 달리 iteration없이 크로마 수열을 한 번 스캔하여 k개의 n-gram을 선택할 수 있는 장점이 있다. 따라서 제안된 상호거리 최대화 샘플링 방법은 k-means 군집화에 대비해서 계산량이 작고 수렴성의 문제도 없는 장점이 있다.
2과 3으로부터 정해진 n = 7, k = 32에 대해서 탭간격 t와 n-gram 집합 간 거리 비교 시에 사용하는 조정계수 r을 가변하면서 커버곡 검색 성능을 도시한 것이다. 먼저 탭을 사용하지 않는 기존의 n-gram 방법인 t = 1인 경우에 비해서 탭을 사용하는 것이 검색 성능을 개선함을 알 수 있다. 이는 t = 1인 경우 인접한 크로마 벡터간의 상호연관성이 높으므로 n-gram 내부 중복성(redundancy)이 증가된다.
탭간격이 너무 커질 경우 t-tab n-gram이 커버곡 비교에 중요한 크로마 수열의 시간적 변이 특성을 상당부분 잃어버리게 된다. 실험 결과로부터 탭간격을 3으로 하는 것이 n-gram 내부 중복성은 줄여주고, 크로마 수열의 시간적 변이 특성은 보존해 줌을 알 수 있다. 상호거리 최대화 방법의 경우 조정계수 r을 0.
covers80 데이터셋에 있는 각 원본 음원에 대해서 데이터셋 내의 음원들과 거리 비교를 수행하고 가장 거리값이 작은 것이 커버곡이 맞은 경우의 확률을 구해서 검색 성능으로 사용하였다. 실험결과에서 k-means 방법의 경우 반복 군집화 방법으로 초기값에 따라서 선택된 n-gram이 달라지게 되므로, 본 논문의 k-means 방법의 커버곡 검색 성능은 5번 반복 수행한 평균치이다.
2와 3에서 모두 7이었다. 실험에서 k값을 16에서 48까지 가변하였으며 도시한 실험결과를 보면 k값이 32일 때 성능이 가장 우수하였으며, 그 이상의 k값을 사용하더라도 성능이 개선되지 않음을 알 수 있다. 실제적으로 커버곡 검색 시스템을 구현할 경우 각 음원별로 k개의 n-gram을 DB에 저장해야한다.
널리 사용되고 있는 커버곡 데이터셋에서 실험을 수행하여 커버곡 검색을 위한 최적의 n-gram 길이, 탭간격, 집합의 크기를 찾았다. 실험을 통해서 음악으로부터 얻은 n-gram들을 모두 사용하는 것보다 고정된 길이의 n-gram 집합을 선택하여 사용하는 것이 특징 DB 저장공간을 줄이고 커버곡 검색 성능을 개선할 수 있음을 확인하였다.
2와 3에 도시하였다. 크로마 n-gram 수열 축약 방법으로 상호거리 최대화 방법을 사용한 경우와 k-means 방법을 사용한 경우 모두 비슷한 경향성을 보였다. 검색 성능의 최대값은 52 % 수준으로 비슷하였으며, 검색 성능이 최대가 되는 n값은 Figs.

후속연구

비교대상 기존 방법^[10]은 전체 크로마 수열을 모두 사용하므로 k개의 n-gram 만을 선택하는 제안된 방법이 DB 저장 공간 크기 측면에서 더 우수하다. 또한 본 논문의 결과는 템포 변형을 고려하지 않고 (2)에 유클리디안 거리를 사용하였으나 이를 템포 변형을 고려할 수 있는 DTW(Dynamic Time Warping) 등을 적용할 경우 좀 더 성능을 높일 수 있을 것으로 기대된다.
선택된 n-gram 집합의 일부만을 사용하여 커버곡 판별을 할 수 있다면 커버곡 생성 과정에서 원곡에 대비하여 일부가 크게 변조되거나 삭제되는 변형이 발생할 경우의 커버곡 판별에 도움이 될 수 있다. 차후 다양한 변형 별로 새로운 커버곡 음악쌍을 수집해서 n-gram 방법 간의 면밀한 성능 비교가 필요할 것으로 생각된다.

핵심어	질문	논문에서 추출한 답변
	크로마는 어떤 음악 이론에 기반한 분석 방법인가?	따라서 기존 대부분의 커버곡 검색 방법들은 선율을 잘 표현할 수 있는 크로마(chroma) 특징 수열을 이용하여 원곡과 커버곡을 비교하였다. 크로마는 인간 청각이 옥타브 차이가 나는 주파수를 가진 두 음을 유사음으로 인지한다는 음악이론에 기반한다. 옥타브 차이나는 음악의 피치 성분들을 가산하여 음악의 전체 주파수 성분들을 하나의 옥타브 안으로 접어서 표현한 것이다.
	크로마 특징은 무엇인가?	옥타브 차이나는 음악의 피치 성분들을 가산하여 음악의 전체 주파수 성분들을 하나의 옥타브 안으로 접어서 표현한 것이다. 크로마 특징은 주파수 분석에 이은 옥타브 단위로 합산하는 과정에서 가수의 목소리와 악기에 연관된 음색보다는 음악 자체의 화성적 구조에 보다 밀접하게 연관되게 된다.[5] 따라서 크로마는 커버곡 검색에 적합한 특징이다.
	크로마가 커버곡 검색에 적합한 특징을 가지는 이유는 무엇인가?	옥타브 차이나는 음악의 피치 성분들을 가산하여 음악의 전체 주파수 성분들을 하나의 옥타브 안으로 접어서 표현한 것이다. 크로마 특징은 주파수 분석에 이은 옥타브 단위로 합산하는 과정에서 가수의 목소리와 악기에 연관된 음색보다는 음악 자체의 화성적 구조에 보다 밀접하게 연관되게 된다.[5] 따라서 크로마는 커버곡 검색에 적합한 특징이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

커버곡 검색을 위한 크로마 n-gram 선택에 관한 연구
An investigation of chroma n-gram selection for cover song search 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

커버곡 검색을 위한 크로마 n-gram 선택에 관한 연구 An investigation of chroma n-gram selection for cover song search 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

서진수 (17) 김정현 (8) 박지현 (6)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

커버곡 검색을 위한 크로마 n-gram 선택에 관한 연구
An investigation of chroma n-gram selection for cover song search 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper