$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

커버곡 검색을 위한 크로마 n-gram 선택에 관한 연구
An investigation of chroma n-gram selection for cover song search 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.36 no.6, 2017년, pp.436 - 441  

서진수 (강릉원주대학교 전자공학과) ,  김정현 (한국전자통신연구원 콘텐츠 연구본부) ,  박지현 (한국전자통신연구원 콘텐츠 연구본부)

초록
AI-Helper 아이콘AI-Helper

음악 유사도 계산은 음악 검색 시스템 구현에 있어서 필수적인 구성 요소이다. 본 논문은 음악 검색 중에서 커버곡 검색에 대해서 다룬다. 크로마 n-gram을 이용한 커버곡 검색에 있어서 특징 DB 저장 공간을 줄이고 성능을 향상시키기 위해서 t-tab n-gram을 제안하고, n-gram 선택 방법, n-gram 집합 간 비교 방법에 관해서 연구하였다. 공개되어 있는 커버곡 데이터셋에서 실험을 수행하여 제안된 방법이 저장 공간을 줄이면서 동시에 커버곡 검색 성능을 향상시킬 수 있음을 보였다.

Abstract AI-Helper 아이콘AI-Helper

Computing music similarity is indispensable in constructing music retrieval system. This paper focuses on the cover song search among various music-retrieval tasks. We investigate the cover song search method based on the chroma n-gram to reduce storage for feature DB and enhance search accuracy. Sp...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • [1-3]본 논문은 라이브 버전 및 리메이크 등을 통해서 재녹음된 음악인 커버곡을 찾는 검색 방법에 관한 것이다. 자동으로 커버곡을 찾을 수 있게 되면 유튜브 등을 통한 무단 저작권 침해에 대해서 대응할 수 있을 것으로 기대된다.
  • 또한 음악 신호의 길이가 다를 경우 크로마 벡터 수열의 길이도 달라지게 되고, n-gram 벡터의 개수도 달라지게 된다. 따라서 본 논문에서는 음악 신호로부터 얻어지는 n-gram 벡터들 중에서 중복성을 줄이고, 고정된 개수의 대표적인 n-gram들 만을 선택하는 방법을 제안하였다. 두 음악신호가 커버곡인지 판별하기 위해서 음악신호로부터 선택된 n-gram 집합 들 간에 거리 계산 방법도 제안하였다.
  • 본 논문에서는 Fig. 1에 주어진 바와 같이 크로마 벡터 수열을 가공하여 검색에 용이한 고정된 길이의 크로마 전곡 특징을 구하는 것에 목표를 두고 연구를 진행하였다. 일반적으로 하나의 크로마 벡터는 커버곡을 판별할 수 있을 정도의 변별력이 없으므로, 인접한 크로마 벡터들을 모아서 더 큰 길이의 벡터로 만드는 n-gram을 이용한다.
  • 본 논문은 n-gram 기반 커버곡 검색에 관한 연구이다. II장에서 크로마 수열로부터 t-tab n-gram을 구하는 방법, n-gram 선택 방법, n-gram 집합 간 비교 방법을 제안한다.
  • 본 논문은 커버곡 검색을 위한 n-gram 집합 선택 방법에 관한 논문이다. 음원별로 길이가 상이하므로 n-gram 벡터의 개수도 차이가 있어서 이를 보정하기 위해서 n-gram들 중 일부만을 선택하는 방법이 필요하다.
  • 1의 검색기 동작 시에 DB 저장 공간의 소모도 커지게 된다. 이러한 두 가지 문제점을 해결하기 위해서 본 논문에서는 음악 한곡으로부터 얻은 n-gram들 중에서 k개의 n-gram 만을 선택하는 방법을 제안한다. 이러한 방법으로 가장 널리 사용되고 있는 방법은 k-means 군집화이다.

가설 설정

  • 1에 도시된 바와 같이 검색 대상 DB상의 음악도 모두 k개의 n-gram을 선택하여 저장되어 있고 A= (A1, A2, …, Ak)라고 하자. 또한 두 n-gram 집합인 Q와 A는 Reference [4]에 나온 바와 같이 전곡의 평균 크로마 벡터를 각각 구하고 평균 크로마 벡터간의 상호 상관(cross correlation)이 최대가 되는 OTI(Optimal Transposition Index)를 구하여, 각 n-gram을 OTI 만큼 순환 이동(cyclic shift) 하여 음악의 조 변화를 미리 맞추어 두었다고 가정한다. 두 n-gram 집합인 Q와 A간의 거리를 구하기 위해서, 먼저 k행 k열 거리 행렬D를 다음과 같이 각 원소 벡터 쌍 간의 유클리디안 거리로 정의한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
크로마는 어떤 음악 이론에 기반한 분석 방법인가? 따라서 기존 대부분의 커버곡 검색 방법들은 선율을 잘 표현할 수 있는 크로마(chroma) 특징 수열을 이용하여 원곡과 커버곡을 비교하였다. 크로마는 인간 청각이 옥타브 차이가 나는 주파수를 가진 두 음을 유사음으로 인지한다는 음악이론에 기반한다. 옥타브 차이나는 음악의 피치 성분들을 가산하여 음악의 전체 주파수 성분들을 하나의 옥타브 안으로 접어서 표현한 것이다.
크로마 특징은 무엇인가? 옥타브 차이나는 음악의 피치 성분들을 가산하여 음악의 전체 주파수 성분들을 하나의 옥타브 안으로 접어서 표현한 것이다. 크로마 특징은 주파수 분석에 이은 옥타브 단위로 합산하는 과정에서 가수의 목소리와 악기에 연관된 음색보다는 음악 자체의 화성적 구조에 보다 밀접하게 연관되게 된다.[5] 따라서 크로마는 커버곡 검색에 적합한 특징이다.
크로마가 커버곡 검색에 적합한 특징을 가지는 이유는 무엇인가? 옥타브 차이나는 음악의 피치 성분들을 가산하여 음악의 전체 주파수 성분들을 하나의 옥타브 안으로 접어서 표현한 것이다. 크로마 특징은 주파수 분석에 이은 옥타브 단위로 합산하는 과정에서 가수의 목소리와 악기에 연관된 음색보다는 음악 자체의 화성적 구조에 보다 밀접하게 연관되게 된다.[5] 따라서 크로마는 커버곡 검색에 적합한 특징이다.
질의응답 정보가 도움이 되었나요?

참고문헌 (10)

  1. M. A. Casey, R. Veltkamp, M. Goto, M. Leman, C. Rhodes, and M. Slaney, "Content-based music information retrieval: Current directions and future challenges," Proceedings of the IEEE 96, 668-696 (2008). 

  2. J. Lee and H. Kim, "Audio fingerprinting using a robust hash function based on the MCLT peak-pair" (in Korean), J. Acoust. Soc. Kr. 34, 157-162 (2015). 

  3. J. Seo, J. Kim, and J. Park, "Centroid-model based music similarity with alpha divergence" (in Korean), J. Acoust. Soc. Kr. 35, 83-91 (2016). 

  4. J. Serra, E. Gomez, P. Herrera, and X. Serra, "Chroma binary similarity and local alignment applied to cover song identification," IEEE Trans. Audio Speech Lang Process. 16, 1138-1151 (2008). 

  5. M. Muller and S. Ewert, "Towards timbre-invariant audio features for harmony-based music," IEEE Trans. Audio Speech Lang Process. 18, 649-662 (2010). 

  6. M. Muller and S. Ewert, "Chroma Toolbox: MATLAB implementations for extracting variants of chroma-based audio features," Proc. ISMIR-2011, 215-220 (2011). 

  7. M. Casey, C. Rhodes, and M. Slaney, "Analysis of minimum distances in high-dimensional musical spaces," IEEE Trans. Audio Speech Lang Process. 16, 1015-1028 (2008). 

  8. P. Grosche and M. Muller, "Toward characteristic audio shingles for efficient cross-version music retrieval," Proc. ICASSP-2012, 473-476 (2012). 

  9. The covers80 cover song data set, available, https://labrosa.ee.columbia.edu/projects/coversongs/covers80/, 2007 

  10. D. Ellis and C. Cotton, "The 2007 LabROSA cover song detection system," in MIREX extended abstract 2007, (2007). 

저자의 다른 논문 :

LOADING...
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로