$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

감정 인식을 통한 음악 검색 성능 분석
A Study on the Performance of Music Retrieval Based on the Emotion Recognition 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.34 no.3, 2015년, pp.247 - 255  

서진수 (강릉원주대학교 전자공학과)

초록
AI-Helper 아이콘AI-Helper

본 논문은 자동으로 분류된 음악 신호의 감정을 기반으로 하는 음악 검색 의 성능을 분석하였다. 음성, 영상 등의 다른 미디어 신호와 마찬가지로 음악은 인간에게 특정한 감정을 불러일으킬 수 있다. 이러한 감정은 사람들이 음악을 검색할 때 중요한 고려요소가 될 수 있다. 그렇지만 아직까지 음악의 감정을 직접 인식하여 음악 검색을 수행하고 성능을 검증한 경우는 거의 없었다. 본 논문에서는 음악 감정을 표현하는 주요한 세 축인 유발성, 활성, 긴장 과 기본 5대 감정인 행복, 슬픔, 위안, 분노, 불안의 정도를 구하고, 그 값들의 유사도를 기반으로 음악 검색을 수행하였다. 장르와 가수 데이터셋에서 실험을 수행하였다. 제안된 감정 기반 음악 검색 성능은 기존의 특징 기반 방법의 성능에 대비해서 최대 75 % 수준의 검색 정확도를 보였다. 또한 특징 기반 방법을 제안된 감정 기반 방법과 병합할 경우 최대 14 % 검색 성능 향상을 이룰 수 있었다.

Abstract AI-Helper 아이콘AI-Helper

This paper presents a study on the performance of the music search based on the automatically recognized music-emotion labels. As in the other media data, such as speech, image, and video, a song can evoke certain emotions to the listeners. When people look for songs to listen, the emotions, evoked ...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 특히 GMM을 UBM으로 이용하고 SV(Super Vector)[10]개념을 적용한 방법들[8,9]이 음악검색에 성공적으로 적용되었다. 따라서 본 논문에서는 SV에 기반한 음악 검색기를 제안된 감정인식 특징 기반 방법의 성능과 비교하였다. 본 논문에서는 Fig.
  • 장르와 가수 데이터셋에서 실험을 수행하여, 제안된 감정 특징 기반 음악 검색 성능을 평가하였다. 또한 본 논문에서는 기존의 SV에 기반한 음악 검색기와 제안된 감정 특징 기반 검색기를 병합하는 방법에 대해서도 연구하였다. 기존 SV 방법은 음악 신호의 MFCC만을 이용하므로 음악의 음색 특징만을 활용한다.
  • 따라서 본 논문에서는 SV에 기반한 음악 검색기를 제안된 감정인식 특징 기반 방법의 성능과 비교하였다. 본 논문에서는 Fig. 1과 같이 음악이 불러일으키는 감정을 인식하고 그 감정 특징을 기반으로 음악들 간의 유사도를 구해서 음악을 검색하는 방법에 대해 연구하였다. 음성, 영상 등의 다른 미디어 신호와 마찬가지로 음악은 인간에게 특정한 감정을 불러일으킬 수 있다.
  • 본 논문에서는 각 음악 파일에서 얻은 감정인식 결과를 모아서 하나의 벡터로 보고 거리비교를 수행하고자 한다. 따라서 대표적인 벡터간 거리 비교 방법인 유클리디안이나 코사인 거리 등을 사용하여 음악 검색을 위한 음악 유사도로 활용할 수 있다.
  • 본 논문에서는 감정 인식이 주요한 연구 목표가 아니고, 현존하는 감정 인식기의 결과값이 어느 정도의 신뢰도로 음악 검색에 활용될 수 있는가를 확인하는 것이다. 여타 다른 감정인식 방법도 적용할 수 있지만, 본 논문에서는 실험결과의 재현성을 위하여 공개 소프트웨어인 MIRtoolbox[21]에서 제공되는 감정인식기를 활용한다.
  • 기존의 음악 태그를 이용하는 방법도 있었으나, 음악에 대한 태그를 직접 사람이 해야 하는 단점이 있다. 본 논문에서는 고수준 음악 특징으로 음악 감정 인식 결과를 활용하여 음악 비교를 수행하는 방법을 제안하고 성능을 검증하였다. 본 논문에서 감정기반 특징은 미리 학습된 감정인식기의 결과를 사용하므로, 매번 입력 음악의 감정을 수작업으로 태깅하지 않아도 된다.
  • 다만 학습에 사용되지 않은 입력 음악 신호에 대해서는 1과 7을 벗어나는 값이 출력되기도 한다. 본 논문에서는 고수준 음악 특징인 음악 감정인식 결과를 이용하여 음악 유사도 비교 방법을 제안하며, 실험을 통해서 그 성능을 검증한다.
  • 감정기반 특징은 음악검색에 독립적으로 사용될 수도 있고, 다른 특징들과 병합하여 사용될 수 도 있다. 본 논문에서는 기존에 널리 사용되고 있는 SV 기반 음악 검색과 감정기반 특징을 병합하여 그 성능의 개선 정도를 확인하였다. 2.
  • 본 논문에서는 자동으로 인식된 음악의 감정정보를 기반으로 음악검색을 수행하는 방법을 제안하고 성능을 분석하였다. 음악의 감정은 음악의 고수준 정보 중 하나이며, 사용자들이 음악을 검색할 때 중요한 고려 요소이다.
  • 예를 들어, 유사도를 이용한 오디오 정보 처리 서비스의 경우에도 그 유사도의 선택 기준에 따라서 다양하며, 핑거프린팅과 같이 입력 음악과 정확히 일치하는 아카이브상의 음악을 찾는 경우도 있고,[2,3] 장르 분류[4]및 유사음악 검색[5,6]과 같이 특정한 성질을 공유하는 다수의 결과를 출력하는 경우도 있다. 본 논문에서는 특정한 성질을 공유하는 유사음악 검색에 대해서 다룬다.
  • [25] 따라서 대부분의 선행 음악 검색 연구들[5,6,8,9]에서는 같은 장르 또는 가수의 음악들이 다른 장르 또는 가수의 음악들에 비해서 서로 인간 지각적으로 유사하다는 가정에 바탕을 두고 음악 검색 성능을 평가했다. 본 논문에서도 같은 가정을 통해서 제안된 감정인식 기반 음악 검색 방법의 성능을 검증하도록 하겠다. 선행 연구와 같은 방식의 성능 실험을 함으로써, 선행 연구들의 결과와도 직접적으로 비교할 수 있는 장점도 있다.
  • 본 논문은 음악 감정 특징 기반 유사도에 기반한 음악 검색에 관한 연구이다. II장에서 음악 감정 인식방법을 소개하고, 감정 인식을 음악 유사도에 적용한다.
  • 협업 필터 방법은 기존에 소비 패턴을 가지고 있지 않은 새로운 노래에 적용할 수 없는 반면에 특징 기반 방법은 인간 지각적으로 의미있는 특징을 추출해야 하고 특징 간의 거리를 비교해야 하므로 계산량이 크게 요구되는 단점이 있다. 본 논문은 특징 기반 음악 검색 방법에 관한 연구이다.
  • 본 연구의 주요한 다른 방향은 감정기반 특징이 기존의 MFCC 등 음악 검색에 사용되고 있는 기존의 스펙트럼 기반 특징에 비해서 새로운 정보를 가지고 있는지 확인하는 것이다. 이를 위해서 MFCC 기반의 SV를 이용한 음악 유사도와 제안된 음악 감정 기반 유사도를 병합하고 성능을 확인하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
5대 감정은 무엇인가? 그렇지만 아직까지 음악의 감정을 직접 인식하여 음악 검색을 수행하고 성능을 검증한 경우는 거의 없었다. 본 논문에서는 음악 감정을 표현하는 주요한 세 축인 유발성, 활성, 긴장 과 기본 5대 감정인 행복, 슬픔, 위안, 분노, 불안의 정도를 구하고, 그 값들의 유사도를 기반으로 음악 검색을 수행하였다. 장르와 가수 데이터셋에서 실험을 수행하였다.
오디오 정보 처리 기술에는 무엇이 있는가? 디지털 저장 장치 및 신호처리 기술의 발달로 방대한 양의 오디오 데이터들을 빠르고 신뢰성 있게 보호, 검색 및 관리할 수 있는 오디오 정보 처리 기술의 필요성이 커지고 있다. 대표적인 오디오 정보 처리 기술에는 음악 검색, 추천, 인식, 분류 등이 있다.[1] 일반적으로 정보 검색 시스템은 입출력의 형태, 검색 기준에 따라 분류할 수 있다.
대용량 디지털 미디어 데이터 아카이브를 이용하여 다양한 종류들의 서비스의 예시에는 무엇이 있는가? 발달된 정보처리 기술을 이용하여 대용량 디지털 미디어 데이터 아카이브를 이용하여 다양한 종류들의 서비스가 가능해 지고 있다. 예를 들어, 유사도를 이용한 오디오 정보 처리 서비스의 경우에도 그 유사도의 선택 기준에 따라서 다양하며, 핑거프린팅과 같이 입력 음악과 정확히 일치하는 아카이브상의 음악을 찾는 경우도 있고,[2,3] 장르 분류[4]및 유사음악 검색[5,6]과 같이 특정한 성질을 공유하는 다수의 결과를 출력하는 경우도 있다. 본 논문에서는 특정한 성질을 공유하는 유사음악 검색에 대해서 다룬다.
질의응답 정보가 도움이 되었나요?

참고문헌 (25)

  1. M. Casey, R. Veltkamp, M. Goto, M. Leman, C. Rhodes, and M. Slaney, "Content-based music information retrieval: Current directions and future challenges," Proc. IEEE 96, 668-696 (2008). 

  2. P. Cano, E. Battle, T. Kalker, and J. Haitsma, "A review of audio fingerprinting," J. VLSI Sig. Process. 41, 271-84 (2005). 

  3. J. Seo, "A robust audio fingerprinting method based on segmentation boundaries" (in Korean), J. Acoust. Soc. Kr. 31, 260-265 (2012). 

  4. G. Tzanetakis and P. Cook, "Musical genre classification of audio signals," IEEE Speech Audio Process. 10, 293-302 (2002). 

  5. B. Logan and A. Salomon, "A music similarity function based on signal analysis," in Proc. ICME-2001, 745-748 (2001). 

  6. J. Seo, "A music similarity function based on the centroid model," IECIC Trans. Info. and Sys. 96, 1573-1576 (2013). 

  7. D. A. Reynolds, T. F. Quatieri, and R. B. Dunn, "Speaker verification using adapted Gaussian mixture models," Digital. Sig. Process. 10, 19-41 (2000). 

  8. C. Cao and M. Li, "Thinkit's submissions for MIREX 2009 audio music classification and similarity tasks," in Proc. ISMIR-2009 (2009). 

  9. C. Charbuillet, D. Tardieu, and G. Peeters, "GMM supervector for content based music similarity," in Proc. DAFX-2011, 425-428 (2011). 

  10. W. M. Campbell, D. E. Sturim, and D. A. Reynolds, "Support vector machines using GMM supervectors for speaker verification," IEEE Signal Process. Lett. 13, 308-311 (2006). 

  11. Y. H. Yang, Y. C. Lin, Y. F. Su, and H. H. Chen, "A regression approach to music emotion recognition," IEEE Trans. Audio, Speech, Language Process. 16, 448- 457 (2008). 

  12. T. Eerola, O. Lartillot, and P. Toiviainen, "Prediction of multidimensional emotional ratings in music from audio using multivariate regression models," in Proc. ISMIR-2009, 621-626 (2009). 

  13. M. Barthet, G. Fazekas, and M Sandler, "Music emotion recognition: from content-to context-based models," From Sounds to Music and Emotions, 228-252 (2013). 

  14. J. A. Russell, "A circumplex model of affect," J. pers. soc. psychol. 39, 1161-1178 (1980). 

  15. E. Bigand, S. Vieillard, F. Madurell, J. Marozeau, and A. Dacquet, "Multidimensional scaling of emotional responses to music: The effect of musical expertise and of the duration of the excerpts," Cognition & Emotion 19, 1113-1139 (2005). 

  16. U. Schimmack and R. Reisenzein, "Experiencing activation: Energetic arousal and tense arousal are not mixtures of valence and activation," Emotion 2, 412-417 (2002). 

  17. J. Skowronek, M. McKinney, and S. van de Par, "A demonstrator for automatic music mood estimation," in Proc. ISMIR-2007, 345-346 (2007). 

  18. X. Hu, M. Bay, and J. S. Downie, "Creating a simplified music mood classification ground-truth set," in Proc. ISMIR-2007, 309-310 (2007). 

  19. Y. E. Kim, E. Schmidt, and L. Emelle, "Moodswing: A collaborative game for music mood label collection," in Proc. ISMIR-2008, 231-236 (2008). 

  20. J. H. Lee and X. Hu, "Generating ground truth for music mood classification using mechanical turk," in Proc. JCDL-2012, 129-138 (2012). 

  21. O. Lartillot and P. Toiviainen, "A Matlab toolbox for musical feature extraction from audio," in Proc. Digital Audio Effects, 237-244 (2007). 

  22. W.-J. Yoon, K.-K. Lee, and K.-S. Park, "A Study on the Efficient Feature Vector Extraction for Music Information Retrieval System" (in Korean), J. Acoust. Soc. Kr. 23, 532-539 (2004). 

  23. C. Park, M. Park, S. Kim, and H. Kim, "Music Identification Using Pitch Histogram and MFCC-VQ Dynamic Pattern" (in Korean), J. Acoust. Soc. Kr. 24, 178-185 (2005). 

  24. J. Lee, "How similar is too similar?: Exploring users' perceptions of similarity in playlist evaluation," in Proc. ISMIR-2011, 109-114 (2011). 

  25. A. Novello, M. M. F. McKinney, and A. Kohlrausch, "Perceptual evaluation of inter-song similarity in western popular music," J. New Music Res. 40, 1-26 (2011). 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로