상황인지 음악추천 서비스를 제공하기 위해서는 무엇보다 상황 또는 문맥에 따라 사용자가 선호하는 음악의 분위기를 파악할 필요가 있다. 음악 분위기 검출에 대한 기존 연구의 대부분은 수작업으로 대표구간을 선정하고, 그 구간의 특징을 이용하여 분위기를 판별한다. 이러한 접근 방법은 분류 성능이 좋은 반면 전문가의 간섭을 요구하기 때문에 새로운 음악에 대해서는 적용하기 어렵다. 더욱이, 곡의 진행에 따라 음악 분위기가 달라지기 때문에 음악의 대표 분위기를 검출하는 것이 더욱 어려워진다. 본 논문에서는 이러한 문제점들을 보완하기 위해 음악 분위기를 자동으로 판별하는 새로운 방법을 제안하였다. 먼저 곡 전체를 구조적 분석 방법을 통하여 비슷한 특성을 갖는 세그먼트들로 분리한 후 각각에 대해 분위기를 판별한다. 그리고 세그먼트별 분위기 파악 시 Thayer 의 2차원 분위기 모델에 기초한 회귀분석 방법으로 개인별 주관적 분위기 성향을 모델링하였다. 실험결과, 제안된 방법이 80% 이상의 정확도를 보였다.
상황인지 음악추천 서비스를 제공하기 위해서는 무엇보다 상황 또는 문맥에 따라 사용자가 선호하는 음악의 분위기를 파악할 필요가 있다. 음악 분위기 검출에 대한 기존 연구의 대부분은 수작업으로 대표구간을 선정하고, 그 구간의 특징을 이용하여 분위기를 판별한다. 이러한 접근 방법은 분류 성능이 좋은 반면 전문가의 간섭을 요구하기 때문에 새로운 음악에 대해서는 적용하기 어렵다. 더욱이, 곡의 진행에 따라 음악 분위기가 달라지기 때문에 음악의 대표 분위기를 검출하는 것이 더욱 어려워진다. 본 논문에서는 이러한 문제점들을 보완하기 위해 음악 분위기를 자동으로 판별하는 새로운 방법을 제안하였다. 먼저 곡 전체를 구조적 분석 방법을 통하여 비슷한 특성을 갖는 세그먼트들로 분리한 후 각각에 대해 분위기를 판별한다. 그리고 세그먼트별 분위기 파악 시 Thayer 의 2차원 분위기 모델에 기초한 회귀분석 방법으로 개인별 주관적 분위기 성향을 모델링하였다. 실험결과, 제안된 방법이 80% 이상의 정확도를 보였다.
To provide context-aware music recommendation service, first of all, we need to catch music mood that a user prefers depending on his situation or context. Among various music characteristics, music mood has a close relation with people‘s emotion. Based on this relationship, some researchers have st...
To provide context-aware music recommendation service, first of all, we need to catch music mood that a user prefers depending on his situation or context. Among various music characteristics, music mood has a close relation with people‘s emotion. Based on this relationship, some researchers have studied on music mood detection, where they manually select a representative segment of music and classify its mood. Although such approaches show good performance on music mood classification, it's difficult to apply them to new music due to the manual intervention. Moreover, it is more difficult to detect music mood because the mood usually varies with time. To cope with these problems, this paper presents an automatic method to classify the music mood. First, a whole music is segmented into several groups that have similar characteristics by structural information. Then, the mood of each segments is detected, where each individual's preference on mood is modelled by regression based on Thayer's two-dimensional mood model. Experimental results show that the proposed method achieves 80% or higher accuracy.
To provide context-aware music recommendation service, first of all, we need to catch music mood that a user prefers depending on his situation or context. Among various music characteristics, music mood has a close relation with people‘s emotion. Based on this relationship, some researchers have studied on music mood detection, where they manually select a representative segment of music and classify its mood. Although such approaches show good performance on music mood classification, it's difficult to apply them to new music due to the manual intervention. Moreover, it is more difficult to detect music mood because the mood usually varies with time. To cope with these problems, this paper presents an automatic method to classify the music mood. First, a whole music is segmented into several groups that have similar characteristics by structural information. Then, the mood of each segments is detected, where each individual's preference on mood is modelled by regression based on Thayer's two-dimensional mood model. Experimental results show that the proposed method achieves 80% or higher accuracy.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
- 기존의 연구들은 개인의 주관적 성향을 고려하지 못하였으나, 본 논문에서는 개인별 상황을 인지하여 음악을 추천하기 위한 맞춤식 학습이 가능하도록 하였다.
- 기존의 연구들이 SVR 에 대한 학습 평가에서 그쳤으나, 본 논문에서는 더욱 정확한 평가를 위하여 AV 계수 값이 아닌 실제 사용자가 느끼는 음악의 분위기를 파악하여 평가하기 위한 AV 공간 정보를 이용한 평가방법을 제안하였다.
본 논문에서는 상황인지 음악 추천을 위한 전단계로서 음악의 음향 데이터에서 분위기 정보 (AV 값) 를 추출하는 연구를 수행하였다. 향후, 상황별로 사용자가 좋아하는 음악들의 AV 특성을 파악하고 이를 바탕으로 상황정보를 고려한 내용 기반 상황 인지 음악 추천 방법에 대하여 연구할 계획이다.
본 논문에서는 음악의 분위기 탐지를 위하여 기존 내용기반 음악 추천 및 분류 연구들에서 사용하는 수작업을 통한 일정길이 선택 방식이 아닌 실제 우리가 접하고 있는 음악을 구조분석 방법을 통하여 의미 있는 구간으로 나누고 이를 바탕으로 개인별 음악 분위기를 탐지하는 방법에 대해 연구하였다.
본 논문에서는 이러한 문제점을 해결하기 위하여, 수동이 아닌 자동으로 음악 자체의 내용을 바탕으로 한 구조 분석기법을 통하여 음악을 의미 있는 구간들로 나누고, 각 구간들의 독립적인 분위기를 탐지하는 방법을 제안하였다. 또한, 전문가가 아닌 일반 사용자의 개인적 성향을 학습하여야 하는데, 비전문가인 경우 분위기에 대한 평가를 직접 지정하기가 어렵기 때문에 Thayer 의 2 차원 분위기 모델 [5] 을 응용한 분위기 형용사를 제공하고 사용자가 느끼는 분위기들을 여러 개 선택하도록 하였다.
그러나 음악은 일정한 음악학적 구조에 맞추어 비슷한 구간이 반복되고 일정한 규칙을 지니고 있다. 본 논문에서는 이러한 음악 구조적 특징에 기반을 두어 우선 음악 구조를 분석한 뒤 이를 바탕으로 음악 분위기를 탐지하는 방법에 대한 연구를 수행하였다. 전체적인 시스템의 구조는 (그림2) 와 같다.
하지만 주어진 데이터들이 적어 학습데이터와 테스트데이터를 나누기 곤란하거나 주어진 데이터만을 최대한 활용하여 가장 적절한 성능평가를 하기 위해서는 일반적으로 교차 검증 (Cross-validation) 을 사용하여 평가를 하게 된다. 본 논문에서는 총 319 개의 데이터 집합에 관하여 SVR 의 성능 평가를 위하여 일반적으로 사용되는 5-fold Cross-validation 을 사용하여 SVR 의 학습 성능을 살펴보았다.
음악의 구조 정보와 각 구조의 사용자의 주관적 테스트 평가 정보, 그리고 구간별 추출된 음향 특징을 이용하여 분위기를 학습하기 위해서 본 논문에서는 회귀 모델을 기초로 하여 학습하도록 하였다. 회귀 모델을 위한 학습 알고리즘으로는 이진 클래스 분류에 있어 좋은 성능을 보여준 SVM (Support Vector Machine) 을 회귀 학습에 적용한 SVR (Support Vector Regression) 을 사용하였다.
즉, 피실험자로부터 음악분위기 정보를 입력 받을 시 AV 값을 직접 입력 받지 않고 대신에 분위기 형용사를 이용한 것처럼, 분위기 판별 성능을 평가할 시에도 이러한 점을 고려할 필요가 있다. 이를 위해서 본 논문에서는 SVR 회귀 분석기를 통해 예측된 AV벡터 값과 피실험자가 입력한 분위기 정보가 얼마나 비슷한 분위기 형용사 그룹에 있는지를 측정하고자 하였다.
제안 방법
- 변화하는 음악의 특징을 고려하여 단일의 분위기 클래스가 아닌 각 부분들의 독립된 분위기를 탐지하는 기법을 제안하였다.
- 비전문가의 특성을 고려하여, 음악의 특징을 2 차원 맵을 통하여 쉽게 평가할 수 있는 기법을 제안하였다.
- 음악 구조 분석 기법을 적용하여 세그먼트 추출을 자동화하였다.
1차 음향 특징은 각 프레임 별로 MPEG-7의 1/8 옥타브의 해상도를 가지는 ASE (Audio Spectrum Envelope) 를 추출 한 후, PCA (Principal Component Analysis) 차원축소 알고리즘을 통하여 상위 20 프로젝션 (ASP) 을 계산하여 사용한다. 하지만 PCA 알고리즘에 의해 정규화 된 ASP 값으로는 각 프레임의 에너지 차이에 대한 정보가 사라지기 때문에 각 프레임별 파워 스펙트럼 값의 L2-Norm 을 구하여 멜로디와 에너지 모두를 표현하는 총 21 차의 음향 특징 벡터 #를 추출한다.
각 특징들은 입력 도메인의 종류 (주파수 도메인, 신호 도메인) 에 맞게 별도의 최종 후처리 과정을 거친다. Pitch Histogram 과 Beat Histogram 그리고 DWCHs 의 경우는 별도로 지정된 후처리 과정을 수행하였고 ASF 에 대해서는 MPEG-7 의 권고사항에 따른 후처리 방법을 사용하였다. 이 방법에서는 프레임으로부터 추출된 특징들의 평균과 표준편차를 사용한다.
Timbre-Type 시퀀스가 추출된 후 Timbre-Type 시퀀스 정보를 이용하여 음악의 특징적 구간 (Segment) 으로 나누기 위해서, 히스토그램 기반 Soft k-Means 클러스터링 방법을 통해 M 개의 세그먼트 종류로 클러스터링하여 나누어지는 구간 생성법을 사용하였다. 히스토그램 기반 Softk-Means 클러스터링을 위해서는 우선 Timbre-Type q(1),q(2), .
[11, 12]에서처럼 음악 분위기 형용사가 아닌 분위기를 나타내는 직접적인 AV 계수를 피실험자가 입력하는 방식을사용할 수도 있지만 일반적으로 음악에 대한 전문성이 없는 일반인이 직접 음악의 분위기를 나타내는 AV 계수를 입력하는데 무리가 있다고 판단되어 본 실험에서는 피실험자가 청취한 음악의 일부에 대해 느낀 분위기를 주어진 분위기 형용사 항목 중에서 선택하고, 이를 토대로 내부적으로 AV계수로 변환하여 사용하는 방법을 채택하였다. 본 논문에서는 분위기를 나타낼 수 있는 대표적인 형용사 12 개를 선정하여, 사용자가 선택한 분위기와 AV 매핑을 위하여 세분화된 Thayer 의 2 차원 분위기 모델의 형태인 (그림 4)와 같이 설정하였다.
[30]에서 처음으로 제안한 가상의 코드 상태열 (State Sequence) 기반의 음악 구조 분석방법에서는 여러 내외부적 요인들에 의해 생성되는 노이즈에 견고한 특징을 추출하기 위해 1 차적으로 추출된 음향 특징을 가상의 음악 코드 상태로 라벨링하여 연속적인 순차열을 생성한 후, 이를 이용하여 반복적이고 유사한 상태열을 파악하여 음악 구조 분석을 하였다. 노이즈에 견고한 가상의 상태열을 추출하기 위해 HMM 알고리즘을 사용하였으며, HMM 의 은닉 상태를 음악의 가상 코드 라벨로 사용하였다.
지금까지의 음악 분위기 탐지에 관한 연구들은 Hevner 의 형용사 체크리스트 법과 Thayer 의 2 차원 분류법을 기초로 하여 이루어졌다. 각 연구들은 다양한 학습 모델을 사용하여 분위기를 탐지하였는데 다음 절에서 각 연구들의 학습 모델들을 살펴보겠다.
갱신된 소속 신뢰도를 바탕으로 각 데이터 히스토그램의 세그먼트 라벨을 재할당한다. 갱신된 소속 신뢰도와 데이터 히스토그램을 이용하여 각 세그먼트의 참조 히스토그램을 갱신한다. 이러한 과정을 지정된 횟수만큼 또는 할당 단계의 변화가 없을 때까지 반복한다.
[2] 에서는 음악 전체에 대하여 우선 분위기 학습의 1 차 판별 조건인 음의 자극도 (에너지) 에 기반하여 곡 전체 에너지에 대한 평균을 기초로 에너지가 평균보다 낮은 지역과 높은 지역으로 나누었다. 그리고 2 차 판별조건인 리듬과 음색 특징이 변화하는 구간을 기초로 하여한 곡의 음악을 여러 파트로 나눈 뒤 각 파트의 분위기를 탐색해 나가는 방법을 사용하였다.
음악 분위기를 판별함에 있어 음악 분위기의 이산적인 클래스를 고려한 전통적인 방법을 사용하지 않고 Thayer 의 2 차원 모델에 기반하여 먼저 각 AV 모델의 차원별 회귀모델을 학습한 후 이를 이용하여 AV 값을 예측하고 이를 분위기 형용사와의 공간적 유사도를 고려하는 방법을 사용하였다. 그리고 개인별 분위기 판별 성능을 수정된 코사인유사도 공식을 통하여 분석하였다. 실험 결과, 개인별 평가에 맞춘 음악 분위기 판별율은 개인별로 편차가 있기는 했으나 전체적으로 평균 유사도가 82%에서 89%정도의 높은 유사도를 보여주었다.
이 방법에서는 프레임으로부터 추출된 특징들의 평균과 표준편차를 사용한다. 그리고 나머지 프레임기반 특징들에 대해서는 텍스쳐 윈도우 (Texture Window) 방법을 사용하여 후처리를 하였다. 텍스쳐 윈도우 방법은 분석 윈도우 (Analysis Window) 단위로 퓨리에 변환을 적용한 후 추출한 국부적인 특징들에 대하여 텍스쳐 윈도우 단위로 표준 분산적 특징 (평균, 표준편차) 을 추출한 후 다시 이를 이용하여 전체의 표준 분산적 특징을 추출하게 된다.
이러한 특성을 무시하고 공통된 분위기 판별 모델을 구축하여 사용하게 되면 성능이 떨어질 수밖에 없다. 따라서 본 논문에서는 개인별로 분위기에 대한 평가정보를 받고 이를 기반으로 개인별 분위기 판별 모델을 구축하여 사용하였다. 분위기 판별 모델은 회귀분석 방법을 사용하였다.
본 논문에서는 이러한 문제점을 해결하기 위하여, 수동이 아닌 자동으로 음악 자체의 내용을 바탕으로 한 구조 분석기법을 통하여 음악을 의미 있는 구간들로 나누고, 각 구간들의 독립적인 분위기를 탐지하는 방법을 제안하였다. 또한, 전문가가 아닌 일반 사용자의 개인적 성향을 학습하여야 하는데, 비전문가인 경우 분위기에 대한 평가를 직접 지정하기가 어렵기 때문에 Thayer 의 2 차원 분위기 모델 [5] 을 응용한 분위기 형용사를 제공하고 사용자가 느끼는 분위기들을 여러 개 선택하도록 하였다. 이렇게 입력된 분위기 형용사들을 바탕으로 회귀학습 (Regression Training) 을 통하여 개인의 음악 분위기에 대한 성향을 모델링하였다.
가상 코드 상태열 기반 음악 구조 분석방법에서는 음향의 특징들을 각각 음악의 가상 코드 값으로 매핑하여야 하기 때문에 음악의 코드 즉 멜로디를 표현하기 알맞은 특징의 선택이 필요하다. 본 논문에서는 멜로디를 표현하는데 있어 다른 특징에 비해 성능이 좋다고 알려진 MPEG-7 의 ASP (Audio Spectrum Projection) 특징을 1차 음향 특징으로 사용하였다.
음악의 구조 분석을 통한 세그먼트를 위하여 우선 음악 구조 정보를 추출하는 방법이 필요하다. 본 논문에서는 상태열 기반의 유사 구간 클러스터링 방법을 사용하였는데,(그림 3) 에서 보는 바와 같이 음악 특징 벡터 추출, Timbre-Type 시퀀스 추출, Timbre-Type Soft k-Means 클러스터링 방법을 통하여 유사 구간을 클러스터링 한다.
본 논문에서도 가장 좋은 성능을 탐색하기 위해 SVR 의 타입은 ∊-SVR 과 v-SVR 을, 그리고 SVR 의 커널 타입으로는 선형 커널과 RBF 커널을 사용하여 각 타입별 그리드 파라메터 선택 방법을 적용하여 최적의 파라메터와 그 성능을 살펴보았다.
본 논문의 실험에서는 국지화 이웃거리 상수로 λ = 0.02 로, 루프 수렴 타협 관련 상수로 β0 = 100, βfinal = 0.1 로 설정하여 충분히 반복되도록 하였다.
비전문가인 사용자가 선택한 평가 정보를 내부적으로 AV 계수로 변화하기 위하여 본 논문에서는 Thayer 의 2차원 분위기 모델의 각 차원 축인 A (Arousal) 와 V (Valence) 의 값을 –1 과 1 사이의 값으로 두고 각각에 대하여 SVR 을 통한 회귀 분석 학습과 평가를 수행하였다.
사용자가 비전문가의 입장에서 분위기 평가정보를 입력하기 편리하도록 각 피실험자에게 (그림 6)의 사용자 평가 프로그램을 제공하여 각 피실험자의 음악에 대한 분위기 평가항목을 수집하였다. (그림 6)의 평가 폼을 보게 되면 각 분위기 형용사와 함께 AV 맵 또한 제공하고 있다.
1 절에 기술한 바와 같이 수집된 개인별 음악 분위기 평가 데이터가 [11, 12] 와는 다르게 AV 를 직접 입력하는 대신에 AV 계수의 강도를 고려하여 분위기 형용사에 평가하는 방식을 사용하였기 때문에 삼각함수 공식을 적용한 식 (3)과 식 (4)의 방법을 사용하여 AV 값 (Aval, Vval)을 계산하여 사용하였다. 사용자가 선택한 각각의 형용사에 대하여 고유한 값을 부여하기 위하여, (그림 6) 의 평가폼에 위치한 각 형용사의 각도위치정보를 삼각함수를 이용하여 형용사에 부여한 가중치 점수를 반영한 AV 값으로 계산하였다.
실험에 참여한 피실험자는 두 그룹으로 나눠지며 모두 사전에 Thayer 의 2 차원 분위기 모델에 대한 이론적 내용에 대하여 교육을 실시한 뒤 이중 Group-1 은 3.3.1 절에 언급한 권고사항을 고려하여 평가를 수행하도록 하였고 Group-2 는 제약사항을 꼭 지킬 필요 없이 본인의 느낌을 바탕으로 자유롭게 평가하도록 하였다.
앞 절의 분위기 유사도 척도를 사용하여 와 의 결과 중 개인별 가장 좋은 성능을 나타낸 SVR 타입과 파라메터를 사용할 경우의 분위기 유사도와 가장 낮은 성능을 나타낸 SVR 타입과 파라메터를 사용할 경우의 분위기 유사도를 살펴보았다.
[1, 10] 의 연구에서는 전통적인 클래스 기반 기계 학습 모델을 사용하여 음악의 분위기를 탐지하였다. 위 연구들에서는 음악의 분위기 분류 클래스를 위해 [9] 의 분류법에 3개의 분위기 그룹을 추가한 총 13 개의 분위기 분류그룹으로 두고 각 그룹을 하나의 분위기 클래스로 가정하여 이를 학습 한 후 분위기를 탐지하는 모델을 사용하였다.
음원 데이터베이스로 락, 메탈, 리듬 앤 블루스, 발라드, 재즈 등의 다양한 장르로 구성된 팝 음악과 국내 음악 그리고 뉴에이지로 이루어진 100 개의 음악을 사용하였다. 음악 데이터의 포맷은 범용적으로 사용되어 지는 음악 포맷인 44,100Hz 샘플링레이트 스테레오 채널의 MP3 파일 형식이며 이로부터 구조분석 방법을 사용하여 구간들을 추출하였다.
음악 분위기 학습 및 판정을 위한 음향의 특징으로는 2.3절에서 나열한 기존 장르 및 스타일 분류분야에서 좋은 성능을 나타낸 음향 특징들인 Spectral Shape, MFCC, ASF, Spectral Contrast, Pitch Histogram, Beat Histogram, DWCHs 를 사용하였다. 음악의 특징 추출은 다음과 같이 단계 1∼5 의 과정을 거쳐 이루어진다.
음악 분위기를 판별함에 있어 음악 분위기의 이산적인 클래스를 고려한 전통적인 방법을 사용하지 않고 Thayer 의 2 차원 모델에 기반하여 먼저 각 AV 모델의 차원별 회귀모델을 학습한 후 이를 이용하여 AV 값을 예측하고 이를 분위기 형용사와의 공간적 유사도를 고려하는 방법을 사용하였다. 그리고 개인별 분위기 판별 성능을 수정된 코사인유사도 공식을 통하여 분석하였다.
1990년대 후반에 Thayer 는 2 차원 분위기 분류법을 제안하였다[5]. 이 방법은, Hevner 의 형용사법과 달리 분위기는 두 요소, 즉 스트레스와 에너지에 의해 결정된다는 이론을 채택하였으며 이에 따라 분위기를 Contentment, Depression, Exuberance, Anxious/Frantic 4 개로 분류하였다.
(그림 6)의 평가 폼을 보게 되면 각 분위기 형용사와 함께 AV 맵 또한 제공하고 있다. 이는 피실험자가 형용사만으로 분위기를 선택할 시 본 논문에 사용하는 분위기 분류법인 AV 맵과 차이가 나는 평가가 이루어질 수 있으므로 이를 방지하기 위하여 사전에 각 피실험자들에게 간단한 AV 분위기 분류법에 대하여 교육을 한 뒤, 음악의 AV 강도를 고려하여 분위기 형용사를 선택하게끔 하였다. 각 음악 구간에 대한 평가는 총합이 5 인 평가값을 피실험자가 여러 형용사에 걸쳐 분배하는 방식으로 평가하도록 하였는데, 이때 평가값은 동시에 5 개 이상의 형용사에 분배하지 못하고 또한 평가값이 상반된 형용사에 함께 분배되는 것을 회피하도록 권고하였다.
이때 동일한 곡에 속하는 구간들을 연속해서 들려주었을 시 피실험자가 이전에 들은 구간에 대한 느낌때문에 잘못된 평가를 내릴 수 있다. 이러한 상황을 방지하기 위해 구간들을 무작위 순서로 제공하였다.
또한, 전문가가 아닌 일반 사용자의 개인적 성향을 학습하여야 하는데, 비전문가인 경우 분위기에 대한 평가를 직접 지정하기가 어렵기 때문에 Thayer 의 2 차원 분위기 모델 [5] 을 응용한 분위기 형용사를 제공하고 사용자가 느끼는 분위기들을 여러 개 선택하도록 하였다. 이렇게 입력된 분위기 형용사들을 바탕으로 회귀학습 (Regression Training) 을 통하여 개인의 음악 분위기에 대한 성향을 모델링하였다.
즉, 각 피실험자별 학습데이터를 사용하여 Arousal 에 대한 SVR 인 Sarousal 과 Valence 에 대한 SVR 인 SVRvalence 를 구축하고 이를 테스트 데이터에 적용시켜 R2 결정계수를 계산하였다.
[13] 의 연구에서 음악의 전역적인 멜로디의 특징을 추출하기 위해서 피치 히스토그램 (Pitch Histogram) 방법을 제안하였다. 피치 히스토그램을 구하기 위해서는 음악 신호를 작은 프레임으로 나눈 뒤, 프레임 별로 [17] 에서 제안한 다중 피치 탐색 방법을 사용하여 전체의 피치 히스토그램을 계산한다.
대상 데이터
[11, 12]에서처럼 음악 분위기 형용사가 아닌 분위기를 나타내는 직접적인 AV 계수를 피실험자가 입력하는 방식을사용할 수도 있지만 일반적으로 음악에 대한 전문성이 없는 일반인이 직접 음악의 분위기를 나타내는 AV 계수를 입력하는데 무리가 있다고 판단되어 본 실험에서는 피실험자가 청취한 음악의 일부에 대해 느낀 분위기를 주어진 분위기 형용사 항목 중에서 선택하고, 이를 토대로 내부적으로 AV계수로 변환하여 사용하는 방법을 채택하였다. 본 논문에서는 분위기를 나타낼 수 있는 대표적인 형용사 12 개를 선정하여, 사용자가 선택한 분위기와 AV 매핑을 위하여 세분화된 Thayer 의 2 차원 분위기 모델의 형태인 (그림 4)와 같이 설정하였다. 분위기 형용사와 AV 계수 사이의 대응 지표를 설정하는 간략한 개요는 (그림 5)와 같다.
분위기에 대한 주관적인 평가를 위해 음원 데이터베이스 내의 각 음악에 3.1 절의 구조 분석방법을 적용하여 추출한 319 개의 구간을 피실험자에게 제공하였다. 이때 동일한 곡에 속하는 구간들을 연속해서 들려주었을 시 피실험자가 이전에 들은 구간에 대한 느낌때문에 잘못된 평가를 내릴 수 있다.
음원 데이터베이스로 락, 메탈, 리듬 앤 블루스, 발라드, 재즈 등의 다양한 장르로 구성된 팝 음악과 국내 음악 그리고 뉴에이지로 이루어진 100 개의 음악을 사용하였다. 음악 데이터의 포맷은 범용적으로 사용되어 지는 음악 포맷인 44,100Hz 샘플링레이트 스테레오 채널의 MP3 파일 형식이며 이로부터 구조분석 방법을 사용하여 구간들을 추출하였다.
데이터처리
Pitch Histogram 과 Beat Histogram 그리고 DWCHs 의 경우는 별도로 지정된 후처리 과정을 수행하였고 ASF 에 대해서는 MPEG-7 의 권고사항에 따른 후처리 방법을 사용하였다. 이 방법에서는 프레임으로부터 추출된 특징들의 평균과 표준편차를 사용한다. 그리고 나머지 프레임기반 특징들에 대해서는 텍스쳐 윈도우 (Texture Window) 방법을 사용하여 후처리를 하였다.
이론/모형
같은 분위기 형용사 그룹에 속하는 AV 벡터 값일수록 두 벡터가 이루는 각은 0도에 가까워지기 때문에 본 논문에서는 분위기 유사도 측정 방법으로 코사인 유사도 공식을 응용한 식 (8) 을 사용하였다. 식 (8) 은 –1∼1 의 범위의값을 갖는 코사인 유사도를 0∼1 사이의 값으로 매핑하기 위한 공식으로 1 에 가까울수록 유사함을, 0 에 가까울수록 유사 관계가 적음을 나타낸다.
[30]에서 처음으로 제안한 가상의 코드 상태열 (State Sequence) 기반의 음악 구조 분석방법에서는 여러 내외부적 요인들에 의해 생성되는 노이즈에 견고한 특징을 추출하기 위해 1 차적으로 추출된 음향 특징을 가상의 음악 코드 상태로 라벨링하여 연속적인 순차열을 생성한 후, 이를 이용하여 반복적이고 유사한 상태열을 파악하여 음악 구조 분석을 하였다. 노이즈에 견고한 가상의 상태열을 추출하기 위해 HMM 알고리즘을 사용하였으며, HMM 의 은닉 상태를 음악의 가상 코드 라벨로 사용하였다. [25, 26, 27] 의 연구들에서는 이러한 HMM 알고리즘을 통해 추출된 가상 코드를 Low-Level State Type 또는 Timbre-Type 이라 칭하고 있다.
본 논문에서는 개인별 분위기 학습에 대한 성능의 평가로 R2 결정계수를 평가의 척도로 사용하였다.
따라서 본 논문에서는 개인별로 분위기에 대한 평가정보를 받고 이를 기반으로 개인별 분위기 판별 모델을 구축하여 사용하였다. 분위기 판별 모델은 회귀분석 방법을 사용하였다.
일반 클래스 학습이 아닌 연속적인 값을 학습하기 위하여 본 논문에서 사용한 회귀 학습의 평가를 위해서는 MSE (Mean Square Error) ∊을 추정하는 방법을 사용할 수 있다. 학습을 위한 N 개의 입력 데이터로 (반응변수, 설명변수)인 (yi, xi), i=1,2,.
음악의 구조 정보와 각 구조의 사용자의 주관적 테스트 평가 정보, 그리고 구간별 추출된 음향 특징을 이용하여 분위기를 학습하기 위해서 본 논문에서는 회귀 모델을 기초로 하여 학습하도록 하였다. 회귀 모델을 위한 학습 알고리즘으로는 이진 클래스 분류에 있어 좋은 성능을 보여준 SVM (Support Vector Machine) 을 회귀 학습에 적용한 SVR (Support Vector Regression) 을 사용하였다.
성능/효과
그리고 개인별 분위기 판별 성능을 수정된 코사인유사도 공식을 통하여 분석하였다. 실험 결과, 개인별 평가에 맞춘 음악 분위기 판별율은 개인별로 편차가 있기는 했으나 전체적으로 평균 유사도가 82%에서 89%정도의 높은 유사도를 보여주었다.
후속연구
예를 들어, 사용자가 흥분되어 있는 상태라면 차분하고 편안한 분위기의 음악을 추천하거나 들려주어 심리적 안정을 유도해줄 수 있다. 또한, 현재 재생중인 음악의 분위기에 맞게 조명을 자동으로 조정하는 감성 조명 시스템으로도 확장할 수 있을 것이다.
본 논문에서는 상황인지 음악 추천을 위한 전단계로서 음악의 음향 데이터에서 분위기 정보 (AV 값) 를 추출하는 연구를 수행하였다. 향후, 상황별로 사용자가 좋아하는 음악들의 AV 특성을 파악하고 이를 바탕으로 상황정보를 고려한 내용 기반 상황 인지 음악 추천 방법에 대하여 연구할 계획이다.
질의응답
핵심어
질문
논문에서 추출한 답변
음악 내용을 기반으로 분위기를 탐지하여 상황에 맞는 지능적인 서비스를 제공할 수 있는 예는?
음악의 내용을 기반으로 분위기를 탐지할 수 있다면 상황이나 행위에 맞는 지능적인 서비스를 제공할 수 있게 된다. 예를 들어, 사용자가 흥분되어 있는 상태라면 차분하고 편안한 분위기의 음악을 추천하거나 들려주어 심리적 안정을 유도해줄 수 있다. 또한, 현재 재생중인 음악의 분위기에 맞게 조명을 자동으로 조정하는 감성 조명 시스템으로도 확장할 수 있을 것이다.
ANSI에서 정의하고 있는 음향의 3요소로 어떤 것이 있는가?
ANSI (American National Standard Institute) 에서는 음향의 3 요소로 음고 (Pitch), 소리의 강도 (Loudness), 음색(Timbre) 을 정의하고 있다. 음고와 강도의 경우는 청취자의 민감도와 관련하여 음의 높이 및 세기의 척도가 되고 있다.
상황인지 음악추천 서비스 제공을 위해 우선적으로 필요한 것은?
상황인지 음악추천 서비스를 제공하기 위해서는 무엇보다 상황 또는 문맥에 따라 사용자가 선호하는 음악의 분위기를 파악할 필요가 있다. 음악 분위기 검출에 대한 기존 연구의 대부분은 수작업으로 대표구간을 선정하고, 그 구간의 특징을 이용하여 분위기를 판별한다.
참고문헌 (30)
T. Li and M. Ogihara, "Detecting Emotion in Music," Proc. of the International Symposium on Music Information Retrieval(ISMIR), pp.239-240, Washington D.C., USA, 2003.
L. Lu, D. Liu and H. Zhang, "Automatic Mood Detection and Tracking of Music Audio Signals," IEEE Trans. on Audio, Speech, and Language Processing, Vol..14, pp.5-18, 2006.
Y. Feng, Y. Zhang and Y. Pan, "Popular Music Retrieval by Detecting Mood," Proc. of ACM SIGIR 2003, pp.375-376, 2003.
Y.H. Yang, C.C. Liu and H.H. Chen, "Music Emotion Classification: a Fuzzy Approach," Proc. of ACM Multimedia 2006 (ACM MM'06), pp.81-84, Santa Barbara, CA, USA, 2006.
R.E. Thayer, "The Biopsychology of Mood and Arousal", Oxford University Press, 1989.
H. Katayose, M. Imai and S. Inokuchi, "Sentiment Extraction in Music," Proc. of International Conference Pattern Recognition, Vol.2, pp.1083-1087, 1998.
D. Liu, N. Zhang and H. Zhu, "Form and Mood Recognition of Johann Strauss's Waltz Centos," Chinese Journal of Electronics, Vol.12, Part.4, pp.587-593, 2003.
P.R. Farnsworth, "The Social Psychology of Music", The Dryden Press, 1958.
T. Li and M. Ogihara, "Content-based Music Similarity Search and Emotion Detection," Proc. of ICASSP '04, Vol.5, pp.705-708, 2004.
Y.H. Yang, Y.F. Su, Y.C. Lin and H.H. Chen, "Music Emotion Recognition: the Role of Individuality," Proc. of ACM SIGMM International Workshop on Human-centered Multimedia 2007, pp.13-21, Augsburg, Germany, 2007.
Y.H. Yang, C.C. Liu and H.H. Chen, "A Regression Approach to Music Emotion Recognition," IEEE Trans. on Audio, Speech, and Language Processing, Vol.16, pp.448-457, 2008.
G. Tzanetakis and P. Cook, "Musical Genre Classification of Audio Signals," IEEE Trans. on Speech and Audio Processing, Vol.10, No.5, pp.293-302, 2002.
J. J. Burred and A. Lerch, "A Hierarchical Approach to Automatic Musical Genre Classification," Proc. of the 6th International Conference on Digital Audio Effects (DAFx-03), 2003.
J. J. Burred and A. Lerch, "Hierarchical Automatic Audio Signal Classification," Journal of the Audio Engineering Society, Vol.52, No.7/8, pp.357-365, 2004.
D. Jiang, L. Lu, H. Zhang, J. Tao and L. Cai, "Music Type Classification by Spectral Contrast Feature," Proc. of ICME `02, Vol.1, pp.113-116, 2002.
T. Tolonen and M. Karjalainen, "A Computationally Efficient Multipitch Analysis Model," IEEE Trans. on Speech Audio Processing, Vol.8, pp.708-716, Nov. 2000.
T. Li, M. Ogihara and Q. Li, "A Comparative Study on Content-based Music Genre Classification," Proc. of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp.282-289, 2003.
Y. K. Kim and Y. Brian, "Singer Identification in Popular Music Recordings Using Voice Coding Features," Proc. of International Conference on Music Information Retrieval, 2002.
T. Zhang, "Automatic Singer Identification," Proc. of IEEE International Conference on Multimedia and Expo, IEEE CS Press, 2003.
X. Shao, N.C. Maddage, C. Xu and M.S. Kankanhalli, "Automatic Music Summarization Based on Music Structure Analysis," Proc. of ICASSP'05, Vol.2, pp.1169-1172, 2005.
Y. Shiu, H. Jeong and C.-C. J. Kuo, "Musical Structure Analysis Using Similarity Matrix and Dynamic Programming," Proc. of SPIE, Multimedia systems and applications, Vol.3, pp.398-409, 2005.
J. Paulus and A. Klapuri, "Music Structure Analysis by Finding Repeated Parts," Proc. of ACM AMCMM'06, pp.59-67, 2006.
M. Goto, "SmartMusicKIOSK: Music Listening station with Chorus-Search Function," Proc. of the 16th annual ACM symposium on User Interface Software and Technology, pp.31-40, 2003.
S. Abdallah, K. Nolad, M. Sandler, M. Casey and C. Rhodes, "Theory and Evaluation of a Bayesian Music Structure Extractor," Proc. of 6th International Conference on Music Information Retrieval London, UK, Sept. 2005.
M. Levy, M. Sandier and M. Casey, "Extraction of High-Level Musical Structure From Audio Data and Its Application to Thumbnail Generation," Proc. of ICASSP'06, Vol.5, pp.13-16, Toulouse, France, May 2006.
M. Levy, M. Sandier and M. Casey, "Structural Segmentation of Musical Audio by Constrained Clustering," IEEE Trans. on Audio, Speech, and Language Processing, Vol.16, pp.318-326, 2008.
L. Lu and H. Zhang, "Automated Extraction of Music Snippets," Proc. of the 11'th ACM International Conference on Multimedia, pp.140-147, 2003.
T. Zhang and R. Samadani, "Automatic Generation of Music Thumbnails," Proc. of IEEE International Conference on Multimedia and Expo, pp.228-231, 2007.
G. Peeters, "Deriving Musical Structure from Signal Analysis for Music Audio Summary Generation: "Sequence" and "State" Approach," In Lecture Notes in Computer Science, Vol.2771, pp.143-166. Springer-Verlag, 2004.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.