[논문]소리 주파수대역 기반 멀티미디어 콘텐츠의 감성 추출

권영훈; 장재건

doi:10.14400/jdpm.2013.11.11.381

소리 주파수대역 기반 멀티미디어 콘텐츠의 감성 추출
Emotion Extraction of Multimedia Contents based on Specific Sound Frequency Bands 원문보기

디지털정책연구 = The Journal of digital policy & management, v.11 no.11, 2013년, pp.381 - 387

초록
AI-Helper

최근 인간의 감성에 반응하고, 감성을 유도하는 감성콘텐츠가 문화산업 분야에서 크게 주목을 받으면서 멀티미디어 콘텐츠가 유발하는 감성 추출에 초점이 모아지고 있다. 게다가 최근 멀티미디어 콘텐츠가 빠르고 방대하게 생산, 유통되는 흐름으로 볼 때 콘텐츠에서 유발하는 감성을 자동으로 추출하는 기법의 연구들이 주목받고 있다. 본 논문은 멀티미디어 콘텐츠의 소리 정보 중 특정 주파수대역의 볼륨 값을 활용하여 멀티미디어 콘텐츠 내의 감성지수를 추출하는 방법에 대해 연구하고자 한다. 이러한 연구는 동영상 콘텐츠의 감성지수를 자동으로 추출할 수 있도록 하며 추출된 정보를 활용하여 사용자의 현재 감성, 혹은 날씨 등과 같은 기타 요소에 맞추어 사용자에게 맞춤형 콘텐츠를 제공하는데 사용되어질 것이다.

Abstract ▼ AI-Helper

Recently, emotional contents that induce emotions and respond to emotions are given attention in the field of cultural industries, and extracting emotion caused by multimedia contents is being noted. Furthermore, since multimedia contents have been quickly produced and distributed these days, researches automatically to extract the feeling of multimedia contents are being accelerated. In this paper, we will study the method of emotional value extraction in the multimedia contents using the volume value of the multimedia contents in a certain frequency among sound informations. This study allows to extract the emotion of multimedia contents automatically, and the extracted information will be used to provide user's current emotion, weather, etc. for the users.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

일반적으로 소리의 크기가 강해질수록 각성을 의미하는 베타파의 증가를 보였으며[7], 사람의 청각은 4000Hz에 가장 예민하다. 따라서 본 연구에서는 사람 목소리를 제외한 영상 볼륨의 크기와 4000Hz대역에서 소리의 강도를 활용하여 각성도를 추출하는 것을 제안한다.
4000Hz 주파수 대역의 소리는 라우드니스가 가장 크기 때문에 큰 강도의 4000Hz 부근 사운드를 들은 사람은 청각적으로 예민하게 반응하고 따라서 각성도가 높아질 수 있다. 본 논문에서는 3200Hz ~ 45000Hz 범위의 주파수 대역에서 -15dB 이상이 검출될 때 각성음으로 추출한다.
또한 사람의 목소리는 30Hz ~ 4000Hz 범위에 속하며 영상에서 이를 제외한 4000Hz ~ 8000Hz의 범위는 사람 목소리가 아닌 배경음으로 가정할 수 있다. 본 논문에서는 4000Hz 부근에서 소리의 최대 볼륨 값과 4000Hz ~ 8000Hz 대역의 배경음에서 평균 볼륨 값을 활용한 각성도 추출에 대하여 논의한다.
따라서 단순 볼륨이 아닌 4000Hz 이상 주파수 대역의 평균 볼륨을 이용해야만 한다. 본 논문은 4000Hz이상 주파수 대역에서 평균 dB이 -60dB이상인 배경음을 각성배경음으로 정의하고, 추출된 소리 구간에서 각성 배경 음의 개수를 이용하여 각성도를 추출하는 것을 제안한다.

가설 설정

일반적으로 사람은 4000Hz에서 가장 민감하게 반응하며 아기 울음 소리, 여자의 비명소리, 환호소리 등이 이 4000Hz 음향에 속한다. 또한 사람의 목소리는 30Hz ~ 4000Hz 범위에 속하며 영상에서 이를 제외한 4000Hz ~ 8000Hz의 범위는 사람 목소리가 아닌 배경음으로 가정할 수 있다. 본 논문에서는 4000Hz 부근에서 소리의 최대 볼륨 값과 4000Hz ~ 8000Hz 대역의 배경음에서 평균 볼륨 값을 활용한 각성도 추출에 대하여 논의한다.

제안 방법

본 논문에서 각성도를 추출하는 첫 번째 제안하는 방법으로는 4000Hz 이상 주파수 대역에서의 평균 볼륨크기를 활용하는 것이다. 이는 주파수 대역을 활용하여 영상에서 목소리의 영향을 덜 받는 배경음을 추출하기 위함인데, 일반적으로 큰 소리일수록 각성으로 느끼기 쉽지만 단순 소리의 크기만으로는 각성도를 잘못 추출할여지가 있다.
kVol은 비교대상 볼륨 값, curVol은 현재 프레임의 볼륨 값이다. 본 논문에서는 볼륨의 1/3 크기의 갑작스런 변화 이후 그 상태(비교 볼륨 값과 현재 볼륨 값의 차이가 일정 값 이상 유지되는 상태)가 24 프레임 (1초 / 24fps) 이상 지속될 때 새로운 감성 구간으로 인식 한다.
본 연구에서는 멀티미디어 콘텐츠에서 소리 정보를 이용하여 각성지수를 추출하였다. 오차범위 2의 범위내에 62%의 높은 일치도를 볼 수 있고, 특히 강한 각성 영상과 강한 이완 영상에서 각각 80%, 88%의 높은 일치율을 보여주었다.
사운드에서 각성도를 추출할 때 두 번째 제안하는 방법으로는 4000Hz 부근의 최대 볼륨 크기를 활용하는 것이다. 4000Hz 주파수 대역의 소리는 라우드니스가 가장 크기 때문에 큰 강도의 4000Hz 부근 사운드를 들은 사람은 청각적으로 예민하게 반응하고 따라서 각성도가 높아질 수 있다.
연산을 수행하기 위해 우선 사운드의 구간 판별을 실시한다. 새로운 구간으로 판별되지 않았을 경우에 4000Hz 부근의 최대 볼륨과 4000Hz 이상의 평균 볼륨을 구하고 각각 해당 구간에서 만족하는 프레임 수를 추출한다. 새로운 구간으로 판별되었을 경우에 구간 내 각성도가 나타난 프레임의 초당 비율을 이용하여 해당 구간에서의 각성도로 매핑을 하는 구조이다.
게다가 최근 멀티미디어 콘텐츠가 과거보다 더 빠르게 유통되고 매일 방대한 양이 새롭게 업로드 되는 흐름으로 인해 자동으로 감성을 추출 하는 기법의 연구들이 주목받게 되면서, 관련 연구가 활발하게 진행 중이다[1-3]. 소리 자극은 인간의 감성에 영향을 미칠 수 있기 때문에[4] 본 논문에서는 영상의 소리 정보에 따라 단일 감성 구간을 설정하고, 구간 내 특정주파수 대역의 볼륨 값을 활용하여 영상의 각성지수를 추출한다.
연구의 검증성을 위하여 자체 데모를 제작하여 실험을 하였으며, 실험 환경은 VisualStudio 2010과 BASS라이브러리를 활용하여 제작하였으며, 프로그램은 영상에서 실시간으로 구간을 추출하며 구간의 각성도를 추출할수 있게끔 설계되었다.
3]는 본 논문에서 제시된 영상 내 사운드 정보를 이용하여 각성도를 추출하는 전체 과정이다. 연산을 수행하기 위해 우선 사운드의 구간 판별을 실시한다. 새로운 구간으로 판별되지 않았을 경우에 4000Hz 부근의 최대 볼륨과 4000Hz 이상의 평균 볼륨을 구하고 각각 해당 구간에서 만족하는 프레임 수를 추출한다.

데이터처리

는 구간에서 추출한 각성 배경음의 초당 평균 개수, c1은 정규화 수(5 / 153)이다. 각 구간에서 추출한 초당 각성 배경음의 평균 개수를 이용하여 구간의 각성도를 추출하고 전체 영상의 총 각성 도는 구간 각성도의 평균값으로 한다.

이론/모형

각성도는 -5 ~ +5 범위를 따르는 Russell의 감정 모델을 이용하였으며, -5에 가까울수록 이완을 +5에 가까울 수록 각성을 나타낸다.
세로 축에서는 위쪽으로 갈수록 긴장의 감정에 가까워지고, 아래쪽으로 갈수록 이완의 감정에 가까워진다. 본 논문에서는 러셀이 제안한 감정모델의 각성지수 표기를 따른다.

성능/효과

[Table 3]는 각성도를 5가지로 분류하여 오차범위 2이내에 설문조사 결과 값에 따라 알고리즘 일치도를 나타낸 결과이다. 그 결과, 강 각성, 강 이완 영상일수록 더높은 일치도로 나타났음을 볼 수 있다.
본 연구에서는 멀티미디어 콘텐츠에서 소리 정보를 이용하여 각성지수를 추출하였다. 오차범위 2의 범위내에 62%의 높은 일치도를 볼 수 있고, 특히 강한 각성 영상과 강한 이완 영상에서 각각 80%, 88%의 높은 일치율을 보여주었다.

후속연구

본 논문에서는 소리 특정 주파수 대역의 볼륨값을 활용하여 각성도를 추출하였지만, 향후 소리의 날카로움이나 음색을 활용하여 각성도를 추출하는 연구가 필요할 것이며, 또한 멀티미디어 콘텐츠에서 소리를 제외한 이미지 기반에서 각성도를 추출하거나, 동영상의 영상 내부 움직임을 판별하여 각성도를 추출하는 연구 또한 필요할 것이다.
본 연구에 대한 결과는 멀티미디어의 소리로서 각성 감성지수를 추출할 수 있게 하고, 추출된 각성지수를 이용하여 사용자에게 맞춤형 콘텐츠를 제공하는데 이용될 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	자동으로 감성을 추출 하는 기법의 연구들이 주목받게 되는 이유는?	최근 인간 감성을 자극할 수 있는 감성 서비스가 대두 되면서 멀티미디어 콘텐츠가 유발할 수 있는 감성에 또한 초점이 모아지고 있다. 게다가 최근 멀티미디어 콘텐츠가 과거보다 더 빠르게 유통되고 매일 방대한 양이 새롭게 업로드 되는 흐름으로 인해 자동으로 감성을 추출 하는 기법의 연구들이 주목받게 되면서, 관련 연구가 활발하게 진행 중이다[1-3]. 소리 자극은 인간의 감성에 영향을 미칠 수 있기 때문에[4] 본 논문에서는 영상의 소리 정보에 따라 단일 감성 구간을 설정하고, 구간 내 특정주파수 대역의 볼륨 값을 활용하여 영상의 각성지수를 추출한다.
	수리의 구간을 설정함에 있어서 영상의 볼륨정보를 활용하여 구간을 설정하는 이유는?	소리의 구간을 설정함에 있어서는 영상의 볼륨정보를 활용하여 구간을 설정한다. 볼륨이란 소리의 강도를 측정하는 방법으로 사람의 청각반응이 소리 크기 자체에 비례하지 않고 대수(log)에 비례하는 현상을 반영하여 수치를 나타내는 방법이며 dB로 표현한다. 이렇게 소리의 구간을 나타내는 이유는 여러 가지 감성이 혼합된 다중 감성 영상을 하나의 단일 감성 파트로서 각성지수를 추출하기 위함이다.
	멀티미디어 콘텐츠가 유발하는 감성 추출에 초점이 모아지고 있는 이유는?	최근 인간의 감성에 반응하고, 감성을 유도하는 감성콘텐츠가 문화산업 분야에서 크게 주목을 받으면서 멀티미디어 콘텐츠가 유발하는 감성 추출에 초점이 모아지고 있다. 게다가 최근 멀티미디어 콘텐츠가 빠르고 방대하게 생산, 유통되는 흐름으로 볼 때 콘텐츠에서 유발하는 감성을 자동으로 추출하는 기법의 연구들이 주목받고 있다.

참고문헌 (10)

Sang Hoon Jeong, "Development direction of emotional contents through analysis of successful cases from applying emotional technology", KOSES, Vol. 15(1), pp. 121-132, March, 2012.
M. W. Park, S. M. Ahn, S. D. Ha, D. U. Jeong, I. K. Lyoo, "Development of Emotion Contents Recommender System for Improvement of Sentimental Status", KOSES, Vol. 10(1), pp. 1-11, March, 2007.
Li, T., Ogihara, M., "Detecting emotion in music", ISMIR, Vol. 3, pp. 239-240, Oct, 2003.
W. H. Cho, J. K. Lee, H. K. Choi, "A study on the influence of audio stimulation to human sensibility by using EEG analysis", KSPE Autumn Conference Vol. 11, pp. 875-876, 2011.
J. Russell, "Two pancultural dimensions of emotion words,", Journal of Personality and Social Psychology Vol.45, pp.1285, 1983.
Loudness: http://en.wikipedia.org/wiki/Loudness
D. H. Moon, "The Effect on Human Body by the Stimuli of Musics and Acoustic Vibrations", KSPE Vol 12(5), pp. 278-282, Nov, 2007.
White Noise: http://en.wikipedia.org/wiki/White_noise
J. H. Kim, M. C. Hwang, J. C. Woo, J. S. Kim, W. M. Choi, J. S. Yun, B. C. Hwang, "A Research on masking effect for mixing sound with white noise on human relaxation", HCI 2009, pp. 319-323, Feb, 2009
J. H. Kim, M. C. Hwang, J. C. Woo, J. S. Kim, W. M. Choi, J. S. Yun, B. C. Hwang, "The effect of white noise on relaxation", Ergonomics Society of Korea, Autumn Conference symposium 2008, pp. 552-555, January, 2008

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증