[논문]TV 광고 식별을 위한 Constant-Q 변환 기반의 오디오 핑거프린팅 방식

류상현; 김형국

doi:10.7776/ask.2014.33.3.210

TV 광고 식별을 위한 Constant-Q 변환 기반의 오디오 핑거프린팅 방식
Audio Fingerprinting Based on Constant Q Transform for TV Commercial Advertisement Identification 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.33 no.3, 2014년, pp.210 - 215

초록
AI-Helper

오디오 핑거프린팅 기술은 잡음과 에코 등으로 인한 왜곡에도 성공적으로 음원을 식별해야한다. 이러한 오디오 핑거프린팅 기술을 TV광고식별에 적용하고자 한다. 본 논문은 TV 광고 식별을 위한 강인한 오디오 핑거프린팅 방식을 제안한다. 제안된 방법에서 사용되는 Constant Q 변환 기반에서 추출된 현저한 오디오 피크 쌍 핑거프린트는 실제 다양한 잡음환경에서 오디오 핑거프린팅 시스템의 정확도를 향상시키고, 낮은 복잡도를 가진다. 실험결과는 제안된 방식이 기존의 오디오 핑거프린팅 방식에 비해 다양한 잡음환경에서도 안정적이며 신뢰할 수 있는 검색 정확도를 제공함을 보여준다.

Abstract ▼ AI-Helper

In spite of distortion caused by noise and echo, the audio fingerprinting technique must identify successfully an audio source. This audio fingerprinting technique is applying for TV commercial advertisement identification. In this paper, we propose a robust audio fingerprinting method for TV commercial advertisement identification. In the proposed method, a prominent audio peak pair fingerprint based on constant Q transform improves the accuracy of the audio fingerprinting system in real noisy environments. Experimental results confirm that the proposed method is quite robust than previous audio fingerprinting method in different noise conditions and achieves promising accurate results.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 CQT라 불리는 오디오 신호의 수정된 스펙트럼 표현방법 기반의 강인한 오디오 피크 쌍 핑거프린트 추출을 제안하였고, 이를 통한 TV 광고 식별 성능을 측정하였다. 제안된 알고리즘은 CQT를 기반의 안정적인 강인한 피크 쌍 핑거프린트를 생성함으로써 Wang의 핑거프린트 알고리즘보다 잡음이 합성된 음원에서도 더 많은 음원 고유의 핑거프린트 정보와 양질의 핑거프린트 정보를 획득할 수 있기 때문에, 실제 잡음 환경에서 오디도 핑거프린팅 시스템의 정확도를 향상시켰다.
TV 광고 식별을 위한 오디오 핑거프린팅 시스템의 정확도를 향상시키기 위해서는 무엇보다도 잡음 환경과 왜곡에 강인한 오디오의 특성을 반영한 오디오 핑거프린트를 추출해야 한다. 본 논문에서는, Wang의 방법의 아이디어를 기반으로, 실제 잡음환경에서 오디오 기반 TV 광고 식별 시스템의 성능을 향상시키기 위해 Constant Q Transform(CQT)기반의 현저한 피크 검출을 통한오디오 핑거프린팅 방법을 제안한다.

가설 설정

기울기가 양에서 음으로 변화가 발생하는 기본적인 가정을 사용하여, F_Max(k,l)에서 극대값 F_S(k,l) 을 선택한다. 극대값이 선택되지 않은 부분은, 인접한 2개의 극대값 간에 값이 선형적으로 보간되어, 첫번째 프레임을 위한 문턱값 Th_f(k,0)으로 사용된다.

제안 방법

Table 1은 5s 길이의 쿼리를 사용한 네 가지 방식의 실험결과를 나타낸다. MW, MS, MC, MX는 각각 방식1, 2, 3, 4를 나타내고, CQT는 제안된 방식이다. Table 1의 수치는 다섯 가지 다른 형태의 잡음환경에서의 실험에 대한 인식 결과의 평균을 나타내었다.
먼저, 얻어진 track ID를 비교하여 가장 많은 수가 카운트된 상위 20개의 음원 후보군 ID를 선정한다. 다음으로, 선정된 상위 20개의 음원 후보군에 대한 각각의 시간 오프셋를 비교하여, 동일한 시간 오프셋이 검색되는 수를 카운트한다. 카운트 수가 가장 많은 track ID가 쿼리와 가장 근접한 음원이라 판별하여, 최종적인 식별결과인 track ID를 출력한다.
각 광고는 10~15 s 길이로 구성된다. 모든 오디오 데이터는 모바일폰혹은 스마트폰과 같은 휴대 기기를 고려하여 PCM 포맷, 모노, 16-bit, 16 kHz 샘플링 rate를 사용하였다. TV 광고 식별을 위한 오디오 쿼리 클립은 5s 길이로 구성되며, 모바일 전화기를 사용하여 2.
사용자가 알고자하는 TV 광고를 식별하기 위해 짧은 오디오 쿼리를 입력하여, 앞서 설명한 방식과 동일하게 쿼리의 핑거프린트를 생성한다. 생성된 쿼리의 핑거프린트에서 시간과 주파수의 오프셋 정보를 사용하여 쿼리의 해시를 획득한다.
이 장에서는 TV 광고 식별을 위해 제안된 CQT 피크 쌍 핑거프린트 추출 알고리즘의 성능을 측정한다. 알고리즘의 성능을 네 가지 기존 방식들과 성능을 비교한다. 방식 1은 Wang^[2]이 제안한 STFT 기반의 피크 쌍 핑거프린트 추출방식, 방식 2는 피치 추출 기반의 서브 핑거프린트 마스킹 오디오 핑거프린트 방식,^[4]방식 3은 마스크된 오디오 스펙트럼 주요영역기반의 오디오 핑거프린트 추출 방식,^[8]그리고 방식 4는 오디오 신호의 시간-크로마 표현을 적용한 오디오 핑거프린트 추출방식^[9]이다.
앞서 검출한 FHP를 검증하고 잡음에 강인한 피크를 추출하기 위해, 마지막 프레임에서부터 역방향으로 피크를 검출한다. BHP검출에서는 X_nrom(k,l)의 마지막 프레임의 값을 이용해서 BHP검출의 초기 문턱값을 생성한다.
이 장에서는 TV 광고 식별을 위해 제안된 CQT 피크 쌍 핑거프린트 추출 알고리즘의 성능을 측정한다. 알고리즘의 성능을 네 가지 기존 방식들과 성능을 비교한다.
제안된 CQT 기반의 현저한 오디오 피크 쌍 핑거프린팅 방식은 Fig. 1과 같이, 다섯 단계로 구성된다. 먼저, 전처리 과정으로, 입력된 스테레오 오디오 신호는 모노로 변환되고(스테레오 좌우 오디오 신호의 각 샘플값별 평균값을 모노신호로 변환), 16 kHz로 다운샘플링 된다.
임의로 생성한 3,000개의 쿼리는 서로 다른 수준의 다양한 형태를 가지는 잡음을 추가함으로써 생성되었다. 즉, 다섯 가지 다른 형태의 잡음(배블 잡음, 움직이는 자동차 잡음, 백색 잡음, 길거리 잡음, 그리고 컴퓨터 팬 잡음)이 클린과 신호대잡음비 0dB, 6dB, 12dB의 수준으로 첨가되었다. 오디오 쿼리 데이터는 각 세트마다 임의로 선택된 1,000개가 캡쳐되었고, 각 오디오 샘플은 임의의 세트 오프셋에서 30회 재생되었다.
형성된 피크 쌍은 쿼리를 식별하기 위해, 양자화 되어 landmark로 변환하고 해시로 사용한다. 쿼리에서 추출된 해시의 시간차 정보와 데이터베이스의 핑거프린트의 시간차 정보를 비교하여 가장 유사한 매칭결과를 획득한다. Wang 알고리즘의 아이디어를 기반으로, Pan등^[4]은 오디오 핑거프린트를 생성하기 위한 지역 에너지 centroid 방식, Jiang등^[5]은 실시간 피크 검색 방식을 제안하였다.

대상 데이터

해시값을 통해 track ID와 시간 오프셋을 얻는다. 먼저, 얻어진 track ID를 비교하여 가장 많은 수가 카운트된 상위 20개의 음원 후보군 ID를 선정한다. 다음으로, 선정된 상위 20개의 음원 후보군에 대한 각각의 시간 오프셋를 비교하여, 동일한 시간 오프셋이 검색되는 수를 카운트한다.
실험을 위해, 총 740 h 길이의 4,000편의 TV 광고로 구성된 데이터베이스를 사용하였다. 각 광고는 10~15 s 길이로 구성된다.
즉, 다섯 가지 다른 형태의 잡음(배블 잡음, 움직이는 자동차 잡음, 백색 잡음, 길거리 잡음, 그리고 컴퓨터 팬 잡음)이 클린과 신호대잡음비 0dB, 6dB, 12dB의 수준으로 첨가되었다. 오디오 쿼리 데이터는 각 세트마다 임의로 선택된 1,000개가 캡쳐되었고, 각 오디오 샘플은 임의의 세트 오프셋에서 30회 재생되었다.

이론/모형

Wang의 방법에서는 각 오디오 트랙으로부터 에너지가 집중된 주파수의 두드러진 피크를 찾기 위해 Short Time Fourier Transform(STFT)를 사용한다. 이 피크들은 주파수와 시간에 의해서 파라미터화된 타겟 영역 내에서 피크들 간의 쌍으로 형성된다.
알고리즘의 성능을 네 가지 기존 방식들과 성능을 비교한다. 방식 1은 Wang^[2]이 제안한 STFT 기반의 피크 쌍 핑거프린트 추출방식, 방식 2는 피치 추출 기반의 서브 핑거프린트 마스킹 오디오 핑거프린트 방식,^[4]방식 3은 마스크된 오디오 스펙트럼 주요영역기반의 오디오 핑거프린트 추출 방식,^[8]그리고 방식 4는 오디오 신호의 시간-크로마 표현을 적용한 오디오 핑거프린트 추출방식^[9]이다.

성능/효과

STFT 기반의 방식과 같이 낮은 주파수 영역의 해상도를 높은 주파수 영역에 적용하는 것은 시스템적인 낭비이다. 그래서 CQT에서는 주파수 마다 해상도를 달리하여 낮은 주파수대역에서는 STFT에 비해 좁은 영역을 분석함으로써 주파수특성에 대한 이점을 살려 더 많은 피크를 보존할 수 있고, 높은 주파수 영역에서는 STFT에 비해 넓은 영역을 한번에 분석함으로써 더 효과적으로 주파수 피크를 식별 할 수 있다.
제안된 방식은 평균 87 % 이상의 만족스러운 성능을 보여주어, 기존의 다른 방식보다 뛰어난 성능을 보여줌을 알 수 있다. 또한, SNR 0 dB의 높은 잡음신호가 함께 입력되는 상황에서도 타 방식에 비해 높은 정확도인 74.1 %의 결과를 보여주었다. 이 결과는, 실제 사용 환경에서 나타날수 있는 다섯 가지의 잡음이 입력되는 상황을 모두 실험한 결과로, 실제 사용자가 음원을 식별하기위해 사용하는 잡음환경에서도 좋은 성능을 보일 것으로 예상된다.
제안된 알고리즘은 CQT를 기반의 안정적인 강인한 피크 쌍 핑거프린트를 생성함으로써 Wang의 핑거프린트 알고리즘보다 잡음이 합성된 음원에서도 더 많은 음원 고유의 핑거프린트 정보와 양질의 핑거프린트 정보를 획득할 수 있기 때문에, 실제 잡음 환경에서 오디도 핑거프린팅 시스템의 정확도를 향상시켰다. 실험결과는 제안된 방법이 기존의 다른 방식과 비교하여 실제 사용자가 사용하는 환경에서도 더 좋은 결과를 보여주 었으며, 많은 실제 휴대용 소비자 기기에 적합함을 보여주었다.
1 %의 결과를 보여주었다. 이 결과는, 실제 사용 환경에서 나타날수 있는 다섯 가지의 잡음이 입력되는 상황을 모두 실험한 결과로, 실제 사용자가 음원을 식별하기위해 사용하는 잡음환경에서도 좋은 성능을 보일 것으로 예상된다.
MX는 가장 낮은 인식률을 보이고, SNR 0 dB에서 가장 나쁜 결과를 보였다. 제안된 방식은 평균 87 % 이상의 만족스러운 성능을 보여주어, 기존의 다른 방식보다 뛰어난 성능을 보여줌을 알 수 있다. 또한, SNR 0 dB의 높은 잡음신호가 함께 입력되는 상황에서도 타 방식에 비해 높은 정확도인 74.
본 논문에서는 CQT라 불리는 오디오 신호의 수정된 스펙트럼 표현방법 기반의 강인한 오디오 피크 쌍 핑거프린트 추출을 제안하였고, 이를 통한 TV 광고 식별 성능을 측정하였다. 제안된 알고리즘은 CQT를 기반의 안정적인 강인한 피크 쌍 핑거프린트를 생성함으로써 Wang의 핑거프린트 알고리즘보다 잡음이 합성된 음원에서도 더 많은 음원 고유의 핑거프린트 정보와 양질의 핑거프린트 정보를 획득할 수 있기 때문에, 실제 잡음 환경에서 오디도 핑거프린팅 시스템의 정확도를 향상시켰다. 실험결과는 제안된 방법이 기존의 다른 방식과 비교하여 실제 사용자가 사용하는 환경에서도 더 좋은 결과를 보여주 었으며, 많은 실제 휴대용 소비자 기기에 적합함을 보여주었다.

후속연구

향후, 검색 알고리즘을 최적화 시키는데 초점을 둘 것이다. 그리고 더 강인한 콘텐트 식별을 위해 오디오와 비디오 핑거프린트를 결합한 방식을 연구할 예정이다. 제안된 방식은 앞으로 스마트 TV와 모바일 전화기에서 작동하는 콘텐트 보안 어플리케이션에 적용 될 것이다.
그리고 더 강인한 콘텐트 식별을 위해 오디오와 비디오 핑거프린트를 결합한 방식을 연구할 예정이다. 제안된 방식은 앞으로 스마트 TV와 모바일 전화기에서 작동하는 콘텐트 보안 어플리케이션에 적용 될 것이다.
향후, 검색 알고리즘을 최적화 시키는데 초점을 둘 것이다. 그리고 더 강인한 콘텐트 식별을 위해 오디오와 비디오 핑거프린트를 결합한 방식을 연구할 예정이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	각 오디오 트랙으로부터 에너지가 집중된 주파수의 두드러진 피크는 어떻게 형성되는가??	Wang의 방법에서는 각 오디오 트랙으로부터 에너지가 집중된 주파수의 두드러진 피크를 찾기 위해 Short Time Fourier Transform(STFT)를 사용한다. 이 피크들은 주파수와 시간에 의해서 파라미터화된 타겟 영역 내에서 피크들 간의 쌍으로 형성된다. 형성된 피크 쌍은 쿼리를 식별하기 위해, 양자화 되어 landmark로 변환하고 해시로 사용한다.
	오디오 핑거프린팅 기술이란?	오디오 핑거프린팅 기술은 배경잡음, 에코 등에 의한 왜곡에도 불구하고 몇 초 동안의 짧고, 표기되지 않은 오디오 클립을 성공적으로 식별하는 기능을 제공하는 기술로서 검색 정확도를 향상시키기 위해서 다양한 방법[1]들이 연구 및 개발되어 오고 있다. 이러한 오디오 핑거프린팅 기술은 음악식별을 기반으로 음악서비스에 활용되어 오다가 최근 들어 모바일 기기를 통한 TV 광고식별 분야에 적용되고 있다.
	오디오 핑거프린팅 기술의 활용 분야 변화 양상은?	오디오 핑거프린팅 기술은 배경잡음, 에코 등에 의한 왜곡에도 불구하고 몇 초 동안의 짧고, 표기되지 않은 오디오 클립을 성공적으로 식별하는 기능을 제공하는 기술로서 검색 정확도를 향상시키기 위해서 다양한 방법[1]들이 연구 및 개발되어 오고 있다. 이러한 오디오 핑거프린팅 기술은 음악식별을 기반으로 음악서비스에 활용되어 오다가 최근 들어 모바일 기기를 통한 TV 광고식별 분야에 적용되고 있다. 특별히, Wang[2]의 오디오 핑거프린팅 시스템과 Haitsma and Kalker[3]가 제안한 해시 알고리즘은 대표적인 오디오 핑거프린팅 기술로서 높은 정확도를 제공하고 있기 때문에, 현재 이를 응용 및 개선한 다양한 알고리즘이 개발되어 모바일 기기에 구현되어 오고 있다.

참고문헌 (9)

V. Chandrasekhar, M. Sharifi, and D. A. Ross, "Survey and evaluation of audio fingerprinting schemes for mobile query-by-example applications," in Proc. of 12th ISMIR, 801-806 (2011).
A. Wang, "An industrial strength audio search algorithm," in Proc. of 4th ISMIR, 7-13 (2003).
J. Haitsma, and T. Kalker, "A highly robust audio fingerprinting system," in Proc. of 3rd ISMIR, 107-115 (2002).
X. Pan, X. Yu, J. Deng, W. Yang, and H. Wang, "Audio fingerprinting based on local energy centroid," IET Int'l CCWMC, 351-354 (2011).
T. Jiang, R. Wu, J. Li, K. Xiang, and F. Dai, "A realtime peak discovering method for audio fingerprinting," in Proc. of 5th ICIMCS, 368-371 (2013).
M. Park, H. Kim, and S. Yang, "Frequency temporal filtering for a robust audio fingerprinting scheme in real-noise environment," J. ETRI, 28, 509-512 (2006).

원문보기 상세보기
W. Son, H.-T. Cho, K. Yoon, and S.-P. Lee, "Subfingerprint masking for a robust audio fingerprinting system in a real noise environment for portable consumer devices," IEEE Trans. on CE, 56, 156-169 (2010).
X. Anguera, A. Garzon, and T. Adamek, "MASK: robust local feature for audio fingerprinting," IEEE ICME, 455-460 (2012).
M. Malekesmaeili, and R. K. Ward, "A novel local audio fingerprinting algorithm," IEEE 14th Int'l Workshop on MMSP, 136-140 (2012).

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증