본 논문은 MCLT(Modulated complex lapped transform) 피크쌍 기반의 강인한 해시 함수를 이용한 오디오 핑거프린팅을 제안한다. 기존 방식의 오디오 핑거프린팅은 시간-스케일, 피치-이동, 이퀄라이제이션과 같은 다양한 왜곡이 발생했을 때, 강인한 핑거프린트를 추출하지 못한다는 문제점이 있다. 이를 해결하기 위해 본 논문에서는 MCLT 스펙트럼, 현저한 피크검색을 위한 적응적 문턱값 방식, 개선된 해시 함수를 이용하여 잡음과 왜곡 환경 강인한 오디오 핑거프린팅을 추출하였다. 실험결과 제안된 방식이 잡음과 왜곡 환경에서 보다 강인한 핑거프린팅을 추출할 수 있으며 매칭 인식률을 향상 시키는 것을 보여준다.
본 논문은 MCLT(Modulated complex lapped transform) 피크쌍 기반의 강인한 해시 함수를 이용한 오디오 핑거프린팅을 제안한다. 기존 방식의 오디오 핑거프린팅은 시간-스케일, 피치-이동, 이퀄라이제이션과 같은 다양한 왜곡이 발생했을 때, 강인한 핑거프린트를 추출하지 못한다는 문제점이 있다. 이를 해결하기 위해 본 논문에서는 MCLT 스펙트럼, 현저한 피크검색을 위한 적응적 문턱값 방식, 개선된 해시 함수를 이용하여 잡음과 왜곡 환경 강인한 오디오 핑거프린팅을 추출하였다. 실험결과 제안된 방식이 잡음과 왜곡 환경에서 보다 강인한 핑거프린팅을 추출할 수 있으며 매칭 인식률을 향상 시키는 것을 보여준다.
In this paper, we propose an audio fingerprinting using robust hash based on the MCLT (Modulated Complex Lapped Transform) peak-pair. In existing methods, the robust audio fingerprinting is not generated if various distortions occurred; time-scaling, pith-shifting and equalization. To solve this pro...
In this paper, we propose an audio fingerprinting using robust hash based on the MCLT (Modulated Complex Lapped Transform) peak-pair. In existing methods, the robust audio fingerprinting is not generated if various distortions occurred; time-scaling, pith-shifting and equalization. To solve this problem, we used the spectrum of the MCLT, an adaptive thresholding method for detection of prominent peaks and the novel hash function in the audio fingerprinting. Experimental results show that the proposed method is highly robust in various distorted environments and achieves better identification rates compared to other methods.
In this paper, we propose an audio fingerprinting using robust hash based on the MCLT (Modulated Complex Lapped Transform) peak-pair. In existing methods, the robust audio fingerprinting is not generated if various distortions occurred; time-scaling, pith-shifting and equalization. To solve this problem, we used the spectrum of the MCLT, an adaptive thresholding method for detection of prominent peaks and the novel hash function in the audio fingerprinting. Experimental results show that the proposed method is highly robust in various distorted environments and achieves better identification rates compared to other methods.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
따라서 이러한 문제를 해결하기 위해 본 논문에서는 Wang[2]의 방식을 기반으로 개선된 오디오 핑거프린팅 방식을 제안한다. 제안된 방식은 다음과 같은 4 가지의 이점이 있다: (1) MCLT(Modulated Complex Lapped Transform) 기반의 스펙트럴 피크 추출은 STFT (Short Time Fourier Transform) 기반 스펙트럴 피크 추출보다 음원 본연의 피크를 더 효과적으로 추출하여 검색정확도를 향상시킨다.
본 논문은 MCLT 피크쌍 기반의 강인한 해시 함수를 이용하여 다양한 왜곡 환경에서의 강인한 오디오 핑거프린팅을 생성하는 방식에 대해 제안했다. 실험 결과 제안된 방식이 기존의 핑거프린트 알고리즘 보다 더 우수한 성능 가졌다는 것을 보여주며 이는 본 논문에서 제안한 핑거프린팅 방식이 잡음과 왜곡 환경에서 강인하다는 것을 나타낸다.
가설 설정
- 쿼리 파일의 피치-이동이 발생했다면, 주파수의 차이는 기정 시간 문턱값 보다 높게 형성되고 시간 차이는 기정 주파수 문턱값 보다 낮게 형성된다. 이 경우 히스토그램 기반의 주파수 차는 사용하지 않고 시간 차의 히스토그램만 사용하여 매칭 결과를 나타낸다.
- 쿼리 파일이 시간-스트레치가 발생했다면, 시간 차는 기정 시간 문턱값 보다 높게 형성되고 주파수 차는 기정 주파수 문턱값 보다 낮게 형성된다. 이 경우 히스토그램 기반 시간 차는 사용하지 않고 주파수 차의 히스토그램만 사용하여 매칭 결과를 나타낸다.
- 쿼리 파일이 환경 잡음에 의해 왜곡되었다면 쿼리 파일의 시간 차와 주파수 차의 합은 기정된 문턱 값(가장 낮은 히스트로그램 범위) 안에 형성될 것이다. 형성된 값을 통해 검색된 음원 ID를 매칭 결과로 사용한다.
제안 방법
제안된 방식은 다음과 같은 4 가지의 이점이 있다: (1) MCLT(Modulated Complex Lapped Transform) 기반의 스펙트럴 피크 추출은 STFT (Short Time Fourier Transform) 기반 스펙트럴 피크 추출보다 음원 본연의 피크를 더 효과적으로 추출하여 검색정확도를 향상시킨다. (2) 메디언 필터 기반의 적응적 문턱값 방식과 피크 추출 갱신 방법을 적용하여 다양한 왜곡 환경으로부터 강인한 피크를 추출한다. (3) 개선된 핑거프린트 해시를 사용함으로써 잡음, 피치 이동, 시간-스케일에 강인한 오디오 핑거 프린트를 검색에 효과적으로 적용한다.
실험을 위해 팝, 락, 힙합, 포크, 재즈, 클래식의 9000개 음원의 데이터베이스를 구성하였다. 모든 오디오 데이터는 모노의 PCM 파일로 저장되어 있으며 모바일 단말기와 같은 휴대장치에서 사용할 수 있도록 16 비트의 해상도, 16 kHz의 샘플링레이트로 구성하였다. 다양한 환경의 왜곡을 부여하기 위해 질의(쿼리) 오디오데이터를 다음과 같이 구성했다: (1)잡음: 신호 대 잡음비 (SNR) 10 dB, 5 dB, 0 dB의 다양한 형태의 잡음(배블 잡음, 움직이는 자동차 잡음, 백색 잡음, 길거리 잡음, 컴퓨터 잡음), (2) 이퀄라이제이션 : 31 Hz에서 16 kHz까지 이득 값 -5 dB, 3 dB , (3) 시간 스트레치 : -20 %부터 +20 % 까지 시간 변화, (3) 피치 이동 : -30 %부터 +30 %까지 피치 변화 그리고 쿼리 오디오 클립은 3 s, 4 s, 5 s로 모바일 단말기에서 녹취되었다.
본 논문에서 제안한 방식을 비교하기 위해, 기존에 잘 알려진 세 가지의 방식이 사용되었고 각 방식의 파라미터 값들은 좋은 인식 결과를 얻기 위해 최적화를 시켰다. 방식 1은 본 논문에서 제안된 방식이고, 방식 2는 Wang[2]의 STFT 방식의 피크 쌍 핑거프린트 추출 방식, 방식 3은 오디오 핑거프린팅의 두 방향성 피크 탐지 방식,[4]그리고 방식 4는 Constant Q 결합 방식의 해싱 기술을 적용한 핑거프린팅 추출 방식이다.[5]
본 논문에서 제안한 방식을 비교하기 위해, 기존에 잘 알려진 세 가지의 방식이 사용되었고 각 방식의 파라미터 값들은 좋은 인식 결과를 얻기 위해 최적화를 시켰다. 방식 1은 본 논문에서 제안된 방식이고, 방식 2는 Wang[2]의 STFT 방식의 피크 쌍 핑거프린트 추출 방식, 방식 3은 오디오 핑거프린팅의 두 방향성 피크 탐지 방식,[4]그리고 방식 4는 Constant Q 결합 방식의 해싱 기술을 적용한 핑거프린팅 추출 방식이다.
의 방식을 기반으로 개선된 오디오 핑거프린팅 방식을 제안한다. 제안된 방식은 다음과 같은 4 가지의 이점이 있다: (1) MCLT(Modulated Complex Lapped Transform) 기반의 스펙트럴 피크 추출은 STFT (Short Time Fourier Transform) 기반 스펙트럴 피크 추출보다 음원 본연의 피크를 더 효과적으로 추출하여 검색정확도를 향상시킨다. (2) 메디언 필터 기반의 적응적 문턱값 방식과 피크 추출 갱신 방법을 적용하여 다양한 왜곡 환경으로부터 강인한 피크를 추출한다.
대상 데이터
실험을 위해 팝, 락, 힙합, 포크, 재즈, 클래식의 9000개 음원의 데이터베이스를 구성하였다. 모든 오디오 데이터는 모노의 PCM 파일로 저장되어 있으며 모바일 단말기와 같은 휴대장치에서 사용할 수 있도록 16 비트의 해상도, 16 kHz의 샘플링레이트로 구성하였다.
데이터처리
메디언 필터 기반의 로그 MCLT 스펙트럼 M(k,l)을 계산하기 위해 적용되는 메디언 필터 범위는 10 < r < 40, 5 < s < 20로 구성되어 있으며 이 값은 실험을 통해 도출된 최적의 필터 범위이다. 계산된 메디언 필터 기반의 로그 MCLT 스펙트럼과 로그 MCLT 스펙트럼의 값을 서로 비교하여 고 에너지를 갖는 로그 MCLT 스펙트럼 SLM(k,l)을 계산한다.
성능/효과
(2) 메디언 필터 기반의 적응적 문턱값 방식과 피크 추출 갱신 방법을 적용하여 다양한 왜곡 환경으로부터 강인한 피크를 추출한다. (3) 개선된 핑거프린트 해시를 사용함으로써 잡음, 피치 이동, 시간-스케일에 강인한 오디오 핑거 프린트를 검색에 효과적으로 적용한다. (4) 저연산, 고성능의 검색 결과를 제공할 뿐 아니라 모바일 단말기와 호환성이 뛰어나다.
(3) 개선된 핑거프린트 해시를 사용함으로써 잡음, 피치 이동, 시간-스케일에 강인한 오디오 핑거 프린트를 검색에 효과적으로 적용한다. (4) 저연산, 고성능의 검색 결과를 제공할 뿐 아니라 모바일 단말기와 호환성이 뛰어나다.
따라서 MCLT는 시프트 변화에 거의 영향을 받지 않는다.[3] MCLT 기반의 스펙트럴 피크 추출은 STFT 기반의 스펙트럴 피크 추출보다 음원 본연의 피크를 더 효과적으로 추출하는데 특히 잡음, 에코, 아트팩트와 같은 다양한 왜곡에 강인한 특성을 보인다. 왜곡에 강인한 피크 추출은 짧은 쿼리의 오디오 클립이 입력될 때 보다 더 높은 정확도로 오디오 트랙을 식별할 수 있도록 한다.
모든 오디오 데이터는 모노의 PCM 파일로 저장되어 있으며 모바일 단말기와 같은 휴대장치에서 사용할 수 있도록 16 비트의 해상도, 16 kHz의 샘플링레이트로 구성하였다. 다양한 환경의 왜곡을 부여하기 위해 질의(쿼리) 오디오데이터를 다음과 같이 구성했다: (1)잡음: 신호 대 잡음비 (SNR) 10 dB, 5 dB, 0 dB의 다양한 형태의 잡음(배블 잡음, 움직이는 자동차 잡음, 백색 잡음, 길거리 잡음, 컴퓨터 잡음), (2) 이퀄라이제이션 : 31 Hz에서 16 kHz까지 이득 값 -5 dB, 3 dB , (3) 시간 스트레치 : -20 %부터 +20 % 까지 시간 변화, (3) 피치 이동 : -30 %부터 +30 %까지 피치 변화 그리고 쿼리 오디오 클립은 3 s, 4 s, 5 s로 모바일 단말기에서 녹취되었다.[4]
인식률은 데이터베이스의 원 음원과 쿼리 간의 정확하게 매칭 된 검색 결과를 나타낸다. 실험 결과 본 논문에서 제안한 방식 1의 클린 환경에서의 결과가 96.3 %로 가장 높은 인식률을 보였다.
본 논문은 MCLT 피크쌍 기반의 강인한 해시 함수를 이용하여 다양한 왜곡 환경에서의 강인한 오디오 핑거프린팅을 생성하는 방식에 대해 제안했다. 실험 결과 제안된 방식이 기존의 핑거프린트 알고리즘 보다 더 우수한 성능 가졌다는 것을 보여주며 이는 본 논문에서 제안한 핑거프린팅 방식이 잡음과 왜곡 환경에서 강인하다는 것을 나타낸다.
Table 2는 방식 1의 쿼리 길이의 변화에 따른 각 잡음별 인식률을 나타낸다. 실험 결과 쿼리의 길이가 늘어날수록 인식률이 좋아졌으며 제안된 방식의 4 s (4 s), 5 s의 쿼리에서는 평균 90 % 이상의 좋은 인식 결과가 나타나는 것을 볼 수 있다.
후속연구
또한 본 논문에서 제안된 방식은 저 연산의 장점을 가지고 있기 때문에 모바일 단말기에서 기존 방식보다 더 적합하게 사용 될 것이라 예상되며 특히 스마트 티브이와 모바일 단말기 콘텐츠 검색 및 보안 애플리케이션에 적용될 것이라 사료된다.
향후 본 알고리즘을 최적화하는 방안과 비디오 핑거프린트에 적용하는 방안에 대해 연구할 예정이다.
질의응답
핵심어
질문
논문에서 추출한 답변
오디오 핑거프린팅 기술이 적용되기 위한 조건은 무엇인가?
최근 모바일 단말기에서 음원검색,[1] 복제 음원 검색, 광고 검색, 등 다양한 애플리케이션이 개발되어 사용되고 있다. 이러한 애플리케이션에 적용된 오디오 핑거프린팅 기술은 단구간의 질의 오디오 클립을 빠르고 정확하게 식별해 주는 방식으로써 이 기술이 적용되기 위해서는 다음과 같은 조건들이 충족되어야한다: (1) 시간-스케일, 피치 이동, 이퀄라이제이션, 다양한 잡음과 아티팩트에 강인해야 한다. (2) 단구간의 오디오 클립에 대해서 음악 검색이 가능해야 한다. (3) 저 연산의 효율적인 방식으로 핑거프린팅 생성과 음악검색을 수행해야 한다.
Wang이 제안한 방식의 문제점은 무엇인가?
이 방식은 효율적인 오디오 핑거프린트 산출과 대용량의 데이터베이스에서 음악검색을 수행할 수 있다는 두 가지 조건을 충족시킨다. 하지만 Wang[2]의 방식은 오디오 신호의 피치 이동 혹은 시간-스트레치와 같은 왜곡이 발생했을 때 오디오 핑거프린트를 통한 검색정확도가 현저하게 저하되는 문제점이 있다.
Wang의 방식을 기반으로 개선된 오디오 핑거프린팅 방식의 이점은?
따라서 이러한 문제를 해결하기 위해 본 논문에서는 Wang[2]의 방식을 기반으로 개선된 오디오 핑거프린팅 방식을 제안한다. 제안된 방식은 다음과 같은 4 가지의 이점이 있다: (1) MCLT(Modulated Complex Lapped Transform) 기반의 스펙트럴 피크 추출은 STFT (Short Time Fourier Transform) 기반 스펙트럴 피크 추출보다 음원 본연의 피크를 더 효과적으로 추출하여 검색정확도를 향상시킨다. (2) 메디언 필터 기반의 적응적 문턱값 방식과 피크 추출 갱신 방법을 적용하여 다양한 왜곡 환경으로부터 강인한 피크를 추출한다. (3) 개선된 핑거프린트 해시를 사용함으로써 잡음, 피치 이동, 시간-스케일에 강인한 오디오 핑거 프린트를 검색에 효과적으로 적용한다. (4) 저연산, 고성능의 검색 결과를 제공할 뿐 아니라 모바일 단말기와 호환성이 뛰어나다.
참고문헌 (5)
W. Li, C. Xiao, and Y. Liu, "Low-order auditory Zernike moment: a novel approach for robust music identification in the compressed domain," EURASIP J. on Advances in Signal Processing, 1-15 (2013).
A. Wang, "An industrial strength audio search algorithm," 4th International Conference Music Information Retrieval, 7-13 (2003).
M. K. Mihcak and R. Venkatesan, "A perceptual audio hashing algorithm: A tool for robust audio identication and information hiding," In: Lett. Notes in Computer Science 2137, 51-65 (2001).
T. Jiang, R. Wu, J. Li, K. Xiang, and F. Dai, "A real-time peak discovering method for audio fingerprinting," 5th International Conference on Internet Multimedia Computing and Service, 368-371 (2013).
S. Fenet, G. Richard, and Y. Grenier, "A scalable audio fingerprint method with robustness to pitch-shifting," 12th International Society for Music Information Retrieval Conference, 121-126 (2011).
※ AI-Helper는 부적절한 답변을 할 수 있습니다.