$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

파워 가중치를 이용한 오디오 핑거프린트 정합
Audio fingerprint matching based on a power weight 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.38 no.6, 2019년, pp.716 - 723  

서진수 (강릉원주대학교 전자공학과) ,  김정현 (한국전자통신연구원 차세대콘텐츠연구본부) ,  김혜미 (한국전자통신연구원 차세대콘텐츠연구본부)

초록
AI-Helper 아이콘AI-Helper

음악 검색을 서비스하기 위해서는 핑거프린트 정합 정확도가 중요하다. 본 논문에서는 파워 가중치를 이용하여 오디오 핑거프린트 정합 성능을 제고하고자 한다. 파워 가중치는 핑거프린트 비트 추출 과정에서 유실되는 정보를 이용하여 구한 핑거프린트 비트의 예측 강인도이다. 기존 파워 마스크 방법은 저장 공간을 줄이기 위해서 이진화를 통해서 강인한 비트와 연약한 비트로 나눈다. 본 논문에서는 정합 성능을 향상시키기 위해서 실수 값 형태의 파워 가중치를 사용하는 방법을 제안한다. 또한 시간축 방향으로 연관성이 강한 파워 가중치의 특성을 이용하여 압축하여 저장공간을 줄일 수 있도록 한다. 공개된 음악 데이터셋에서 실험을 수행하여, 제안된 파워 웨이트가 오디오 핑거프린트 정합성능을 제고함을 확인하였다.

Abstract AI-Helper 아이콘AI-Helper

Fingerprint matching accuracy is essential in deploying a music search service. This paper deals with a method to improve fingerprint matching accuracy by utilizing an auxiliary information which is called power weight. Power weight is an expected robustness of each hash bit. While the previous powe...

주제어

표/그림 (5)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 기존 파워 마스크 방법은 예측 강인도 정보를 그대로 가중치로 사용하지 않고, DB 저장공간을 줄이기 위해서 이진화하였다. 본 논문에서는 예측 강인 도를 이진수가 아닌 실수 형태의 가중치로 사용하는 파워 웨이트 방법을 제안한다. 오디오 잡음의 종류 및 소리의 크기가 다양하므로, 핑거프린트 DB를 구축할 때 예측 강인도를 정밀하게 계산하는 것은 불가능하다.
  • [4,5] 파워 마스크는 핑거프린트 추출 과정에서 각 핑거프린트 비트의 예상 강인도를 추정한 것으로, 저장 공간을 줄이기 위해서 이진화를 통해서 강인한 비트와 연약한 비트로 나누어 저장한다. 본 논문은 파워 마스크를 개선한 파워 웨이트 방법을 제안한다. 기존 파워 마스크 방법은 예측 강인도를 이진화하는 과정 에서 강인도 정보의 유실이 크지만 제안한 파워 웨이트는 강인도 정보를 그대로 사용할 수 있는 장점이 있다.

가설 설정

  • 따라서 기존 파워 마스크 방법은 Eq. (1)의 에너지 차분의 크기인 |F[n,m]|의 값이 클수록 예측 강인도가 클 것으로 가정하고 파워 마스크를 유도하였다. 제안한 파워 웨이트 방법에서도 마찬가지로 |F[n,m]|의 값이 클수록 예측 강인도가 클 것으로 가정한다.
  • (b) SNR –10 dB.
  • 순위 Rn[m]이 클수록 파워 웨이트 W[n,m]도 커져야한다. 본 논문에서는 파워 웨이트 W[n,m]이 0.5에서 0.9 사이의 값을 가진다고 가정하였다. 즉 확률적으로 가장 크기 값이 작은 핑거프린트 비트의 예측 강인도는 0.
  • (1)의 에너지 차분의 크기인 |F[n,m]|의 값이 클수록 예측 강인도가 클 것으로 가정하고 파워 마스크를 유도하였다. 제안한 파워 웨이트 방법에서도 마찬가지로 |F[n,m]|의 값이 클수록 예측 강인도가 클 것으로 가정한다. 먼저 n번째 프레임의 |F[n,m]|의 값을 크기순으로 오름차순으로 정렬할 때 |F[n,m]|의 순위를 Rn[m]이라 하자.
  • 9 사이의 값을 가진다고 가정하였다. 즉 확률적으로 가장 크기 값이 작은 핑거프린트 비트의 예측 강인도는 0.5(즉, 50 % 정합 성공 확률) 이고, 가장 크기 값이 큰 핑거프린트 비트의 예측 강인도는 0.9(즉, 90 % 정합 성공 확률)로 가정하였다. 어떠한 변형이나 잡음이 가해질지 예상하기 어려우므로, 파워 웨이트의 형태를 정밀하게 정하는 것은 불가능하다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
파워 웨이트 방법의 단점은 무엇인가? 기존 파워 마스크 방법은 예측 강인도를 이진화하는 과정 에서 강인도 정보의 유실이 크지만 제안한 파워 웨이트는 강인도 정보를 그대로 사용할 수 있는 장점이 있다. 기존의 파워 마스크 방법은 이진화를 통해 파워 마스크를 저장하기 위해서 필요한 저장공간이 핑거프린트 저장공간의 크기와 같지만, 제안한 파워 웨이트는 파워 마스크와 비교하여 저장 공간이 많이 필요한 단점이 있다. 이를 개선하기 위해서 예측 강인도가 시간축 방향으로 상관도가 높으며, 음악의 경우 같은 노래 안에서 반복적으로 유사한 신호 패턴이 관찰되는 경우가 많다는 성질을 이용하여 파워 웨이트 압축 방법을 제안한다.
핑거프린팅이란 무엇인가? 핑거프린팅은 생체 식별에서 사람의 지문, 홍채 등을 이용하여 그 사람을 인식하는 것처럼 콘텐츠의 특징을 이용하여 해당 콘텐츠를 식별하는 기술을 말하며, 검색 서비스를 위한 핵심 기술이다.[1-3] 이 때 사용되는 특징을 핑거프린트 또는 해시라고 부른다.
이진수 형태의 핑거프린트의 문제점은 무엇인가? 일반적으로 오디오 식별을 위해서는 차별화되고 강인성이 있는 특징을 추출한 후 이진화하여 간결한 형태로 만들어 핑거프린트를 만든다. 특징 추출 및이진화 과정에서 정보의 손실이 발생하며, 따라서 이진수 형태의 핑거프린트만으로는 오디오 식별 성능을 개선하는 것이 어렵다. 오디오 식별 성능을 제고하기 위한 방법의 하나로 핑거프린트 추출 과정 중에 얻어지는 부가정보를 핑거프린트 정합의 가중치로 사용하는 파워 마스크 방법이 제안되었다.
질의응답 정보가 도움이 되었나요?

참고문헌 (6)

  1. J. Haitsma and T. Kalker, "A highly robust audio fingerprinting system," Proc. International Conf. on Music Information Retrieval, 107-115 (2002). 

  2. J. Lee and H. Kim, "Audio fingerprinting using a robust hash function based on the MCLT peak-pair" (in Korean), J. Acoust. Soc. Kr. 34, 157-162 (2015). 

  3. J. Seo, "Audio fingerprint binarization by minimizing hinge-loss function" (in Korean), J. Acoust. Soc. Kr. 32, 415-422 (2013). 

  4. B. Coover and J. Han, "A power mask based audio fingerprint," Proc. IEEE ICASSP. 1394-1398 (2014). 

  5. J. Seo, "A resilience mask for robust audio hashing," IEICE Trans. Inf. & Syst. 100, 57-60 (2017). 

  6. Marsyas GTZAN data sets, http://marsyas.info/downloads/datasets.html/, (Last viewed July 24, 2019). 

저자의 다른 논문 :

LOADING...
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로