$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

Bag of Words 기반 음향 상황 인지를 위한 주파수-캡스트럴 특징
Frequency-Cepstral Features for Bag of Words Based Acoustic Context Awareness 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.33 no.4, 2014년, pp.248 - 254  

박상욱 (고려대학교 전기전자전파공학과) ,  최우현 (고려대학교 전기전자전파공학과) ,  고한석 (고려대학교 전기전자전파공학과)

초록
AI-Helper 아이콘AI-Helper

음향 상황 인지(acoustic context awareness)는 다양하게 발생되는 음원들로부터 어떠한 장소인지 또는 어떠한 사건이 발생하는지를 판단하는 기술로 음향 이벤트 검출 또는 인식 보다 한 단계 더 복잡한 문제이다. 기존의 상황인지 기술은 음향 이벤트 검출 또는 인식 기술에 기반하여 현재 상황을 인지하는 방법을 사용하고 있다. 하지만 이와 같은 접근 방법은 여러 음원이 동시에 발생하거나 유사한 음원이 발생하는 실제 환경에서 정확한 상황 판단이 어렵다. 특히 버스와 지하철은 승객들에 의한 잡음으로 상황을 인지하기 힘들다. 이러한 문제를 극복하기 위해 본 논문에서는 유사한 음향 이벤트가 발생하는 버스와 지하철 상황을 인식할 수 있는 Bag of Words 기반의 상황 인지 알고리즘을 연구하고 코드북 생성을 위한 특징벡터를 제안한다. 제안하는 특징벡터의 효용성은 Support Vector Machine을 이용한 실험을 통해 검증했다.

Abstract AI-Helper 아이콘AI-Helper

Among acoustic signal analysis tasks, acoustic context awareness is one of the most formidable tasks in terms of complexity since it requires sophisticated understanding of individual acoustic events. In conventional context awareness methods, individual acoustic event detection or recognition is em...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

  • BOW를 위해 주파수-캡스트럴 특징을 이용하여 코드북을 구성했다. 캡스트럴 특징은 22차원 벡터를 사용했고, 두 번째 baseline과 동일하게 코드북의 크기에 따라 실험을 진행했다.
  • 이때 특징 벡터는 11 차원의 MFCC와 Delta특징으로 총 22차원 벡터를 사용했다. SVM 훈련에서 사용된 커널함수는 선형(linear) 커널, 2차형(quadratic) 커널, Gaussian Radial Basis Function(GRBF), Multilayer Perceptron Kernel(MLP)로 4개의 커널 함수를 적용했다.
  • 본 논문에서는 특징벡터 차원(코드북 군집 수)이 크고 대부분 0의 요소를 갖기 때문에(블록 내 frame 수 << 코드북 군집 수) SVM을 이용한 방법이 인식에 효율적이다. SVM은 커널 함수에 따라 성능이 달라질 수 있기 때문에, 본 논문에서는 네 가지 커널함수를 사용하여 성능을 비교 측정하였다.
  • 이때, 코드북의 표현력을 결정하는 코드북 크기와 코드북을 구성하는 특징에 관한 이슈가 있다.[13] 코드북이 각 상황의 대표적인 특징을 효과적으로 반영하도록 주파수-캡스트럴 특징을 제안하였고, 코드북 크기에 따라 상황 인지 실험을 수행하였다. 실험을 통해 제안하는 특징을 사용한 경우 동일한 이벤트가 발생하는 상황을 인지하는데 가장 높은 인식 성능을 확인하였다.
  • 본 논문에서는 BOW기반 음향 상황 인지에서 코드북을 구성하는 1st level 특징 벡터로써 주파수-캡스트럴 특징을 제안한다.
  • 본 논문에서는 frame 에너지 E, frame 에너지 변화량 ΔE, 에너지의 실효값을 의미하는 volume V지표를 위 음색 특징과 함께 사용했으며, 수식은 각각 다음 Eqs.
  • 본 실험에서는 코드북 크기, 필터뱅크 매개변수(parameter), SVM 커널함수에 따른 인식 실험을 진행하였다. BOW 기반 음향 상황인지 알고리즘에서 코드북 크기가 클수록 다양한 음향 상황을 표현할 수 있어 높은 성능을 확인할 수 있다.
  • 참고문헌 14 논문에서는 코드북 구성을 위해 SC, SS, roll-off, ERSB, ZCR, E, V의 주파수 특징을 사용하였다. 실험은 코드북 크기에 따라 128, 256, 512 총 세 가지 경우에 대해서 진행했으며, 인식을 위한 SVM은 MFCC- SVM 실험과 동일한 커널 함수에서 성능을 각각 측정했다.
  • 참고문헌 14 논문에서는 코드북 구성을 위해 SC, SS, roll-off, ERSB, ZCR, E, V의 주파수 특징을 사용하였다. 실험은 코드북 크기에 따라 128, 256, 512 총 세 가지 경우에 대해서 진행했으며, 인식을 위한 SVM은 MFCC- SVM 실험과 동일한 커널 함수에서 성능을 각각 측정했다.
  • BOW를 위해 주파수-캡스트럴 특징을 이용하여 코드북을 구성했다. 캡스트럴 특징은 22차원 벡터를 사용했고, 두 번째 baseline과 동일하게 코드북의 크기에 따라 실험을 진행했다. 두 baseline 실험 결과와 제안하는 방법의 실험 결과를 Table 3에 정리했다.

대상 데이터

  • 본 논문에서는 유사한 환경음 속에 동일한 음향 이벤트가 발생하는 상황을 인식하기 위해 버스와 지하철 상황을 선정 하였다. Table 2는 실험에 사용된 DB의 분량을 보여준다.
  • 2는 논문에서 제안하는 캡스트럴 특징 추출 과정을 나타내며 필터링(filtering) 단계를 제외하고 MFCC를 추출하는 과정과 동일하다. 본 논문에서는 필터링과정에서 버스와 지하철 상황에서 에너지 분포가 유사한 대역에서 높은 분해능을 갖는 필터뱅크(filterbank)를 사용했다. 따라서 에너지 분포가 유사한 대역에서 스펙트럼의 포락선 차이를 효과적으로 반영할 수 있다.
  • 이러한 이벤트들은 공통적으로 약 2 kHz 이상의 주파수 대역에서 에너지가 분포하기 때문에 해당 대역의 분해능을 낮추어 유사한 이벤트로 발생하는 오류를 줄일 수 있다. 본 논문에서는 필터뱅크에서 두 변수 a, b에 따라 총 38개의 필터를 사용하였으며, HTK[16]를 이용하여 추출한 MFCC와 성능 비교를 위해 Fig. 3과 같이 삼각모양의 필터를 사용하였다.
  • Table 2는 실험에 사용된 DB의 분량을 보여준다. 실험 database는 녹음기를 이용하여 서울 시내 일반버스(Normal)와 저상버스(Low), 그리고 서울 지하철(1호선 ~ 9호선과 분당선, 공항철도)에서 수집하였다. 녹음 데이터는 실험을 위해 16 kHz, Mono, 16 bits resolution으로 변환하였다.
  • 코드북 생성과 SVM 훈련을 위한 데이터는 버스와 지하철의 주행 잡음 구간으로 약 2,000 s 분량을 구축하였다. 테스트 데이터는 한 블록 단위(4 s)로 분할하여 총 15,448개의 database를 구축 하였다.
  • 테스트 데이터는 한 블록 단위(4 s)로 분할하여 총 15,448개의 database를 구축 하였다. 테스트 데이터는 실제 상황과 동일하게 대화소리, 기침 등 승객들로 인해 발생할 수 있는 이벤트들과 라디오, 안내방송, 버스 경적음, 버스카드부저음, 버스 하차벨음, 버스 또는 지하철 주행음 등 다양한 이벤트들이 포함되어 있다.
  • 코드북 생성과 SVM 훈련을 위한 데이터는 버스와 지하철의 주행 잡음 구간으로 약 2,000 s 분량을 구축하였다. 테스트 데이터는 한 블록 단위(4 s)로 분할하여 총 15,448개의 database를 구축 하였다. 테스트 데이터는 실제 상황과 동일하게 대화소리, 기침 등 승객들로 인해 발생할 수 있는 이벤트들과 라디오, 안내방송, 버스 경적음, 버스카드부저음, 버스 하차벨음, 버스 또는 지하철 주행음 등 다양한 이벤트들이 포함되어 있다.

이론/모형

  • 1. Flowchart of acoustic context awareness using the Bag of Words approach.
  • [7] HMM이외에 Support Vector Machines(SVM)을 사용하여 음향 이벤트를 인식한 연구도 발표되었다.[8,9] 감시 시스템을 위한 비정상 상황 인지 기술에서는 MFCC와 음색특징을 사용하여, Hierarchical Gaussian Mixture Model(HierarchicalGMM)로 인식을 수행했다.[10] 최근 음원 분리 기술을 적용하여 중첩된 이벤트가 발생하는 상황에서도 인식을 수행하고 있다.
  • 본 논문에서는 동일한 이벤트가 발생하는 버스와 지하철 상황을 인지하기 위해 Bag of Words (BOW) 기반의 인식 알고리즘을 적용하였다. BOW 기반 인식 알고리즘은 코드북 기반의 히스토그램 특징을 이용하여 인식을 수행하기 때문에 동일한 이벤트가 발생하는 상황에서도 상황을 인식할 수 있다.
  • 음향 이벤트 검출 또는 인식에 기반하여 음향 상황을 인지를 수행하는 기존 연구에서 Mel Frequency Cepstral Coefficient(MFCC)와 Hidden Markov Model(HMM)을 사용하였다.[2-6] 또한 Linear Predictive Coding Cepstrum(LPCC)와 HMM을 사용하여 5가지 환경음을 인식한 연구도 발표되었다.
  • 기존 음향 상황 인지를 위한 알고리즘은 이벤트가 중첩되거나 유사한 이벤트가 발생하는 상황에서는 어려움이 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 주파수-캡스트럴 특징 기반의 BOW 접근법을 사용하였다. 본 논문에서 제안하는 특징은 주파수에 따른 에너지 분포와 스펙트럼의 포락선을 반영하고 있으며 동시에 본 논문에서 사용한 캡스트럴 특징은 에너지 분포가 유사한 대역에서 높은 분해능을 갖는 필터뱅크를 사용함으로써 포락선을 효과적으로 반영할 수 있다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
음향 상황 인지는 어떤 기술인가? 음향 상황 인지(acoustic context awareness)는 다양한 음원이 발생하는 환경에서 현재 어떠한 장소에 있는지 혹은 어떠한 사건이 발생하였는지를 판단하는 기술이다. 사용자가 항상 소지하고 다니는 스마트폰에 상황 인지 알고리즘을 적용하면 사용자에게 여러 편의를 제공할 수 있다.
BOW 기반 인식 알고리즘의 특징은 무엇인가? 본 논문에서는 동일한 이벤트가 발생하는 버스와 지하철 상황을 인지하기 위해 Bag of Words (BOW) 기반의 인식 알고리즘을 적용하였다. BOW 기반 인식 알고리즘은 코드북 기반의 히스토그램 특징을 이용하여 인식을 수행하기 때문에 동일한 이벤트가 발생하는 상황에서도 상황을 인식할 수 있다. 이때, 코드북의 표현력을 결정하는 코드북 크기와 코드북을 구성하는 특징에 관한 이슈가 있다.
기존의 상황 인지 기술은 음향 이벤트 검출 또는 인식 기술에 기반하여 현재 상황을 인지하는 방법을 사용했는데 어떤 문제점이 있는가? 기존의 상황인지 기술은 음향 이벤트 검출 또는 인식 기술에 기반하여 현재 상황을 인지하는 방법을 사용하고 있다. 하지만 이와 같은 접근 방법은 여러 음원이 동시에 발생하거나 유사한 음원이 발생하는 실제 환경에서 정확한 상황 판단이 어렵다. 특히 버스와 지하철은 승객들에 의한 잡음으로 상황을 인지하기 힘들다.
질의응답 정보가 도움이 되었나요?

참고문헌 (16)

  1. W.H. Choi, S.I. Kim, M.S. Keum, D.K. Han, and H. Ko, "Acoustic and visual signal based context awareness system for mobile application," IEEE Trans. Cons. Elec. 57. 2 738-746 (2011). 

  2. B. Clarkson, N. Sawhney, and A. Pentland, "Auditory context awareness via wearable computing," in Proc. Works. Perceptual User Interface, 37-42 (1998). 

  3. L. Ma, B. Milner, and D. Smith, "Environmental noise classification for context-aware application," in Proc. Works. Database and Expert Sys. Appl. 2736, 360-370 (2003). 

  4. L. Ma, B. Milner, and D. Smith, "Acoustic environment classification," ACM Trans. Speech and Lang. Process. 3, 2, 1-22 (2006). 

  5. A. J. Eronenm, V. T. Peltonen, J. T. Tuomi, A. P. Klapuri, S. Fagerlund, T. Sorsa, G. Lorho, and J. Huopaniemi, "Audio-based context recognition," IEEE Trans. Audio, Speech, and Lang. Process. 14, 321-329 (2006). 

  6. T. Nishiura, S. Nakamura, K. Miki, and K. Shikano, "Environmental sound source identification based on hidden Markov model for robust speech recognition," in Proc. Eurospeech-Interspeech, 2157-2160 (2003). 

  7. P. Gaunard, C.G. Mubikangiey, C. Couvneur, and V. Fontaine, "Automatic classification of environmental noise events by hidden Markov model," in Proc IEEE Inter. Conf. Acoust., Speech, and Sig. Process. 6, 3609-3612 (1998). 

  8. G. Guo and S.Z. Li, "Content-based audio classification and retrieval by support vector machines," IEEE Trans. Neural Networks 14, 209-215 (2003). 

  9. A. Temko, E. Monte, and C. Nadeu, "Comparison of sequence discriminant support vector machines for acoustic event classification," in Proc. IEEE Inter. Conf. Acoust., Speech, and Sig. Process. 5, 721-724 (2006). 

  10. K. Kim and H. Ko, "Hierarchical approach for abnormal acoustic event classification in an elevator," in Proc. IEEE Inter. Conf. Ad. Video and Sig. Surveillance, 88-94 (2011). 

  11. T. Heittola, A. Mesaros, A. Eronen, and T. Virtanen, "Context-dependent sound event detection," EURASIP J. Audio, Speech, and Music Process. 1, 1-13 (2013). 

  12. T. Heittola, A. Mesaros, T. Virtanen, and M. Gabbouj, "Supervised model training for overlapping sound events based on unsupervised source separation," in Proc IEEE Inter. Conf. Acoust., Speech, and Sig. Process. 8677-8681 (2013). 

  13. S. Rawat, P. F. Schulam, S. Burger, D. Ding, Y. Wang, and F. Metze, "Robust audio-codebooks for large-scale event detection in consumer videos," in Proc. Interspeech, 2929-2933 (2013). 

  14. V. Carletti, P. Foggia, G. Percannella, A. Saggese, N. Strisciuglio, and M. Vento, "Audio surveillance using a bag of aural words classifier," in Proc. IEEE Inter. Conf. Ad. Video and Sig. Surveillance, 81-86 (2013). 

  15. T. George and P. Cook, "Musical genre classification of audio signals," IEEE Trans. Speech and Audio Process. 10. 5, 293-302 (2002). 

  16. The HTK book Version 3.4, Cambridge University Engineering Department, (2009). 

저자의 다른 논문 :

LOADING...
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로