[논문]다양한 소리 환경에서 UBM 기반의 비명 소리 검출

정용주

doi:10.13067/jkiecs.2017.12.3.485

초록
AI-Helper

GMM(: Gaussian Mixture Model)은 비명 소리를 검출하기 위해서 가장 많이 사용되는 기법의 하나이다. 기존의 GMM 방식에서는 전체 훈련데이터를 비명소리와 비-비명 소리로 나누고, 훈련과정을 통하여 각각의 GMM 모델을 생성하게 된다. 그러나 본 연구에서는 비명 소리 검출 과정이 화자인식과 매우 유사하다는 점에 착안하여 화자인식에서 매우 효과적으로 사용된 UBM(: Universal Background Model) 방식을 비명소리 검출에 적용할 것을 제안하였다. 제안된 UBM 방식을 통한 검출 실험 결과 기존의 GMM 방식에 비하여 더 나은 검출 성능을 보임을 인식 실험을 통하여 확인 할 수 있었다.

Abstract ▼ AI-Helper

GMM has been one of the most popular methods for scream sound detection. In the conventional GMM, the whole training data is divided into scream sound and non-scream sound, and the GMM is trained for each of them in the training process. Motivated by the idea that the process of scream sound detecti...

GMM has been one of the most popular methods for scream sound detection. In the conventional GMM, the whole training data is divided into scream sound and non-scream sound, and the GMM is trained for each of them in the training process. Motivated by the idea that the process of scream sound detection is very similar to that of speaker recognition, the UBM which has been used quite successfully in speaker recognition, is proposed for use in scream sound detection in this study. We could find that UBM shows better performance than the traditional GMM from the experimental results.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

기존의 비명 소리 검출을 위해서는 비명 소리와 비-비명 소리 각각에 대해서 독립적으로 GMM을 생성하는 방법을 사용 하였다. 그러나 비명 검출과 매우 유사한 메카니즘을 갖고 있는 화자인식에서는 단순한 GMM 보다는 UBM을 이용하여 성능이 향상된다는 연구 결과가 많이 발표되었으며, 이에 근거하여 본 연구에서는 UBM 기반의 비명소리 검출 방식을 제안하였다. 다양한 오디오 데이터를 이용한 비명 검출 실험을 통하여 UBM 기반 방식이 기존의 GMM 방식에 비해서 향상된 성능을 보임을 알 수 있다.
본 연구에서는 비명 소리 검출을 위한 기존의 GMM 방식의 성능 개선을 위하여 UBM 기법을 제안하고자 한다. 기존의 GMM 방식에서는 비명소리와 비-비명소리에 각각에 대해서 독립적인 GMM 모델을 훈련과정에서 만들게 된다.

가설 설정

GMM에서는 MFCC 특징벡터 x가 아래와 같은 확률밀도 함수를 가진다고 가정한다.

제안 방법

우리는 본 연구에서 기존의 GMM을 이용한 비명 검출 대신에 UBM-GMM 방식을 사용함으로서 검출성능의 향상을 시도하였다. GMM과 UBM-GMM을 MAP 적응한 경우 그리고 UBM-GMM을 MLE 적응한 경우의 성능을 쉽게 비교하기 위하여 표 1, 표 2 그리고 표 3으로 부터 혼합성분의 개수가 20 인 경우를 선택하여 그림 1에 함께 나타내어 보았다. 혼합성분의 개수에 따라 성능이 다소 변동이 있지만 혼합성분의 개수가 20일 때 베이스라인이라 생각할 수 있는 GMM의 성능이 최적이라고 판단되었기 때문이다.
본 연구에서 c0를 제외한 12차의 MFCC 벡터를 오디오 신호의 특징으로 사용하였다. 또한 ETSI(: European Telecommunication Standard Institute)에서 표준으로 정의되어 있는 AFE(: Advanced Front-End)방식을 사용하여 MFCC 추출시에 배경잡음을 효과적으로 제거하도록 함으로서 잡음에 강인한 MFCC 특징 벡터를 얻을 수 있도록 하였다[11].
우리는 본 연구에서 기존의 GMM을 이용한 비명 검출 대신에 UBM-GMM 방식을 사용함으로서 검출성능의 향상을 시도하였다. GMM과 UBM-GMM을 MAP 적응한 경우 그리고 UBM-GMM을 MLE 적응한 경우의 성능을 쉽게 비교하기 위하여 표 1, 표 2 그리고 표 3으로 부터 혼합성분의 개수가 20 인 경우를 선택하여 그림 1에 함께 나타내어 보았다.
그러나 최근에는 음성인식에서 우수한 성능을 보인 MFCC(: Mel-frequency cepstral coefficient)를 이용함으로서 보다 향상된 검출 성능을 보이는 연구 결과들이 발표되고 있다[5]. 이러한 점에 착안하여 본 연구에서도 MFCC를 비명 소리 검출을 위한 기본 특징으로 사용하였다.

대상 데이터

필터뱅크 출력은 로그 변환을 거친 후 DCT(: Discrete Cosine Transform)를 거쳐서 13차의(c0포함) MFCC 벡터로 변환된다. 본 연구에서 c0를 제외한 12차의 MFCC 벡터를 오디오 신호의 특징으로 사용하였다. 또한 ETSI(: European Telecommunication Standard Institute)에서 표준으로 정의되어 있는 AFE(: Advanced Front-End)방식을 사용하여 MFCC 추출시에 배경잡음을 효과적으로 제거하도록 함으로서 잡음에 강인한 MFCC 특징 벡터를 얻을 수 있도록 하였다[11].
비명 인식 실험을 위하여 필요한 데이터는 인터넷 상에서 얻을 수 있는 비명 소리와 다양한 오디오 신호들을 이용하였다²⁾.
전체 데이터는 비명 소리와 비-비명 소리로 나누어지며 비명 소리는 1초에서 12초의 길이를 가지는 63개의 파일로 구성되어 있다. 비-비명 소리는 1초에서 225초의 길이를 가지는 213개의 파일로 구성되어 있다.

이론/모형

비-비명소리에는 다양한 오디오 신호들이 포함되어 있는데 그 중에 대표적인 것으로는 고양이 울음소리, 개짓는 소리, 길거리 소음소리, 애기들 우는 소리, 웃음소리 등이 있다. 충분한 양의 실험데이터를 확보하기 위하여 전체 데이터를 4등분 한 후 잭나이프 방식을 이용하여 훈련과 인식을 수행하였다. 이 과정에서 3/4 는 훈련데이터로 사용하고 1/4는 인식데이터로 사용하였으며, 훈련과 인식 데이터 셋을 교체하면서 4번의 인식실험이 가능하도록 하였다.

성능/효과

혼합성분의 개수에 따라 성능이 다소 변동이 있지만 혼합성분의 개수가 20일 때 베이스라인이라 생각할 수 있는 GMM의 성능이 최적이라고 판단되었기 때문이다. UBM-GMM을 MLE 방식을 통해서 적응할 경우 기 GMM에 비해서 FAR에서는 거의 유사한 결과(6.4% vs. 8.6%)를 얻을 수 있었으나 FRR에서 상당히 향상된 성능(26.9% vs. 22.6%)을 보임을 확인할 수 있었다. 또한, MLE 적응은 MAP적응에 비해서 FRR과 FAR 모두에서 향상된 성능을 보임으로서 본 연구에서 실행한 비명 신호 검출에서는 MAP 적응보다는 MLE 적응이 유리함을 확인 할 수 있었다.
표 1에는 기존의 GMM 방식의 비명 검출 결과를 GMM 혼합성분의 개수를 증가시켜 가면서 나타내고 있다. 검출 결과는 False Rejection Rate(: FRR) 와 False Acceptance Rate(: FAR) 두 가지로 표현되는데 FRR는 인식데이터가 비명인데도 불구하고 비-비명으로 판정 나는 경우를 말하며 FAR는 반대로 인식 데이터가 비-비명인데도 비명으로 판단하는 오류를 나타낸다. 표1을 통해서 보면 비명 GMM과 비-비명 GMM의 혼합성분의 개수에 따라서 인식성능의 변화가 심하다는 것을 알 수 있는데, 특히 혼합성분의 개수가 증가 할수록 FRR는 나빠지고 FAR는 향상되는 것을 알 수 있다.
그러나 비명 검출과 매우 유사한 메카니즘을 갖고 있는 화자인식에서는 단순한 GMM 보다는 UBM을 이용하여 성능이 향상된다는 연구 결과가 많이 발표되었으며, 이에 근거하여 본 연구에서는 UBM 기반의 비명소리 검출 방식을 제안하였다. 다양한 오디오 데이터를 이용한 비명 검출 실험을 통하여 UBM 기반 방식이 기존의 GMM 방식에 비해서 향상된 성능을 보임을 알 수 있다. 특히, UBM의 적응을 위해서는 MAP 방식 보다는 MLE 방식이 더 효과적임을 확인 할 수 있었다.
6%)을 보임을 확인할 수 있었다. 또한, MLE 적응은 MAP적응에 비해서 FRR과 FAR 모두에서 향상된 성능을 보임으로서 본 연구에서 실행한 비명 신호 검출에서는 MAP 적응보다는 MLE 적응이 유리함을 확인 할 수 있었다. 이는 MLE 적응에서는 반복적인 EM 과정을 통해서 충분히 훈련데이터에 대한 로그 우도를 향상 시킬 수 있었기 때문이라 판단된다.
다양한 오디오 데이터를 이용한 비명 검출 실험을 통하여 UBM 기반 방식이 기존의 GMM 방식에 비해서 향상된 성능을 보임을 알 수 있다. 특히, UBM의 적응을 위해서는 MAP 방식 보다는 MLE 방식이 더 효과적임을 확인 할 수 있었다. 향후 비명인식의 보다 향상된 성능을 위해서는 본 연구에서 적용되었든 UBM-GMM에 클래스 간의 차별성을 강조하는 LDA(: Linear Discriminant Analysis) 및 HLDA(: Heteroscedastic LDA) 기법 [12] 등을 적용할 예정이다.
검출 결과는 False Rejection Rate(: FRR) 와 False Acceptance Rate(: FAR) 두 가지로 표현되는데 FRR는 인식데이터가 비명인데도 불구하고 비-비명으로 판정 나는 경우를 말하며 FAR는 반대로 인식 데이터가 비-비명인데도 비명으로 판단하는 오류를 나타낸다. 표1을 통해서 보면 비명 GMM과 비-비명 GMM의 혼합성분의 개수에 따라서 인식성능의 변화가 심하다는 것을 알 수 있는데, 특히 혼합성분의 개수가 증가 할수록 FRR는 나빠지고 FAR는 향상되는 것을 알 수 있다. 이는 비명 GMM에서 혼합성분의 개수를 증가시키는 것은 오히려 비명에 대한 모델링에 악영향을 미치는 반면에 비-비명의 경우에는 모델링에 향상의 효과가 있음을 의미한다.

후속연구

화자인식은 특정 화자를 수많은 화자 중에서 찾아내는 방식인데, 본 연구에서 진행하는 비명 소리 검출도 수많은 다양한 소리 중에서 비명 소리만 검출한다는 점에서 화자인식과 비명검출은 그 인식 메카니즘이 매우 유사하다고 판단된다. 따라서 화자인식에서 성능 향상의 효과를 보였던 UBM 방식이 비명 소리 검출에서 적용될 경우 기존의 GMM에 비하여 보다 나은 성능을 나타낼 것이라 기대된다.
특히, UBM의 적응을 위해서는 MAP 방식 보다는 MLE 방식이 더 효과적임을 확인 할 수 있었다. 향후 비명인식의 보다 향상된 성능을 위해서는 본 연구에서 적용되었든 UBM-GMM에 클래스 간의 차별성을 강조하는 LDA(: Linear Discriminant Analysis) 및 HLDA(: Heteroscedastic LDA) 기법 [12] 등을 적용할 예정이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	16 kHz로 샘플링 된 오디오 신호의 변환과정은 어떻게 되는가?	16 kHz로 샘플링 된 오디오 신호는 고차원 성분을 강조하는 고주파 통과 필터인 pre-emphasis 와 25ms의 길이를 가지는 Hamming windowing을 거친 후 FFT(: Fast Fourier Transform)을 통하여 Mel-scale의 필터뱅크 출력(filterbank output)으로 변환된다. 필터뱅크 출력은 로그 변환을 거친 후 DCT(: Discrete Cosine Transform)를 거쳐서 13차의(c0포함) MFCC 벡터로 변환된다.
	전통적으로 비명 소리 검출을 위한 오디오 신호의 특징으로 사용된 값은 무엇인가?	비명 소리 검출을 위한 오디오 신호의 특징으로는 전통적으로 영교차율(zero crossing rate), 피치(pitch) 그리고 상관계수(correlation)값들이 사용되어 왔다[5], [10]. 그러나 최근에는 음성인식에서 우수한 성능을 보인 MFCC(: Mel-frequency cepstral coefficient)를 이용함으로서 보다 향상된 검출 성능을 보이는 연구 결과들이 발표되고 있다[5].
	오디오 분석 기술을 보안 상황에 접목한 연구에는 무엇이 있는가?	최근에는 이와 같은 오디오 분석 기술을 보완 상황에 접목한 우수한 연구결과들이 다수 발표되고 있다1). 예를 들어, 자동차의 주변에서 발생하는 소음을 탐지하여 외부 충격 여부를 결정한다든지 사람의 비명소리나 크게 다투는 소리 또는 총소리 등을 CCTV에 부착된 마이크로폰을 통하여 탐지하는 기능에 대한 연구들이 있었다[1-6]. 그밖에도 최근에 들어서는 단순한 특정 소리만을 탐지하는 기능을 벗어나서, 여러 가지 종류의 소리를 탐지한 이후 이들이 소리를 발생시키는 현장의 상황을 종합적으로 판단하는 오디오장면 검출 분야가 음성인식의 새로운 분야로 떠오르고 있기도 한다[7].

참고문헌 (12)

W. Kim, Y. Kim and G. Lee, "Sound recognition and tracking system design using robust sound extraction section", J. of the Korea Institute of Electronic Communication Sciences, vol. 11, no. 8, 2016, pp. 759-766.

원문보기 상세보기
J. H. Seo, H. Lee and S. Lee, "A Design of a scream detecting engine for surveillance systems", The Korean Institute of Electrical Engineers, vol. 63, no. 11, 2014, pp. 1559-1563, Nov. 2014.

원문보기 상세보기
S. Ntalampiras, I. Potamitis and N. Fakotakis, "On acoustic surveillance of hazardous situations", In Proc. IEEE International Conference on Acoustics, Speech and Signal Processing, Tapei, Taiwan, April 2009, pp. 165-168.
J. Park, J. Lim, J. Yang, J. Kyung and M. Hahn, "False Positive Movie Clip Decision in Black-box Using Car Door-Closing Sound Classification", The Institute of Electronics and Information Engineers, vol. 37, no. 1, June. 2014, pp. 761-763.
J. Pohjalainen, P. Alku and T. Kinnunen, "Shout detection in noise", in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing, Prague, Czech Republic, May 2011, pp. 4968-4971.
L. Gerosa, G. Valenzise, M. Tagliasacchi, F. Antonacci and A. Sarti, "Scream and Gunshot Detection in Noisy Environments", in Proc. European Signal Processing Conference, Poznan, Poland, Sept. 2007, pp. 1216-1220.
K. Imoto and N. Ono, "Acoustic scene analysis from acoustic event sequence with intermittent missing event" in Proc. IEEE International Conference on Acoustics Speech and Signal Processing., South Brisbane, Australia, 2015, pp.156-159.
S. Chung and Y. Chung, "A comparision between methods for scream detection based on SVM and GMM", J. of Korean Institute of Information Technology, vol. 15, no. 3, Mar. 2017, pp. 65-72.
D. Reynolds, T. Quatieri and R. Dunn, "Speaker verification uisng adapted Gaussian mixture model", Digital Signal Processing, vol. 10, no.1, 2000, pp.19-41.

상세보기
W. Huang, T. K. Chiew, H. Li, T. S. Kok and J. Biswas, "Scream detection for home applications", in Proc. of IEEE Conference on Industrial Electronics and Applications, June 2010, pp. 2115-2120.
ETSI draft standard doc., Speech Processing, Transmission and Quality aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithm. ETSI Standard ES 202 050, 2002.
J. Lee, "A study on face recognition system using LDA and SVM", J. of the Korea Institute of Electronic Communication Sciences, vol. 10, no. 11, 2015, pp. 1307-1314.

원문보기 상세보기

이 논문을 인용한 문헌

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

다양한 소리 환경에서 UBM 기반의 비명 소리 검출
Scream Sound Detection Based on Universal Background Model Under Various Sound Environments 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (12)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

다양한 소리 환경에서 UBM 기반의 비명 소리 검출 Scream Sound Detection Based on Universal Background Model Under Various Sound Environments 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (12)

이 논문을 인용한 문헌

저자의 다른 논문 :

정용주 (30)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

다양한 소리 환경에서 UBM 기반의 비명 소리 검출
Scream Sound Detection Based on Universal Background Model Under Various Sound Environments 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper