[논문]다채널 오디오 특징값 및 게이트형 순환 신경망을 사용한 다성 사운드 이벤트 검출

고상선; 조혜승; 김형국

doi:10.7776/ask.2017.36.4.267

초록
AI-Helper

본 논문에서는 다채널 오디오 특징값을 게이트형 순환 신경망(Gated Recurrent Neural Networks, GRNN)에 적용한 효과적인 다성 사운드 이벤트 검출 방식을 제안한다. 실생활의 사운드는 여러 사운드 이벤트가 겹쳐있는 다성사운드로, 기존의 단일 채널 오디오 특징값으로는 다성 사운드에서 개별적인 이벤트의 검출이 어렵다는 한계가 있다. 이에 본 논문에서는 다채널 오디오 신호를 기반으로 추출된 특징값을 사용하여 다성 사운드 이벤트 검출에 적용하였다. 또한 본 논문에서는 현재 순환 신경망에서 가장 높은 성능을 보이는 장단기 기억 신경망(Long Short Term Memory, LSTM) 보다 간단한 GRNN을 분류에 적용하여 다성 사운드 이벤트 검출의 성능을 더욱 향상시키고자 하였다. 실험결과는 본 논문에서 제안한 방식이 기존의 방식보다 성능이 더 뛰어나다는 것을 보인다.

Abstract ▼ AI-Helper

In this paper, we propose an effective method of applying multichannel-audio feature values to GRNNs (Gated Recurrent Neural Networks) in polyphonic sound event detection. Real life sounds are often overlapped with each other, so that it is difficult to distinguish them by using a mono-channel audio...

In this paper, we propose an effective method of applying multichannel-audio feature values to GRNNs (Gated Recurrent Neural Networks) in polyphonic sound event detection. Real life sounds are often overlapped with each other, so that it is difficult to distinguish them by using a mono-channel audio features. In the proposed method, we tried to improve the performance of polyphonic sound event detection by using multi-channel audio features. In addition, we also tried to improve the performance of polyphonic sound event detection by applying a gated recurrent neural network which is simpler than LSTM (Long Short Term Memory), which shows the highest performance among the current recurrent neural networks. The experimental results show that the proposed method achieves better sound event detection performance than other existing methods.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 다채널 오디오 특징값 및 GRNN을 사용한 다성 사운드 이벤트 검출 방식을 제안하였다. 제안한 방식은 기존의 사운드 이벤트 검출에서 널리 사용되던 단일 채널 기반의 특징값 대신 다채널 기반의 결합된 특징값을 사용하였으며, 분류기로서 시간적인 정보를 학습할 수 있는 순환 신경망의 변형 된 형태인 GRNN을 사용하였다.

제안 방법

먼저 학습 단계에서는 스테레오 오디오 신호가 입력되면 해당되는 레이블을 적용한다. 그리고 신호 각각을 프레임 단위로 분할한 뒤 다채널 특징값을 추출하고 GRNN에 입력하여 학습을 진행한다. 학습 후 인식 과정에서는 스테레오 오디오 신호가 입력되면 신호를 프레임 단위로 분할한 뒤, 다채널 특징값을 추출한다.
TDOA 특징값은 이러한 사운드 이벤트의 주파수 대역에 따른시간차 특성에 기반하며, 추출 단계는 다음과 같다. 먼저 각 프레임으로 나눈 신호의 스펙트로그램을 5개의 멜 밴드로 나누고 각 밴드에 대한 TDOA를 계산한다. 같은 종류의 사운드의 경우에는 각 멜 밴드 대역에서 비슷한 TDOA 값을 가지고 반대로 다른 두 개의 중첩 된 사운드가 있는 경우에는 각 사운드에 대해서로 다른 TDOA 값이 계산되므로 신경망은 이들을 구분하여 개별적인 소리 이벤트로 식별할 수 있다.
본 논문에서 제안하는 사운드 이벤트 검출 시스템의 입력 특징값으로는 사람의 청각적인 특성을 고려하여 스테레오 오디오 신호로부터 Mel2, TDOA(Time Difference Of Arrival), Pitch 범위 특징값의 세 가지 특징값을 추출해 사용한다.
실험에 사용된 분류기는 GMM, LSTM, GRNN 세 가지를 사용하였으며 특징값은 MFCC+∆+∆², Mel energy, 3Sets(Mel2+TDOA+Pitch 범위 특징값)를 사용하여 측정하였다. 실험에서 LSTM은 3개의 히든 레이어를 사용했으며 각 레이어의 뉴런은 16개를 사용하였다.
하지만 LSTM은 내부 매개변수가 많아 복잡하며 학습 시간이 오래 걸린다는 단점이 있다. 이에 본 논문에서는 LSTM의 변형된 구조로써 내부 구조가 더욱 단순하며 변수가 적어 LSTM보다 학습시간이 짧게 걸리고 과적합이 덜 일어난다는 장점을 가진 게이트형 순환 신경망(Gated Recurrent Neural Networks, GRNN) 모델을 다성 사운드 이벤트 검출에 적용하여 다채널 오디오 특징값과 결합 된 사용을 제안한다.
본 논문에서는 다채널 오디오 특징값 및 GRNN을 사용한 다성 사운드 이벤트 검출 방식을 제안하였다. 제안한 방식은 기존의 사운드 이벤트 검출에서 널리 사용되던 단일 채널 기반의 특징값 대신 다채널 기반의 결합된 특징값을 사용하였으며, 분류기로서 시간적인 정보를 학습할 수 있는 순환 신경망의 변형 된 형태인 GRNN을 사용하였다. 실험 결과 제안한 방식의 성능이 기존의 분류 방식의 성능보다 뛰어남을 확인할 수 있었다.

대상 데이터

실험에서 LSTM은 3개의 히든 레이어를 사용했으며 각 레이어의 뉴런은 16개를 사용하였다. 그리고 GRNN은 3개의 히든 레이어를 사용했으며 각 레이어의 뉴런 수는 200개를 사용하였다. 입력 레이어 뉴런의 수는 사용한 오디오 신호의 길이에 따라 달라지고 출력 레이어 뉴런의 수는 클래스마다 한 개씩으로 사용하였다.
1 kHz, 24비트의 깊이로 구성되어 있다. 데이터베이스는 천장소리, 식탁 식기류 소리, 씻는 소리 등 실내 집(home)에서 발생하는 소리와 새 소리, 자동차 지나가는 소리, 아이들 뛰어노는 소리와 같은 실외 주택가(residential area)에서 발생하는 소리들로 이루어져 있다. 집으로 분류된 소리 데이터는 10개의 녹음 파일과 11개의 클래스로 구성되어 있고, 실외 주택가의 데이터는 12개의 녹음 파일과 7개의 클래스로 구성 되어있다.
, Mel energy, 3Sets(Mel2+TDOA+Pitch 범위 특징값)를 사용하여 측정하였다. 실험에서 LSTM은 3개의 히든 레이어를 사용했으며 각 레이어의 뉴런은 16개를 사용하였다. 그리고 GRNN은 3개의 히든 레이어를 사용했으며 각 레이어의 뉴런 수는 200개를 사용하였다.
실험에서는 DCASE(Detection and Classification of Acoustic Scenes and Events) 2016에서 제공된 오디오 데이터베이스^[8]중 taks3인 Sound event detection in real life audio을 사용하였다. 해당 데이터는 Soundman 회사의 OKM II Klassik/studio A3 인이어 마이크와 Roland 회사의 Edirol R09 녹음기를 사용하여 스테레오로 녹음 되었고 샘플링 레이트는 44.
분할된 프레임에 50 %의 오버래핑을 적용한 뒤 각 프레임에 대한 로그 멜 밴드 에너지를 추출한다. 이때 멜 밴드는 전체 스펙트로그램에 걸쳐 40개를 사용한다.
중 taks3인 Sound event detection in real life audio을 사용하였다. 해당 데이터는 Soundman 회사의 OKM II Klassik/studio A3 인이어 마이크와 Roland 회사의 Edirol R09 녹음기를 사용하여 스테레오로 녹음 되었고 샘플링 레이트는 44.1 kHz, 24비트의 깊이로 구성되어 있다. 데이터베이스는 천장소리, 식탁 식기류 소리, 씻는 소리 등 실내 집(home)에서 발생하는 소리와 새 소리, 자동차 지나가는 소리, 아이들 뛰어노는 소리와 같은 실외 주택가(residential area)에서 발생하는 소리들로 이루어져 있다.

데이터처리

^[7]의 방법을 사용했다. 스테레오 신호의 두 채널에 대해 평균값을 계산한 신호를 Short-time auto correlation 방법으로 첫 번째 피크와 두 번째 피크 사이의 주기를 계산한 뒤, 역수를 적용하여 pitch 값을 얻었다. 첫 번째 특징값인 feature₁는 pitch 범위 내 value의 최대값과 최소값의 비율로 계산된다.

이론/모형

[7]의 방법을 사용했다. 스테레오 신호의 두 채널에 대해 평균값을 계산한 신호를 Short-time auto correlation 방법으로 첫 번째 피크와 두 번째 피크 사이의 주기를 계산한 뒤, 역수를 적용하여 pitch 값을 얻었다.
본 논문에서는 데이터가 편중 되어 있는 것을 줄이기 위해 4-fold cross validation 방식으로 성능 측정실험을 진행했으며, DCASE 2016에서 제공한 validation 설정에 따라 사용하였다.^[8]
입력 레이어 뉴런의 수는 사용한 오디오 신호의 길이에 따라 달라지고 출력 레이어 뉴런의 수는 클래스마다 한 개씩으로 사용하였다. 신경망의 학습에는 손실 함수로써 binary cross-entropy를 이용한 BPTT(BackPropagation Through Time)를 사용하였다.
실험의 측정 지표는 ER(Error Rate)와 F-score를 사용하였으며 1 s 단위의 세그먼트 기준으로 계산하였다.

성능/효과

9로 저하되었다. LSTM 신경망에서는 Mel energy 특징값을 사용한 경우와 제안한 방식의 특징값을 사용한 경우를 비교하면 ER 0.87, F-score 39.4이었던 수치가 각각 0.79, 42.7으로 향상된 것을 확인할 수 있다. 마찬가지로 GRNN에서도 Mel energy 특징값과 제안한 방식의 특징값을 사용한 경우 ER 0.
Table 1은 실험 결과를 나타낸다. Table 1에서 보이는 것과 같이 GMM 분류기에서 MFCC 특징값과 제안한 방식인 결합된 특징값을 사용하였을 경우를 비교하면 평균ER 0.90, F-score 28.7이었던 수치가 각각 0.92, 27.9로 저하되었다. LSTM 신경망에서는 Mel energy 특징값을 사용한 경우와 제안한 방식의 특징값을 사용한 경우를 비교하면 ER 0.
^[2] 지금까지의 다성 사운드 이벤트 검출 방식은 단일 채널 오디오 신호를 사용해왔다. 그러나 최근 자동 음성 인식에 대한 연구에서 다채널 오디오의 특징값을 사용할 경우 단일 채널의 특징값을 사용하는 경우보다 개선된 성능을 보이는 것이 확인되었다.^[3]
실험 결과를 통해 기존의 단일 채널 기반의 특징값을 사용한 방식보다 청각적 특성을 고려한 스테레오 채널 기반의 결합된 특징값을 사용한 경우 성능이 향상되는 것을 확인할 수 있었다. 또한 분류 방식에서 GRNN을 사용하였을 경우 기존의 방식들보다 더욱 성능이 향상되는 것을 확인할 수 있었다.
7으로 향상된 것을 확인할 수 있다. 마찬가지로 GRNN에서도 Mel energy 특징값과 제안한 방식의 특징값을 사용한 경우 ER 0.85, F-score 40.0이었던 수치가 각각 0.76, 45.5로 향상되는 것을 확인할 수 있다.
제안한 방식은 기존의 사운드 이벤트 검출에서 널리 사용되던 단일 채널 기반의 특징값 대신 다채널 기반의 결합된 특징값을 사용하였으며, 분류기로서 시간적인 정보를 학습할 수 있는 순환 신경망의 변형 된 형태인 GRNN을 사용하였다. 실험 결과 제안한 방식의 성능이 기존의 분류 방식의 성능보다 뛰어남을 확인할 수 있었다.
실험 결과를 통해 기존의 단일 채널 기반의 특징값을 사용한 방식보다 청각적 특성을 고려한 스테레오 채널 기반의 결합된 특징값을 사용한 경우 성능이 향상되는 것을 확인할 수 있었다. 또한 분류 방식에서 GRNN을 사용하였을 경우 기존의 방식들보다 더욱 성능이 향상되는 것을 확인할 수 있었다.

후속연구

향후 본 연구를 바탕으로 기존의 컨벌루션 신경망과 GRNN을 결합한 구조에 본 논문에서 사용한 결합된 특징값을 적용하여 사운드 이벤트 검출에 적용하는 방식에 대해 연구할 계획이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	사운드 이벤트란 무엇인가?	사운드 이벤트는 인간이 오디오 신호를 통해 감지 또는 구별할 수 있는 특정한 이벤트를 의미한다. 일상생활에서 발생하는 다양한 사운드 이벤트에 대한 검출은 산업 및 환경 감시 시스템, 스마트 홈과 같은 서비스를 제공할 수 있게 하는 중요한 기술이다.
	최근 다성 사운드 이벤트 검출 방식에서 더는 단일 채널 오디오 신호를 사용하지 않는 이유는 무엇인가?	[2] 지금까지의 다성 사운드 이벤트 검출 방식은 단일 채널 오디오 신호를 사용해왔다. 그러나 최근 자동 음성 인식에 대한 연구에서 다채널 오디오의 특징값을 사용할 경우 단일 채널의 특징값을 사용하는 경우보다 개선된 성능을 보이는 것이 확인되었다.[3]
	사운드 이벤트 검출은 어떻게 분류되는가?	사운드 이벤트 검출은 크게 단성 사운드 검출과다성 사운드 검출로 분류할 수 있다. 단성 사운드 검출은 사운드 신호에서 가장 두드러진 신호를 인식하는 것이고 다성 사운드 검출은 가장 두드러진 신호 외에 중첩되어 있는 모든 사운드 신호를 인식하는 것이다.

참고문헌 (8)

A. Mesaros, M. F. McKinney, and J. Skowronek, "Automatic surveillance of the acoustic activity in our living environment," Proc. IEEE ICME 634-637 (2005).
E. Cakir, T. Heittola, H. Huttunen, and T. Virtanen, "Polyphonic sound event detection using multi-label deep neural networks," Proc. IEEE IJCNN, 1-7 (2015).
X. xiao, S. Watanabe, H. Erdogan, L. Lu, J.Hershey, M. L. Seltzer, G. Chen, Y. Zhang, M. Mandel, and D. Yu, "Deep beamforming networks for multi-channel speech recognition," Proc. IEEE ICASSP, 5745-5749 (2016).
G. Parascandolo, H. Huttunen, and T. Virtanen, "Recurrent neural networks for polyphonic sound event detection in real life recordings," Proc. IEEE ICASSP, 6440-6444 (2016).
T. N. Sainath, O. Vinyals, A. Senior, and H. Sak, "Convolutional, long short-term memory, fully connected deep neural networks," Proc. IEEE ICASSP, 4580-4584 (2015).
C. Knapp and G. Carter, "The generalized correlation method for estimation of time delay," IEEE Trans. Acoust. Speech Signal Process. 24, 320-327 (1976).

상세보기
B. Uzkent, B. D. Barkana, and H. Cevikalp, "Non-speech environmental sound classification using svms with a new set of features," in IJICIC, 3511 (2012).
A. Mesaros, T. Heittola, A. Eronen, and T. Virtanen, "Acoustic event detection in real life recordings," 18th European signal processing Conference, 1267-1271 (2010).

이 논문을 인용한 문헌

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

다채널 오디오 특징값 및 게이트형 순환 신경망을 사용한 다성 사운드 이벤트 검출
Polyphonic sound event detection using multi-channel audio features and gated recurrent neural networks 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (8)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

다채널 오디오 특징값 및 게이트형 순환 신경망을 사용한 다성 사운드 이벤트 검출 Polyphonic sound event detection using multi-channel audio features and gated recurrent neural networks 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (8)

이 논문을 인용한 문헌

저자의 다른 논문 :

고상선 (1) 조혜승 (5) 김형국 (53)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

다채널 오디오 특징값 및 게이트형 순환 신경망을 사용한 다성 사운드 이벤트 검출
Polyphonic sound event detection using multi-channel audio features and gated recurrent neural networks 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper