[논문]주변 배경음에 강인한 구간 검출을 통한 음원 인식 및 위치 추적 시스템 설계

김우준; 김영섭; 이광석

doi:10.13067/jkiecs.2016.11.8.759

초록
AI-Helper

본 논문은 비정상 상황 시 발생하는 음원에 대해 주변 환경 음에 강인한 음원 구간을 검출하여, 구간내의 신호를 이용한 음원 인식 과 위치 추적 시스템 설계에 관한 연구이다. 강인한 음원 구간 검출은 수신되는 오디오 신호로부터 단 구간 가중 평균 델타 에너지를 계산하여, 저역 통과 필터에 입력 후, 출력되는 결과 값들의 비교를 통해 배경음에 강인한 구간을 정의 하며, 음원 인식은 검출된 구간 내 데이터로부터 종래의 인식 방법인 HMM(: Hidden Markov Model)을 이용해, 음원 인식 정보를 생성하여 학습 및 인식을 한다. 이는 주변 배경음이 포함된 음원 신호에 대해 기존 신호의 에너지를 이용해 구간을 검출 후, HMM을 통한 인식에 비해 3.94% 상향된 인식률을 보인다. 또한 인식 결과를 바탕으로 구간내의 신호간의 TDOA(: Time Delay of Arrival)를 이용한 위치 파악은 실제 발생 위치와의 각도와 97.44%일치함을 보인다.

Abstract ▼ AI-Helper

This paper is on a system design of recognizing sound sources and tracing locations from detecting a section of sound sources which is strong in surrounding environmental sounds about sound sources occurring in an abnormal situation by using signals within the section. In detection of the section wi...

This paper is on a system design of recognizing sound sources and tracing locations from detecting a section of sound sources which is strong in surrounding environmental sounds about sound sources occurring in an abnormal situation by using signals within the section. In detection of the section with strong sound sources, weighted average delta energy of a short section is calculated from audio signals received. After inputting it into a low-pass filter, through comparison of values of the output result, a section strong in background sound is defined. In recognition of sound sources, from data of the detected section, using an HMM(: Hidden Markov Model) as a traditional recognition method, learning and recognition are realized from creating information to recognize sound sources. About signals of sound sources that surrounding background sounds are included, by using energy of existing signals, after detecting the section, compared with the recognition through the HMM, a recognition rate of 3.94% increase is shown. Also, based on the recognition result, location grasping by using TDOA(: Time Delay of Arrival) between signals in the section accords with 97.44% of angles of a real occurrence location.

주제어

AI 본문요약
AI-Helper

문제 정의

본 논문에서는 비정상 상황 시 발생하는, 배경음을 포함한 음원에 대해 배경음에 강인한, 비정상 상황만을 규정하는 구간 검출 방법을 제안하며, 검출된 구간 내의 신호를 이용한, 인식 및 발생 위치를 파악하는 시스템을 제안한다.
본 연구는 비정상 상황 시 발생하는 음원 신호에 대해 강인한 구간 검출을 통해 상황을 규정하는 음원 구간을 검출하며 이에 따른 정확한 인식과 그 발생 위치를 파악하기 위해 연구했다. 수신된 오디오 데이터로부터 강인한 음원 구간 검출을 시행하여 정확한 음원의 발생 지점과 끝점을 파악 후 종래의 음원 인식 방법인 HMM을 통해 음원 판별을 진행했으며, 이는 기존의 사용되는 음원의 에너지 계산을 통한 구간 검출의 인식 결과와 비교해 약 3.

제안 방법

이렇게 검출된 구간내의 데이터를 이용해, 종래의 인식 방법 중 하나인 HMM을 이용하여 음원 인식 정보를 생성할 수 있다. 이러한 과정을 포함해 일련의 과정을 진행 후 수신된 신호가 비정상 상황 시 발생하는 음원으로 판별 시, 검출한 구간내의 신호간의 상호 상관 함수를 통해 음원이 발생한 지점을 파악한다.
주변 배경음에 강인한 구간 검출 방법은, 수신된 음향 신호로부터 단 구간 가중 평균 델타 에너지를 산출하여 병렬로 처리된 복수의 저역통과 필터에 입력하여 출력된 결과 값들의 비교를 통해 구간을 정의한다. 이렇게 검출된 구간내의 데이터를 이용해, 종래의 인식 방법 중 하나인 HMM을 이용하여 음원 인식 정보를 생성할 수 있다.

대상 데이터

본 논문의 HMM을 통한 인식 실험은 사람의 가청 주파수를 반영하여 설계된 MFCC(: Mel Frequency Cepstral Coefficients)를 이용해 음원의 특징을 추출한다[10]. 실험에 사용되는 데이터는 20000Hz 주파수 범위에서 비정상 상황 시 발생 할 수 있는, 주변 배경음(바람, 차량 소리)이 포함된 “사람살려”(case1), “도와주세요”(case2), 비명(case3), 유리창 파손 음(case4), 그리고 호루라기 소리(case5), 각각 380개에 대해 특징을 추출하여 학습을 한다. HMM을 이용한 학습과 인식은 초기 차원의 수(Number of dimensions) 와 상태의 수(Number of states)는 10으로 설정하며, 혼합 수(Number of mixture)에 대해 1에서 6(case1∼6)으로 변화 시켜 진행한다.

이론/모형

강인한 구간 검출을 통해 산출된 구간내의 데이터는 기존 음원 인식에 사용되는 방법 중 하나인 HMM을 이용해 인식을 한다. HMM은 통계적 마르코프 모델의 하나로써, 은닉된 상태와 관찰 가능한 상태, 이 두 가지 요소로 이루어진 모델이다[8-9].
주변 배경음에 강인한 구간 검출 방법은, 수신된 음향 신호로부터 단 구간 가중 평균 델타 에너지를 산출하여 병렬로 처리된 복수의 저역통과 필터에 입력하여 출력된 결과 값들의 비교를 통해 구간을 정의한다. 이렇게 검출된 구간내의 데이터를 이용해, 종래의 인식 방법 중 하나인 HMM을 이용하여 음원 인식 정보를 생성할 수 있다. 이러한 과정을 포함해 일련의 과정을 진행 후 수신된 신호가 비정상 상황 시 발생하는 음원으로 판별 시, 검출한 구간내의 신호간의 상호 상관 함수를 통해 음원이 발생한 지점을 파악한다.

성능/효과

본 연구는 비정상 상황 시 발생하는 음원 신호에 대해 강인한 구간 검출을 통해 상황을 규정하는 음원 구간을 검출하며 이에 따른 정확한 인식과 그 발생 위치를 파악하기 위해 연구했다. 수신된 오디오 데이터로부터 강인한 음원 구간 검출을 시행하여 정확한 음원의 발생 지점과 끝점을 파악 후 종래의 음원 인식 방법인 HMM을 통해 음원 판별을 진행했으며, 이는 기존의 사용되는 음원의 에너지 계산을 통한 구간 검출의 인식 결과와 비교해 약 3.94% 상승된 인식률을 보임을 확인 할 수 있으며, 위치 추적은 2차원 좌표로 사상된 마이크로폰의 위치를 통해 비교적 정확한 위치를 나타낸다.
표4는 표1의 음원 판단 결과 중 평균 인식률이 가장 높은 case4에 사용된, 강인한 구간 검출 내의 데이터를 이용한 위치 추적의 내용으로써, GCC-PHAT를 이용한 위치 추적 결과를 나타낸다. 실제 음원 발생 위치와 기준 마이크로폰(MIC1)간의 각도는 그림6의 Sound Path와 약 97.44% 일치함을 보인다.

질의응답

핵심어	질문	논문에서 추출한 답변
	기존에 사용된 음원 구간 검출 방법으로는 어떤 것들이 있는가?	기존 음원 구간 검출에 사용된 방법으로써는 ZCR(: Zero Crossing Rate)을 통한 유성음과 무성음 구별법과 LPC(: Linear Prediction Coefficients)를 통한 음성부와 비음성부 구별법 그리고 짧은 시간 내의 신호의 에너지를 이용한 방법 등이 있다. 이러한 방법은 잡음에 비해 상대적으로 에너지가 큰 음성 신호나 주기적인 특성을 보이는 신호에 대해 구간 검출이 용이하지만, 파열음이나 마찰음 등의 비정상 상황 시 발생하는 음에 대해서는, 상황을 규정하는 구간 검출이 어려우며, 실시간 검출 보다는 off-line환경에서 더 적합한 특성을 보인다[1-3].
	음원의 위치를 추정하기 위해 지연 시간을 구하는 방법으로는 어떤 것들이 있는가?	음원의 위치를 추정하기 위해, 지연 시간을 구하는 방법에는 TDOA(: Time Delay of Arrival) 및 GCC-PHAT(: Generalized Cross Correlation Phase Transform), 그리고 빔포밍(beam forming) 등이 있다[4-6]. TDOA는 상대적으로 계산이 적고, 비교적 정확성이 높으나, 주변 노이즈 및 여러 요소에 따른 영향을 받기 쉽다.
	기존에 사용된 음원 구간 검출 방법들의 문제점은 무엇인가?	기존 음원 구간 검출에 사용된 방법으로써는 ZCR(: Zero Crossing Rate)을 통한 유성음과 무성음 구별법과 LPC(: Linear Prediction Coefficients)를 통한 음성부와 비음성부 구별법 그리고 짧은 시간 내의 신호의 에너지를 이용한 방법 등이 있다. 이러한 방법은 잡음에 비해 상대적으로 에너지가 큰 음성 신호나 주기적인 특성을 보이는 신호에 대해 구간 검출이 용이하지만, 파열음이나 마찰음 등의 비정상 상황 시 발생하는 음에 대해서는, 상황을 규정하는 구간 검출이 어려우며, 실시간 검출 보다는 off-line환경에서 더 적합한 특성을 보인다[1-3].

참고문헌 (10)

L. RRabinner and R. Schafer, Digital Processing of Speech Signals, New Jersey: PRENTICE HALL, 1978.
P. Atrey, N. Maddage, and M. Kankanhalli, "Audio Based Event Detection for Multimedia Surveillance," 2006 IEEE Int. Conf. on Acoustics Speech and Signal Processing Proceedings, Toulouse, France, May, 2006, pp. 813-816.
G. Valenzise, L. Gerosa, M. Tagliasacchi, F. Antonacci, and A. Sarti, "Scream and Gunshot Detection and Localization for Audio-Surveillance Systems," IEEE Int. Conf. on Advanced Video and Signal Based Surveillance (AVSS 2007), London, England, Sept, 2007, pp. 21-26.
C. Knapp and G. Carter, "The generalized correlation method for estimation of thime delay," IEEE Trans. Acoustics, Speech and Signal Processing, vol. 24, no. 4, 1976, pp. 320-327.

상세보기
C. Kee, G. Ki, and T. Le, "Real-Time Sound Localization System For Reverberant And Noisy Environmen," Int. J. of Aeronautical and Space Sciences, vol. 38, no. 3, 2010, pp. 258-263.
B. Park, K. Ban, K. Kwak, and H. Yoon, "Performance analysis of GCC-PHAT-based sound source localization for intelligent robots," The J. of Korea Robotics Society, vol. 2, no. 3, 2007, pp. 270-274.
B. Kwon, Y. Park, and Y. Park, "Spatially Mapped GCC Function Analysis for Multiple Source and Source Localization Method," J. of Institute of Control, Robotics and Systems, vol. 16, no. 5, 2010, pp. 415-419.

원문보기 상세보기
G. Jang and M. Jeong, "Voice Activity Detection using Bi-Level HMM," J. of the Korea Institute of Electronic Communication Sciences, vol. 10, no. 8, 2015, pp. 901-906.

원문보기 상세보기
Y. Kim and H. Lee, "A Study on Improved Method of Voice Recognition Rate," J. of the Korea Institute of Electronic Communication Sciences, vol. 8, no. 1, 2013, pp. 77-83.

원문보기 상세보기
C. Lee, "The Effect of FIR Filtering and Spectral Tilt on Speech Recognition with MFCC," J. of the Korea Institute of Electronic Communication Sciences, vol. 5, no. 4, 2010, pp. 363-371.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

주변 배경음에 강인한 구간 검출을 통한 음원 인식 및 위치 추적 시스템 설계
Sound recognition and tracking system design using robust sound extraction section 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

주변 배경음에 강인한 구간 검출을 통한 음원 인식 및 위치 추적 시스템 설계 Sound recognition and tracking system design using robust sound extraction section 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

주변 배경음에 강인한 구간 검출을 통한 음원 인식 및 위치 추적 시스템 설계
Sound recognition and tracking system design using robust sound extraction section 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper