본 논문은 비정상 상황 시 발생하는 음원에 대해 주변 환경 음에 강인한 음원 구간을 검출하여, 구간내의 신호를 이용한 음원 인식 과 위치 추적 시스템 설계에 관한 연구이다. 강인한 음원 구간 검출은 수신되는 오디오 신호로부터 단 구간 가중 평균델타 에너지를 계산하여, 저역 통과 필터에 입력 후, 출력되는 결과 값들의 비교를 통해 배경음에 강인한 구간을 정의 하며, 음원 인식은 검출된 구간 내 데이터로부터 종래의 인식 방법인 HMM(: Hidden Markov Model)을 이용해, 음원 인식 정보를 생성하여 학습 및 인식을 한다. 이는 주변 배경음이 포함된 음원 신호에 대해 기존 신호의 에너지를 이용해 구간을 검출 후, HMM을 통한 인식에 비해 3.94% 상향된 인식률을 보인다. 또한 인식 결과를 바탕으로 구간내의 신호간의 TDOA(: Time Delay of Arrival)를 이용한 위치 파악은 실제 발생 위치와의 각도와 97.44%일치함을 보인다.
본 논문은 비정상 상황 시 발생하는 음원에 대해 주변 환경 음에 강인한 음원 구간을 검출하여, 구간내의 신호를 이용한 음원 인식 과 위치 추적 시스템 설계에 관한 연구이다. 강인한 음원 구간 검출은 수신되는 오디오 신호로부터 단 구간 가중 평균 델타 에너지를 계산하여, 저역 통과 필터에 입력 후, 출력되는 결과 값들의 비교를 통해 배경음에 강인한 구간을 정의 하며, 음원 인식은 검출된 구간 내 데이터로부터 종래의 인식 방법인 HMM(: Hidden Markov Model)을 이용해, 음원 인식 정보를 생성하여 학습 및 인식을 한다. 이는 주변 배경음이 포함된 음원 신호에 대해 기존 신호의 에너지를 이용해 구간을 검출 후, HMM을 통한 인식에 비해 3.94% 상향된 인식률을 보인다. 또한 인식 결과를 바탕으로 구간내의 신호간의 TDOA(: Time Delay of Arrival)를 이용한 위치 파악은 실제 발생 위치와의 각도와 97.44%일치함을 보인다.
This paper is on a system design of recognizing sound sources and tracing locations from detecting a section of sound sources which is strong in surrounding environmental sounds about sound sources occurring in an abnormal situation by using signals within the section. In detection of the section wi...
This paper is on a system design of recognizing sound sources and tracing locations from detecting a section of sound sources which is strong in surrounding environmental sounds about sound sources occurring in an abnormal situation by using signals within the section. In detection of the section with strong sound sources, weighted average delta energy of a short section is calculated from audio signals received. After inputting it into a low-pass filter, through comparison of values of the output result, a section strong in background sound is defined. In recognition of sound sources, from data of the detected section, using an HMM(: Hidden Markov Model) as a traditional recognition method, learning and recognition are realized from creating information to recognize sound sources. About signals of sound sources that surrounding background sounds are included, by using energy of existing signals, after detecting the section, compared with the recognition through the HMM, a recognition rate of 3.94% increase is shown. Also, based on the recognition result, location grasping by using TDOA(: Time Delay of Arrival) between signals in the section accords with 97.44% of angles of a real occurrence location.
This paper is on a system design of recognizing sound sources and tracing locations from detecting a section of sound sources which is strong in surrounding environmental sounds about sound sources occurring in an abnormal situation by using signals within the section. In detection of the section with strong sound sources, weighted average delta energy of a short section is calculated from audio signals received. After inputting it into a low-pass filter, through comparison of values of the output result, a section strong in background sound is defined. In recognition of sound sources, from data of the detected section, using an HMM(: Hidden Markov Model) as a traditional recognition method, learning and recognition are realized from creating information to recognize sound sources. About signals of sound sources that surrounding background sounds are included, by using energy of existing signals, after detecting the section, compared with the recognition through the HMM, a recognition rate of 3.94% increase is shown. Also, based on the recognition result, location grasping by using TDOA(: Time Delay of Arrival) between signals in the section accords with 97.44% of angles of a real occurrence location.
본 논문에서는 비정상 상황 시 발생하는, 배경음을 포함한 음원에 대해 배경음에 강인한, 비정상 상황만을 규정하는 구간 검출 방법을 제안하며, 검출된 구간 내의 신호를 이용한, 인식 및 발생 위치를 파악하는 시스템을 제안한다.
본 연구는 비정상 상황 시 발생하는 음원 신호에 대해 강인한 구간 검출을 통해 상황을 규정하는 음원 구간을 검출하며 이에 따른 정확한 인식과 그 발생 위치를 파악하기 위해 연구했다. 수신된 오디오 데이터로부터 강인한 음원 구간 검출을 시행하여 정확한 음원의 발생 지점과 끝점을 파악 후 종래의 음원 인식 방법인 HMM을 통해 음원 판별을 진행했으며, 이는 기존의 사용되는 음원의 에너지 계산을 통한 구간 검출의 인식 결과와 비교해 약 3.
제안 방법
이렇게 검출된 구간내의 데이터를 이용해, 종래의 인식 방법 중 하나인 HMM을 이용하여 음원 인식 정보를 생성할 수 있다. 이러한 과정을 포함해 일련의 과정을 진행 후 수신된 신호가 비정상 상황 시 발생하는 음원으로 판별 시, 검출한 구간내의 신호간의 상호 상관 함수를 통해 음원이 발생한 지점을 파악한다.
주변 배경음에 강인한 구간 검출 방법은, 수신된 음향 신호로부터 단 구간 가중 평균 델타 에너지를 산출하여 병렬로 처리된 복수의 저역통과 필터에 입력하여 출력된 결과 값들의 비교를 통해 구간을 정의한다. 이렇게 검출된 구간내의 데이터를 이용해, 종래의 인식 방법 중 하나인 HMM을 이용하여 음원 인식 정보를 생성할 수 있다.
대상 데이터
본 논문의 HMM을 통한 인식 실험은 사람의 가청 주파수를 반영하여 설계된 MFCC(: Mel Frequency Cepstral Coefficients)를 이용해 음원의 특징을 추출한다[10]. 실험에 사용되는 데이터는 20000Hz 주파수 범위에서 비정상 상황 시 발생 할 수 있는, 주변 배경음(바람, 차량 소리)이 포함된 “사람살려”(case1), “도와주세요”(case2), 비명(case3), 유리창 파손 음(case4), 그리고 호루라기 소리(case5), 각각 380개에 대해 특징을 추출하여 학습을 한다. HMM을 이용한 학습과 인식은 초기 차원의 수(Number of dimensions) 와 상태의 수(Number of states)는 10으로 설정하며, 혼합 수(Number of mixture)에 대해 1에서 6(case1∼6)으로 변화 시켜 진행한다.
이론/모형
강인한 구간 검출을 통해 산출된 구간내의 데이터는 기존 음원 인식에 사용되는 방법 중 하나인 HMM을 이용해 인식을 한다. HMM은 통계적 마르코프 모델의 하나로써, 은닉된 상태와 관찰 가능한 상태, 이 두 가지 요소로 이루어진 모델이다[8-9].
주변 배경음에 강인한 구간 검출 방법은, 수신된 음향 신호로부터 단 구간 가중 평균 델타 에너지를 산출하여 병렬로 처리된 복수의 저역통과 필터에 입력하여 출력된 결과 값들의 비교를 통해 구간을 정의한다. 이렇게 검출된 구간내의 데이터를 이용해, 종래의 인식 방법 중 하나인 HMM을 이용하여 음원 인식 정보를 생성할 수 있다. 이러한 과정을 포함해 일련의 과정을 진행 후 수신된 신호가 비정상 상황 시 발생하는 음원으로 판별 시, 검출한 구간내의 신호간의 상호 상관 함수를 통해 음원이 발생한 지점을 파악한다.
성능/효과
본 연구는 비정상 상황 시 발생하는 음원 신호에 대해 강인한 구간 검출을 통해 상황을 규정하는 음원 구간을 검출하며 이에 따른 정확한 인식과 그 발생 위치를 파악하기 위해 연구했다. 수신된 오디오 데이터로부터 강인한 음원 구간 검출을 시행하여 정확한 음원의 발생 지점과 끝점을 파악 후 종래의 음원 인식 방법인 HMM을 통해 음원 판별을 진행했으며, 이는 기존의 사용되는 음원의 에너지 계산을 통한 구간 검출의 인식 결과와 비교해 약 3.94% 상승된 인식률을 보임을 확인 할 수 있으며, 위치 추적은 2차원 좌표로 사상된 마이크로폰의 위치를 통해 비교적 정확한 위치를 나타낸다.
표4는 표1의 음원 판단 결과 중 평균 인식률이 가장 높은 case4에 사용된, 강인한 구간 검출 내의 데이터를 이용한 위치 추적의 내용으로써, GCC-PHAT를 이용한 위치 추적 결과를 나타낸다. 실제 음원 발생 위치와 기준 마이크로폰(MIC1)간의 각도는 그림6의 Sound Path와 약 97.44% 일치함을 보인다.
질의응답
핵심어
질문
논문에서 추출한 답변
기존에 사용된 음원 구간 검출 방법으로는 어떤 것들이 있는가?
기존 음원 구간 검출에 사용된 방법으로써는 ZCR(: Zero Crossing Rate)을 통한 유성음과 무성음 구별법과 LPC(: Linear Prediction Coefficients)를 통한 음성부와 비음성부 구별법 그리고 짧은 시간 내의 신호의 에너지를 이용한 방법 등이 있다. 이러한 방법은 잡음에 비해 상대적으로 에너지가 큰 음성 신호나 주기적인 특성을 보이는 신호에 대해 구간 검출이 용이하지만, 파열음이나 마찰음 등의 비정상 상황 시 발생하는 음에 대해서는, 상황을 규정하는 구간 검출이 어려우며, 실시간 검출 보다는 off-line환경에서 더 적합한 특성을 보인다[1-3].
음원의 위치를 추정하기 위해 지연 시간을 구하는 방법으로는 어떤 것들이 있는가?
음원의 위치를 추정하기 위해, 지연 시간을 구하는 방법에는 TDOA(: Time Delay of Arrival) 및 GCC-PHAT(: Generalized Cross Correlation Phase Transform), 그리고 빔포밍(beam forming) 등이 있다[4-6]. TDOA는 상대적으로 계산이 적고, 비교적 정확성이 높으나, 주변 노이즈 및 여러 요소에 따른 영향을 받기 쉽다.
기존에 사용된 음원 구간 검출 방법들의 문제점은 무엇인가?
기존 음원 구간 검출에 사용된 방법으로써는 ZCR(: Zero Crossing Rate)을 통한 유성음과 무성음 구별법과 LPC(: Linear Prediction Coefficients)를 통한 음성부와 비음성부 구별법 그리고 짧은 시간 내의 신호의 에너지를 이용한 방법 등이 있다. 이러한 방법은 잡음에 비해 상대적으로 에너지가 큰 음성 신호나 주기적인 특성을 보이는 신호에 대해 구간 검출이 용이하지만, 파열음이나 마찰음 등의 비정상 상황 시 발생하는 음에 대해서는, 상황을 규정하는 구간 검출이 어려우며, 실시간 검출 보다는 off-line환경에서 더 적합한 특성을 보인다[1-3].
참고문헌 (10)
L. RRabinner and R. Schafer, Digital Processing of Speech Signals, New Jersey: PRENTICE HALL, 1978.
P. Atrey, N. Maddage, and M. Kankanhalli, "Audio Based Event Detection for Multimedia Surveillance," 2006 IEEE Int. Conf. on Acoustics Speech and Signal Processing Proceedings, Toulouse, France, May, 2006, pp. 813-816.
G. Valenzise, L. Gerosa, M. Tagliasacchi, F. Antonacci, and A. Sarti, "Scream and Gunshot Detection and Localization for Audio-Surveillance Systems," IEEE Int. Conf. on Advanced Video and Signal Based Surveillance (AVSS 2007), London, England, Sept, 2007, pp. 21-26.
C. Knapp and G. Carter, "The generalized correlation method for estimation of thime delay," IEEE Trans. Acoustics, Speech and Signal Processing, vol. 24, no. 4, 1976, pp. 320-327.
C. Kee, G. Ki, and T. Le, "Real-Time Sound Localization System For Reverberant And Noisy Environmen," Int. J. of Aeronautical and Space Sciences, vol. 38, no. 3, 2010, pp. 258-263.
B. Park, K. Ban, K. Kwak, and H. Yoon, "Performance analysis of GCC-PHAT-based sound source localization for intelligent robots," The J. of Korea Robotics Society, vol. 2, no. 3, 2007, pp. 270-274.
B. Kwon, Y. Park, and Y. Park, "Spatially Mapped GCC Function Analysis for Multiple Source and Source Localization Method," J. of Institute of Control, Robotics and Systems, vol. 16, no. 5, 2010, pp. 415-419.
G. Jang and M. Jeong, "Voice Activity Detection using Bi-Level HMM," J. of the Korea Institute of Electronic Communication Sciences, vol. 10, no. 8, 2015, pp. 901-906.
Y. Kim and H. Lee, "A Study on Improved Method of Voice Recognition Rate," J. of the Korea Institute of Electronic Communication Sciences, vol. 8, no. 1, 2013, pp. 77-83.
C. Lee, "The Effect of FIR Filtering and Spectral Tilt on Speech Recognition with MFCC," J. of the Korea Institute of Electronic Communication Sciences, vol. 5, no. 4, 2010, pp. 363-371.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.