음향신호처리는 음향의 품질 향상, 관심 구간의 강조 및 검출, 음원의 위치 및 방향 추정 등 음향에 기초한 신호처리 기술로, 음향 통신, 방송, 검색 및 구조, 감시 등 다양한 분야에서 활용되고 있다. 따라서 음향신호 처리의 성능을 향상시키기 위해, 지난 수 세기 동안 관련된 많은 연구가 진행되고 있다. 특히, 데이터 중심(data-driven)의 딥러닝 기법들은 기존 의 통계적 특성이나 모델에 기초한 기존 음향신호처리 알고리즘의 성능을 크게 뛰어넘고 있으며, 강한 잡음에서도 강인한 결과를 나타내고 있다. 반면, ...
음향신호처리는 음향의 품질 향상, 관심 구간의 강조 및 검출, 음원의 위치 및 방향 추정 등 음향에 기초한 신호처리 기술로, 음향 통신, 방송, 검색 및 구조, 감시 등 다양한 분야에서 활용되고 있다. 따라서 음향신호 처리의 성능을 향상시키기 위해, 지난 수 세기 동안 관련된 많은 연구가 진행되고 있다. 특히, 데이터 중심(data-driven)의 딥러닝 기법들은 기존 의 통계적 특성이나 모델에 기초한 기존 음향신호처리 알고리즘의 성능을 크게 뛰어넘고 있으며, 강한 잡음에서도 강인한 결과를 나타내고 있다. 반면, 딥러닝이 여러 음향신호처리 분야에 성공적으로 적용되고 있으나, 매우 강한 잡음환경에서는 음향신호의 위상이 크게 변질됨에 따라 대다수 의 기존 딥러닝 기반 음향신호처리 기술들이 강인하고 최적화된 결과를 보이지 못하고 있다. 또한, 음향 향상, 음원 방향 추정, 그리고 관심 구간 의 검출 등의 음향신호처리 기법들에서 다루는 음향 특성들은 서로 밀접 하게 관련되어 있음에도 불구하고, 기존 다수의 딥러닝 방법론들은 이러 한 연관 특성을 통합해서 고려하지 못하고 있다. 본 연구에서는 매우 강한 잡음환경 중 하나인 멀티로터UAV 음향 시 스템에서 수집된 음향을 대상으로 음향의 품질을 향상시키고, 음성 구간 의 검출 및 음원의 방향을 추정하는 딥러닝 기반 음향신호처리 기법을 제 안하였다. 기존 딥러닝 기반 음향 향상 기법과 달리, 제안한 지능형 음향 향상 기 법은 복소스펙트로그램의 실수부와 허수부 사이의 관계 및 멀티채널 신 호의 특성을 고려한 딥러닝 모델을 설계함으로써, 매우 강한 잡음환경에 서도 효과적인 음향 향상이 가능하다. 또한, 본 연구에서는 복소 스펙트로 그램의 특성에 기초한 다양한 목적 함수를 정의해서 실험을 진행하였으 며, 실험 결과 위상에 대한 Mean Squared Error를 목적 함수에 추가해서 학습했을 때 추가적인 성능 향상이 이루어졌다. 최종적으로, 제안한 지능 형 음향 향상 기법은 -35.69dB의 매우 강한 잡음환경에서 SDR 4.79, STOI 0.64의 성능을 나타내었다. 음성 구간 검출 기법과 음원 방향 추정 기법에서는 음향 향상 기법과의 연관 특성을 고려할 수 있도록 멀티테스 크 러닝 기반 음향신호처리 프레임워크를 구현하였다. 제안한 음성 구간 검출 기법은 약 80%의 정확도를 나타냈으며, 음원 방향 추정 기법은 프 레임 단위(16ms)에서 39%, 발언 단위(3-8s)에서 83%의 정확도를 보였다.
음향신호처리는 음향의 품질 향상, 관심 구간의 강조 및 검출, 음원의 위치 및 방향 추정 등 음향에 기초한 신호처리 기술로, 음향 통신, 방송, 검색 및 구조, 감시 등 다양한 분야에서 활용되고 있다. 따라서 음향신호 처리의 성능을 향상시키기 위해, 지난 수 세기 동안 관련된 많은 연구가 진행되고 있다. 특히, 데이터 중심(data-driven)의 딥러닝 기법들은 기존 의 통계적 특성이나 모델에 기초한 기존 음향신호처리 알고리즘의 성능을 크게 뛰어넘고 있으며, 강한 잡음에서도 강인한 결과를 나타내고 있다. 반면, 딥러닝이 여러 음향신호처리 분야에 성공적으로 적용되고 있으나, 매우 강한 잡음환경에서는 음향신호의 위상이 크게 변질됨에 따라 대다수 의 기존 딥러닝 기반 음향신호처리 기술들이 강인하고 최적화된 결과를 보이지 못하고 있다. 또한, 음향 향상, 음원 방향 추정, 그리고 관심 구간 의 검출 등의 음향신호처리 기법들에서 다루는 음향 특성들은 서로 밀접 하게 관련되어 있음에도 불구하고, 기존 다수의 딥러닝 방법론들은 이러 한 연관 특성을 통합해서 고려하지 못하고 있다. 본 연구에서는 매우 강한 잡음환경 중 하나인 멀티로터 UAV 음향 시 스템에서 수집된 음향을 대상으로 음향의 품질을 향상시키고, 음성 구간 의 검출 및 음원의 방향을 추정하는 딥러닝 기반 음향신호처리 기법을 제 안하였다. 기존 딥러닝 기반 음향 향상 기법과 달리, 제안한 지능형 음향 향상 기 법은 복소 스펙트로그램의 실수부와 허수부 사이의 관계 및 멀티채널 신 호의 특성을 고려한 딥러닝 모델을 설계함으로써, 매우 강한 잡음환경에 서도 효과적인 음향 향상이 가능하다. 또한, 본 연구에서는 복소 스펙트로 그램의 특성에 기초한 다양한 목적 함수를 정의해서 실험을 진행하였으 며, 실험 결과 위상에 대한 Mean Squared Error를 목적 함수에 추가해서 학습했을 때 추가적인 성능 향상이 이루어졌다. 최종적으로, 제안한 지능 형 음향 향상 기법은 -35.69dB의 매우 강한 잡음환경에서 SDR 4.79, STOI 0.64의 성능을 나타내었다. 음성 구간 검출 기법과 음원 방향 추정 기법에서는 음향 향상 기법과의 연관 특성을 고려할 수 있도록 멀티테스 크 러닝 기반 음향신호처리 프레임워크를 구현하였다. 제안한 음성 구간 검출 기법은 약 80%의 정확도를 나타냈으며, 음원 방향 추정 기법은 프 레임 단위(16ms)에서 39%, 발언 단위(3-8s)에서 83%의 정확도를 보였다.
Acoustic signal processing is a signal processing technique based on sound, such as improving sound quality, highlighting or detecting a region of interest, and estimating the location or direction of a sound source. It is used in various fields such as acoustic communication, broadc...
Acoustic signal processing is a signal processing technique based on sound, such as improving sound quality, highlighting or detecting a region of interest, and estimating the location or direction of a sound source. It is used in various fields such as acoustic communication, broadcasting, search and rescue, and surveillance. Over the past decades, many approaches have been proposed to improve the performance of acoustic signal processing. In particular, data-driven approaches such as deep learning outperform existing statistical characteristics or stochastic models based algorithms in low SNR environments. Although deep learning has been successfully applied to acoustic signal processing, most existing approaches have not shown robust results because of the phase spectrum which is greatly corrupted in extremely strong noise conditions. In addition, the acoustic characteristics of the acoustic signal processing techniques are closely related to each other, but many existing deep learning models have not fully considered the integration of those characteristics. In this paper, we proposed the deep learning-based acoustic signal processing method for extremely strong noise environments, especially, multi-rotor UAV acoustic system. In the proposed intelligent sound enhancement method, we design a deep learning model considering the relationship between the real and imaginary parts of the complex spectrogram and the characteristics of the multichannel signal, so that it is possible to enhance the sound effectively even in the strong noise environments. In addition, we performed experiments that defined various objective functions based on the characteristics of complex spectrograms. Experimental results show that the performance improvement is achieved when the mean squared error of the phase is added to the objective function. Finally, the intelligent sound enhancement technique shows the performance of SDR 4.79 and STOI 0.64 in an extremely strong noise environment which is –35.69dB. In voice activity detection and direction of arrival estimation, we implemented a multi-task learning-based acoustic signal processing framework to consider the correlation with the sound enhancement technique. The voice activity detection showed about 80% accuracy, and the direction of arrival estimation showed 39% accuracy in frame-level(16ms) evaluation and 83% in utterance-level(3-8s) evaluation.
Acoustic signal processing is a signal processing technique based on sound, such as improving sound quality, highlighting or detecting a region of interest, and estimating the location or direction of a sound source. It is used in various fields such as acoustic communication, broadcasting, search and rescue, and surveillance. Over the past decades, many approaches have been proposed to improve the performance of acoustic signal processing. In particular, data-driven approaches such as deep learning outperform existing statistical characteristics or stochastic models based algorithms in low SNR environments. Although deep learning has been successfully applied to acoustic signal processing, most existing approaches have not shown robust results because of the phase spectrum which is greatly corrupted in extremely strong noise conditions. In addition, the acoustic characteristics of the acoustic signal processing techniques are closely related to each other, but many existing deep learning models have not fully considered the integration of those characteristics. In this paper, we proposed the deep learning-based acoustic signal processing method for extremely strong noise environments, especially, multi-rotor UAV acoustic system. In the proposed intelligent sound enhancement method, we design a deep learning model considering the relationship between the real and imaginary parts of the complex spectrogram and the characteristics of the multichannel signal, so that it is possible to enhance the sound effectively even in the strong noise environments. In addition, we performed experiments that defined various objective functions based on the characteristics of complex spectrograms. Experimental results show that the performance improvement is achieved when the mean squared error of the phase is added to the objective function. Finally, the intelligent sound enhancement technique shows the performance of SDR 4.79 and STOI 0.64 in an extremely strong noise environment which is –35.69dB. In voice activity detection and direction of arrival estimation, we implemented a multi-task learning-based acoustic signal processing framework to consider the correlation with the sound enhancement technique. The voice activity detection showed about 80% accuracy, and the direction of arrival estimation showed 39% accuracy in frame-level(16ms) evaluation and 83% in utterance-level(3-8s) evaluation.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.