본 논문은 비 산업 로봇의 비중이 점차 증가함에 따라 인간과 로봇이 상호 소통하는 기술 중 가장 기초가 되는 음원 추적 시스템의 기법에 대해 보여준다. 음원 추적 시스템(Sound Source Localization)은 모바일 로봇과 자동제어 시스템에 적용될 수 있는 기술로 현재 많은 연구가 진행 중이다. 대부분 SSL의 기법은 음원 도달 시간차(interaural time difference, ITD)와 음압 레벨의 차이(interaural ...
본 논문은 비 산업 로봇의 비중이 점차 증가함에 따라 인간과 로봇이 상호 소통하는 기술 중 가장 기초가 되는 음원 추적 시스템의 기법에 대해 보여준다. 음원 추적 시스템(Sound Source Localization)은 모바일 로봇과 자동제어 시스템에 적용될 수 있는 기술로 현재 많은 연구가 진행 중이다. 대부분 SSL의 기법은 음원 도달 시간차(interaural time difference, ITD)와 음압 레벨의 차이(interaural level difference, ILD)를 구하고, 마이크로폰 배열의 기하학적 원리를 이용하여 위치를 찾게 된다. 하지만 본 논문에서는 음원의 수평 각도를 구하기 위해 깊은 인공신경망을 기반으로 한 다른 접근법은 제안한다. 인간의 귀를 모방한 로봇을 구상하여 양쪽에 마이크로폰을 장착했고 음원의 특성을 정확히 추출하기 위해 별도의 음원 채집 장치를 제작했다. 음원 채집 장치는 16khz로 동작하며, 미세한 지연시간(Latency)까지 줄이기 위해 채집 장치에 별도에 메모리를 할당하여 직접 값을 얻어오는 방식으로 구현했다. 음원은 –90°부터 90°까지를 10°씩 채집하여 19개로 분류된다. 신경망은 오차 역전법(Back Propagation)을 이용한 깊은 신경망(Deep Neural Network, DNN)과 경쟁학습(Competitive Learning)을 이용한 동적 선형 벡터 양자화(Dynamic Linear Vector Quantization, DLVQ) 신경망으로 실험을 진행했다. DNN 은 별도의 가공하지 않은 시계열의 데이터와 제안한 전처리 기법을 이용 하여 그 성능을 비교하였다. DNN을 이용한 실험에서 데이터의 전처리 여부에 따라 같은 구성의 신경망의 성능이 개선되는 것을 확인할 수 있다. 더 나아가서 전처리된 데이터를 이용해 DLVQ라는 신경망을 제안했 다. DLVQ는 입력 벡터와 가중벡터의 유사관계를 계산하여 입력 벡터를분류한다. 제안한 DLVQ는 오차역전법을 이용한 신경망과 비슷한 Accuracy를 가지고 있지만, 학습의 종료가 없고 끊임없이 배울 수 있다는 장점이 있다. 실험 결과 본 논문에서는 신경망에서 사용되는 데이터의 전처리 기법과 끊임없이 학습할 수 있는 DLVQ에 대해서 제안했다. 제한된 환경에서는좋은 성능을 보이지만 모든 환경에서 강인함을 갖진 못한다. 하지만, 추후 음원 추적 시스템의 연구에 좋은 초석이 될 수 있다고 생각한다.
본 논문은 비 산업 로봇의 비중이 점차 증가함에 따라 인간과 로봇이 상호 소통하는 기술 중 가장 기초가 되는 음원 추적 시스템의 기법에 대해 보여준다. 음원 추적 시스템(Sound Source Localization)은 모바일 로봇과 자동제어 시스템에 적용될 수 있는 기술로 현재 많은 연구가 진행 중이다. 대부분 SSL의 기법은 음원 도달 시간차(interaural time difference, ITD)와 음압 레벨의 차이(interaural level difference, ILD)를 구하고, 마이크로폰 배열의 기하학적 원리를 이용하여 위치를 찾게 된다. 하지만 본 논문에서는 음원의 수평 각도를 구하기 위해 깊은 인공신경망을 기반으로 한 다른 접근법은 제안한다. 인간의 귀를 모방한 로봇을 구상하여 양쪽에 마이크로폰을 장착했고 음원의 특성을 정확히 추출하기 위해 별도의 음원 채집 장치를 제작했다. 음원 채집 장치는 16khz로 동작하며, 미세한 지연시간(Latency)까지 줄이기 위해 채집 장치에 별도에 메모리를 할당하여 직접 값을 얻어오는 방식으로 구현했다. 음원은 –90°부터 90°까지를 10°씩 채집하여 19개로 분류된다. 신경망은 오차 역전법(Back Propagation)을 이용한 깊은 신경망(Deep Neural Network, DNN)과 경쟁학습(Competitive Learning)을 이용한 동적 선형 벡터 양자화(Dynamic Linear Vector Quantization, DLVQ) 신경망으로 실험을 진행했다. DNN 은 별도의 가공하지 않은 시계열의 데이터와 제안한 전처리 기법을 이용 하여 그 성능을 비교하였다. DNN을 이용한 실험에서 데이터의 전처리 여부에 따라 같은 구성의 신경망의 성능이 개선되는 것을 확인할 수 있다. 더 나아가서 전처리된 데이터를 이용해 DLVQ라는 신경망을 제안했 다. DLVQ는 입력 벡터와 가중벡터의 유사관계를 계산하여 입력 벡터를분류한다. 제안한 DLVQ는 오차역전법을 이용한 신경망과 비슷한 Accuracy를 가지고 있지만, 학습의 종료가 없고 끊임없이 배울 수 있다는 장점이 있다. 실험 결과 본 논문에서는 신경망에서 사용되는 데이터의 전처리 기법과 끊임없이 학습할 수 있는 DLVQ에 대해서 제안했다. 제한된 환경에서는좋은 성능을 보이지만 모든 환경에서 강인함을 갖진 못한다. 하지만, 추후 음원 추적 시스템의 연구에 좋은 초석이 될 수 있다고 생각한다.
In this paper, we describe a sound source localization (SSL) system which can be applied to mobile robot and automatic control systems. Usually the SSL method finds the interaural time difference, the interaural level difference, and uses the geometrical principle of microphone array. But he...
In this paper, we describe a sound source localization (SSL) system which can be applied to mobile robot and automatic control systems. Usually the SSL method finds the interaural time difference, the interaural level difference, and uses the geometrical principle of microphone array. But here we proposed another approach based on the deep neural network to obtain the horizontal directional angle (azimuth) of the sound source. We pick up the sound source signals from the two microphones attached symmetrically on both sides of the robot to imitate the human ears, were utilized and tested. Here, we use difference of spectral distributions of sounds obtained from two microphones to train the network. We train the network with multiples of 10 degrees and test with several random degrees. The result shows quite promising validity of our approach.
In this paper, we describe a sound source localization (SSL) system which can be applied to mobile robot and automatic control systems. Usually the SSL method finds the interaural time difference, the interaural level difference, and uses the geometrical principle of microphone array. But here we proposed another approach based on the deep neural network to obtain the horizontal directional angle (azimuth) of the sound source. We pick up the sound source signals from the two microphones attached symmetrically on both sides of the robot to imitate the human ears, were utilized and tested. Here, we use difference of spectral distributions of sounds obtained from two microphones to train the network. We train the network with multiples of 10 degrees and test with several random degrees. The result shows quite promising validity of our approach.
주제어
#Sound Source Localization(SSL) Deep Neural Network Mobile Robot Spectral Distribution ITD ILD Linear Vector Quantization Artificial Neural Network Neural Network Clustering Classification
학위논문 정보
저자
박희문
학위수여기관
한국기술교육대학교 일반대학원
학위구분
국내석사
학과
전기전자통신공학과 전기공학 전공
지도교수
정종대
발행연도
2021
총페이지
61
키워드
Sound Source Localization(SSL) Deep Neural Network Mobile Robot Spectral Distribution ITD ILD Linear Vector Quantization Artificial Neural Network Neural Network Clustering Classification
※ AI-Helper는 부적절한 답변을 할 수 있습니다.