Short-time Fourier transform 소음맵을 이용한 컨볼루션 기반 BSR (Buzz, Squeak, Rattle) 소음 분류 BSR (Buzz, Squeak, Rattle) noise classification based on convolutional neural network with short-time Fourier transform noise-map원문보기
차량 내부에는 BSR(Buzz, Squeak, Rattle) 세 가지 유형의 소음이 발생한다. 본 논문에서는 심층 컨볼루션 신경망으로 추출한 소음 특징에 기반하여 자동으로 차량 내부의 BSR 소음을 분류하는 분류기를 제안한다. 차량 내부의 소음은 전처리 단계에서 STFT(Short-time Fourier Transform) 알고리즘을 사용하여 소음 맵으로 표현된다. 생성된 소음 맵 내부에서 실제 소음의 위치를 정확하게 파악하기 어려운 문제에 대처하기 위해서 슬라이딩 윈도우 방법으로 분할하였다. 본 논문에서는 t-SNE(t-Stochastic Neighbor Embedding) 알고리즘을 사용하여 심층 컨볼루션 신경망 내부 파라미터를 시각화하고 정성적인 방식으로 오분류데이터를 분석하였다. 분류된 데이터의 정량적인 분석을 위해 소음의 종류별 유사도를 SSIM(Structural Similarity Index) 수치에 기반하여 정량화하여 리트랙터의 떨림음이 정상주행음과 가장 유사하다는 것을 밝혔다. 제안하는 방법의 분류기는 기타 기계학습 알고리즘 대비 최고 분류 정확도를 달성하였다(99.15%).
차량 내부에는 BSR(Buzz, Squeak, Rattle) 세 가지 유형의 소음이 발생한다. 본 논문에서는 심층 컨볼루션 신경망으로 추출한 소음 특징에 기반하여 자동으로 차량 내부의 BSR 소음을 분류하는 분류기를 제안한다. 차량 내부의 소음은 전처리 단계에서 STFT(Short-time Fourier Transform) 알고리즘을 사용하여 소음 맵으로 표현된다. 생성된 소음 맵 내부에서 실제 소음의 위치를 정확하게 파악하기 어려운 문제에 대처하기 위해서 슬라이딩 윈도우 방법으로 분할하였다. 본 논문에서는 t-SNE(t-Stochastic Neighbor Embedding) 알고리즘을 사용하여 심층 컨볼루션 신경망 내부 파라미터를 시각화하고 정성적인 방식으로 오분류데이터를 분석하였다. 분류된 데이터의 정량적인 분석을 위해 소음의 종류별 유사도를 SSIM(Structural Similarity Index) 수치에 기반하여 정량화하여 리트랙터의 떨림음이 정상주행음과 가장 유사하다는 것을 밝혔다. 제안하는 방법의 분류기는 기타 기계학습 알고리즘 대비 최고 분류 정확도를 달성하였다(99.15%).
There are three types of noise generated inside the vehicle: BSR (Buzz, Squeak, Rattle). In this paper, we propose a classifier that automatically classifies automotive BSR noise by using features extracted from deep convolutional neural networks. In the preprocessing process, the features of above ...
There are three types of noise generated inside the vehicle: BSR (Buzz, Squeak, Rattle). In this paper, we propose a classifier that automatically classifies automotive BSR noise by using features extracted from deep convolutional neural networks. In the preprocessing process, the features of above three noises are represented as noise-map using STFT (Short-time Fourier Transform) algorithm. In order to cope with the problem that the position of the actual noise is unknown in the part of the generated noise map, the noise map is divided using the sliding window method. In this paper, internal parameter of the deep convolutional neural networks is visualized using the t-SNE (t-Stochastic Neighbor Embedding) algorithm, and the misclassified data is analyzed in a qualitative way. In order to analyze the classified data, the similarity of the noise type was quantified by SSIM (Structural Similarity Index) value, and it was found that the retractor tremble sound is most similar to the normal travel sound. The classifier of the proposed method compared with other classifiers of machine learning method recorded the highest classification accuracy (99.15 %).
There are three types of noise generated inside the vehicle: BSR (Buzz, Squeak, Rattle). In this paper, we propose a classifier that automatically classifies automotive BSR noise by using features extracted from deep convolutional neural networks. In the preprocessing process, the features of above three noises are represented as noise-map using STFT (Short-time Fourier Transform) algorithm. In order to cope with the problem that the position of the actual noise is unknown in the part of the generated noise map, the noise map is divided using the sliding window method. In this paper, internal parameter of the deep convolutional neural networks is visualized using the t-SNE (t-Stochastic Neighbor Embedding) algorithm, and the misclassified data is analyzed in a qualitative way. In order to analyze the classified data, the similarity of the noise type was quantified by SSIM (Structural Similarity Index) value, and it was found that the retractor tremble sound is most similar to the normal travel sound. The classifier of the proposed method compared with other classifiers of machine learning method recorded the highest classification accuracy (99.15 %).
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
따라서 본 논문에서는 복잡하고 유사한 소음 데이터를 모델링하고 분류하기 위해서 기계학습 방법 중심층 컨볼루션 신경망을 사용하는 BSR 분류를 제안한다. 컨볼루션 신경망은 입력된 데이터에 컨볼루션과 풀링연산을 적용하며 자동적으로 분류에 필요한 특징을 추출, 학습하는 방법으로 타 기계학습 방법을 사용한 BSR 분류기와 비교하여 가장 높은 분류정확도(99.
제안 방법
각 BSR 소음으로부터 STFT 알고리즘을 사용하여 추출한 소음 맵의 일부 중 실제 소음의 시작과 끝을 알 수 없는 문제에 대처하기 위해서 슬라이딩 윈도우 방법을 사용하여 일정 구간을 샘플링하였다. 슬라이딩 윈도우 방법은 정해진 크기의 윈도우를 시간축을 따라 이동시키며 데이터의 일정 구간을 샘플링하는 방법이다.
본 논문에서는 BSR 소음데이터로부터 STFT 알고리즘을 사용하여 특징을 추출하고 슬라이딩 윈도우방법을 사용하여 전처리하였다. 각 BSR 소음은 고유한 소음 맵으로 사상되어 심층 컨볼루션 신경망을 사용하여 분류하였다.
분류한 소음의 종류는 네가지로, Table 1에 소음의 종류와 개수, 평균 음원 길이를 정리하였다. 시간 도메인 데이터의 특징과 주파수 도메인 데이터의 특징을 동시에 고려하기 위해 데이터의 구간별로 Fourier transform을 적용하였고, Fig. 2에서 소음의 종류 별소음 맵을 비교하였다. 각 소음 맵은 육안으로 보았을 때 식별이 불가능할 정도로 유사하다.
[10] 하단부터 2회의 컨볼루션-풀링 층으로 구성되어 있고, 각 컨볼루션, 풀링층의 필터 크기는 2 ×2 벡터이다. 일반적인 이미지 분류를 위한 컨볼루션 신경망이 하단에서 점, 선 등의 저수준 특징을 추출하기 위해 필터 크기를 크게 하는 것에 비해 BSR 소음 맵은 구조가 복잡하지 않아 필터의 크기를 작게 설정하였다. 분류기의 상단에서는 학습데이터에 대한 과적합 문제에 대처하기 위해서 이전 층 출력의 일부를 버리는 Dropout 층을 사용하였다.
주로 오분류되는 정상주행음과 리트랙터 떨림음의 정량적인 비교를 위해 SSIM(Structural Similarity Index)수치를 가지고 비교분석하였다. SSIM 수치는 두 이미지 사이의 유사성을 측정하는 척도로, 이미지의 구조적인 속성에 기반하여 MSE(Mean Squared Error), PSNR(Peak Signal-to-Noise Ratio) 척도대비 정확한 비교수치를 제공한다.
BSR 소음을 분석하고 분류하기 위해 여러 시도가 있었다. 차량 소음을 모델링하고 정의하려는 연구에서는 차량의 소음으로부터 특징을 추출하고 분석하였다.[2] 소음원의 추적시스템을 개발하려는 연구에서는 BSR 소음의 유형을 체계적으로 분류하고 정량화하였다.
데이터처리
제안하는 컨볼루션 신경망을 사용한 BSR 분류기와 기존의 기계학습 기반 분류기의 성능을 비교하기 위해서 10겹 교차검증(10 fold Cross validation, CV)하였다. Fig. 6에서 기존의 기계학습 기반 BSR 분류기와 제안하는 컨볼루션 신경망을 사용한 BSR 분류기의 비교실험 결과를 Box-plot으로 정리하였다.
제안하는 컨볼루션 신경망을 사용한 BSR 분류기와 기존의 기계학습 기반 분류기의 성능을 비교하기 위해서 10겹 교차검증(10 fold Cross validation, CV)하였다. Fig.
이론/모형
1. BSR noise map generated using STFT algorithm.
Fig. 5에서 제안하는 분류기로부터 출력된 데이터특징의 분포를 t-SNE 알고리즘을 사용하여 시각화하였다. 데이터가 인공신경망에 입력되면 심층으로 갈 수록 각 층의 가중치와 곱해지고 비선형함수를 통해 출력되는데, 소음의 종류를 출력하는 출력 직전층의 활성화함수값을 t-SNE 알고리즘을 사용하여 시각화하였다.
5에서 제안하는 분류기로부터 출력된 데이터특징의 분포를 t-SNE 알고리즘을 사용하여 시각화하였다. 데이터가 인공신경망에 입력되면 심층으로 갈 수록 각 층의 가중치와 곱해지고 비선형함수를 통해 출력되는데, 소음의 종류를 출력하는 출력 직전층의 활성화함수값을 t-SNE 알고리즘을 사용하여 시각화하였다. 분류기의 심층에서 종류별로 군집화하는 것으로 분류기의 학습 정도를 정성적으로 분석할수 있다.
구체적으로 BSR 소음은 시계열 특성을 가지는 음향 데이터로 기계학습 방법을 사용하여 분류하기에는 데이터의 차원이 높고, 정확한 소음의 시작과 끝을 알기 어려운 문제가 있다. 따라서 본 논문에서는 소음의 분류에 사용할 특징을 추출하기 위해 STFT(Shorttime Fourier Transform) 알고리즘을 사용하여 소음별로 고유한 소음 맵을 구성하였다. Fig.
본 논문에서는 BSR 소음데이터로부터 STFT 알고리즘을 사용하여 특징을 추출하고 슬라이딩 윈도우방법을 사용하여 전처리하였다. 각 BSR 소음은 고유한 소음 맵으로 사상되어 심층 컨볼루션 신경망을 사용하여 분류하였다.
윈도우의 크기에 따라 학습 데이터의 수가 결정되며, 윈도우에 소음이 포함되었는지의 여부에 따라 분류기의 성능을 변동시키기 때문에 최적의 윈도우 크기를 찾는 것이 중요하다. 실험적 결과에 의해 최적의 윈도우 크기로 도출된 크기 9 프레임(약 0.0002s)를 사용하였고, 이때 생성된 윈도우 집합의 분포를 Fig. 4에서 t-SNE(t-Stochastic Neighbor Embedding) 알고리즘을 사용하여 시각화하였다.
성능/효과
1) BSR 소음맵과 해당 소음의 종류를 사상하도록 훈련시킨 심층 컨볼루션 신경망은 BSR 소음의 높은 차원에 대처하였고, 10겹 교차검증 결과 기존의 기계학습에 기반한 분류기 중 최고의 성능(99.15 % 테스트 정확도)을 기록하였다.
2) 벡터의 유사성을 비교하는 SSIM 수치로 오분류된데이터를 정량적으로 분석하여, 정상 주행음과 리트랙터 떨림음의 유사도가 다른 소음 종류 사이의 유사도보다 최대 80배가량 높다는 것을 보였다.
Table 3에서 최적의 윈도우 크기를 결정하기 위해다른 변수를 고정하고 윈도우 크기 별 분류 정확도를 정리하였다. BSR 소음 윈도우 크기 6에서 87.31 %로 분류 정확도가 가장 낮았고 크기 9에서 99.20 %로 거의 모든 BSR 소음 윈도우를 분류하였다. Table 4에서 윈도우 크기 9로 설정한 경우의 분류결과의 혼동행렬분석을 정리하였다.
기존의 기계학습에 기반한 분류기는 Naive Bayes, Nearest Neighbor, Decision Tree, SVM, MLP, RandomForest 순으로 분류 정확도가 높았다. 기존 방법은 소음 맵의 복잡하고 높은 차원에으로 인해 소음의 특징을 완전히 학습하지 못하였으나, 제안하는 심층컨볼루션 신경망 방법의 분류기는 10겹 교차검증 결과 평균 99.15 % 테스트 분류정확도를 기록하였다.
기존의 기계학습에 기반한 분류기는 Naive Bayes, Nearest Neighbor, Decision Tree, SVM, MLP, RandomForest 순으로 분류 정확도가 높았다. 기존 방법은 소음 맵의 복잡하고 높은 차원에으로 인해 소음의 특징을 완전히 학습하지 못하였으나, 제안하는 심층컨볼루션 신경망 방법의 분류기는 10겹 교차검증 결과 평균 99.
후속연구
추가적인 연구로 차량의 종류와 외부의 요인에 대해 대처할 수 있도록 소음 데이터의 개수를 늘리고 잡음-강건성을 확보하는 것이 필요하다. 특히 정상주행음과 리트랙터 떨림음의 명확한 구분을 위해서 추가적인 해당 데이터의 샘플을 확보하고 특징에 대해 분석하는 것이 필요하다.
추가적인 연구로 차량의 종류와 외부의 요인에 대해 대처할 수 있도록 소음 데이터의 개수를 늘리고 잡음-강건성을 확보하는 것이 필요하다. 특히 정상주행음과 리트랙터 떨림음의 명확한 구분을 위해서 추가적인 해당 데이터의 샘플을 확보하고 특징에 대해 분석하는 것이 필요하다.
질의응답
핵심어
질문
논문에서 추출한 답변
t-SNE 알고리즘이란 무엇인가?
t-SNE 알고리즘은 고차원상 데이터의 관계를 저차원상에서 유지하는 비선형적인 차원 축소 방법이다.[13] 소음원이 다름에도 불구하고 가까운 거리에서 뒤섞인 데이터들은 소음의 특성이 비슷하여 오분류될 확률이 높다.
BSR 소음을 분류하는데 어려운 이유는 무엇인가?
구체적으로 BSR 소음은 시계열 특성을 가지는 음향 데이터로 기계학습 방법을 사용하여 분류하기에는 데이터의 차원이 높고, 정확한 소음의 시작과 끝을 알기 어려운 문제가 있다. 따라서 본 논문에서는 소음의 분류에 사용할 특징을 추출하기 위해 STFT(Shorttime Fourier Transform) 알고리즘을 사용하여 소음별로 고유한 소음 맵을 구성하였다.
본 연구에서 컨볼루션 신경망은 어떻게 구성하였는가?
컨볼루션 신경망을 사용하는 분류기 모델은 이미지 분류에서 주로 사용되며 특히 2012년 이후로 각종 이미지 분류 경연대회에서 최고의 성능을 거두고 있다.[10] 하단부터 2회의 컨볼루션-풀링 층으로 구성되어 있고, 각 컨볼루션, 풀링층의 필터 크기는 2 ×2 벡터이다. 일반적인 이미지 분류를 위한 컨볼루션 신경망이 하단에서 점, 선 등의 저수준 특징을 추출하기 위해 필터 크기를 크게 하는 것에 비해 BSR 소음 맵은 구조가 복잡하지 않아 필터의 크기를 작게 설정하였다.
참고문헌 (16)
M. G. Mog, B. H. Min, S. W. Choi, and H. J. Lee, "Development of the reproduction test method of automobile buzz, squeak, rattle noise and the tracking system" (in Korean), Proc. KSAE 2010 Conference, 1475-1481 (2010).
H. Wu, M. Siegel, and P. Khosla, "Vehicle sound signature recognition by frequency vector principal component analysis," IMTC, IEEE, 1, 429-434 (1998).
K. C. Kim, S. W. Lee, J. M. Choi, and Y. J. Kim, "Study on the simulation process for the buzz, squeak and rattle incorporating vehicle to vehicle variance" (in Korean), Proc. KSNVE 2014 Conference, 480-481 (2014).
S. U. Choi, M. G. Mog, S. J. Kang, K. D. Yee, and M. W. Suh, "A study on the BSR performance prediction technology" (in Korean), Proc. KSAE 2013 Conference, 2040-2044 (2013).
C. Woo and H. Park, "Measurement of BSR noise of cockpit module materials for automobiles," Proc. AIP Conference, 1727 (2016).
G. Cerrato, "Automotive sound quality-accessories, BSR and brakes," Sound and Vibration, 43, 10, (2009).
Y. S. Wang, C. M. Lee, D. G. Kim, and Y. Xu, "Sound-quality prediction for nonstationary vehicle interior noise based on wavelet pre-processing neural network model," J. Sound and Vibration, 299, 933-947 (2007).
S. Lee, Y. Kwak, B. Kim, J. Lee, and J. Park, "Parameter quantification for evaluation of vehicle's impulsive bsr noise," Proc. Inter-noise Conference, 3361-3363 (2014).
A. Krizhevsky, I. Sutskever, and G. E. Hinton, "Imagenet classification with deep convolutional neural networks," Advances in Neural Information Processing Systems, 1097-1105 (2012).
M. D. Zeiler and R. Fergus, "Visualizing and understanding convolutional networks," Proc. European Conference on Computer Vision, 818-833 (2014).
N. Srivastava, G. E. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov, "Dropout: simple way to prevent neural networks from overfitting," J. Machine Learning Research, 15, 1929-1958 (2014).
T. G. Dietterich, "Machine learning for sequential data: a review," Joint IAPR International Workshops on Statistical Techniques in Pattern Recognition and Structural and Syntactic Pattern Recognition, 15-30 (2002).
L. V. D. Maaten and G. Hinton, "Visualizing data using t-SNE," J. Machine Learning Research, 9, 2579-2605 (2008).
T. N. Sainath, A. R. Mohamed, B. Kingbury, and B. Ramabhadran, "Deep convolutional neural networks for LVCSR," Proc. ICASSP, 8614-8618 (2013).
S. J. Bu and S. B. Cho, "A hybrid system of deep learning and learning classifier system for database intrusion detection," Proc. HAIS, 615-625 (2017).
Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli, "Image quality assessment: from error visibility to structural similarity," IEEE Trans. on Image Processing, 13, 600-612 (2004).
※ AI-Helper는 부적절한 답변을 할 수 있습니다.