[논문]다양한 합성곱 신경망 방식을 이용한 폐음 분류 방식의 성능 비교

김지연; 김형국

doi:10.7776/ask.2019.38.5.568

다양한 합성곱 신경망 방식을 이용한 폐음 분류 방식의 성능 비교
Performance comparison of lung sound classification using various convolutional neural networks 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.38 no.5, 2019년, pp.568 - 573

김지연 (광운대학교 전자융합공학과) , 김형국 (광운대학교 전자융합공학과)

초록
AI-Helper

폐질환 진단에서 청진은 다른 진단 방식에 비해 단순하고, 폐음을 이용하여 폐질환 환자식별뿐 아니라 폐음과 관련된 질병을 예측할 수 있다. 따라서 본 논문에서는 다양한 합성곱 신경방 방식을 기반으로 폐음을 이용하여 폐질환 환자를 식별하고, 소리특성에 따른 폐음을 분류하여 각 신경망 방식의 분류 성능을 비교한다. 먼저 폐질환 소견을 갖는 흉부 영역에서 단채널 폐음 녹음기기를 이용하여 폐음 데이터를 수집하고, 수집된 시간축 신호를 스펙트럼 형태의 특징값으로 추출하여 각 분류 신경망 방식에 적용한다. 폐 사운드 분류 방식으로는 일반적인 합성곱 신경망, 병렬 구조, 잔류학습이 적용된 구조의 합성곱 신경망을 사용하고 실험을 통해 각 신경망 모델의 폐음 분류 성능을 비교한다.

Abstract ▼ AI-Helper

In the diagnosis of pulmonary diseases, auscultation technique is simpler than the other methods, and lung sounds can be used for predicting the types of pulmonary diseases as well as identifying patients with pulmonary diseases. Therefore, in this paper, we identify patients with pulmonary diseases and classify lung sounds according to their sound characteristics using various convolutional neural networks, and compare the classification performance of each neural network method. First, lung sounds over affected areas of the chest with pulmonary diseases are collected by using a single-channel lung sound recording device, and spectral features are extracted from the collected sounds in time domain and applied to each neural network. As classification methods, we use general, parallel, and residual convolutional neural network, and compare lung sound classification performance of each neural network through experiments.

주제어

표/그림 (6)

그림 Fig. 1. Architecture of the basic framework for lung sound classification.
그림 Fig. 2. Structure of the residual convolution layer.
그림 Fig. 3. Structure of the parallel convolutional neural network.
표 Table 1. The identification accuracy of patients with pulmonary diseases.
표 Table 2. Results of lung sound classification.
표 Table 3. Confusion matrix of P-CNN and precision.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 폐에서 발생하는 사운드를 통해 폐질환 환자를 식별하고, 부잡음을 분류하기 위해 다양한 CNN 방식을 이용하여 각 방식의 성능을 비교하였다. CNN 방식으로는 일반적인 CNN, P-CNN, R-CNN을 사용하였다.

가설 설정

데이터베이스는 마이크로폰을 부착한 청진기를 통해 피험자의 앙와위 자세에서 흉부 후부의 다양한 기류 속도를 갖는폐음을 녹음한 것이며 녹음 하는 단계에서 저주파 대역의 잡음, 심장 박동 소리와 같은 외부 잡음은 차단 주파수가 80 Hz인 아날로그 저역 통과 필터를 적용하여 필터링하였다. 녹음 파일은 각 피험자마다 최대 흡기 기류로 가정하여 30 s 이내의 폐음으로 구성된다. 수집된 데이터 중 0.

제안 방법

실험에서 사용된 입력 데이터는 2 s에 해당하는 98 × 257크기의 스펙트로그램이고, 일반적인 CNN은 5 × 5크기의 64개 커널 필터와, 3 × 3크기의 max- pooling filter로 구성된 2개의 합성곱층, 이전과 동일한 크기의 128개 필터로 구성된 2개의 합성곱층을 사 용하였다. P-CNN에서는 2.2.3에서 설명된 구조를 기반으로 각 32개의 필터를 사용하였고, R- CNN은 64 개의 커널 필터, ReLU함수, batch normalization로 구성된 3개의 합성곱층으로 구성된 residual layer 6개를 사용하였다. 각 신경망의 MLP는 1개의 은닉층과 softmax layer로 구성된다.
본 연구의 폐음 데이터베이스는 건강한 피험자와 폐질환 환자의 폐음을 환자의 동의하에 녹음하여 사용하였다. 데이터베이스는 마이크로폰을 부착한 청진기를 통해 피험자의 앙와위 자세에서 흉부 후부의 다양한 기류 속도를 갖는폐음을 녹음한 것이며 녹음 하는 단계에서 저주파 대역의 잡음, 심장 박동 소리와 같은 외부 잡음은 차단 주파수가 80 Hz인 아날로그 저역 통과 필터를 적용하여 필터링하였다. 녹음 파일은 각 피험자마다 최대 흡기 기류로 가정하여 30 s 이내의 폐음으로 구성된다.
추출된 특징맵은 fully-connected되어 하나로 연결되고, MLP의 입력으로 사용된다. 본 논문 에서는 병렬구조의 합성곱층을 통해 오디오의 시간 축, 주파수축 특징을 각각 추출하는 방식을 사용한다. 제안하는 P-CNN은 병렬 구조의 14 × 15, 4 x 8크기의 커널 필터로 구성된 합성곱층, 추출된 특징맵의 차원 감소를 위한 2 × 2크기의 max-pooling filter, 주파수 도메인과 시간축도메인의 특징 추출을 위한 1 × 17, 15 × 1크기의 max-pooling filter로 구성된다.
본 논문에서는 건강한 폐음과 부잡음에 해당되는 수포음, 천명음, 협착음을 포함하여 네 가지 클래스를 선정하였으며 각 부잡음의 특징은 다음과 같다.
테스트 단계에서는 새로운 폐음 데이터의 특징값을 추출하고, 추출된 스펙트럼을 학습된 신경망에 적용하여 폐 사운드 분류한다. 본 논문에서는 학습된 각 신경망 모델의 분류 정확도를 통해 분류 방식의 성능을 비교하고, 폐음 분류 방식으로 일반적인 CNN, P-CNN, R-CNN을 을 각각 사용한다.
녹음 파일은 각 피험자마다 최대 흡기 기류로 가정하여 30 s 이내의 폐음으로 구성된다. 수집된 데이터 중 0.5 l/s 이상의 기류 값을 갖는 측정값을 임의로 선택하여 녹음된 신호의 기류 신호를 이용하여 전체 호흡 주기를 결정하였으며 호흡시 흡기와 호기 구간을 구분하기 위해 차단주파수가 3 Hz인 저역 통과 필터를 이용하여 부드러운 기류 신호를 생성하였고, 기류 신호의 zero crossing positions에 따라 호흡의 시작 위치를 결정하였다. 전체 데이터베이스는 5명의 정상인과 23명의 환자로부터 수집한 5개의 건강한 폐음(138 s), 폐질환으로 인해 발생한 8개의 수포음(180 s), 11개의 천명음(150 s), 4개의 협착음(102 s) 파일로 구성되고, 각 녹음 파일은 16 kHz 샘플링레이트와 24 비트 해상도를 사용하였다.
이에 본 논문에서는 한호흡주기에 녹음된 단채널 폐음의 스펙트럼과 시간 및 공간 정보를 기반으로 다양한 구조의 합성곱 신경망 방식인 일반적인 CNN, 병렬 CNN(Parallel CNN, P-CNN), Residual CNN(R- CNN)을 이용하여 건강한 사람과 폐질환 환자를 식별하고, 더 나아가 소리 특징에 따른 건강한 폐음, 부잡음인 수포음(crackle), 천명음(wheezing), 협착음(stridor) 을 분류하여 각 신경망 방식의 성능을 비교한다.
제안하는 P-CNN은 병렬 구조의 14 × 15, 4 x 8크기의 커널 필터로 구성된 합성곱층, 추출된 특징맵의 차원 감소를 위한 2 × 2크기의 max-pooling filter, 주파수 도메인과 시간축도메인의 특징 추출을 위한 1 × 17, 15 × 1크기의 max-pooling filter로 구성된다.
학습 단계에서는 먼저 단채널 폐 사운드 녹음기기를 통해 수집된 폐 사운드의 특징을 추출하기 위해 32 ms 크기의 해밍 윈도우와 12 ms 오버래핑을 적용하여 폐 사운드를 프레임 단위로 분할하고, 단시간 푸리에 변환에 적용하여 257-bin 스펙트럼을 추출한다. 추출된 2차원의 스펙트럼은 합성곱기반의 신경망 방식에 입력되어 학습을 수행한다. 테스트 단계에서는 새로운 폐음 데이터의 특징값을 추출하고, 추출된 스펙트럼을 학습된 신경망에 적용하여 폐 사운드 분류한다.
추출된 2차원의 스펙트럼은 합성곱기반의 신경망 방식에 입력되어 학습을 수행한다. 테스트 단계에서는 새로운 폐음 데이터의 특징값을 추출하고, 추출된 스펙트럼을 학습된 신경망에 적용하여 폐 사운드 분류한다. 본 논문에서는 학습된 각 신경망 모델의 분류 정확도를 통해 분류 방식의 성능을 비교하고, 폐음 분류 방식으로 일반적인 CNN, P-CNN, R-CNN을 을 각각 사용한다.
각 신경망의 MLP는 1개의 은닉층과 softmax layer로 구성된다. 학습의 최적화 방식으로 ADAM 알고리즘과 교차 엔트로피 오차를 사용하였다. 다양한 구조의 CNN 방식의 단채널 폐음의 분류 성능 비교를 위한 측정 지표로는 정밀도 P 를 사용하였고 계산식은 다음과 같다.

대상 데이터

실험에서 사용된 입력 데이터는 2 s에 해당하는 98 × 257크기의 스펙트로그램이고, 일반적인 CNN은 5 × 5크기의 64개 커널 필터와, 3 × 3크기의 max- pooling filter로 구성된 2개의 합성곱층, 이전과 동일한 크기의 128개 필터로 구성된 2개의 합성곱층을 사 용하였다.
5 l/s 이상의 기류 값을 갖는 측정값을 임의로 선택하여 녹음된 신호의 기류 신호를 이용하여 전체 호흡 주기를 결정하였으며 호흡시 흡기와 호기 구간을 구분하기 위해 차단주파수가 3 Hz인 저역 통과 필터를 이용하여 부드러운 기류 신호를 생성하였고, 기류 신호의 zero crossing positions에 따라 호흡의 시작 위치를 결정하였다. 전체 데이터베이스는 5명의 정상인과 23명의 환자로부터 수집한 5개의 건강한 폐음(138 s), 폐질환으로 인해 발생한 8개의 수포음(180 s), 11개의 천명음(150 s), 4개의 협착음(102 s) 파일로 구성되고, 각 녹음 파일은 16 kHz 샘플링레이트와 24 비트 해상도를 사용하였다. 학습 모델의 신뢰성과 데이터로부터의 영향을 최소화하기 위해 녹음된 오디오 신호를 프레임 단위로 분할한 뒤 각 클래스의 데이터를 랜덤하게 4개의 그룹으로 나누어 한 개의 그룹을 테스트 데이터로 사용하는 4-fold 교차 검증 방식을 이용하였다.

데이터처리

학습 모델의 신뢰성과 데이터로부터의 영향을 최소화하기 위해 녹음된 오디오 신호를 프레임 단위로 분할한 뒤 각 클래스의 데이터를 랜덤하게 4개의 그룹으로 나누어 한 개의 그룹을 테스트 데이터로 사용하는 4-fold 교차 검증 방식을 이용하였다. 각 학습, 테스트 데이터 구성에 따른 4번의 모델 성능 측정 결과의 평균을 통해 폐음 분류 정확도를 획득하였다.
전체 데이터베이스는 5명의 정상인과 23명의 환자로부터 수집한 5개의 건강한 폐음(138 s), 폐질환으로 인해 발생한 8개의 수포음(180 s), 11개의 천명음(150 s), 4개의 협착음(102 s) 파일로 구성되고, 각 녹음 파일은 16 kHz 샘플링레이트와 24 비트 해상도를 사용하였다. 학습 모델의 신뢰성과 데이터로부터의 영향을 최소화하기 위해 녹음된 오디오 신호를 프레임 단위로 분할한 뒤 각 클래스의 데이터를 랜덤하게 4개의 그룹으로 나누어 한 개의 그룹을 테스트 데이터로 사용하는 4-fold 교차 검증 방식을 이용하였다. 각 학습, 테스트 데이터 구성에 따른 4번의 모델 성능 측정 결과의 평균을 통해 폐음 분류 정확도를 획득하였다.

이론/모형

본 논문에서는 폐에서 발생하는 사운드를 통해 폐질환 환자를 식별하고, 부잡음을 분류하기 위해 다양한 CNN 방식을 이용하여 각 방식의 성능을 비교하였다. CNN 방식으로는 일반적인 CNN, P-CNN, R-CNN을 사용하였다. 실험을 통해 P-CNN 방식이 k-NN, 일반적인 CNN, R-CNN보다 폐음 분류에서 더 우수한 성능을 보이는 것을 확인하였다.
학습의 최적화 방식으로 ADAM 알고리즘과 교차 엔트로피 오차를 사용하였다. 다양한 구조의 CNN 방식의 단채널 폐음의 분류 성능 비교를 위한 측정 지표로는 정밀도 P 를 사용하였고 계산식은 다음과 같다.

성능/효과

k-NN은 폐음의 특징 패턴을 분석하여 비슷한 패턴을 군집화하는 방식으로 폐질환 환자 식별 성능에 비해 구체적 패턴 분석이 필요한 폐음 분류에서는 낮은 성능을 보이는 반면 일반적인 CNN은 k-NN에 비해 성능이 향상된 것을 확인할 수 있다. P-CNN의 폐음 분류 정확도는 95.36 %로 다른 방식의 신경망과 비교했을 때 가장 우수한 성능을 보이는 것을 확인할 수 있다. Table 3은 P-CNN기반의 분류 결과표와 클래스별 정확도를 보여준다.
본 연구에서는 학습데이터의 25 %를 검증 데이터로 사용하여 그리드 서치를 통해 분류 정확도가 가장 높은 네트워크의 파라미터 값을 선택하였다. 실험에서 사용된 입력 데이터는 2 s에 해당하는 98 × 257크기의 스펙트로그램이고, 일반적인 CNN은 5 × 5크기의 64개 커널 필터와, 3 × 3크기의 max- pooling filter로 구성된 2개의 합성곱층, 이전과 동일한 크기의 128개 필터로 구성된 2개의 합성곱층을 사 용하였다.
Table 3은 P-CNN기반의 분류 결과표와 클래스별 정확도를 보여준다. 수포음의 정밀도는 100 %로 가장 높은 성능으로 분류됨을 확인할 수 있다. 실험 결과를 통해 잔류학습을 적용한 심층 신경망 방식을 사용할 때 일반적인 CNN에 비해 폐음의 대표적인 특징을 보다 잘 추출하는 것을 확인할 수 있고, 병렬 구조의 합성곱층을 통해 여러 층을 쌓은 신경망 방식보다 시간 도메인, 주파수 도메인의 폐음 특징을 각각 추출하는 방식이 분류에 더 효과적임을 확인할 수 있다.
Table 1은 건강한 폐음과 부잡음을 이용한 폐질환 환자 식별 정확도를 보여준다. 실험 결과는 기존 방식인 k-NN과 CNN보다 잔류학습과 병렬 구조의 CNN을 사용했을 때 폐질환 환자 식별 성능이 더 우수함을 보여준다. Table 2 각각 다른 구조의 신경망을 이용한 4가지 클래스의 폐음 분류 성능 결과를 보여준다.
수포음의 정밀도는 100 %로 가장 높은 성능으로 분류됨을 확인할 수 있다. 실험 결과를 통해 잔류학습을 적용한 심층 신경망 방식을 사용할 때 일반적인 CNN에 비해 폐음의 대표적인 특징을 보다 잘 추출하는 것을 확인할 수 있고, 병렬 구조의 합성곱층을 통해 여러 층을 쌓은 신경망 방식보다 시간 도메인, 주파수 도메인의 폐음 특징을 각각 추출하는 방식이 분류에 더 효과적임을 확인할 수 있다.
CNN 방식으로는 일반적인 CNN, P-CNN, R-CNN을 사용하였다. 실험을 통해 P-CNN 방식이 k-NN, 일반적인 CNN, R-CNN보다 폐음 분류에서 더 우수한 성능을 보이는 것을 확인하였다. 향후 제안된 방법을 기반으로 흉부 여러 위치에서 발생한 소리를 수집하여 다채널 폐음을 통한구체적인 폐질환식별을 위한 연구를 진행할 계획이다.

후속연구

실험을 통해 P-CNN 방식이 k-NN, 일반적인 CNN, R-CNN보다 폐음 분류에서 더 우수한 성능을 보이는 것을 확인하였다. 향후 제안된 방법을 기반으로 흉부 여러 위치에서 발생한 소리를 수집하여 다채널 폐음을 통한구체적인 폐질환식별을 위한 연구를 진행할 계획이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	합성곱 신경망은 무엇인가?	인공 신경망의 발전된 형태인 합성곱 신경망(Con- volutional Neural Network, CNN)은 입력 이미지의 특 징을 추출하는 여러 신경망의 가중치를 공유하는 방 식으로 영상 처리, 오디오 신호 처리 등과 같은 다양 한 분야에서 사용되고 있으며 폐음 분류 방식에도 적용되어 우수한 성능을 보이고 있다.[5] 최근에는 CNN 방식을 기반으로 분류 및인식성능을 향상시키 기 위해 병렬구조의 합성곱 신경망,[6] 잔류 학습을 적 용한 심층 신경망[7]에 대한 연구가 활발히 진행되고 있다.
	심층 신경망이 갖는 문제(gradient vanishing/exploding)의 해결방안으로 무엇이 있는가?	하지만 신 경망의 층이깊어짐에 따라 계산량의 증가뿐 아니라 gradient vanishing/exploding 문제를 초래할 수 있다. 따라서 이를 해결하기 위한 방법으로 각 층의 출력 과 입력간의 차이를 학습시켜 기울기값 하락(degra- dation)문제를 해결하는 잔류학습 방식 기반의 R-CNN 이 제안되고 있다.
	청진을 통한 폐음 식별이 힘든 이유는?	또한 폐음은 정상적 인 소리, 부잡음(adventitious sound)으로 구분되어 청 진을 통한 진단 방식에서 폐질환 환자식별뿐 아니라 발생한 폐음과 관련된 질병을예측하는데 도움을 줄 수 있다. 하지만 청진은 사람의 청각에 의존하므로 의사의 충분한 수련 과정을 필요로 하고, 사람이 소 리를 느낄 수 있는 가청주파수 대역은 한정되기 때문 에낮은주파수대역에서 발생한 폐음을 식별하는 것 은 쉽지 않다. 따라서 이러한 한계를 보완하기 위해 이전 연구에서는 다양한 디지털 신호처리 방식을 이 용한 폐음 분석에 대한 접근 방식을 제안하였고,[1,2] 최근에는 k-최근접이웃 알고리즘(k-Nearest Neighbor Algorithm, k-NN), 인공 신경망과 같은 인공지능 기반 의 사운드 분석 및 분류 방식을 이용하여 폐음 분류 성능을 개선시켜 오고 있다.

참고문헌 (7)

R. Murphy, "Computerized multichannel lung sound analysis," IEEE Engineering in Medicine and Biology Magazine, 26, 16 (2007).

상세보기
S.-P.Yeo, C.-I. Jeon, S.-K. Yoo, D.-Y. Kim, and S.-H. Kim, "A study on robust pattern classification of lung sounds for diagnosis of pulmonary dysfunction in noise environment" (in Korean), Trans. of the Korea Institute of Electrical Eng. D, 51D, 122-128 (2002).
N. Sengupta, M. Sahidullah, and G. Saha, "Lung sound classification using local binary pattern," arXiv:1710. 01703 (2017).
A. Rizal, R. Hidayat, and H. A. Nugroho, "Lung sounds classification using spectrogram's first order statistics features," Proc. 6th Int. Annual Eng. Seminar (InAES) (2006).
D. Bardoua, K. Zhanga, and S. M. Ahmad, "Lung sounds classification using convolutional neural networks," Artificial Intelligence in Medicine, 88, 58-69 (2018).

상세보기
J. Pons, T. Lidy, and X. Serra, "Experimenting with musically motivated convolutional neural networks," Proc. 14th Int. Workshop on Content-Based Multimedia Indexing (2016).
K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," Proc. IEEE Conf. Computer Vision and Pattern Recognition, 770-778 (2016).

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증