[논문]음향 장면 분류에서 히트맵 청취 분석

서상원; 박수영; 정영호; 이태진

음향 장면 분류에서 히트맵 청취 분석
Listenable Explanation for Heatmap in Acoustic Scene Classification 원문보기

서상원 (전자통신연구원) , 박수영 (전자통신연구원) , 정영호 (전자통신연구원) , 이태진 (전자통신연구원)

인공신경망의 예측 결과에 대한 원인을 분석하는 것은 모델을 신뢰하기 위해 필요한 작업이다. 이에 컴퓨터 비전 분야에서는 돌출맵 또는 히트맵의 형태로 모델이 어떤 내용을 근거로 예측했는지 시각화 하는 모델 해석 방법들이 제안되었다. 하지만 오디오 분야에서는 스펙트로그램 상의 시각적 해석이 직관적이지 않으며, 실제 어떤 소리를 근거로 판단했는지 이해하기 어렵다. 따라서 본 연구에서는 히트맵의 청취 분석 시스템을 제안하고, 이를 활용한 음향 장면 분류 모델의 히트맵 청취 분석 실험을 진행하여 인공신경망의 예측 결과에 대해 사람이 이해할 수 있는 설명을 제공할 수 있는지 확인한다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구에서는 스펙트로그램 상의 히트맵을 청취하여 해석하는 방법을 제안한다.
본 연구에서는 오디오 도메인의 컨벌루션 모델 히트맵 분석을 위한 히트맵 청취 분석 시스템을 제안한다. 저자들은 2019 년도 DCASE 챌린지에 제출된 음향 장면 분류 모델을 대상으로 청취 분석 실험을 진행했으며, 장면 클래스와 관련 있는 소리가 검출된 샘플들을 확인할 수 있었다.

제안 방법

본 연구에서는 스펙트로그램 상의 히트맵을 청취하여 해석하는 방법을 제안한다. 이로써 기존의 시각적 분석으로는 해석하기 어려운 오디오 도메인의 히트맵을 청취함으로써 실제 모델 예측에 영향을 준 소리가 무엇인지 해석하는 방법을 제안한다. 저자들은 기 훈련된 음향 장면 분류 모델과 DCASE 음향 장면 데이터세트를 활용하여 히트맵을 생성하고 청취하는 실험을 진행하였다.
이로써 기존의 시각적 분석으로는 해석하기 어려운 오디오 도메인의 히트맵을 청취함으로써 실제 모델 예측에 영향을 준 소리가 무엇인지 해석하는 방법을 제안한다. 저자들은 기 훈련된 음향 장면 분류 모델과 DCASE 음향 장면 데이터세트를 활용하여 히트맵을 생성하고 청취하는 실험을 진행하였다.
히트맵의 청취 분석 실험을 위해 히트맵 청취 분석 시스템을 만들었으며, 이를 활용하여 음향 장면 분류 모델의 히트맵 영역 소리를 추출하는 실험을 진행하였다.

대상 데이터

본 실험에서는 신뢰할 수 있는 샘플을 다수 얻기 위해 세개의 하위 작업 중에는 가장 분류 정확도가 높은 Subtask A 의 데이터세트를 대상으로 선정하였다. 3.1 절의 모델을 훈련하고 평가하는데 사용된 TAU Urban Acoustic Scene 2019 development dataset 은 유럽 주요 도시 10 곳에서 녹음된 10 개의 장면 클래스로 구성되며, 클래스 균등한 14,400 개의 파일이 포함되어 있다. 각 파일은 샘플레이트가 48 kHz 인 10 초길이의 스테레오 오디오이다.
결과 분석에는 9,185 개의 훈련 데이터 중에서 소프트맥스 (Softmax) 분류 점수 기준으로 0.8 점 이상이 나온 467 개의 데이터가 활용되었다. 이는 다른 클래스로 혼동한 정보가 많은 데이터를 본 실험 분석 대상에서 배제하고, 모델의 분류 결과에 강한 영향을 주는 소리를 찾기 위함이다.
이 모델은 소스 코드가 공개되어 있고 훈련된 모델 파라미터가 제공되어 재현 가능하며, 다중 모델의 앙상블 구조가 아니기에 히트맵 생성이 용이하여 본 실험에 가장 적절한 모델로 판단되었다. 모델의 입력은 128 개의 로그 멜 스펙트로그램과 이에 대한 delta 및 delta-delta 를 스테레오 채널 각각에 대해 생성하여 여섯 개의 이미지를 쌓은 구조로 되어 있다. 모델 내부에서의 피쳐맵 축소 과정은 시간 축에 대해서만 이루어지며, 주파수 축에 대해서는 고주파수 영역과 저주파수 영역으로 분할되여 병렬 경로로 처리된다.
본 실험에서는 신뢰할 수 있는 샘플을 다수 얻기 위해 세개의 하위 작업 중에는 가장 분류 정확도가 높은 Subtask A 의 데이터세트를 대상으로 선정하였다.
본 연구에서는 DCASE2019 챌린지 음향 장면 분류 작업에서 Open source Award 를 수상한 모델 [9]을 분석 대상으로 선정하였다 (그림 2). 이 모델은 소스 코드가 공개되어 있고 훈련된 모델 파라미터가 제공되어 재현 가능하며, 다중 모델의 앙상블 구조가 아니기에 히트맵 생성이 용이하여 본 실험에 가장 적절한 모델로 판단되었다.
본 연구에서는 오디오 도메인의 컨벌루션 모델 히트맵 분석을 위한 히트맵 청취 분석 시스템을 제안한다. 저자들은 2019 년도 DCASE 챌린지에 제출된 음향 장면 분류 모델을 대상으로 청취 분석 실험을 진행했으며, 장면 클래스와 관련 있는 소리가 검출된 샘플들을 확인할 수 있었다.
각 파일은 샘플레이트가 48 kHz 인 10 초길이의 스테레오 오디오이다. 주최측에서는 9,185 개의 훈련 데이터와 4,185 개의 테스트 데이터를 포함하는 분할 메타데이터를 제공한다. 히트맵 분석의 목적은 훈련 단계에서 학습한 모델 내부 피쳐맵을 찾는 것이기 때문에, 모델이 훈련 과정에서 본 데이터를 다시 히트맵 생성에 활용하였다.

데이터처리

히트맵은 모델의 최상단에 위치한 컨벌루션 계층에서 생성된 피쳐맵들의 가중합으로 구성되었다. 각 피쳐맵의 가중치는 Grad-CAM 과동일한 방식으로 클래스 분류 점수에서 역전파되는 구배의 평균을 사용한다. 본 저자들은 히트맵을 이진화(Binarize)하여 활성화 영역 밖의 소리를 모두 마스킹 했을 때 보다 청취 분석이 용이함을 확인하였다.

성능/효과

마스킹된 데이터의 스펙트로그램 분석(그림 4)에서 우선 음향 이벤트로 보이는 정보들이 활성화 영역에 포함되 있는 것을 확인할 수 있었다. 활성화 영역은 몇몇 이벤트를 포함하며 시간 축에 대해 길게 늘어진 형상을 보이고 있는데, 이는 실험 대상 모델이 시간 축에 대해 모델 내부 피쳐맵을 축소한 것을 히트맵 생성을 위해 다시 늘리는 과정에서 본래의 활성화 영역보다 넓게 나타난 것이다.
본 연구에서 제안하는 히트맵의 청각 분석 방법은 컨볼루션 신경망 내부의 피쳐맵의 가중합으로 히트맵을 구성하기에 본래의 활성화 영역보다 넓은 영역이 마스킹 되는 경향이 있었다. 이 과정에서 불필요한 소리들이 함께 청취되는 문제가 있었으며, 추후 연구를 통해 분석 결과에 영향을 준소리만을 청취할 수 있는 개선된 활성화 영역 특정 방법을 도입할 필요가 있다.
각 피쳐맵의 가중치는 Grad-CAM 과동일한 방식으로 클래스 분류 점수에서 역전파되는 구배의 평균을 사용한다. 본 저자들은 히트맵을 이진화(Binarize)하여 활성화 영역 밖의 소리를 모두 마스킹 했을 때 보다 청취 분석이 용이함을 확인하였다. 히트맵의 이진화 방법은 정규화된 히트맵 M과 이진화 임계값 𝜃, 스케일 보정값 𝛿에 대해 아래식 (3)과 같은 시그모이드(Sigmoid) 함수로 나타낼 수 있다.
분석 대상 데이터를 청취했을 때, 1/3 정도의 데이터에서 해석 가능한 소리를 확인할 수 있었다.
본 연구에서는 DCASE2019 챌린지 음향 장면 분류 작업에서 Open source Award 를 수상한 모델 [9]을 분석 대상으로 선정하였다 (그림 2). 이 모델은 소스 코드가 공개되어 있고 훈련된 모델 파라미터가 제공되어 재현 가능하며, 다중 모델의 앙상블 구조가 아니기에 히트맵 생성이 용이하여 본 실험에 가장 적절한 모델로 판단되었다. 모델의 입력은 128 개의 로그 멜 스펙트로그램과 이에 대한 delta 및 delta-delta 를 스테레오 채널 각각에 대해 생성하여 여섯 개의 이미지를 쌓은 구조로 되어 있다.
실험 결과에서 청취하여 해석할 수 있는 다수의 샘플을 확인하였으며, 그 중에는 음향 이벤트를 포함하고 있어 선행 연구[8]의 사례와 다른 점을 확인하였다. 이 실험을 통해 음향 장면 분류 모델이 스펙트로그램 상의 특징적인 이벤트를 학습할 수 있고, 이것이 장면 특징적인 정보라면 음향 장면 분류에 기여할 수 있음을 확인하였다.

후속연구

본 연구에서 제안하는 히트맵의 청각 분석 방법은 컨볼루션 신경망 내부의 피쳐맵의 가중합으로 히트맵을 구성하기에 본래의 활성화 영역보다 넓은 영역이 마스킹 되는 경향이 있었다. 이 과정에서 불필요한 소리들이 함께 청취되는 문제가 있었으며, 추후 연구를 통해 분석 결과에 영향을 준소리만을 청취할 수 있는 개선된 활성화 영역 특정 방법을 도입할 필요가 있다.

핵심어

질문

논문에서 추출한 답변

컨벌루션 신경망이란 무엇인가?

컨벌루션 신경망 (Convolution Neural Network, CNN)은인간의 시각 인지 프로세스를 모델링한 신경망 구조로써, 이미지 분류, 객체 탐색 등 컴퓨터 비전 분야의 다양한 문제들을 풀고 있다. 그 구조는 수백만에서 수천만 파라미터 이상으로 구성되어 있고, 따라서 신경망의 기작을 해석하는 것은 복잡한 작업이다.

Grad-CAM은 어떤 방법이 일반화된 방법이며, 무엇을 기반으로 히트맵을 생성하는가?

앞서 언급한 무결성 검사에서 유효한 것으로는 Simonyan 의 방법 외에도 Gradientweighted Class Activation Mapping (Grad-CAM) [6]이 있다. Grad-CAM 은 Class Activation Mapping (CAM) [7]의 일반화된 방법으로 모델의 순전파(forward propagation) 과정에서 생성되는 피쳐맵(feature map)을 기반으로 히트맵을 생성한다. 모델 내부의 피쳐맵은 풀링(pooling) 계층 등을 통과하며 이미지의 압축이 발생하므로, 이를 기반으로 생성한 히트맵은 입력 이미지 크기로 늘리는 과정이 추가로 필요하다.

Simonyan 등이 제안한 클래스 별 돌출맵(saliency map)을 구성하는 방법은 어떤 근거를 제시하였는가?

2013 년 Simonyan [2] 등은 모델의 분류 점수에서 역전파(backpropagation)되는 구배(gradient)를 활용하여 클래스 별 돌출맵(saliency map)을 구성하는 방법을 제안했다. 이 방법은 이미지 속의 객체의 윤곽과 질감에 대해 시각화된 근거를 제시했으며, 이는 2014 년에 Zeiler [3]와 Springenberg [4]의 연구로 이어진다. 하지만 2018 년 Abedayo [5]의연구에서 Springenberg 의 Guided Backpropagation 이 무결성 검사(sanity check)를 통과하지 못하였고, 같은 이유로 Zeiler 의 방법 또한 신뢰성에 의문이 있는 상황이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

음향 장면 분류에서 히트맵 청취 분석
Listenable Explanation for Heatmap in Acoustic Scene Classification 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

음향 장면 분류에서 히트맵 청취 분석 Listenable Explanation for Heatmap in Acoustic Scene Classification 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

음향 장면 분류에서 히트맵 청취 분석
Listenable Explanation for Heatmap in Acoustic Scene Classification 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper