[논문]위너필터 후처리를 통한 비음수행렬분해 기법의 배경음 저감 성능 향상

이상협; 김현태

doi:10.13067/jkiecs.2019.14.4.729

초록
AI-Helper

본 논문에서는 비음수 행렬 분해 필터 뒷단에 위너필터를 추가하여 배경음 분리 성능을 향상하는 방법을 제안한다. 배경음이 혼재된 음성 신호의 경우 비음수 행렬 분해 기법으로 1차 분리된 신호에는 아직 완전히 분리되지 못한 부분이 잔류할 수 있다. 이러한 경우 위너필터에 의해 잔류하는 신호의 크기에 비례하여 줄여줄 수 있어 배경음 분리 또는 저감 효과를 기대할 수 있다. 실험을 통해 위너필터를 추가한 경우가 비음수행렬 분해 기법만 적용한 경우에 비해 저감 효과가 높은 것을 확인할 수 있었다.

Abstract ▼ AI-Helper

In this paper, we propose a method to improve the background sound separation performance by adding a Wiener filter to the end of the non - negative matrix factorization method. In the case of a mixed voice signal with background sound, a part that has not yet been completely separated may remain in...

In this paper, we propose a method to improve the background sound separation performance by adding a Wiener filter to the end of the non - negative matrix factorization method. In the case of a mixed voice signal with background sound, a part that has not yet been completely separated may remain in the signal that separated first by the non-negative matrix factorization method. In this case, it can be reduced in proportion to the size of the residual signal due to the Wiener filter, so that the background sound separation or reduction effect can be expected. Experimental results show that the addition of the Wiener filter is more effective than the case of applying the non-negative matrix factorization method.

주제어

표/그림 (4)

그림 그림 1. 제안하는 방법의 블록도 Fig. 1. Block diagram for the proposed method
그림 그림 2. SNR 테스트를 위한 블록도 Fig. 2. Block diagram for SNR test
표 표 1. 기존 대표 방법과 실시간 NMF간 성능 평가 결과 Table 1. Performance evaluation results between the proposed method and conventional NMF
표 표 2. 후처리 연동 방법과 기존 NMF간 성능 평가 결과 Table 2. Performance evaluation results between the proposed method and conventional NMF

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

그러나 기존의 방법들은 특징 추출 단계, 분류 또는 분리 단계 등으로 나누어진 경우가 대부분이다. 따라서 본 논문에서는 기존에 널리 사용되어 왔던 특징 추출 알고리즘, 분류 알고리즘과 분리 알고리즘에 대해서 각각 간략히 살펴본다.
본 논문에서는 음성에 혼재되어있는 효과음이나 배경음을 효과적으로 분리 또는 저감하는 방법으로 비음수 행렬 분해 방법과 연동한 후처리 방법을 제안하고 기존 분리방법 및 기존 비음수분해방법과 비교를 통해 제안하는 방법이 효과가 있다는 것을 제시하였다. 실험을 통해 음원의 구성이 복잡한 배경음의 경우에 분리 또는 저감 성능이 다소 떨어지는 것도 확인할 수 있었다.
본 논문에서는 이러한 문제를 해결하기 위해 배경음 등이 혼재되어있는 음성에서 배경음을 분리 또는 저감하는 방법을 실시간으로 처리하는 방법을 제안한다. 제안하는 방법은 최근 영상 인식 등의 분야에서 효과가 있다고 알려지고 있는 비음수 행렬 분해 기법 (Nonnegative Matrix Factorization)을 활용하여 음성 신호에 혼재된 배경음을 줄이는 방법을 제시한다[1-4].
그러나 충분히 훈련되지 못한 경우나 특징이 복잡한 경우 분리 효과가 떨어진다. 본 논문에서는 이러한 부분을 개선하기 위해 비음수 행렬 분해 필터 뒷단에 위너필터를 추가하여 배경음 분리 성능을 향상시킨다. 배경음이 혼재된 음성 신호의 경우 비음수 행렬 분해 기법으로 1차 분리된 신호에는 아직 완전히 분리되지 못한 부분이 잔류할 수 있다.

제안 방법

두 번째는 기존 비음수 행렬분해 방법과 제안하는 위너필터 후처리를 추가한 방법과의 비교이다. 성능 비교 결과는 표 2에 나타내었다.
먼저 기존 방법과의 비교에서 기존 방법 중 가장 대표적인 방법인 MFCC를 특징 파라미터로 채택하고 분류기로 서포트 벡터 머신(SVM)을 활용한 방법과 비교하였다. 성능 비교 결과는 표 1에 나타내었다.
특정 음성 신호, s (n) 와 특정 배경 음(잡음), noise(n)을 일정비율(SNR 3㏈, 혹은 6㏈) 섞어 인위적인 혼재 신호 s_noise(n) = s(n) + noise(n) 로 만든다. 본 실험에서는 이 배경음(잡음)의 진폭 값을 조정하여 입력 SNR (㏈)이 6㏈ 되도록 하였다.
본 논문에서는 이러한 문제를 해결하기 위해 배경음 등이 혼재되어있는 음성에서 배경음을 분리 또는 저감하는 방법을 실시간으로 처리하는 방법을 제안한다. 제안하는 방법은 최근 영상 인식 등의 분야에서 효과가 있다고 알려지고 있는 비음수 행렬 분해 기법 (Nonnegative Matrix Factorization)을 활용하여 음성 신호에 혼재된 배경음을 줄이는 방법을 제시한다[1-4]. 비음수 행렬 분해 기법은 음성 신호의 특징추출과 분류 및 분리를 따로 하는 것이 아닌 스펙트로그램 값을 입력으로 비음수 행렬 분해 기법을 통해 특징을 추출하고 추출된 특징을 이용하여 필터를 설계하여 분류 및 분리하는 방법이다.

대상 데이터

평가를 위한 실험 데이터는 모두 3가지 유형이며 장르 1은 광고 영상의 배경음, 장르 2는 유아 동영상의 배경음, 장르 3는 드럼과 베이스 기타가 섞인 배경음으로 되어 있으며 각 장르별 A, B, C는 5초짜리 음성이다.

성능/효과

실험 결과에 대한 원인을 분석해보면, 먼저 MFCC+SVM의 경우 음성과 배경음들 각각의 고차원 특징 값들이 상대적으로 복잡하여 몇 개의 지지벡터 (support vector) 만으로 결정 경계를 나누는 데 한계가 있어 성능이 떨어지는 것으로 판단된다. 또한 배경음 속에 포함된 음원이 복잡할수록 배경음 분리 성능이 떨어지는 것도 확인할 수 있었다. 장르 1의 경우는 음원 구성이 상대적으로 유아 동영상의 배경음이나 드럼과 베이스 기타가 섞인 배경음 보다 다소 복잡한 것으로 분석되었다.
901 ㏈ 차이가 난다. 실험 결과에 대한 원인을 분석해보면, 먼저 MFCC+SVM의 경우 음성과 배경음들 각각의 고차원 특징 값들이 상대적으로 복잡하여 몇 개의 지지벡터 (support vector) 만으로 결정 경계를 나누는 데 한계가 있어 성능이 떨어지는 것으로 판단된다. 또한 배경음 속에 포함된 음원이 복잡할수록 배경음 분리 성능이 떨어지는 것도 확인할 수 있었다.
본 논문에서는 음성에 혼재되어있는 효과음이나 배경음을 효과적으로 분리 또는 저감하는 방법으로 비음수 행렬 분해 방법과 연동한 후처리 방법을 제안하고 기존 분리방법 및 기존 비음수분해방법과 비교를 통해 제안하는 방법이 효과가 있다는 것을 제시하였다. 실험을 통해 음원의 구성이 복잡한 배경음의 경우에 분리 또는 저감 성능이 다소 떨어지는 것도 확인할 수 있었다. 향후는 보다 복잡한 음원으로 구성된 배경음의 경우에 대해서도 분리 성능을 높이는 연구를 지속할 예정이다.
성능 비교 결과는 표 1에 나타내었다. 표 1에서, 비음수 행렬 분해 방법은 기존의 제안되었던 MFCC+SVM 보다 장르에 따라 또한 시간 구간에 따라 적게는 3.234 ㏈에서 많게는 28.901 ㏈ 차이가 난다. 실험 결과에 대한 원인을 분석해보면, 먼저 MFCC+SVM의 경우 음성과 배경음들 각각의 고차원 특징 값들이 상대적으로 복잡하여 몇 개의 지지벡터 (support vector) 만으로 결정 경계를 나누는 데 한계가 있어 성능이 떨어지는 것으로 판단된다.

후속연구

실험을 통해 음원의 구성이 복잡한 배경음의 경우에 분리 또는 저감 성능이 다소 떨어지는 것도 확인할 수 있었다. 향후는 보다 복잡한 음원으로 구성된 배경음의 경우에 대해서도 분리 성능을 높이는 연구를 지속할 예정이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	음성 신호의 특징을 추출하는 대표적 알고리즘은 어떠한 것이 있는가?	음성 신호의 특징을 추출하는 대표적인 알고리즘은 먼저, 계산 량이 적고 비교적 간단한 캡스트럼 방법이 있으며, 음성 특징 추출 분야에서 가장 널리 쓰이는 Mel Frequency Cepstral Coefficient(: MFCC) 방법이 있다. 그 외에도 컨볼루셔널 신경망을 이용하여 특징을 추출하는 방법도 소개되고 있다.
	비음수 행렬 분해 기법은 무엇인가?	제안하는 방법은 최근 영상 인식 등의 분야에서 효과가 있다고 알려지고 있는 비음수 행렬 분해 기법 (Nonnegative Matrix Factorization)을 활용하여 음성 신호에 혼재된 배경음을 줄이는 방법을 제시한다 [1-4]. 비음수 행렬 분해 기법은 음성 신호의 특징추 출과 분류 및 분리를 따로 하는 것이 아닌 스펙트로 그램 값을 입력으로 비음수 행렬 분해 기법을 통해 특징을 추출하고 추출된 특징을 이용하여 필터를 설계하여 분류 및 분리하는 방법이다. 그러나 충분히 훈련되지 못한 경우나 특징이 복잡한 경우 분리 효과가 떨어진다.
	비음수 행렬 분해 기법은 어떠한 경우에 효과가 떨어지는가?	비음수 행렬 분해 기법은 음성 신호의 특징추 출과 분류 및 분리를 따로 하는 것이 아닌 스펙트로 그램 값을 입력으로 비음수 행렬 분해 기법을 통해 특징을 추출하고 추출된 특징을 이용하여 필터를 설계하여 분류 및 분리하는 방법이다. 그러나 충분히 훈련되지 못한 경우나 특징이 복잡한 경우 분리 효과가 떨어진다. 본 논문에서는 이러한 부분을 개선하기 위해 비음수 행렬 분해 필터 뒷단에 위너필터를 추가하여 배경음 분리 성능을 향상시킨다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

위너필터 후처리를 통한 비음수행렬분해 기법의 배경음 저감 성능 향상
Improvement of Background Sound Reduction Performance by Non-negative matrix Factorization Method by Wiener Filter Post-processing 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (4)

표/그림 (4)

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

위너필터 후처리를 통한 비음수행렬분해 기법의 배경음 저감 성능 향상 Improvement of Background Sound Reduction Performance by Non-negative matrix Factorization Method by Wiener Filter Post-processing 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (4) 모든 표/그림 보기

표/그림 (4) 슬라이드로 보기

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

위너필터 후처리를 통한 비음수행렬분해 기법의 배경음 저감 성능 향상
Improvement of Background Sound Reduction Performance by Non-negative matrix Factorization Method by Wiener Filter Post-processing 원문보기

초록
AI-Helper

표/그림 (4)

표/그림 (4)

AI 본문요약
AI-Helper