[논문]음성/음악 분류 향상을 위한 2차 조건 사후 최대 확률기법 기반 SVM

임정수; 장준혁

초록
AI-Helper

Support vector machine (SVM)은 패턴인식 분야에 많이 사용되어지고 있고 그 한 예로서 3GPP2 selectable mode vocoder(SMV)와 같은 규격화된 코덱에 쓰여 코덱의 음성/음악 분류 성능을 향상시킬 수 있다. 본 논문에서는 SVM을 개선시켜 음성/음악의 분류성능을 더욱 향상시키는 새로운 방법을 제안한다. 음성/음악신호의 각 프레임들은 서로 강한 상관관계를 가지고 있는데, 이를 바탕으로 2차 조건 사후 최대 확률기법을 SVM에 적용하여 음성/음악 분류성능을 향상시킨다. 또한 SVM을 학습시킬 때 적용되는 기존의 기법들과는 달리 제안되는 기법은 SVM이 패턴분류를 행할 때 사용된다. 그렇기 때문에 기존의 기법들과 독립적으로 개발되고 사용될 수 있고, 따라서 패턴분류의 성능을 한층 더 향상시킬 수 있다. 실험을 통해 제안된 기법의 독립성과 성능향상을 기존의 기법들과 비교하여 증명하였다.

Abstract ▼ AI-Helper

Support vector machines are well known for their outstanding performance in pattern recognition fields. One example of their applications is music/speech classification for a standardized codec such as 3GPP2 selectable mode vocoder. In this paper, we propose a novel scheme that improves the speech/m...

Support vector machines are well known for their outstanding performance in pattern recognition fields. One example of their applications is music/speech classification for a standardized codec such as 3GPP2 selectable mode vocoder. In this paper, we propose a novel scheme that improves the speech/music classification of support vector machines based on the second-order conditional maximum a priori. While conventional support vector machine optimization techniques apply during training phase, the proposed technique can be adopted in classification phase. In this regard, the proposed approach can be developed and employed in parallel with conventional optimizations, resulting in synergistic boost in classification performance. According to experimental results, the proposed algorithm shows its compatibility and potential for improving the performance of support vector machines.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 SVM의 음악/음성 분류성능을 향상시키기 위해 패턴 판별 시에 인접 프레임간의 강한 상호 연관성을 바탕으로 2차조건 MAP을 이용하는 방법을 제안하였고 ETSI의 3GPP2 표준코덱인 SMV의 실시간음성/음악 분류에 적용하여 보았다. 이 기법은 SVM의 성능을 향상시킬 뿐 아니라 다른 기법들과도 병용할 수 있다는 장점도 가지고 있다.
이 기법의 장점은 유지하며 단점을 극복하기 위하여본 논문에서는 2차 조건 MAP (maximum a posteriori)을 SVM에 적용하는 기법을 제안한다. 보통 SVM의 판별식에서는 하나의 고정된 문턱 값을 사용하게 되는데 제안하는 방법에서는 과거 프레임의 SVM 분류결과를 기초로 하여 4가지의 문턱 값 중 하나를 선택하게 된다.
SVM을 이용한 음성/음악의 분류기법 중 이렇게 2차조건 MAP을 사용한 것은 없었으며, 2차조건 MAP을 이용해 음성향상을 제안한 논문은 근래에 발표되었다^[11]. 이 논문과 본 논문의 차이점은 음성향상의 경우 음성의 존재/비존재를 구별하는 것이고 본 논문에서는 음성/음악을 구별한다는 것이다.

제안 방법

그러나 근본적으로 두 가지의 차이점이 있는데, 첫째는 현재 분류에 영향을 주는 방법이다. AKP에서는 커널함수 파라미터를 조정하였지만 본 논문에서는 판별 문턱값을 조정한다. 둘째는 기법의 유연성이다.
이 기법의 장점은 유지하며 단점을 극복하기 위하여본 논문에서는 2차 조건 MAP (maximum a posteriori)을 SVM에 적용하는 기법을 제안한다. 보통 SVM의 판별식에서는 하나의 고정된 문턱 값을 사용하게 되는데 제안하는 방법에서는 과거 프레임의 SVM 분류결과를 기초로 하여 4가지의 문턱 값 중 하나를 선택하게 된다. 두 개의 클래스로 예측하여 파라미터를 조정하던 것에 비하여 좀 더 세밀하게 과거의 정보를 사용할 수 있게 되었고 또한 문턱 값을 조정함으로써 SVM 분류를 보다 확실하게 그리고 커널함수의 종류에 관계없이 조정할 수 있게 되었다.
트레이닝 파일의 음악부분은 모든 장르의 음악이 혼합되었다. 성능 평가를 위해 테스트 파일의 20ms마다 실제 결과를 음성, 음악, 무음으로 분류하여 저장하고 SVM의 분류 결과와 비교하였다.
. 음악 데이터베이스는 CD로부터 다섯 가지 장르의 음악을 모바일 폰을 통해서 녹음하였고, 8kHz로 다운 샘플링 하여 사용하였으며, 각기 약 5분 정도의 길이를 가진다. 학습으로는 음성파일 4200개와 음악파일 50개 (블루스 10개, 클래식 10개, 힙합 10개, 재즈 10개, 메탈 10개)가 사용되었다.
이번 장에서는 음성/음악 프레임 간의 상호관계를 바탕으로 2차조건 MAP을 이용하여 SVM의 분류성능을 향상시키는 기법을 소개한다. SVM을 이용한 음성/음악의 분류기법 중 이렇게 2차조건 MAP을 사용한 것은 없었으며, 2차조건 MAP을 이용해 음성향상을 제안한 논문은 근래에 발표되었다^[11].

대상 데이터

본 실험을 위해서 음성 데이터베이스로 8kHz로 샘플링 된 약 6 sec 정도의 깨끗한 음성으로 326명의 남자와 138명의 여자 화자에 의해서 화자마다 10개의 파일이 발음된 TIMIT 데이터베이스가 사용되었다^[14]. 음악 데이터베이스는 CD로부터 다섯 가지 장르의 음악을 모바일 폰을 통해서 녹음하였고, 8kHz로 다운 샘플링 하여 사용하였으며, 각기 약 5분 정도의 길이를 가진다.
실험에 사용된 특징벡터로는 Ⅱ장에서 소개된 6가지의 파라미터를 벡터로 구성해 사용하였고, 제안된 알고리즘의 문턱값은 β00=0.808, β01=0.708, β10=0.630, β11=0.193로 설정하였다.
음악 데이터베이스는 CD로부터 다섯 가지 장르의 음악을 모바일 폰을 통해서 녹음하였고, 8kHz로 다운 샘플링 하여 사용하였으며, 각기 약 5분 정도의 길이를 가진다. 학습으로는 음성파일 4200개와 음악파일 50개 (블루스 10개, 클래식 10개, 힙합 10개, 재즈 10개, 메탈 10개)가 사용되었다.

데이터처리

객관적인 평가를 위해 10-fold 교차검증을 수행하였으며 각 테스트 파일은 5개의 음성부분 (6～12초), 하나의 음악장르로 구성된 5개의 음악부분(28～32초), 10개 무음부분(3～15초)으로 되어있다. 트레이닝 파일의 음악부분은 모든 장르의 음악이 혼합되었다.
제안된 알고리즘을 검증하기 위해서 제안된 알고리즘과 기존의 알고리즘^{[3, 5]}의 음성/음악 분류성능을 비교하였고 표 1에 그 결과를 나타내었다.

이론/모형

SVM 판별식의 값은 확률 값이 아니므로 확률로 매핑하기 위하여 다음과 같은 시그모이드 (sigmoid) 모델을 사용한다^[12].

성능/효과

보통 SVM의 판별식에서는 하나의 고정된 문턱 값을 사용하게 되는데 제안하는 방법에서는 과거 프레임의 SVM 분류결과를 기초로 하여 4가지의 문턱 값 중 하나를 선택하게 된다. 두 개의 클래스로 예측하여 파라미터를 조정하던 것에 비하여 좀 더 세밀하게 과거의 정보를 사용할 수 있게 되었고 또한 문턱 값을 조정함으로써 SVM 분류를 보다 확실하게 그리고 커널함수의 종류에 관계없이 조정할 수 있게 되었다.
표에서 알 수 있듯이 제안된 기법은 기존의 SVM과 비교하였을 때 많은 성능향상을 보인다. 또한 제안된 기법과 동일하게 과거 프레임의 분류결과를 바탕으로 한 기법 (AKP)과 비교하여도 보다 나은 전체적인 성능을 보인다. 성능뿐 아니라 AKP의 경우 알고리즘의 수정 없이는 RBF를 커널함수로 사용하지 않은 SVM에는 사용할 수 없는 반면, 제안된 기법은 아무런 제약 없이 모든 SVM에 적용할 수 있다는 장점이 있다.
또한 제안된 기법과 동일하게 과거 프레임의 분류결과를 바탕으로 한 기법 (AKP)과 비교하여도 보다 나은 전체적인 성능을 보인다. 성능뿐 아니라 AKP의 경우 알고리즘의 수정 없이는 RBF를 커널함수로 사용하지 않은 SVM에는 사용할 수 없는 반면, 제안된 기법은 아무런 제약 없이 모든 SVM에 적용할 수 있다는 장점이 있다. 표에는 나오지 않았지만 변별적 가중치 학습을 이용해 SVM의 음성/음악 분류성능을 향상시킨 기법^[4] 과 비교해 본 결과, 성능면에서 제안된 기법이 더 우수하였고 또한 이기법과 제안된 기법은 같이 병용될 수 있음을 알게 되었다.
이 기법은 SVM의 성능을 향상시킬 뿐 아니라 다른 기법들과도 병용할 수 있다는 장점도 가지고 있다. 실험을 통하여 기존의 기법들과 비교한 결과, 기존의 기법보다 나은 SMV의 음성/음악 분류 성능을 보였다.
성능뿐 아니라 AKP의 경우 알고리즘의 수정 없이는 RBF를 커널함수로 사용하지 않은 SVM에는 사용할 수 없는 반면, 제안된 기법은 아무런 제약 없이 모든 SVM에 적용할 수 있다는 장점이 있다. 표에는 나오지 않았지만 변별적 가중치 학습을 이용해 SVM의 음성/음악 분류성능을 향상시킨 기법^[4] 과 비교해 본 결과, 성능면에서 제안된 기법이 더 우수하였고 또한 이기법과 제안된 기법은 같이 병용될 수 있음을 알게 되었다.
표에서 알 수 있듯이 제안된 기법은 기존의 SVM과 비교하였을 때 많은 성능향상을 보인다. 또한 제안된 기법과 동일하게 과거 프레임의 분류결과를 바탕으로 한 기법 (AKP)과 비교하여도 보다 나은 전체적인 성능을 보인다.

후속연구

앞으로의 연구과제로는 라디오방송을 녹음하고 실험 데이터로 사용하여 제안된 기법의 실제적 응용 가능성을 가늠해 볼 계획이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	SVM은 어느 분야에서 사용되고 있는가?	SMV의 음성/음악 분류를 개선하기 위하여 support vector machine (SVM)을 이용한 방법들이 최근에 제안되었다[3～5]. SVM은 패턴인식에 우수함을 인정받아 많이 이용 되고 있는 machine learning 기법의 하나로써 데이터 마이닝 분야는 물론, 얼굴인식, 생체인식, 문자인식, 그리고 음성인식 등 다양한 분야에 응용되고 있다[6～7]. SVM은 SMV의 음성/음악의 분류 성능을 많이 향상시킬 수 있는데, SVM을 이용한 방법 중 가장 최근에 발표된 연구에서는 음성/음악 프레임간의 상호 연관성을 바탕으로, 과거 프레임의 SVM 판정결과를 고려하여 현재 프레임의 클래스를 추정하고 이에 따라 커널 파라미터를 조정하여 음성/음악 분류의 정확도를 높이는 방법을 소개하였다[5].
	SMV의 특징은?	SMV는 ETSI의 3GPP2 표준 코덱으로서 extended code excited linear prediction (ex-CELP) 기반의 압축 방식을 사용하는데, 사람의 청각 특성에 최적화된 모델을 사용하여 음성을 저 전송률로 압축하는데 효율적이다[8～9]. 또한, 한정된 주파수 대역을 효율적으로 활용하기 위해 프레임 단위로 4가지의 가변 전송률을 제공하며 이동국과 기지국 사이의 통신망 채널에 따라 동적으로 변환되는 4가지 모드를 지원한다. 이러한 다양한 평균 전송률을 제공하기 때문에 시스템의 효율성과 음질간의 균형을 선택적으로 조절 할 수 있다.
	2차조건 MAP을 이용하는 방법의 장점은?	본 논문에서는 SVM의 음악/음성 분류성능을 향상시키기 위해 패턴 판별 시에 인접 프레임간의 강한 상호 연관성을 바탕으로 2차조건 MAP을 이용하는 방법을 제안하였고 ETSI의 3GPP2 표준코덱인 SMV의 실시간음성/음악 분류에 적용하여 보았다. 이 기법은 SVM의 성능을 향상시킬 뿐 아니라 다른 기법들과도 병용할 수 있다는 장점도 가지고 있다. 실험을 통하여 기존의 기법들과 비교한 결과, 기존의 기법보다 나은 SMV의 음성/음악 분류 성능을 보였다.

참고문헌 (14)

3GPP2 Spec., "Source-controlled variable-rate multimedia wideband speech codec (VMR-WB), service option 62 and 63 for spread spectrum systems," 3GPP2-C.S0052-A, vol. 1.0, April. 2005.
Y. Gao, E. Shlomot, A. Benyassine, J. Hyssen, Huan-yu Su, and C. Murgia, "The SMV algorithm selected by TIA and 3GPP2 for CDMA appications," in Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 2, pp. 709-712, May 2001.
S. -K. Kim and J. -H. Chang, "Speech/music classification enhancement for 3GPP2 SMV codec based on support vector machine," IEICE Trans. Fundamentals of Electronics, Communications and Computer Sciences, Vol. E92-A, no. 2, pp. 630-632, February 2009.

상세보기
S. -K. Kim and J. -H. Chang, "Discriminative weight training for support vector machine-based speech/music classification in 3GPP2 SMV codec," IEICE Trans. Fundamentals of Electronics, Communications and Computer Sciences, vol. E93-A, no. 1, pp. 316-319, January 2010.

상세보기
임정수, 송지현, 장준혁, "SVM의 미세조정을 통한 음성/음악 분류 성능향상," 전자공학회 논문지 SP편 48권 2호, 141-148쪽, 2011년 3월
X. Wang, J. Chen, P Wang, Z. Huang, "Infrared human face auto locating based on SVM and a smart thermal biometrics system," in Proc. Sixth International Conference on Intelligent Systems Design and Applications (ISDA'06) , vol. 2, pp. 1066-1072, October 2006.
A. Ganapathiraju, J. E. Hamaker, J. Picone, "Applications of support vector machines to speech recognition," IEEE Trans. Signal Processing, vol. 52, pp. 2348-2355, August 2004.

상세보기
S. C. Greer, and A. Dejaco, "Standardization of the selectable mode vocoder," in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing, vol. 2, pp. 953-956, May 2001.
C. V. Goudar, P. Rabha, M. Deshpande, and A. Rao, "SMVLite: reduced complexity selectable mode vocoder," in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing, vol. 1, pp. 701-704, May 2006.
V. N. Vapnik, "An overview of statistical learning theory," IEEE Trans. Neural Networks, vol. 10, no. 5, pp. 988-999, 1999.

상세보기
J. -M. Kum and J. -H. Chang, "Speech enhancement based on minima controlled recursive averaging incorporating second-order conditional MAP criterion," IEEE Signal Processing Letters, Vol. 16, no. 7, pp. 624-627, July 2009.

상세보기
John C. Platt, "Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods," in Advances in Large Margin Classifiers, MIT Press, pp. 61-74, 1999.
J. W. Shin, H. J. Kwon, S. H. Jin, and N. S. Kim, "Voice activity detection based on conditional map criterion," IEEE Signal Processing Letters, vol. 15, no. 2, pp. 257-260, February. 2008.

상세보기
W. M. Fisher, G. R. Doddington and K. M. Goudie-Marshall, "The DARPA speech recognition research database: Specifications and status," in Proc. DARPA Workshop Speech Recognition, pp. 93-99, February 1986.

이 논문을 인용한 문헌

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

음성/음악 분류 향상을 위한 2차 조건 사후 최대 확률기법 기반 SVM
Improving SVM with Second-Order Conditional MAP for Speech/Music Classification 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (14)

이 논문을 인용한 문헌

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

음성/음악 분류 향상을 위한 2차 조건 사후 최대 확률기법 기반 SVM Improving SVM with Second-Order Conditional MAP for Speech/Music Classification 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (14)

이 논문을 인용한 문헌

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

음성/음악 분류 향상을 위한 2차 조건 사후 최대 확률기법 기반 SVM
Improving SVM with Second-Order Conditional MAP for Speech/Music Classification 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper