[논문]생체기반 GMM Supervector Kernel을 이용한 운전자검증 기술

김형국

생체기반 GMM Supervector Kernel을 이용한 운전자검증 기술
Driver Verification System Using Biometrical GMM Supervector Kernel 원문보기

韓國ITS學會論文誌 = The journal of the Korea Institute of Intelligent Transportation Systems, v.9 no.3, 2010년, pp.67 - 72

초록
AI-Helper

본 논문에서는 음성과 얼굴 정보를 분석하여 자동차환경에서 운전자를 검증하는 기술을 소개한다. 음성정보를 이용한 화자검증을 위해서는 잘 알려진 Mel-scale Frequency Cepstral Coefficients(MFCCs)를 음성 특징으로 사용하였으며, 동영상을 이용한 얼굴검증에 대해서는 AdaBoost를 이용하여 검출된 얼굴 영역에 대해 주성분 분석을 수행하여 데이터의 크기가 현저히 줄어든 특징벡터를 추출하였다. 기존의 화자검증 방식에 비해 본 논문에서는 추출된 음성 및 얼굴 특징들을 Gaussian Mixture Models(GMM)-Supervector기반의 Support Vector Machine(SVM)커넬 방식에 적용하여 운전자의 음성과 얼굴을 효과적으로 검증하는 방식을 제안하였다. 실험결과 제안한 방법은 단순한 GMM 방식이나 SVM 방식보다 운전자 검증성능을 향상시킴을 알 수 있었다.

Abstract ▼ AI-Helper

This paper presents biometrical driver verification system in car experiment through analysis of speech, and face information. We have used Mel-scale Frequency Cesptral Coefficients (MFCCs) for speaker verification using speech information. For face verification, face region is detected by AdaBoost algorithm and dimension-reduced feature vector is extracted by using principal component analysis only from face region. In this paper, we apply the extracted speech- and face feature vectors to an SVM kernel with Gaussian Mixture Models(GMM) supervector. The experimental results of the proposed approach show a clear improvement compared to a simple GMM or SVM approach.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 차량도난 방지 및 보안을 위한 운전자검증 알고리즘을 제안하였다. 기존의 검증 알고리즘에 적용되어 왔던 단순한 GMM 혹은 SVM 방식을 효과적으로 결합한 GMM supervector kernel을 이용한 SVM 방식을 통해 기존의 방식들보다 향상된 실험결과를 획득하였다.

제안 방법

t개의 약한 분류기의 선형적인 결합을 통해 최종적으로 높은 검출성능을 가지는 강한 분류기를 생성하는 AdaBoosting 기법과 cascade 구조 [3]에 생성된 얼굴 특징 계수를 적용하여 입력된 동영상으로부터 얼굴후보 영역을 검출한다.
검출된 얼굴 후보 영역으로부터는 주성분 분석인 Principal Component Analysis(PCA)를 통해 전체 영상의 데이터를 데이터의 분산이 큰 몇 개의 고유얼굴에 대한 축으로 선형 투사시켜 테이터의 타원을 줄임으로써, 얼굴영역 이미지의 특징 파라미터를 추출한다. 고유 얼굴 생성은 얼굴영역집합으로부터 PCA 학습을 수행하여 획득된다.
검출된 얼굴영역으로부터 PCA를 통해 추출된 특징들은 얼굴검증을 위해 GMM supervector[4]를 SVM Kerenl에 적용한 GMM supervector kernel을 사용하여 학습과 검증을 수행한다. 상세한 학습 및 검증과정은 GMM supervector kernel를 이용한 SVM에서 설명된다.
본 논문에서는 GMM 방식과 SVM 방식을 효과적으로 결합한 GMM supervector kernel 방식을 통해 음성검증과 얼굴검증을 수행한다. 그리고 각 검증결과를 결합하여 자동차 환경에서 운전자를 인식하는 검증향상 알고리즘을 제안한다.
GMM supervector 학습부에서는 운전자와 그 외의 화자들에 대한 음성집합들로부터 잡음과 에코성분에 강인한 음성특징을 추출한다. 그리고 추출된 음성특징들로부터 GMM기반의 화자 및 비화자 모델을 생성한다. 생성된 화자모델간의 kernel을 SVM기반의 학습을 통해 화자 및 비화자 경계구간을 결정하는 support vector를 검출한다.
다음 단계로 이중 버퍼를 이용하여 실시간으로 잡음과 음성이 제거된 음성 데이터를 입력 받으면서 절대 에너지 방식을 이용하여 음성인지 잡음인지를 체크하는 단계를 수행한다. 즉, 각 프레임의 절대 에너지가 설정된 값보다 크면 이 구간을 실제 음성으로 간주한다.
본 논문에서 사용한 얼굴인식 알고리즘은 에 나타난 바와 같이 크게 학습단계, 얼굴영역 검출단계와 얼굴검출단계로 나뉜다.
본 논문에서 제안된 생체기반 운전자검증 시스템은 일반적인 검증시스템과 마찬가지로 패스워드 검증 구간이 기본적으로 사용되며, 추가적으로 생체기반의 사용자 정보로서 자동차 내의 카메라와 마이크로부터 입력받는 얼굴 영상과 음성 데이터의 특징을 사용한다. 즉, 사용자가 운전좌석에 앉으면 시스템은 패스워드를 요구하고, 패스워드가 일치하면 얼굴 검증 단계와 음성 검증 단계로 들어간다.
본 논문에서는 GMM 방식과 SVM 방식을 효과적으로 결합한 GMM supervector kernel 방식을 통해 음성검증과 얼굴검증을 수행한다. 그리고 각 검증결과를 결합하여 자동차 환경에서 운전자를 인식하는 검증향상 알고리즘을 제안한다.
본 논문에서는 운전자 얼굴검증 방식과 음성검증방식을 독립적으로 적용한 후에, 각각의 검증결과를 결합하여 최종적으로 운전자인지를 결정하는 실험을 수행하였다.
즉, 각 프레임의 절대 에너지가 설정된 값보다 크면 이 구간을 실제 음성으로 간주한다. 본 논문에서는 음성 프레임의 길이를 100으로 설정하고, 데이터의 손실을 방지하기 위해서 프레임을 중복시키는 방식인 프레임 블록킹을 30으로 적용하였으며, 음성구간 추출은 절대 에너지가 설정된 값보다 큰 프레임이 6개 이상이 되면 그 부분은 유성음 구간으로 간주하여 메모리에 저장한다. 반면에, 절대 에너지가 설정된 값보다 작은 프레임이 20개 이상이 되면 무성음 구간까지 음성의 끝점을 검출하여 저장한다.
그리고 추출된 음성특징들로부터 GMM기반의 화자 및 비화자 모델을 생성한다. 생성된 화자모델간의 kernel을 SVM기반의 학습을 통해 화자 및 비화자 경계구간을 결정하는 support vector를 검출한다.
음성데이터는 마이크를 통해 8kHz/8 비트의 PCM 방식으로 녹음하였으며 끝점검출과 전처리 과정을 거친 후, 20 ms의 프레임 크기와 10ms의 프레임 간격을 사용하여 13차 MFCC 계수, 13차 delta-cepstral 계수를 포함하여 총 26차의 음성특징을 추출하였다. 운전자 및 비운전자 화자모델링은 GMM-UBM 방식에서는 가우시안 믹쳐의 개수를 2048 개로 고정하여 사용하였으며, SVM 배경은 2325 GMM suoervector를 추출함으로써 획득하였다.
본 논문에서는 [5]에서 사용한 음성향상 알고리즘을 사용하여 잡음과 에코를 제거하는 방식을 사용한다. 즉, 첫 단계로 크로스 스펙트럼 추정에 기반한 적응필터를 통해 에코를 제거하고, 두 번째 단계로 Generalized Gamma 분포기반의 Log Spectral Amplitude 음성추정 방식 추정을 통해 외부 배경잡음을 제거하여 음성의 음질을 향상시킨다.
즉, 사용자가 운전좌석에 앉으면 시스템은 패스워드를 요구하고, 패스워드가 일치하면 얼굴 검증 단계와 음성 검증 단계로 들어간다. 최종적으로 얼굴 검증 결과와 음성 검증 결과를 결합하여 설정된 운전자 검증 임계값과 비교해서 운전자의 검증을 수락할 것인지, 거절할 것인지를 결정한다.
운전자 및 비운전자 화자모델링은 GMM-UBM 방식에서는 가우시안 믹쳐의 개수를 2048 개로 고정하여 사용하였으며, SVM 배경은 2325 GMM suoervector를 추출함으로써 획득하였다. 추출된 GMM supervector와 SVM 배경을 사용하여 SVM 학습을 수행하였다.
추출된 음성특징들은 화자 음성 검증을 위해 GMM supervector kernel을 통해 학습과 검증을 수행한다.
화자검증과 얼굴검증의 방식이 동일하기 때문에 본 소단원에서는 화자검증의 경우를 통해 GMM supervector kernel을 이용한 SVM 알고리즘을 설명한다. 음성 DB는 운전자 음성 DB와 비운전자 음성 DB로 구성되며, 다양한 잡음 환경 하에서 녹음된 음성정보를 사용하여 GMM 학습을 통해 운전자 GMM-Universal Background Model(GMM-UBM)과 비운전자 GMM-UBM을 각각 생성한다.

대상 데이터

얼굴검증을 위해서는 다양한 실내/외 환경과 주차장에서 자동차 운전석에 앉은 20명의 얼굴을 녹화한 얼굴 DB와 20명이 각각 10문장을 발성한 음성 DB를 구성하여 실험에 사용하였다.
학습이미지의 크기는 24×24로 정규화 하였고 24개의 캐스케이트 구조를 통해 최종 전체 특징계수 6050개를 사용하였다.

데이터처리

표 1은 본 논문에서 제안한 얼굴검증 방식인 GMM supervector kernel을 이용한 SVM (GMM SK) 방식을 기존의 단순한 GMM, SVM 방식과 성능을 비교하였다.

이론/모형

검출된 음성프레임은 특징 추출 알고리즘인 MFCC 방식을 통해 음성의 특징 정보를 추출한다. 이 절차는 pre-emphasis 처리, 해밍 윈도우 처리, fast Fourier transform을 각각 수행하여 주파 수영역으로 변환한다.
본 논문에서는 [5]에서 사용한 음성향상 알고리즘을 사용하여 잡음과 에코를 제거하는 방식을 사용한다. 즉, 첫 단계로 크로스 스펙트럼 추정에 기반한 적응필터를 통해 에코를 제거하고, 두 번째 단계로 Generalized Gamma 분포기반의 Log Spectral Amplitude 음성추정 방식 추정을 통해 외부 배경잡음을 제거하여 음성의 음질을 향상시킨다.
본 논문에서는 얼굴검증 및 화자검증의 정확도를 향상시키기 위해 GMM 방식과 SVM 방식을 결합한 GMM supervector kernel을 사용하며, 그에 대한 알고리즘 구조 와 같다.
이렇게 형성된 운전자 GMM supervector와 비운전자 GMM supervector는 SVM 학습에 적용되어 운전자와 비운전자를 식별하는 support vector를 생성한다. 생성된 support vector는 입력된 음성에 대해 화자 음성 검증을 결정하는 SVM기반 검증방식에 적용된다.
얼굴영역 검출을 위한 AdaBoost 학습을 위해서는 MIT 얼굴 DB를 이용하였다. 학습이미지의 크기는 24×24로 정규화 하였고 24개의 캐스케이트 구조를 통해 최종 전체 특징계수 6050개를 사용하였다.
음성데이터는 마이크를 통해 8kHz/8 비트의 PCM 방식으로 녹음하였으며 끝점검출과 전처리 과정을 거친 후, 20 ms의 프레임 크기와 10ms의 프레임 간격을 사용하여 13차 MFCC 계수, 13차 delta-cepstral 계수를 포함하여 총 26차의 음성특징을 추출하였다. 운전자 및 비운전자 화자모델링은 GMM-UBM 방식에서는 가우시안 믹쳐의 개수를 2048 개로 고정하여 사용하였으며, SVM 배경은 2325 GMM suoervector를 추출함으로써 획득하였다. 추출된 GMM supervector와 SVM 배경을 사용하여 SVM 학습을 수행하였다.

성능/효과

본 논문에서는 차량도난 방지 및 보안을 위한 운전자검증 알고리즘을 제안하였다. 기존의 검증 알고리즘에 적용되어 왔던 단순한 GMM 혹은 SVM 방식을 효과적으로 결합한 GMM supervector kernel을 이용한 SVM 방식을 통해 기존의 방식들보다 향상된 실험결과를 획득하였다. 제안된 방식의 강인성은 실제 자동차 보안환경에서 매우 유용하게 사용될 수 있으리라 생각된다.
음성검증에 있어서도 제안된 음성검증 알고리즘 GMM SK 방식이 기존의 방식인 GMM, SVM에 비해 보다 향상된 정확률 개선을 보여주었다. 최종적으로 제안된 GMM SK 방식을 얼굴검증 결과와 음성검증결과를 결합하여 운전자검증에 적용한 결과 98.
음성검증에 있어서도 제안된 음성검증 알고리즘 GMM SK 방식이 기존의 방식인 GMM, SVM에 비해 보다 향상된 정확률 개선을 보여주었다. 최종적으로 제안된 GMM SK 방식을 얼굴검증 결과와 음성검증결과를 결합하여 운전자검증에 적용한 결과 98.5%의 높은 검출 정확률을 보였으며, 이는 GMM 방식보다는 5.9% 개선되었고, SVM 방식보다는 3.1%가 개선되었음을 알 수 있었다.
표 1의 결과를 고찰해 보면 제안된 방식의 얼굴검증 알고리즘이 기존의 방식인 GMM, SVM에 비해 보다 향상된 정확률 개선을 보여줌을 알 수 있다.

후속연구

기존의 검증 알고리즘에 적용되어 왔던 단순한 GMM 혹은 SVM 방식을 효과적으로 결합한 GMM supervector kernel을 이용한 SVM 방식을 통해 기존의 방식들보다 향상된 실험결과를 획득하였다. 제안된 방식의 강인성은 실제 자동차 보안환경에서 매우 유용하게 사용될 수 있으리라 생각된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	본 논문에서 사용한 얼굴인식 알고리즘의 AdaBoost 학습단계에서는 무엇을 하는가?	본 논문에서 사용한 얼굴인식 알고리즘은 <그림 2>에 나타난 바와 같이 크게 학습단계, 얼굴영역 검출단계와 얼굴검출단계로 나뉜다. AdaBoost 학습단계에서는 얼굴과 비얼굴 패턴으로 구성된 훈련영상 집합에서 전처리 단계로 명암대비 스트레칭 기법과 이미지 내의 명암 분포를 보정하는 히스토그램 평활화 기법을 통해 명암 대비도를 키움으로서 얼굴과 배경의 경계를 더욱 부각시킨다. 동영상 내의 얼굴의 움직임이 발생한 경우에 이전 프레임과 현재 프레임의 차이를 이용하는 모션 추적 과정 등의 전처리 단계를 수행한 후에, 얼굴영역을 검출하기 위해 간단하면서도 연산이 빠른 Haar-like 특징[3]을 추출한다.
	검출된 얼굴영역으로부터 PCA를 통해 추출된 특징들은 얼굴 검증을 위해 무엇을 사용하여 학습과 검증을 수행하는가?	검출된 얼굴영역으로부터 PCA를 통해 추출된 특징들은 얼굴검증을 위해 GMM supervector[4]를 SVM Kerenl에 적용한 GMM supervector kernel을 사용하여 학습과 검증을 수행한다. 상세한 학습 및 검증과정은 GMM supervector kernel를 이용한 SVM에서 설명된다.
	검출된 음성프레임은 어떠한 처리 절차를 거치면서 주파수 영역으로 변환되는가?	검출된 음성프레임은 특징 추출 알고리즘인 MFCC 방식을 통해 음성의 특징 정보를 추출한다. 이 절차는 pre-emphasis 처리, 해밍 윈도우 처리, fast Fourier transform을 각각 수행하여 주파 수영역으로 변환한다. 변환된 값들은 MFCC 대역 필터뱅크를 통과시키고, 로그화, discrete cosine transform을 거치면 프레임당 13개의 계수값을 획득하는데, 이 값들이 음성의 특징 정보들이며 식 (1)과 같이 표현된다.

참고문헌 (6)

W. Zhao, R. Chellappa, PJ Phillips, and A. Rosenfeld, "Face recognition: a literature survey," ACM Computing Suerveys(CSUR), vol.35, no.4, pp.399-458, Dec. 2003.

상세보기
W. M. Campbell, J. P. Campbell, D. A. Raynolds, E. Singer, and P. A. Torres-Carrasquillo, "Support vector machines for speaker and language recognition," Computer Speech & Language, vol.20, no.2-3, pp. 210-229, Apr. 2006.

상세보기
P. Viola, and M. Jones, "Rapid object detection using a boosted cascade of simple features," Proc. Computer Vision and Pattern Recognition, vol.1, pp. 511-518, Dec. 2001.
W. M. Campbell, J. P. Campbell, D. A. Raynolds, E. Singer, and P. A. Torres-Carrasquillo, "Support vector machines for speaker and language recognition," IEEE Signal Processing Letters, vol.13, no.5, pp. 308-311, 2006.

상세보기
H. G. Kim, "Implementation of chip and algorithm of a speech enhancement for an automatic speech recognition applied to telematics device," 한국ITS학회논문지, 제7권, 제5호, pp. 90-96, 2008. 10.

원문보기 상세보기
권순량, "화자 인증이 포함된 실시간 원격 도어락 제어 시스템 개발에 관한 연구," 퍼지 및 지능시스템학회 논문지, vol.15, no.6, pp. 714-719, 2005. 12.

원문보기 상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증