[국내논문]이동환경에서 치열영상과 음성을 이용한 멀티모달 화자인증 시스템 구현 An Implementation of Multimodal Speaker Verification System using Teeth Image and Voice on Mobile Environment원문보기
본 논문에서는 이동환경에서 개인의 신원을 인증하는 수단으로 치열영상과 음성을 생체정보로 이용한 멀티모달화자인증 방법에 대하여 제안한다. 제안한 방법은 이동환경의 단말장치중의 하나인 스마트폰의 영상 및 음성 입력장치를 이용하여 생체 정보를 획득하고, 이를 이용하여 사용자 인증을 수행한다. 더불어, 제안한 방법은 전체적인 사용자 인증 성능의 향상을 위하여 두 개의 단일 생체인식 결과를 결합하는 멀티모달 방식으로 구성하였고, 결합 방법으로는 시스템의 제한된 리소스를 고려하여 비교적 간단하면서도 우수한 성능을 보이는 가중치 합의 방법을 사용하였다. 제안한 멀티모달 화자인증 시스템의 성능평가는 스마트폰에서 획득한 40명의 사용자에 대한 데이터베이스를 이용하였고, 실험 결과, 치열영상과 음성을 이용한 단일 생체인증 결과는 각각 8.59%와 11.73%의 EER를 보였으며, 멀티모달 화자인증 결과는 4.05%의 EER를 나타냈다. 이로부터 본 논문에서는 인증 성능을 향상하기 위하여 두 개의 단일 생체인증 결과를 간단한 가중치 합으로 결합한 결과, 높은 인증 성능의 향상을 도모할 수 있었다.
본 논문에서는 이동환경에서 개인의 신원을 인증하는 수단으로 치열영상과 음성을 생체정보로 이용한 멀티모달 화자인증 방법에 대하여 제안한다. 제안한 방법은 이동환경의 단말장치중의 하나인 스마트폰의 영상 및 음성 입력장치를 이용하여 생체 정보를 획득하고, 이를 이용하여 사용자 인증을 수행한다. 더불어, 제안한 방법은 전체적인 사용자 인증 성능의 향상을 위하여 두 개의 단일 생체인식 결과를 결합하는 멀티모달 방식으로 구성하였고, 결합 방법으로는 시스템의 제한된 리소스를 고려하여 비교적 간단하면서도 우수한 성능을 보이는 가중치 합의 방법을 사용하였다. 제안한 멀티모달 화자인증 시스템의 성능평가는 스마트폰에서 획득한 40명의 사용자에 대한 데이터베이스를 이용하였고, 실험 결과, 치열영상과 음성을 이용한 단일 생체인증 결과는 각각 8.59%와 11.73%의 EER를 보였으며, 멀티모달 화자인증 결과는 4.05%의 EER를 나타냈다. 이로부터 본 논문에서는 인증 성능을 향상하기 위하여 두 개의 단일 생체인증 결과를 간단한 가중치 합으로 결합한 결과, 높은 인증 성능의 향상을 도모할 수 있었다.
In this paper, we propose a multimodal speaker verification method using teeth image and voice as biometric trait for personal verification in mobile terminal equipment. The proposed method obtains the biometric traits using image and sound input devices of smart-phone that is one of mobile terminal...
In this paper, we propose a multimodal speaker verification method using teeth image and voice as biometric trait for personal verification in mobile terminal equipment. The proposed method obtains the biometric traits using image and sound input devices of smart-phone that is one of mobile terminal equipments, and performs verification with biometric traits. In addition, the proposed method consists the multimodal-fashion of combining two biometric authentication scores for totally performance enhancement, the fusion method is accompanied a weighted-summation method which has comparative simple structure and superior performance for considering limited resources of system. The performance evaluation of proposed multimodal speaker authentication system conducts using a database acquired in smart-phone for 40 subjects. The experimental result shows 8.59% of EER in case of teeth verification 11.73% in case of voice verification and the multimodal speaker authentication result presented the 4.05% of EER. In the experimental result, we obtain the enhanced performance more than each using teeth and voice by using the simple weight-summation method in the multimodal speaker verification system.
In this paper, we propose a multimodal speaker verification method using teeth image and voice as biometric trait for personal verification in mobile terminal equipment. The proposed method obtains the biometric traits using image and sound input devices of smart-phone that is one of mobile terminal equipments, and performs verification with biometric traits. In addition, the proposed method consists the multimodal-fashion of combining two biometric authentication scores for totally performance enhancement, the fusion method is accompanied a weighted-summation method which has comparative simple structure and superior performance for considering limited resources of system. The performance evaluation of proposed multimodal speaker authentication system conducts using a database acquired in smart-phone for 40 subjects. The experimental result shows 8.59% of EER in case of teeth verification 11.73% in case of voice verification and the multimodal speaker authentication result presented the 4.05% of EER. In the experimental result, we obtain the enhanced performance more than each using teeth and voice by using the simple weight-summation method in the multimodal speaker verification system.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 이동환경에서 개인의 신원을 인증하는 수단으로 치열영상과 음성을 생체정보로 이용한 멀티모달 화자인증 방법에 대하여 제안하였다. 제안한 방법은이동단말 장치중의 하나인 스마트폰을 이용하여 치열인증과 음성인증 모듈로 구성하였으며, 치열인증 모듈은 2D-DCT 특징벡터와 EHMM 알고리즘으로 구성하고, 음성인증 모듈은 MFCC와 피치의 특징 벡터를 GMM 알고리즘을 이용하여 사용자를 모델링하였다.
이에 본 논문에서는 이동단말 장치에서 개인의 신원을 인증하는 수단으로 치열 영상과 음성을 생체정보로 이용한 멀티모달 화자인증 방법에 대하여 제안한다. 치열 영상과 음성은 영상 및 음성 입력장치를 이용하여 획득되는 생체정보로서, 최근의 이동단말 환경에서 이러한 장치들은 기본사양으로 자리매김 되어가고 있다.
본 절에서는 치열인증 모듈의 구성에 대하여 기술한다. 치열인증은 크게 입력 영상에서 치열영역을 검출하는 모듈, 특징 파라미터 추출 모듈, 그리고 유사도 계산하는 모듈로 구분된다.
MFCC와 피치 파라미터는 특징 단계에서 결합되고, GMM 알고리즘에 의하여 사용자의 음성에 대한 유사도를 계산한다. 전체적인 사용자 인증 성능을 높이기 위하여 본 논문에서는 치열 영상과 음성에 대한 유사도 값들을 가중치의 합으로 결합하였다. 두 개의 단일 생체로부터 계산되는 유사도 값들은 그 분포 범위와 의미가 서로 다르기 때문에 0부터 1 사이의 값으로 정규화되는 과정이 필요하다.
영상과 음성을 이용한 멀티모달 화자인증 시스템의 성능평가를 위하여, 본 논문에서는 치열 영역의 검출 성능, 멀티모달 화자인증 시스템의 사용자 등록과 인증에 소요되는 시간, 그리고 시스템의 인증률에 대한 실험을 수행하였다. [표 1]은 40명의 사용자에 대한 800개 영상에서 치열영역을 검출한 결과를 보이고 있다.
05의 단계로 변화하여 계산한 멀티모달 화자인증 시스템의 EER를 나타낸다. 이 실험은 가중치 p의 값을 변화 시켜 최적의 인증 성능을 얻기 위하여 수행되었다. [그림 11]에서 단일 생체 인증 시스템의 EER는 치열인증의 경우 8.
제안 방법
치열 영상과 음성은 영상 및 음성 입력장치를 이용하여 획득되는 생체정보로서, 최근의 이동단말 환경에서 이러한 장치들은 기본사양으로 자리매김 되어가고 있다. 그러므로 제안한 방법은 생체정보 입력을 위한 추가의 장치가 부가되지 않아 저가의 비용으로 시스템을 구축 할 수 있는 장점을 갖는다. 제안한 멀티모달 화자인증 시스템은 치열인증과 음성인증 모듈로 구성된다.
그러므로 제안한 방법은 생체정보 입력을 위한 추가의 장치가 부가되지 않아 저가의 비용으로 시스템을 구축 할 수 있는 장점을 갖는다. 제안한 멀티모달 화자인증 시스템은 치열인증과 음성인증 모듈로 구성된다. 치열 영상을 이용한 생체인식 방법은 처음으로 LDA (Linear Discriminant Analysis)와 NN (Nearest Neighbor) 분류기를 사용한 방법이 제안되었고团, 더불어 PCA (Principal Component Analysis)와 NN 분류기를 이용한 성능 개선에 관한 연구'”61와 다양한 영상인식 알고리즘에 대한 성능 비교에 관한 연구를 찾아볼 수 있다E 치열영상을 이용한 생체인식 방법의 성능평가 연구'切에따르면, 최적의 치열 인식 성능을 보이는 방법은 2D- DCT (Two Dimensional Discrete Cosine Transform) 5} EHMM (Embedded Hidden Markov Model) 알고리즘을 사용한 경우이다.
치열 영상을 이용한 생체인식 방법은 처음으로 LDA (Linear Discriminant Analysis)와 NN (Nearest Neighbor) 분류기를 사용한 방법이 제안되었고团, 더불어 PCA (Principal Component Analysis)와 NN 분류기를 이용한 성능 개선에 관한 연구'”61와 다양한 영상인식 알고리즘에 대한 성능 비교에 관한 연구를 찾아볼 수 있다E 치열영상을 이용한 생체인식 방법의 성능평가 연구'切에따르면, 최적의 치열 인식 성능을 보이는 방법은 2D- DCT (Two Dimensional Discrete Cosine Transform) 5} EHMM (Embedded Hidden Markov Model) 알고리즘을 사용한 경우이다. 이에 본 논문에서는 치열인증 모듈에 2D-DCT와 EHMM을 이용한 방법을 적용하였다. 이와 더불어 치열 영상을 획득하는 과정에서 사용자에게 /이/ 음을 발성하도록 부과함으로써, 획득한 음성을 음성인증에 이용하였다.
이에 본 논문에서는 치열인증 모듈에 2D-DCT와 EHMM을 이용한 방법을 적용하였다. 이와 더불어 치열 영상을 획득하는 과정에서 사용자에게 /이/ 음을 발성하도록 부과함으로써, 획득한 음성을 음성인증에 이용하였다. 음성인증에는 특징 벡터로 MFCC(Mel Frequency Cepstral Ge伍cient)와 피치를 사용하였고, GMM (Gaussian Mixture Model) 알고리즘으로 사용자의 음성을 모델링하였다.
구분될 수 있다. 본 논문에서는 전체적인 인증성능의 향상을 위하여 치열과 음성의 인증 결과를 유사도 단계에서 결합하였으며, 시스템의 제한된 리소스를 고려하여 비교적 간단하면서도 우수한 성능을 보이는가 중치의 합으로 결합하여 시스템을 구성하였다. 제안한 방법의 성능평가는 스마트폰을 이용하여 구축한 데이터베이스를 이용하여 수행하였다.
본 논문에서는 전체적인 인증성능의 향상을 위하여 치열과 음성의 인증 결과를 유사도 단계에서 결합하였으며, 시스템의 제한된 리소스를 고려하여 비교적 간단하면서도 우수한 성능을 보이는가 중치의 합으로 결합하여 시스템을 구성하였다. 제안한 방법의 성능평가는 스마트폰을 이용하여 구축한 데이터베이스를 이용하여 수행하였다. 데이터베이스는 실제 환경에서 사용자가 움직이지 않는 상태를 전제로 하여 구축되었으며, 전체적으로 40명에 대한 800개의 치열 영상과 음성으로 구성된다.
다차원의 관측 벡터는 모델의 훈련 및 치열인증 과정에서 많은 계산양의 원인이 된다. 따라서 본 논문에서는 치열 영상의 특징 성분을 잘 표현하며 데이터의 중복성을 효율적으로 제거할 수 있는 2D-DCT를 치열영상의 특징 파라미터로 사용하였다. PxL 크기의 영상에 대한 2D-DCT는 식(2)과 같이 표현된다.
본 논문에서는 치열인증과 더불어 사용자의 음성을 이용한 음성인증을 적용하여 멀티모달 화자인증 시스템을 구성하였다. 음성인증은 치열 영상을 획득하는 과정에서 사용자에게 /이/음을 발성하도록 하여, 이 과정에서 획득한 음성신호를 이용한다.
멜 스케일에 따르면 낮은 주파수에서는 작은 변화에도 민감하게 반응하지만 높은 주파수로 갈수록 민감도가 작아지므로 특징 추출 시에 주파수 분석 빈도를 이에 맞는 특성에 맞추는 방식이다. MFCC 특징 파라미터를 추출하는 과정은 순차적으로 다음과 단계로 수행되며, 본 논문에서는 MFCC 13 차를 음성인증을 위하여 사용하였다.
음성 신호를 구간으로 나누는 과정에서 주파수 왜곡 현상을 최소화하기 위하여, 윈도우를 신호 성분에 곱하여 분석한다. 본 논문에서는 일반적으로 널리 사용되는 Hamming 윈도우를 사용한다.
분석구간의 음성신호에 주파수 변환을 취하여 음성신호의 스펙트럼을 구한다.
본 논문에서는 비교적 연산량이 작은 ACF 방법을 이용하여 피치를 추출하고, 음성 인증의 특징 파라 미터로 이용하였다. [그림 6]은 본 논문에서 획득한 음성데이터의 예시로서 (a) 는 35dB, (b) 는 15dB에 대한 음성 파형과 ACF방법을 이용하여 검출한 피치를 보여준다.
검출된 치열 영상에서 2D-DCT 특징 벡터가 추출되고, EHMM 알고리즘을 이용하여 사용자의 치열영상에 대한 유사도가 계산된다. 또한 입력 음성은 전처리 과정이 수행되고, 전 처리된 음성을 이용하여 MFOC와 피치 파라미터를 추출한다. MFCC와 피치 파라미터는 특징 단계에서 결합되고, GMM 알고리즘에 의하여 사용자의 음성에 대한 유사도를 계산한다.
최대유사도 선택 방법은 단일 생체 정보로부터 얻은 유사도 값들 중에서 가장 큰 유사도 값을 선택하는 방법이며, 반면 최소 유사도 선택 방법은 가장 작은 유사도 값을 선택하는 방법이다. 이에 비해 유사도의 가중치 합을 이용한 방법은 단일 생체 정보로부터 얻은 유사도 값들에 각각 다른 가중치 값을 부여하여 새로운 유사도 값을 만드는 방법이다⑵ 본 논문에서는 두 개 이상의 단일 생체인식 시스템의 결합에 널리 사용되고 있는 가중치 합을 이용한 방법을 적용하여 치열과 음성에 대한유사도 값들을 결합하였다. 가중치 합을 이용한 결합 방법은 이동단말 장치의 제한된 하드웨어적 리소스를 고려하여 선택되었으며, 간단한 결합 방식들 중에서 비교적 높은 성능을 보인다.
본 논문의 멀티모달 화자인증 시스템은 HP iPAQ rw6100 기종의 스마트폰 환경에서 embedded Visual C++ 4.0의 프로그래밍 도구를 사용하여 구현하였다. 입력 영상은 스마트폰 장치에 내장된 카메라를 이용하여 480 640의 해상도로 획득되었고, 음성은 16 kHz의샘플링율과 16bit/sample 품질로 획득하여 시스템의 성능평가를 수행하였다.
0의 프로그래밍 도구를 사용하여 구현하였다. 입력 영상은 스마트폰 장치에 내장된 카메라를 이용하여 480 640의 해상도로 획득되었고, 음성은 16 kHz의샘플링율과 16bit/sample 품질로 획득하여 시스템의 성능평가를 수행하였다. 치열 영상과 음성 데이터는 실제 환경에서 사용자가 움직이지 않는 상태를 전제로 획득되었다.
사용자 등록에는 5개의 영상과 음성을 사용하여 모델을 생성하며, 사용자 인증에는 1개의 영상과 음성을 사* 용한 다 사용자 등록과 인증에 소요되는 평균 시간의 측정은 치열과 음성 부분, 그리고 전체적으로 소요되는 시간을 구분하여 평가하였다. 실험 결과, 사용자등록에는 평균 55.
[그림 10]은 본인과 사칭자에 대한 치열과 음성의 정규화한 유사도 값을 2차 원그래프로 도시한 결과를 보여준다. 이와 같은 유사도 값의 분포를 기반으로 본 논문에서는 유사도의 가중치의 변화에 따른 EER (Equal Error Rate)의 값을 조사하였으며, 실험에는 치열 영역 검출에 성공한 영상과 이와 관련된 음성만을 사용하였다.
화자인증 방법에 대하여 제안하였다. 제안한 방법은이동단말 장치중의 하나인 스마트폰을 이용하여 치열인증과 음성인증 모듈로 구성하였으며, 치열인증 모듈은 2D-DCT 특징벡터와 EHMM 알고리즘으로 구성하고, 음성인증 모듈은 MFCC와 피치의 특징 벡터를 GMM 알고리즘을 이용하여 사용자를 모델링하였다. 더불어, 제안한 방법은 이동단말 시스템의 제한된 리소스를 고려하여 치열과 음성의 유사도 결과를 비교적 간단하면서도 우수한 성능을 보이는 가중치의 합으로 결합함으로써, 전체적인 성능 향상을 도모하였다.
본 논문에서 제안한 방법은 이동단말 장치에 대한 보안뿐만 아니라 기존에 사용하던 생체인식 기술을. 대체하거나 또는 더불어 사용될 수 있음을 실험으로부터 확인하였고, 이동단말 환경에서 추가적인 장치의 부가 없이 활용될 수 있으므로 매우 경제적이고 신뢰성 있는 기술로 사료된다.
로그를 취한 필터 뱅크값에 IDCT (Inverse Discrete Cosine Transform) 을 하여 최종 MFCC를 구한다.
대상 데이터
제안한 방법의 성능평가는 스마트폰을 이용하여 구축한 데이터베이스를 이용하여 수행하였다. 데이터베이스는 실제 환경에서 사용자가 움직이지 않는 상태를 전제로 하여 구축되었으며, 전체적으로 40명에 대한 800개의 치열 영상과 음성으로 구성된다.
치열 영상과 음성 데이터는 실제 환경에서 사용자가 움직이지 않는 상태를 전제로 획득되었다. 멀티모달 화자인증 시스템의 성능평가 실험에는 남자 20명과 여자 20명에 대하여 개인당 20개의 영상과 음성으로 구성된, 총 800개의 치열영상과 음성으로 구성된 데이터베이스를 이용하였다. 800개의 영상과 음성 데이터 중에서 40명에 대한 200개의 영상과 음성데이터는 멀티모달 화자인증 시스템의 모델 학습에 이용하고, 나머지 600개의 영상과 음성 데이터는 성능평가 실험에 사용하였다.
멀티모달 화자인증 시스템의 성능평가 실험에는 남자 20명과 여자 20명에 대하여 개인당 20개의 영상과 음성으로 구성된, 총 800개의 치열영상과 음성으로 구성된 데이터베이스를 이용하였다. 800개의 영상과 음성 데이터 중에서 40명에 대한 200개의 영상과 음성데이터는 멀티모달 화자인증 시스템의 모델 학습에 이용하고, 나머지 600개의 영상과 음성 데이터는 성능평가 실험에 사용하였다. [그림 8]은 데이터베이스 구축 환경의 예를 보이는 것으로 사용자는 움직이지 않는 상태를 전제로 하며, 주변 환경은 실내인 경우와 실외인 경우를 모두 포함하여 데이터베이스를 구축하였다.
이론/모형
이와 더불어 치열 영상을 획득하는 과정에서 사용자에게 /이/ 음을 발성하도록 부과함으로써, 획득한 음성을 음성인증에 이용하였다. 음성인증에는 특징 벡터로 MFCC(Mel Frequency Cepstral Ge伍cient)와 피치를 사용하였고, GMM (Gaussian Mixture Model) 알고리즘으로 사용자의 음성을 모델링하였다.
치열인증은 크게 입력 영상에서 치열영역을 검출하는 모듈, 특징 파라미터 추출 모듈, 그리고 유사도 계산하는 모듈로 구분된다. 입력 영상에서의 치열영역을 검줄하는 모듈에는 빠른 검줄 속도를 보이는 HaarTike feature 기반의 AdaBoost 알고리즘을 이용하며, 치열 영상의 특징 파라미터로는 2D-DCT, 치열 영상을 위한 모델 학습과 인증에는 EHMM 알고리즘을 사용한다.
음성인증은 치열 영상을 획득하는 과정에서 사용자에게 /이/음을 발성하도록 하여, 이 과정에서 획득한 음성신호를 이용한다. 음성인증에는 특징 파라미터로 MFCC와 피치 정보를 결합한 특징 벡터를 사용하고, 음성인증 알고리즘으로 GMM을 사용한다.
분석한다. 본 논문에서는 일반적으로 널리 사용되는 Hamming 윈도우를 사용한다.
입력 음성으로부터 추출한 MFOC와 피치 정보는 GMM 알고리즘으로 모델링하여 음성인증에 적용된다. 이때 MFCC 계수 13차와 1차의 피치 계수는 파라미터 차원에서 결합되어, 최종적으로 새로운 14차의 특징 파라미터가 GMM의 입력 벡터로 사용된다.
GMM의 학습은 위의 모델 파라미터를 추정하는 과정으로 EM (Expectation Maximization) 알고리 즘을 사용하여 파라미터를 추정하였다. EM알고리즘은 초기모델 人로부터 p(x|A)> pQrl入)인 새로운 모델 入을 주정하고, 이러한 반복 과정을 임계 값으로 수렴할 때까지 계속하는 방법 이 다.
시스템의 블록 도를 나타낸다. 입력 영상은 Haar like 특징 기반의 AdaBoost 알고리즘이 적용되어 치열 영역을 검출한다. 검출된 치열 영상에서 2D-DCT 특징 벡터가 추출되고, EHMM 알고리즘을 이용하여 사용자의 치열영상에 대한 유사도가 계산된다.
일반적으로 널리 사용되고 있는 정규화 방법에는 최소-최대 정규화, Z-Score를 이용한 정규화, 10진수 변환기법 정규화, sigmoid 함수를 이용한 정규화 등의 다양한 방법이 있다. 본 논문에서는 치열과 음성으로부터 얻은 유사도를 0부터 1 사이의 범위로 정규화하기 위하여 sigmoid 함수를 이용한 정규화 방법을 사용하였다". 식 (7) 과 (8)은 sigmoid 함수를 이용한 정규화 방법을 나타낸다.
본 논문에서는 치열인증을 위 한 알고리즘으로 EHMM 을 사용하였다. EHMM은 일차원의 HMM을 2차원 구조로 나타내기 위하여 일반화한 방법으로, super-states와 embeMded-states의 집합으로 구성된다.
성능/효과
[표 1]은 40명의 사용자에 대한 800개 영상에서 치열영역을 검출한 결과를 보이고 있다. 치열 영역검출률은 98.87%를 보였으며, 한 개의 영상에서 치열 영역을 검출하는 평균 시간은 2.92초를 보였다.
사용자 등록에는 5개의 영상과 음성을 사용하여 모델을 생성하며, 사용자 인증에는 1개의 영상과 음성을 사* 용한 다 사용자 등록과 인증에 소요되는 평균 시간의 측정은 치열과 음성 부분, 그리고 전체적으로 소요되는 시간을 구분하여 평가하였다. 실험 결과, 사용자등록에는 평균 55.97초의 시간이 소요되었고, 사용자 인증에는 평균 10.76초가 소요되었다.
73%를 보였다. 반면 가중치를 부여하여 합산된 유사도 값을 바탕으로 결과를 도출한 결과, p의 값이 0.45일 때, EER이 4.50%로 가장 좋은 성능을 보였다.
45일 때, 치열과 두음성, 그리고 두 개의 정보를 결합한 멀티모달 시스템의 성능을 ROC (Receiver Operating Characteristic) 곡선으로 나타내고 있다. 그림에서 가중치의 합으로 결합한 멀티모달 시스템의 경우는 치열 또는 음성만을 단독으로 사용한 경우보다 향상된 성능을 보였으며, 치열인증의 결과보다는 4.09%, 음성인증의 결과보다는 7.23%로 더 나은 성능을 보였다.
본 논문에서 제안한 방법은 이동단말 장치중의 하나인 스마트폰에서 구현하여 우수한 성능을 보임을 실험으로부터 확인하였다. 특히 일반 PC에서 획득한 고품질의 영상과 음성보다 스마트폰에서 획득한 영상과 음성이 저품질의 데이터임에도 불구하고, 치열인증과 음성인증의 결과는 비교적 좋은 성능을 보였다.
확인하였다. 특히 일반 PC에서 획득한 고품질의 영상과 음성보다 스마트폰에서 획득한 영상과 음성이 저품질의 데이터임에도 불구하고, 치열인증과 음성인증의 결과는 비교적 좋은 성능을 보였다. 또한 이동단말 장치의 제한된 리소스를 고려하여 비교적 간단하면서도 우수한 성능을 보이는 가중치의 합으로 치열 영상과 음성을 결합하여 보다 우수한 성능 향상을 얻을 수 있었다.
특히 일반 PC에서 획득한 고품질의 영상과 음성보다 스마트폰에서 획득한 영상과 음성이 저품질의 데이터임에도 불구하고, 치열인증과 음성인증의 결과는 비교적 좋은 성능을 보였다. 또한 이동단말 장치의 제한된 리소스를 고려하여 비교적 간단하면서도 우수한 성능을 보이는 가중치의 합으로 치열 영상과 음성을 결합하여 보다 우수한 성능 향상을 얻을 수 있었다.
제안한 방법은이동단말 장치중의 하나인 스마트폰을 이용하여 치열인증과 음성인증 모듈로 구성하였으며, 치열인증 모듈은 2D-DCT 특징벡터와 EHMM 알고리즘으로 구성하고, 음성인증 모듈은 MFCC와 피치의 특징 벡터를 GMM 알고리즘을 이용하여 사용자를 모델링하였다. 더불어, 제안한 방법은 이동단말 시스템의 제한된 리소스를 고려하여 치열과 음성의 유사도 결과를 비교적 간단하면서도 우수한 성능을 보이는 가중치의 합으로 결합함으로써, 전체적인 성능 향상을 도모하였다. 이를 위하여 40명에 대한 800개의 치열영상과 음성으로 성능평가 실험을 수행하였으며, 실험 결과, 치열인증과 음성인증의 결과는 각각 8.
더불어, 제안한 방법은 이동단말 시스템의 제한된 리소스를 고려하여 치열과 음성의 유사도 결과를 비교적 간단하면서도 우수한 성능을 보이는 가중치의 합으로 결합함으로써, 전체적인 성능 향상을 도모하였다. 이를 위하여 40명에 대한 800개의 치열영상과 음성으로 성능평가 실험을 수행하였으며, 실험 결과, 치열인증과 음성인증의 결과는 각각 8.59%, 11.73%의 EER를 보였다. 또한 치열인증에 대한가중치 0의 값을 0부터 1까지 0.
73%의 EER를 보였다. 또한 치열인증에 대한가중치 0의 값을 0부터 1까지 0.05의 단계로 변화하여 인증 성능을 조사한 결과, p의 값이 0.45일 경우에 가장 좋은 4.05%의 멀티모달 인증 결과를 얻을 수 있었다. 실험 결과는 스마트폰 장치에서 획득한 치열 영상과 음성이 범용 PC보다 저품질임에도 불구하고 높은 인증 성능을 보였으며, 더불어 멀티모달 화자인증 시스템을 비교적 간단한 가중치 합으로 결합하여 각각의 단일 생체인증의 결과보다 향상된 인증 성능을 얻을 수 있었다.
05%의 멀티모달 인증 결과를 얻을 수 있었다. 실험 결과는 스마트폰 장치에서 획득한 치열 영상과 음성이 범용 PC보다 저품질임에도 불구하고 높은 인증 성능을 보였으며, 더불어 멀티모달 화자인증 시스템을 비교적 간단한 가중치 합으로 결합하여 각각의 단일 생체인증의 결과보다 향상된 인증 성능을 얻을 수 있었다.
기술을. 대체하거나 또는 더불어 사용될 수 있음을 실험으로부터 확인하였고, 이동단말 환경에서 추가적인 장치의 부가 없이 활용될 수 있으므로 매우 경제적이고 신뢰성 있는 기술로 사료된다. 본 논문에서 제안한 방법은 스마트폰과 같은 임베디드 환경에서 구현되어 사용자 등록과 인증에 많은 시간이 요구되므로, 향후에 알고리즘 개선 및 작성 코드의 최적화와 같은 과정을 통하여 처리시간의 향상에 대한 연구가 필요하다.
이에 비해 유사도의 가중치 합을 이용한 방법은 단일 생체 정보로부터 얻은 유사도 값들에 각각 다른 가중치 값을 부여하여 새로운 유사도 값을 만드는 방법이다⑵ 본 논문에서는 두 개 이상의 단일 생체인식 시스템의 결합에 널리 사용되고 있는 가중치 합을 이용한 방법을 적용하여 치열과 음성에 대한유사도 값들을 결합하였다. 가중치 합을 이용한 결합 방법은 이동단말 장치의 제한된 하드웨어적 리소스를 고려하여 선택되었으며, 간단한 결합 방식들 중에서 비교적 높은 성능을 보인다. 가중치 합을 이용한 결합 방법은 식 ⑼와 같이 표현할 수 있다.
후속연구
대체하거나 또는 더불어 사용될 수 있음을 실험으로부터 확인하였고, 이동단말 환경에서 추가적인 장치의 부가 없이 활용될 수 있으므로 매우 경제적이고 신뢰성 있는 기술로 사료된다. 본 논문에서 제안한 방법은 스마트폰과 같은 임베디드 환경에서 구현되어 사용자 등록과 인증에 많은 시간이 요구되므로, 향후에 알고리즘 개선 및 작성 코드의 최적화와 같은 과정을 통하여 처리시간의 향상에 대한 연구가 필요하다.
참고문헌 (12)
A. K. Jain, A. Ross, and Prabbakar, "An introduction to biometric recognition", IEEE Trans. Circuits System, Video Technology, vol.14, no.1, pp.4-20, Jan. 2004
E. C. Epp, "Relationship Management: Secure Collaboration in a Ubiquitous Environment", IEEE Pervasive Computing, Volume 2, Issue 2, April , Pages 62-71, 2003
권만준, 양동화, 고현주, 김진환, 전명근, "PDA를 이용한 실시간 얼굴 인식 시스템 구현", 퍼지 및 지능시스템학회 논문지, Vol. 15, No. 5, pp. 649-654, 2005
Tae-Woo KIM and Tae-Kyung CHO, "Teeth Image Recognition for Biometrics", IEICE TRANSACTIONS on Information and Systems Vol. E89-D No. 3 pp. 1309-1313, 2006
K. Prajuabklang, P. Kumhom, T. Maneewarn, and K. Chamnongthai, "Real-time Personal Identification from Teeth-image using Modified PCA", Proceeding, the 4-th information and computer Engineering Postgraduate Workshop, Vol. 4, No. 1, pp.172-175, 2004
C. Nadee, P. Kumhom, and K. Chamnongthai, "Improved PCA-Based Personal Identification Method Using Invariance Moment", The third International Conference on Intelligent Sensing and Information Processing, December 14-17, 2005
Dong-Ju Kim, Jong-Bae Jeon and Kwang-Seok Hong, "Performance Evaluation of Feature Vectors for Teeth Image Recognition", The 4th Conference On New Exploratory Technologies, October 25-27, 2007
P. Viola and M. J. Jones, "Robust real-time object detection", Technical Report Series, Compaq Cambridge research Laboratory, CRL 2001/01, Feb. 2001
A. V. Nefien and M. H. Hayes, "An embedded HMM-based approach for face detection and recognition", In Proc, IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 6, pp. 3553-3556, 1999
A. P. Dempster, N. M. Laird, and D. B. Rubin, "Maximum likelihood from incomplete data wia the EM algorithm", Journal of the Royal Statistical Society B, 1977
A. Ross and A. K. Jain, "Information fusion in biometrics", Pattern Recognition. Letter. 24 (13) 2003
C. Sanderson and K. K. Paliwal, "Identity verification using speech and face information", Digital Signal Processing, Volume 14, Issue 5, September Pages 449-480, 2004
※ AI-Helper는 부적절한 답변을 할 수 있습니다.