[논문]로그인 과정에서의 화자인증 메커니즘을 이용한 사용자인증 방안 연구

김남호; 최지영

doi:10.30693/smj.2019.8.3.23

문제 정의

따라서 본 논문에서는 위와 같은 웹서비스 사용자 인증과정에서 일반적인 아이디 패스워드 기반의 사용자 인증 방식보다 시각 장애인과 같은 키보드 입력이 취약한 사람들이 기존의 인증 방식보다 음성을 이용한 STT(Speech to Text), TTS(Text to Speech), 화자인증만으로 인증 가능한 항시 소지할 수 있는 스마트폰 기기를 활용하여 웹사이트에 기존에 회원등록이 되어있는 사용자들을 대상으로 MFCC(Mel-Freque ncy Cepstral Coefficient)와 DTW (Dynamic Time Warping 알고리즘을 사용하여 화자인증을 구현하였으며, 키 입력을 사용하지 않고도 간편하게 사용자 인증을 수행할 수 있는 시스템을 제안하고자 한다.
본 논문에서는 위에서 구현한 화자인증 시스템 및 구글 어시스턴트 App과 음성 합성 기술을 종합하여 웹 기반 사용자 인증 시뮬레이션에 적용해 봄으로써 약시자나 손사용이 불편한 사람과 같이 취약계층뿐 아니라 일반 사용자에게도 사람의 음성만을 통한 간편한 사용자 인증이 될 수 있는 인증시스템을 설계 및 제안하였다. 화자인증의 설계 및 구현은 스마트폰 기기나 PC 환경 어디에도 적용할 수 있는 JAVA언어를 사용하여 MFCC와 DTW를 구현하였고, 이러한 설계 및 구현 과정 중 등록과정에서 이를 사용하고자 하는 화자는 본인의 음성을 세 번 등록하게 되는 이와 같은 과정에서 별도의 민감도 값을 부여하여 임계값을 설정하는 방식으로 진행하였다.

제안 방법

또한 화자가 발성을 하는 과정에서 단어의 선택이 중요하다고 알려져 있다. 따라서 본 논문에서는 화자 인증과정을 수행하는 한국어 자음 발음의 단어 선택을 자의적인 기준에 의해 분류하지 않았으며 음가를 결정짓는 요인들을 기준으로 분류하여 화자인증을 설계 및 구현하였다. 본 논문에서 아래의 그림 4에 해당하는 모든 단어의 목록을 사용하진 않았으며 위의 단어 중 화자인증에 주로 사용된 단어는 과자, 할머니, 기자, 거북이 등 편의성을 위해 더욱이 짧은 단어를 위주로 사용하였다[5].
본 논문에서 제안하는 인증시스템의 구성요소의 첫 번째는 사용자가 서비스를 사용하기 위해 사용자 등록 및 사용자 인증요청에 해당하는 웹 어플리케이션(Web application), 두 번째는 사용자의 음성을 전송받아 임곗값 비교를 통해 승인 혹은 거부 인가 여부를 결정짓는 웹 어플리케이션 서버(Web application Server), 세 번째는 웹서버에서 등록 및 인증이 허가된 사용자의 인증정보를 저장하기 위한 데이터 베이스(Data Base), 네 번째 본인의 음성을 녹음 후 음성의 특징 벡터를 추출하여 전송하는 스마트폰 기기 즉 앱 어플리케이션 (App application)으로 크게 네 가지로 분류된다.
MFCC는 한 개의 프레임 안에 해당하는 음성 데이터의 여러 차수의 계수를 추출함으로써 이를 음성 신호의 특징 벡터로 활용하게 된다. 본 논문에서는 이에 사용되는 MFCC 계수를 프레임마다 12차의 계수를 추출하였으며 여기에 Logarithm 과정을 거친 필터 뱅크의 개수만큼 추출한 에너지의 합을 포함하여 사용하였다[3, 4, 7].
본 단계는 화자인증 등록 후 사용자가 인증과정을 이용할 시 이루어지는 화자인증 단계로서 인증을 위한 새로운 음성 녹음 후에 화자 등록과정에서 그림 7의 1.wav, 2.wav, 3.wav에서 추출한 MFCC 특징 벡터값들과 각각 일대일 매칭 비교하여 DTW 알고리즘을 통해 비교 연산을 진행한다.
그림 6은 그림5의 화자 인증 전체 순서도의 등록과정에 해당하는 그림이다. 본 등록과정에서는 총 3번의 발성이 이루어지며 각각의 음원 파일에서 사람의 목소리의 구간을 획득하고 MFCC의 특징 벡터를 추출한다. 3개의 음원 파일에서 추출한 특징 벡터를 각각 그림 7과 같이 DTW 알고리즘으로 비교하여 3개의 평균 Distance 값을 구하였다.
본 화자인증시스템은 사용자 인증을 하는 과정에서 사용자의 음성을 입력하여 등록하는 단계와 입력한 음성을 통한 사용자 인증 단계로 구성된다. 음성의 특징 추출은 화자가 발성한 시간의 흐름에 따라 변하는 음성 신호에서 MFCC(Mel-Frequency Cepstral Coefficient) 특징 벡터를 이용하여 각각 분리한 프레임마다 총 12차의 MFCC 계수를 추출하였으며 DTW(Dynamic Time Warping) 알고리즘을 통해 비교 연산을 진행하도록 설계하였다.
이에 해당하는 녹음의 환경은 30db에서 40db 정도의 소음 크기인 다소 조용한 공간인 일반적인 가정집 소음환경에서 진행하였다. 사용자가 목소리를 발성 후 무손실 무압축 방식인 wav 파일 형식으로 저장하였다. 이처럼 저장된 wav 음원 파일에서 사람의 음성이라고 판단되는 구간만 획득하는 VAD(Voice Activity Detection)방식은 저장된 음성 신호들을 프레임 단위로 에너지를 구한 후 특정 에너지 이상으로 신호가 검출될 때까지 무음 구간의 프레임을 제거하였으며 위와 같이 무음 구간이 제거된 음성 신호에서 MFCC의 특징 벡터를 추출하였다.
또한 본 단계에서는 제안한 화자 인증시스템을 기반으로 기존의 웹사이트에도 적용할 수 있게 사전에 웹사이트에 회원 가입이 되어있는 사용자들을 대상으로 하였다. 시각 장애인이나 고령층과 같이 시력이 일반 사람들보다 약시인 사용자를 위한 웹사이트에서의 사람의 음성정보를 통한 사용자 인증 방안을 검증하였다.
본 화자인증시스템은 사용자 인증을 하는 과정에서 사용자의 음성을 입력하여 등록하는 단계와 입력한 음성을 통한 사용자 인증 단계로 구성된다. 음성의 특징 추출은 화자가 발성한 시간의 흐름에 따라 변하는 음성 신호에서 MFCC(Mel-Frequency Cepstral Coefficient) 특징 벡터를 이용하여 각각 분리한 프레임마다 총 12차의 MFCC 계수를 추출하였으며 DTW(Dynamic Time Warping) 알고리즘을 통해 비교 연산을 진행하도록 설계하였다. 또한 화자가 발성을 하는 과정에서 단어의 선택이 중요하다고 알려져 있다.
이에 더해 평균 Distance의 값은 구해진 평균의 거릿값을 그대로 사용하지 않고 10∼20% 정도의 민감도 값을 별도로 부여하여 이를 화자 인식의 거리 임계값으로 설정하였다. 이때 DTW 알고리즘은 시계열 데이터간의 비교를 통한 결과는 참조패턴과 기준 패턴이 유사할수록 수치가 0에 가깝게 나오는 알고리즘이므로 등록과정의 3번의 발성 과정에서 Distance 값의 평균이 너무 낮게 나오게 된다면 인증과정 중 등록과정에서 설정한 임곗값 이하여야만 사용자 인증이 성공하기 때문에 인식률 상승을 위해 별도의 민감도 값을 부여하였다.
이후 3개의 Distance 값을 얻으며 이 중 한 개 이상의 값이 임계값으로 설정해놓은 Distance 수치 미만으로 나오면 해당 사용자로 인식하여 승인과정이 이루어진다. 이러한 인증 승인과 정 중 두 개 이상의 값이 임곗값 미만이 되었을 때를 인증 승인 기준으로 설정하였을 때 한 개 이상의 값이 임계값 이하를 인증 승인 기준으로 설정했을 때보다 본인 거부율의 비율 즉 FRR(F alse Rejection Rate) 의 비율이 높아진 결과를 볼 수 있었으므로 본 논문에서는 화자인증 승인 기준을 한 개 이상의 값이 임계값 이하인 상황을 인증 성공 기준으로 설정하였다.
이에 해당하는 녹음의 환경은 30db에서 40db 정도의 소음 크기인 다소 조용한 공간인 일반적인 가정집 소음환경에서 진행하였다. 사용자가 목소리를 발성 후 무손실 무압축 방식인 wav 파일 형식으로 저장하였다.
사용자가 사용하고자 하는 PC를 통해 웹사이트에 접속하여 인증요청하면 SessionID를 변환하여 사 용자 PC에 출력 후 이를 스피커를 통해 사용자에게 알려주고 사용자는 구글 어시스턴트를 통해 인증을 사용하려는 App을 음성 명령어를 발성하여 실행한다. 이후 본인이 사전에 등록과 정에서 등록한 단어를 발성 후 서버로 사용자를 식별할 수 있는 IMEI 번호와 변환된 세션 값 그리고 MFCC 특징 벡터를 전송하여 인증 여부를 수신한다.
이후 Framing 과정은 일정한 간격으로 음성 신호를 자르는 역할을 하며 20ms에서 40ms 가량의 단위 시간으로 프레임을 자른 후 일정한 간격으로 자른 프레임 크기의 절반에 해당하는 크기만큼 중첩 시키며 이동한다. 이후 중첩 시키며 일정한 간격으로 나누어진 프레임에 각각 해밍 윈도우(Hamming Window)를 적용 시킨 후 이에 해당하는 음성 신호에 대한 파워스펙트럼을 청각기의 주파수 반응도를 모사한 mel-Scale 주파수 도메인에서 DCT(Discrete Cosine Transform)를 적용하여 저주파 계수 중 원하는 차수만큼 MF CC의 계수를 추출할 수 있게 된다. 보통 사용되는 계수의 차수는 12차에서 19차까지 주로 사용되며, 위의 그림 2처럼 MFCC 의 추출 과정은 총 7단계를 거치게 된다.
아래의 그림 5에선 본 논문에서 설계한 화자 인증시스템의 전체적인 구조이다. 화자인증의 녹음 설정은 16000hz Sampling rate와 Mono 단일 채널로 구현하였으며 프레임 크기는 30ms 가량의 시간인 512만큼 나누었다. 512만큼 프레임을 이동시키면서 중첩 구간은 프레임의 절반 크기인 256으로 설정하였다.
본 논문에서는 위에서 구현한 화자인증 시스템 및 구글 어시스턴트 App과 음성 합성 기술을 종합하여 웹 기반 사용자 인증 시뮬레이션에 적용해 봄으로써 약시자나 손사용이 불편한 사람과 같이 취약계층뿐 아니라 일반 사용자에게도 사람의 음성만을 통한 간편한 사용자 인증이 될 수 있는 인증시스템을 설계 및 제안하였다. 화자인증의 설계 및 구현은 스마트폰 기기나 PC 환경 어디에도 적용할 수 있는 JAVA언어를 사용하여 MFCC와 DTW를 구현하였고, 이러한 설계 및 구현 과정 중 등록과정에서 이를 사용하고자 하는 화자는 본인의 음성을 세 번 등록하게 되는 이와 같은 과정에서 별도의 민감도 값을 부여하여 임계값을 설정하는 방식으로 진행하였다. 이러한 임계값 설정 시 DTW 알고리즘을 통한 거릿값의 평균은 필터 뱅크의 개수나 프레임의 크기 등 설정의 요인에 따라 평균 임계값이 다르게 나타나고 동일 설정으로 진행하였을 때 동일 화자가 여러 번 발성하는 경우 비슷한 Distance의 수치가 나타나는 것을 볼 수 있었으며, 본인이 등록한 음성에 타인이 동일 단어를 발성하더라도 일정 이상의 표준편차 Distance 수치 차이가 나는 것을 볼 수 있었다.

대상 데이터

또한 본 단계에서는 제안한 화자 인증시스템을 기반으로 기존의 웹사이트에도 적용할 수 있게 사전에 웹사이트에 회원 가입이 되어있는 사용자들을 대상으로 하였다. 시각 장애인이나 고령층과 같이 시력이 일반 사람들보다 약시인 사용자를 위한 웹사이트에서의 사람의 음성정보를 통한 사용자 인증 방안을 검증하였다.

데이터처리

본 등록과정에서는 총 3번의 발성이 이루어지며 각각의 음원 파일에서 사람의 목소리의 구간을 획득하고 MFCC의 특징 벡터를 추출한다. 3개의 음원 파일에서 추출한 특징 벡터를 각각 그림 7과 같이 DTW 알고리즘으로 비교하여 3개의 평균 Distance 값을 구하였다. 이에 더해 평균 Distance의 값은 구해진 평균의 거릿값을 그대로 사용하지 않고 10∼20% 정도의 민감도 값을 별도로 부여하여 이를 화자 인식의 거리 임계값으로 설정하였다.

이론/모형

DTW(Dynamic Time Warping) 알고리즘은 길이나 속도가 다른 기준 패턴과 참조패턴 두 개의 시계열 데이터 사이에서 최적의 정합 경로를 찾아 유사도를 측정하여 오차 거리를 최소화하는 동적 프로그래밍(Dynamic Programming) 기반의 비교적 간단한 시스템으로 좋은 성능을 얻을 수 있는 알고리즘이다[10]. 음성 신호는 사람마다 발성 및 습관에 따라 발성 속도가 다르고 같은 단어를 발성하여도 그림 3의 A와 B와 같이 단어적 시간의 길이가 변화하기 때문에 기존의 거리 비교 알고리즘으로 계산하면 같은 지점의 거리를 계산하기 때문에 시간 축이 고르지 않아 오인식이 발생하므로 이와 같은 시계열 데이터 비교에선 DTW 알고리즘이 사용된다.

성능/효과

화자인증의 설계 및 구현은 스마트폰 기기나 PC 환경 어디에도 적용할 수 있는 JAVA언어를 사용하여 MFCC와 DTW를 구현하였고, 이러한 설계 및 구현 과정 중 등록과정에서 이를 사용하고자 하는 화자는 본인의 음성을 세 번 등록하게 되는 이와 같은 과정에서 별도의 민감도 값을 부여하여 임계값을 설정하는 방식으로 진행하였다. 이러한 임계값 설정 시 DTW 알고리즘을 통한 거릿값의 평균은 필터 뱅크의 개수나 프레임의 크기 등 설정의 요인에 따라 평균 임계값이 다르게 나타나고 동일 설정으로 진행하였을 때 동일 화자가 여러 번 발성하는 경우 비슷한 Distance의 수치가 나타나는 것을 볼 수 있었으며, 본인이 등록한 음성에 타인이 동일 단어를 발성하더라도 일정 이상의 표준편차 Distance 수치 차이가 나는 것을 볼 수 있었다. 하지만 사용자 인증과정에서 등록한 사용자의 음정 변화가 없는 상황에는 일정한 인증 성공률을 보였지만 감기에 걸렸을 경우 혹은 음성의 크기 등 음정의 변화와 장소의 이동 등 즉, 환경의 변인에 영향을 받아 상대적으로 본인 거부율 (FRR)의 비율이 높아지는 걸 볼 수 있었다.
이러한 임계값 설정 시 DTW 알고리즘을 통한 거릿값의 평균은 필터 뱅크의 개수나 프레임의 크기 등 설정의 요인에 따라 평균 임계값이 다르게 나타나고 동일 설정으로 진행하였을 때 동일 화자가 여러 번 발성하는 경우 비슷한 Distance의 수치가 나타나는 것을 볼 수 있었으며, 본인이 등록한 음성에 타인이 동일 단어를 발성하더라도 일정 이상의 표준편차 Distance 수치 차이가 나는 것을 볼 수 있었다. 하지만 사용자 인증과정에서 등록한 사용자의 음정 변화가 없는 상황에는 일정한 인증 성공률을 보였지만 감기에 걸렸을 경우 혹은 음성의 크기 등 음정의 변화와 장소의 이동 등 즉, 환경의 변인에 영향을 받아 상대적으로 본인 거부율 (FRR)의 비율이 높아지는 걸 볼 수 있었다. 따라서 향후 연구에서는 이러한 환경적인 변인 요인이 존재하는 상황 속에서도 화자를 식별하여 인증할 수 있는 알고리즘의 연구와 임계값 설정 부분에 있어서 본 논문에서 제안한 임계값 설정 방식보다 조금 더 세밀하고 정확한 임계값 설정에 대한 연구가 보완된다면 본인 거부율의 비율을 낮추면서 웹 기반 서비스뿐 아니라 사용자에게 본인 인증 과정이 필요한 어느 매체에서나 모두 적용이 가능할 것으로 기대된다.

후속연구

하지만 사용자 인증과정에서 등록한 사용자의 음정 변화가 없는 상황에는 일정한 인증 성공률을 보였지만 감기에 걸렸을 경우 혹은 음성의 크기 등 음정의 변화와 장소의 이동 등 즉, 환경의 변인에 영향을 받아 상대적으로 본인 거부율 (FRR)의 비율이 높아지는 걸 볼 수 있었다. 따라서 향후 연구에서는 이러한 환경적인 변인 요인이 존재하는 상황 속에서도 화자를 식별하여 인증할 수 있는 알고리즘의 연구와 임계값 설정 부분에 있어서 본 논문에서 제안한 임계값 설정 방식보다 조금 더 세밀하고 정확한 임계값 설정에 대한 연구가 보완된다면 본인 거부율의 비율을 낮추면서 웹 기반 서비스뿐 아니라 사용자에게 본인 인증 과정이 필요한 어느 매체에서나 모두 적용이 가능할 것으로 기대된다.

핵심어	질문	논문에서 추출한 답변
	구글 어시스턴트가 시력이 감퇴한 시각 장애인이나 고령층이 편리하게 사용하기에 적합한 이유는 무엇인가?	구글 어시스턴트(Google Assistant)는 2016년 5월 18일 미국 캘리포니아 마운틴뷰에서 열린 구글 개발자회의(Google I/O)에서 공개한 구글이 개발한 아이폰에서 제공하는 시리와 비슷한 기능을 수행하지만 이와 비교해 좀 더 다양한 패턴의 질문을 할 수 있고 상대적으로 인식률이 높은 인공지능(AI) 비서 시스템이다. 구글 어시스턴트는 한국어를 지원하며 이의 동작 방식은 사용자의 음성을 인식 후 사용자의 질문을 파악하여 앱 어플리케이션 실행, 음악 재생, 웹사이트 검색, 날씨 조회, 메시지 전송 등 다양한 기능을 수행할 수 있으므로 시력이 감퇴한 시각 장애인이나 고령층이 편리하게 사용하기에도 적합하다. 아울러 구글 어시스턴트를 실행시키는 방식도 스마트폰 기기의 홈버튼을 짧은 몇 초 동안 누르고 있으면 실행시킬 수 있어 간편하다[2].
	LPC나 LPS와 비교했을 때 MFCC의 장점은?	MFCC(Mel-Frequency Cepstral Coefficient)는 MFC의 계수들의 집합이다. 이는 입력된 음성 신호를 인간의 청각기관으로 모델링 하여 변환하는 음성의 특징 추출의 한 형태를 말하며 음성 신호처리에서 LPC(Linear Prediction Coefficients) 나 LPS(Linear Prediction Spectrum)과 같이 대표적으로 음성 신호에서 특징 추출 방법의 하나로 LPC나 LPS와 비교해서 채널 왜곡이나 주변 잡음에 강하므로 인식 성능이 좋은 것으로 알려져 있다[3]. 또한 MFCC는 사람 음성의 특징 추출 뿐 아니라 다방면의 신호에 관련된 신호처리에서 가장 많이 사용되고 있는 방식 중 하나이다.
	구글 어시스턴트란 무엇인가?	구글 어시스턴트(Google Assistant)는 2016년 5월 18일 미국 캘리포니아 마운틴뷰에서 열린 구글 개발자회의(Google I/O)에서 공개한 구글이 개발한 아이폰에서 제공하는 시리와 비슷한 기능을 수행하지만 이와 비교해 좀 더 다양한 패턴의 질문을 할 수 있고 상대적으로 인식률이 높은 인공지능(AI) 비서 시스템이다. 구글 어시스턴트는 한국어를 지원하며 이의 동작 방식은 사용자의 음성을 인식 후 사용자의 질문을 파악하여 앱 어플리케이션 실행, 음악 재생, 웹사이트 검색, 날씨 조회, 메시지 전송 등 다양한 기능을 수행할 수 있으므로 시력이 감퇴한 시각 장애인이나 고령층이 편리하게 사용하기에도 적합하다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

로그인 과정에서의 화자인증 메커니즘을 이용한 사용자인증 방안 연구
A study on user authentication method using speaker authentication mechanism in login process 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

로그인 과정에서의 화자인증 메커니즘을 이용한 사용자인증 방안 연구 A study on user authentication method using speaker authentication mechanism in login process 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

로그인 과정에서의 화자인증 메커니즘을 이용한 사용자인증 방안 연구
A study on user authentication method using speaker authentication mechanism in login process 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper