$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

Deep neural network-hidden Markov model 하이브리드 구조의 모델을 사용한 사용자 정의 기동어 인식 시스템에 관한 연구
A study on user defined spoken wake-up word recognition system using deep neural network-hidden Markov model hybrid model 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.39 no.2, 2020년, pp.131 - 136  

윤기무 (인천대학교 컴퓨터공학부) ,  김우일 (인천대학교 컴퓨터공학부)

초록
AI-Helper 아이콘AI-Helper

음성 인식기를 대기모드에서 동작 모드로 전환하기 위해 발화하는 짧은 단어를 기동어(Wake Up Word, WUW)라고 하며, 음성 인식기를 실제로 사용하는 사용자가 지정한 기동어를 사용자 정의 기동어라고 한다. 본 논문에서는 이러한 사용자 정의 기동어를 인식하기 위해 기존의 Gaussian Mixture Model-Hidden Markov Model(GMM-HMM) 기반의 시스템, Linear Discriminant Analysis(LDA)를 적용한 LDA-GMM-HMM 기반의 시스템과, LDA-GMM-HMM 모델에서 GMM을 Deep Neural Network(DNN)로 대체한 LDA-DNN-HMM 기반의 시스템을 제작하고 각 시스템의 사용자 정의 기동어 인식 성능 및 비기동어 거절 성능을 비교한다. 또한 기동어 인식기의 체감 성능을 향상시키고자 각 모델에 threshold를 적용하여 기동어 인식 실패율을 약 10 % 수준으로 감소 시킨 후에 비기동어(non-WUW)의 거절 실패율을 비교 평가한다. Threshold 적용시에 LDA-DNN-HMM 기반의 시스템의 경우 기동어 인식 실패율 9.84 % 수준에서 비기동어 거절 실패율이 0.0058 %의 인식 성능을 나타내어 LDA-GMM-HMM 시스템 보다 약 4.82배 향상된 비기동어 거절 성능을 나타낸다. 이러한 결과는 본 논문에서 제작한 LDA-DNN-HMM 모델이 사용자 정의 기동어 인식 시스템을 구축하는데 효과적임을 입증한다.

Abstract AI-Helper 아이콘AI-Helper

Wake Up Word (WUW) is a short utterance used to convert speech recognizer to recognition mode. The WUW defined by the user who actually use the speech recognizer is called user-defined WUW. In this paper, to recognize user-defined WUW, we construct traditional Gaussian Mixture Model-Hidden Markov Mo...

주제어

표/그림 (5)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 기존의 전통적인 GMM-HMM 시스템에서 GMM은 HMM에서 사용할 사후 확률을 계산하는 것을 목적으로 사용되어진다. 시간 t에서의 관측 상태가일 때 , GMM을 이용하여 계산된 은닉 상태 s에 대한 사후 확률P[Ot|s]는 다음과 같이 표현된다.
  • 본 논문에서는 사용자 정의 기동어를 인식하기 위해 Hidden Markov Model(HMM) 기반의 음향모델을 제작하고 HMM score 기반의 사용자 정의 기동어 인식 시스템을 제작하였다. 본 논문에서 제작한 HMM 기반의 음향모델은 총 3종류로, 기존 음성 인식에서 주로 사용하던 Gaussian Mixture Mode(GMM)-HMM 모델과 입력 특징인 Mel Frequency Cepstral Coefficient (MFCC)[4] 도메인에서 선형 판별 분석법(Linear Discriminant Analysis, LDA)[5]을 적용한 LDA-GMM-HMM 모델, GMM 모델을 DNN으로 대체한 LDA-DNN-HMM 모델을 사용하였다.
  • 따라서 기동어 인식 시스템은 음성 인식 시스템 전체에서 사용자와 가장 가까운 위치에 존재하며, 사용자가 느끼는 음성 인식기의 체감 성능은 기동어 인식기의 성능과 밀접한 관련이 있다. 본 논문에서는 사용자와 음성 인식 시스템과의 보다 자연스러운 대화를 위한 방법으로 사용자 정의 기동어 인식 시스템을 제안한다. 사용자 정의 기동어란 기동어 인식기를 제작하는 과정에서 정해진 기동어가 아닌 실제 사용자가 원하는 단어로 지정한 기동어를 의미한다.
  • 본 논문에서는 은닉 마르코프 모델 기반의 음성 인식기를 사용하여 사용자 정의 기동어 인식 시스템을 제작하였다. 실험에서 사용한 은닉 마르코프 모델은 공통적으로 3개의 은닉 상태를 가지도록 하였으며, 묵음을 포함한 47개 음소로 음향 모델을 구성하였다.
  • 일반적인 기동어 인식 시스템과 달리 기동 어의 음소열이 고정되어 있지 않아 비기동어를 구분할 기준을 생성하기 어렵다. 본 논문에서는 이러한 문제를 해결하기 위해 기동어와 비기동어를 구분하는 기준이 되는 anti word를 선정하고 anti word 사전을 생성하는 방법을 도입하였다. Anti word는 등록 과정에서 기동어 사전이 생성된 직후에 선정이 되며, 입력된 신호로 훈련에 사용한 단어 목록들에 대한 HMM score를 계산하고 계산된 HMM score가 낮은 순으로 사용할 단어 수만큼 선택하여 anti word로 선정하였다.
  • 하지만, 기동어 인식 모델을 훈련하는 과정에서는 어떤 단어가 기동어로 선택되어 사용될지 전혀 알 수 없어서 인식 과정에서 필요한 단어 사전을 생성하기 어렵다는 문제가 발생한다. 본 논문에서는 이러한 문제를 해결하기 위해 사용자가 기동어를 등록하는 과정에서 단어 사전을 생성하는 방법을 도입하였다. Fig.
  • 입력 음성 신호가 기동어인지 비기동어인지 구분하기 위해서는 비교할 만한 기준이 필요한데, 사용자 정의 기동어 인식 시스템에서는 어떤 단어가 기동어로 사용될지 모르기 때문에 이러한 기준을 정하는데 어려움이 있다. 본 논문에서는 이를 해결하기 위해 등록용으로 발화한 음성과 PBW452 데이터 베이스에 포함된 단어 목록들과의 HMM score를 계산한 뒤 HMM score가 낮은 순으로 단어들을 선정하여 비교할 기준으로 삼았다. 이렇게 선정한 단어를 anti word라고 지칭한다.

가설 설정

  • 사용자 정의 기동어 인식 시스템에서는 훈련 환경에서 사용자가 사용할 기동어가 어떤 단어인지 알지 못하는 상황으로 가정한다. 따라서, 사용자 정의 기동어 인식 시스템을 위한 음향 모델을 훈련할 때에는 기동어가 포함되지 않은 일반적인 단어들로 구성된 음성데이터만을 사용해야한다.
  • 10종류의 서로 다른 기동어를 여러 화자가 약 10회 발화한 기동어 데이터 베이스를 수집하였으며, 화자별 5개의 음성 파일을 등록용으로 사용하고 나머지 음성 파일들을 성능 평가용으로 사용하였다. 실험에서는 실제 사용 환경을 조용한 사무실 환경에서 원거리에서 발화하는 것으로 가정하였다. 이러한 사용 환경을 반영하기 위해 Room Impulse Response(RIR) 필터[1]를 적용하여 원거리에서 발화한 것처럼 변형하여 사용하였으며, 사무실 환경에서 발생가능한 약간의 소음을 재현하기 위하여 Youtube에서 수집한 잡음들을 20 dB Signal to Noise Ratio(SNR) 수준으로 합성하여 평가에 사용하였다.
본문요약 정보가 도움이 되었나요?

참고문헌 (5)

  1. V. Z. Kepuska and T. B. Klein, "A novel Wake-Up-Word speech recognition system, Wake-up-Word recognition task, technology and evaluation," Nonlinear Analysis, 71, e2772-e2789 (2009). 

  2. F. Ge and Y. Yan, "Deep neural network based Wake- Up-Word speech recognition with two-stage detection," Proc. ICASSP. 2761-2765 (2017). 

  3. G. Hinton, L. Deng, D. Yu, G. Dahl, A. -r. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. Sainath, and B. Kingsbury, "Deep neural networks for acoustic modeling in speech recognition," IEEE Signal Processing Magazine, 29, 82-97 (2012). 

  4. S. Mika, G. Ratsch , J. Weston, B. Scholkopf, and K. R. Mullers, "Fisher discriminant analysis with kernels," Proc. IEEE Neural Networks for Signal Processing Workshop, 711-720 (1999). 

  5. ETSI ES 201 108, ETSI Standard Document, v1.1.2 (2000-04)., 2000. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로