$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] 라벨이 없는 데이터를 사용한 종단간 음성인식기의 준교사 방식 도메인 적응
Semi-supervised domain adaptation using unlabeled data for end-to-end speech recognition 원문보기

말소리와 음성과학 = Phonetics and speech sciences, v.12 no.2, 2020년, pp.29 - 37  

정현재 (한국과학기술원 전기및전자공학부) ,  구자현 (한국과학기술원 전기및전자공학부) ,  김회린 (한국과학기술원 전기및전자공학부)

초록
AI-Helper 아이콘AI-Helper

최근 신경망 기반 심층학습 알고리즘의 적용으로 고전적인 Gaussian mixture model based hidden Markov model (GMM-HMM) 음성인식기에 비해 성능이 비약적으로 향상되었다. 또한 심층학습 기법의 장점을 더욱 잘 활용하는 방법으로 언어모델링디코딩 과정을 통합처리 하는 종단간 음성인식 시스템에 대한 연구가 매우 활발히 진행되고 있다. 일반적으로 종단간 음성인식 시스템은 어텐션을 사용한 여러 층의 인코더-디코더 구조로 이루어져 있다. 때문에 종단간 음성인식 시스템이 충분히 좋은 성능을 내기 위해서는 많은 양의 음성과 문자열이 함께 있는 데이터가 필요하다. 음성-문자열 짝 데이터를 구하기 위해서는 사람의 노동력과 시간이 많이 필요하여 종단간 음성인식기를 구축하는 데 있어서 높은 장벽이 되고 있다. 그렇기에 비교적 적은 양의 음성-문자열 짝 데이터를 이용하여 종단간 음성인식기의 성능을 향상하는 선행연구들이 있으나, 음성 단일 데이터나 문자열 단일 데이터 한쪽만을 활용하여 진행된 연구가 대부분이다. 본 연구에서는 음성 또는 문자열 단일 데이터를 함께 이용하여 종단간 음성인식기가 다른 도메인의 말뭉치에서도 좋은 성능을 낼 수 있도록 하는 준교사 학습 방식을 제안했으며, 성격이 다른 도메인에 적응하여 제안된 방식이 효과적으로 동작하는지 확인하였다. 그 결과로 제안된 방식이 타깃 도메인에서 좋은 성능을 보임과 동시에 소스 도메인에서도 크게 열화되지 않는 성능을 보임을 알 수 있었다.

Abstract AI-Helper 아이콘AI-Helper

Recently, the neural network-based deep learning algorithm has dramatically improved performance compared to the classical Gaussian mixture model based hidden Markov model (GMM-HMM) automatic speech recognition (ASR) system. In addition, researches on end-to-end (E2E) speech recognition systems inte...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 또한 타깃 도메인의 적은 양의 음성-문자열 짝 데이터를 소스 도메인의 음성-문자열 짝 데이터와 병합하여 학습시킨 종단간 음성인식기와의 성능 비교를 통해 제안된 방식이 어떠한 점에서 더 유리한 방법인지 확인한다. 더불어 음성이나 문자열 단일 데이터의 양을 조절하며 적은 양의 단일 데이터만 있는 상황에서도 효과적으로 동작할 수 있는지 검증하고, 단일 데이터의 양을 충분히 가져갈 수 있으면 타깃 도메인에서의 음성-문자열 짝 데이터를 많이 확보하지 못해도 성능 향상을 기대할 수 있는지 확인하였다.
  • 제안된 방식이 효과적인지 검증하기 위해 하나의 소스 도메인과 두 가지 다른 성격의 타깃 도메인을 활용하며, 타깃 도메인의 성격에 따라 기존의 다른 도메인 적응 방법과의 성능 차이를 비교한다. 또한 타깃 도메인의 적은 양의 음성-문자열 짝 데이터를 소스 도메인의 음성-문자열 짝 데이터와 병합하여 학습시킨 종단간 음성인식기와의 성능 비교를 통해 제안된 방식이 어떠한 점에서 더 유리한 방법인지 확인한다. 더불어 음성이나 문자열 단일 데이터의 양을 조절하며 적은 양의 단일 데이터만 있는 상황에서도 효과적으로 동작할 수 있는지 검증하고, 단일 데이터의 양을 충분히 가져갈 수 있으면 타깃 도메인에서의 음성-문자열 짝 데이터를 많이 확보하지 못해도 성능 향상을 기대할 수 있는지 확인하였다.
  • 본 논문에서는 종단간 음성인식기를 위한 준교사 학습 방식의 도메인 적응 기법을 제안하며, 제안된 방식이 어떠한 경우 효과적으로 작동하는지 분석하였다. 앞서 기술한 바와 같이 종단간 음성인식기 학습에는 많은 양의 음성-문자열 짝 데이터가 필요하다.
  • 비교적 적은 양의 음성-문자열 짝 데이터와 음성 단일 데이터 또는 문자열 단일 데이터를 이용하여 학습하는 준교사 학습(semi-supervised training)으로 종단간 음성 인식기의 성능을 개선하는 선행연구들이 있으나, 음성 단일 데이터나 문자열 단일 데이터 한쪽만을 사용하여 진행된 연구가 대부분이다. 본 연구에서는 기존 소스 데이터(source data)로 학습된 종단간 음성인식기를 이용하여 새로운 타깃 데이터(target data)에서도 좋은 성능을 낼 수 있도록 하는 준교사 학습 방식 도메인 적응 기법을 제안한다. 이 방식은 이미 학습된 종단간 음성인식기를 활용할 뿐만 아니라 음성 단일 데이터나 문자열 단일 데이터 양쪽을 모두 사용하는 방식이기 때문에 얻기 쉬운 다량의 데이터로 좋은 성능을 낼 수 있도록 함에 의의가 있다.
  • , 2013). 본 연구에서는 음성 또는 문자열 단일 데이터를 함께 이용하여 종단간 음성 인식기가 다른 도메인(domain)의 말뭉치에서도 좋은 성능을 낼 수 있도록 하는 준교사 학습 방식을 제안했으며, 각기 성격이 다른 도메인에 적용하여 제안된 방식이 어떤 경우 효과적인지 분석하였다.
  • 본 연구에서는 종단간 음성인식기를 위한 준교사 학습 방식의 도메인 적응을 진행하였고, 이를 통해 레이블이 있는 타깃 데이터의 양이 불충분하더라도 비교적 얻기 쉬운 타깃 데이터의 음성 단일 데이터나 문자열 단일 데이터를 이용하여 효과적으로 타깃 도메인으로 적응할 수 있는 기법을 제안하였다. 현재 종단간 음성인식기가 만족스러운 성능을 내기 위해서는 기존의 고전적인 음성인식기의 훈련에 사용되는 음성-문자열 짝 데이터의 양보다 많은 양의 데이터를 확보해야 하는 것이 종단간 음성인식기를 구축함에 있어 큰 진입장벽이 되고 있었다.
  • 본 연구에서는 한 가지의 소스 데이터와 두 가지의 서로 다른 특징의 타깃 데이터를 이용하여 실험을 진행하였으며, 타깃 데이터의 특징에 따라 제안된 종단간 음성인식기를 위한 준교사 방식의 도메인 적응 방법이 다른 방법에 비해 효과적인지 확인할 수 있도록 하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
음성인식이란? 음성인식(automatic speech recognition, ASR)이란 사람의 음성 신호를 입력으로 받아 그 발화 내용을 인식하여 문자열로 변환하고 이를 출력하는 것을 말한다. 음성인식 시스템은 다양한 구조를 가질 수 있지만, 고전적으로 널리 사용되는 음성인식 시스템의 구조는 입력 음성을 시스템에서 사용하기 용이하도록 변환해 주는 특징 추출 과정, 추출된 특징을 이용해 발화된 음소열을 판별해 주는 음향모델, 최종적으로 음소열을 문자열로 변환해 주는 언어모델로 이루어져 있다.
고전적으로 널리 사용되는 음성인식 시스템의 구조는? 음성인식(automatic speech recognition, ASR)이란 사람의 음성 신호를 입력으로 받아 그 발화 내용을 인식하여 문자열로 변환하고 이를 출력하는 것을 말한다. 음성인식 시스템은 다양한 구조를 가질 수 있지만, 고전적으로 널리 사용되는 음성인식 시스템의 구조는 입력 음성을 시스템에서 사용하기 용이하도록 변환해 주는 특징 추출 과정, 추출된 특징을 이용해 발화된 음소열을 판별해 주는 음향모델, 최종적으로 음소열을 문자열로 변환해 주는 언어모델로 이루어져 있다. 특징 추출 과정에서는 음성 신호를 짧은 시간 단위인 프레임(frame)으로 자르고 매 프레임마다 MFCC, mel-filterbank 등의 방법을 이용하여 프레임별 특징을 추출하게 되고 수십 차원의 특징 벡터를 음향모델 입력으로 넣어주게 된다.
음성인식 시스템의 훈련은 어떻게 이루어지는가? 음성인식 시스템의 훈련은 음향모델과 언어모델을 훈련하는 것을 말하며 이는 다음과 같이 이루어진다. 먼저 입력 음성 신호와 그에 대한 정답 문자열을 준비한다. 또한 정답 문자열에 포함된 모든 단어들에 대해 각각 음소열로 대응시킨 발음사전(lexical dictionary)을 준비한다. 고전적인 음성인식 시스템에서 사용되는 GMM-HMM 음향모델을 훈련하기 위해서는 음성에서 추출된 특징 벡터에 각 프레임 별로 대응되는 정답 음소가 필요하다. 이를 얻기 위해서 비터비 정렬(Viterbi alignment)을 거쳐 비교적 간단한 모델인 모노폰(monophone) 음향모델을 훈련하고, 이 음향모델로 얻어지는 정답 음소열 데이터를 이용하여 조금 더 복잡한 모델인 트라이폰(triphone) 음향모델을 훈련하는 과정을 거친다. 이렇게 순차적으로 학습된 음향모델은 입력 특징 벡터로부터 그에 대응하는 음소열을 출력할 수 있게 된다. 다음으로 N-gram 언어모델의 훈련은, 사용하고자 하는 말뭉치에 있는 정답 문자열에 있는 단어를 포함하여 더 많은 양의 방대한 언어모델 훈련용 문자열 데이터를 활용하여 이루어진다. 언어모델은 전체 문자열 데이터에서 특정 단어가 등장할 확률과 앞 단어들을 고려한 조건부 확률을 계산하고 저장한다. 이를 통해 단어열로 이뤄진 문장이 등장할 빈도를 확률적으로 계산할 수 있다. 최종적으로 훈련된 음향모델과 언어모델을 결합하여 인식 단어열의 확률을 계산하는 과정을 디코딩 서치(decoding search)라고 하며, 이는 weighted finite state transducer(WFST)를 통해 이뤄지게 된다.
질의응답 정보가 도움이 되었나요?

참고문헌 (11)

  1. Chan, W., Jaitly, N., Le, Q., & Vinyals, O. (2016, March). Listen, attend and spell: A neural network for large vocabulary conversational speech recognition. Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 4960-4964). Shanghai, China. 

  2. Graves, A., Fernandez, S., Gomez, F., & Schmidhuber, J. (2006, June). Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks. Proceedings of the 23rd International Conference on Machine Learning (pp. 369-376). Pittsburgh, PA. 

  3. Graves, A., Mohamed, A. R., & Hinton, G. (2013, May). Speech recognition with deep recurrent neural networks. Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 6645-6649). Vancouver, Canada. 

  4. Gulcehre, C., Firat, O., Xu, K., Cho, K., Barrault, L., Lin, H., Bougares, F., ...Bengio, Y. (2015, June). On using monolingual corpora in neural machine translation [Computing research repository]. Retrieved from https://arxiv.org/pdf/1503.03535.pdf 

  5. Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A. R., Jaitly, N., Senior, A., ... Kingsbury, B. (2012). Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. IEEE Signal Processing Magazine, 29(6), 82-97. 

  6. Karita, S., Watanabe, S., Iwata, T., Ogawa, A., & Delcroix, M. (2018, September). Semi-supervised end-to-end speech recognition. Proceedings of the International Conference on Spoken Language Processing (INTERSPEECH) (pp. 2-6). Taipei, Taiwan. 

  7. Miao, Y., Gowayyed, M., & Metez, F. (2015, October). EESEN: End-to-end speech recognition using deep RNN models and WFST-based decoding. Proceedings of the 2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU) (pp. 167-174). Scottsdale, AZ. 

  8. Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., & Khudanpur, S. (2010, September). Recurrent neural network based language model. Proceedings of the 11th Annual Conference of the International Speech Communication Association (pp. 1045-1048). Makuhari, Japan. 

  9. Tjandra, A., Sakti, S., & Nakamura, S. (2017, December). Listening while speaking: Speech chain by deep learning. IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU) (pp. 301-308). Okinawa, Japan. 

  10. Vesely, K., Hannemann, M., & Burget, L. (2013, December). Semi-supervised training of deep neural networks. IEEE Workshop on Automatic Speech Recognition and Understanding (pp. 267-272). Olomouc, Czech. 

  11. Watanabe, S., Hori, T., Karita, S., Hayashi, T., Nishitoba, J., Unno, Y., Soplin, N. E. Y., … Ochiai, T. (2018). ESPnet: End-to-end speech processing toolkit [Computing research repository]. Retrieved from http://arxiv.org/abs/1804.00015 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로