$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

딥러닝 모형을 사용한 한국어 음성인식
Korean speech recognition using deep learning 원문보기

응용통계연구 = The Korean journal of applied statistics, v.32 no.2, 2019년, pp.213 - 227  

이수지 (서울대학교 통계학과) ,  한석진 (서울대학교 통계학과) ,  박세원 (서울대학교 통계학과) ,  이경원 (서울대학교 통계학과) ,  이재용 (서울대학교 통계학과)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 베이즈 신경망을 결합한 종단 간 딥러닝 모형을 한국어 음성인식에 적용하였다. 논문에서는 종단 간 학습 모형으로 연결성 시계열 분류기(connectionist temporal classification), 주의 기제, 그리고 주의 기제에 연결성 시계열 분류기를 결합한 모형을 사용하였으며. 각 모형은 순환신경망(recurrent neural network) 혹은 합성곱신경망(convolutional neural network)을 기반으로 하였다. 추가적으로 디코딩 과정에서 빔 탐색과 유한 상태 오토마타를 활용하여 자모음 순서를 조정한 최적의 문자열을 도출하였다. 또한 베이즈 신경망을 각 종단 간 모형에 적용하여 일반적인 점 추정치와 몬테카를로 추정치를 구하였으며 이를 기존 종단 간 모형의 결괏값과 비교하였다. 최종적으로 본 논문에 제안된 모형 중에 가장 성능이 우수한 모형을 선택하여 현재 상용되고 있는 Application Programming Interface (API)들과 성능을 비교하였다. 우리말샘 온라인 사전 훈련 데이터에 한하여 비교한 결과, 제안된 모형의 word error rate (WER)와 label error rate (LER)는 각각 26.4%와 4.58%로서 76%의 WER와 29.88%의 LER 값을 보인 Google API보다 월등히 개선된 성능을 보였다.

Abstract AI-Helper 아이콘AI-Helper

In this paper, we propose an end-to-end deep learning model combining Bayesian neural network with Korean speech recognition. In the past, Korean speech recognition was a complicated task due to the excessive parameters of many intermediate steps and needs for Korean expertise knowledge. Fortunately...

주제어

표/그림 (8)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 기존보다 우수한 한국어 음성 인식 모형을 구현하고자 기존의 종단 간 모형에 베이즈 딥러닝을 결합한 새로운 모형을 제안하였다. 베이즈 딥러닝을 모형에 도입함으로써 몬테카를로(Monte Carlo) 추정치를 도출하고, 점 추정치로 예측하던 기존 모형의 한계점을 보완하여 확률적 예측이 가능한 음성 인식 모형을 구현하였다.
  • 본 논문에서는 한국어 음성인식의 성능 개선을 위해 베이즈 신경망을 적용한 종단 간 학습 모형들을 제 안하였다. 제안한 모형들을 검증하기 위해 한국어 단어 사전을 사용하여 각 모형의 정확도를 비교하였 으며 나아가 현재 상용되는 한국어 음성인식 API들과도 성능을 비교했다.

가설 설정

  • Y∗ = Y ∪ {〈sos〉, 〈eos〉}일 때, Seq2Seq 모형은 입력을 받아서 잠재변수를 생성하는 인코더 Encη : X T → ZT × H, 잠재변수와 모수 ϕ로부터 문자열의 확률 측도를 생성하는 디코더 Decϕ : Z T × H → M(Y ∞∗ )로 구성된다. 인코더와 디코더는 모두 순환신경망을 기반으로 한다. Encη(x) = (z, h′ T )에서 z와 h ′ T는 다음과 같이 재귀적으로 구한다:
  • 이처럼 고유 단어 수가 무수히 많은 교착어의 경우 단어 단위로 모형이 잘 훈련되지 않아 Kwon과 Park (2003)과 같이 형태소 단위로 모형을 훈련하는 방 법이 제안되었다. 형태소란 뜻을 가진 가장 작은 말의 단위로서, 형태소 단위로 훈련할 경우 필요로 하는 단어의 개수가 줄어 효과적이다. 그러나 이러한 접근은 상당한 수준의 언어학적 지식이 요구되며 음 소 발음과 형태소라는 중간 매개가 필요하다는 어려움이 존재한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
음성인식이란 무엇인가? 음성인식은 음성 신호(speech signal)의 특징을 추출하여 분석하고, 이를 단어나 문장으로 변환하는 일련의 처리 과정을 의미한다. 음성인식 기반의 인터페이스는 텍스트 혹은 그래픽 기반의 인터페이스보다 의사 교환이 자연스럽고 시각적 제약으로부터 자유로워 접근성이 우수하다는 장점이 있다.
기존의 음성인식 모형은 주로 무엇으로 구성되었는가? 기존의 음성인식 모형은 주로 음소 단위의 음향모형(acoustic model)과 언어모형(language model)으로 구성된다. 여기서 음향모형은 음성 신호를 음소나 유사 음소로 변환하는 작업을 의미하며 변환된 음 소들은 렉시콘(lexicon)과 언어모형에 의해 문법, 문맥에 맞는 언어로 재구성된다.
음성 기반의 인터페이스 예시는 무엇이 있는가? 이러한 장점에 의해 현재 여러 산업에서 음성 기반의 인터페이스를 활용하고 있다. 예컨대 구글의 ‘Google Assistant’, 애플의 ‘Siri’, 삼성의 ‘Bixby’와 같은 음성인식 비서 플랫폼들이 출시되었으며, 카카오의 ‘미니’나 SKT의 ‘누구’ 등 생활 속 다양한 방면에 음성인식 기술을 접목한 상품들이 개발되고 있다. 이와 같은 흐름에서 더 나은 성능을 갖는 음성인식 기술은 필요성이 높아지고 있다.
질의응답 정보가 도움이 되었나요?
LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로