[논문]딥러닝 모형을 사용한 한국어 음성인식

이수지; 한석진; 박세원; 이경원; 이재용

doi:10.5351/kjas.2019.32.2.213

딥러닝 모형을 사용한 한국어 음성인식
Korean speech recognition using deep learning 원문보기

응용통계연구 = The Korean journal of applied statistics, v.32 no.2, 2019년, pp.213 - 227

이수지 (서울대학교 통계학과) , 한석진 (서울대학교 통계학과) , 박세원 (서울대학교 통계학과) , 이경원 (서울대학교 통계학과) , 이재용 (서울대학교 통계학과)

초록
AI-Helper

본 논문에서는 베이즈 신경망을 결합한 종단 간 딥러닝 모형을 한국어 음성인식에 적용하였다. 논문에서는 종단 간 학습 모형으로 연결성 시계열 분류기(connectionist temporal classification), 주의 기제, 그리고 주의 기제에 연결성 시계열 분류기를 결합한 모형을 사용하였으며. 각 모형은 순환신경망(recurrent neural network) 혹은 합성곱신경망(convolutional neural network)을 기반으로 하였다. 추가적으로 디코딩 과정에서 빔 탐색과 유한 상태 오토마타를 활용하여 자모음 순서를 조정한 최적의 문자열을 도출하였다. 또한 베이즈 신경망을 각 종단 간 모형에 적용하여 일반적인 점 추정치와 몬테카를로 추정치를 구하였으며 이를 기존 종단 간 모형의 결괏값과 비교하였다. 최종적으로 본 논문에 제안된 모형 중에 가장 성능이 우수한 모형을 선택하여 현재 상용되고 있는 Application Programming Interface (API)들과 성능을 비교하였다. 우리말샘 온라인 사전 훈련 데이터에 한하여 비교한 결과, 제안된 모형의 word error rate (WER)와 label error rate (LER)는 각각 26.4%와 4.58%로서 76%의 WER와 29.88%의 LER 값을 보인 Google API보다 월등히 개선된 성능을 보였다.

Abstract ▼ AI-Helper

In this paper, we propose an end-to-end deep learning model combining Bayesian neural network with Korean speech recognition. In the past, Korean speech recognition was a complicated task due to the excessive parameters of many intermediate steps and needs for Korean expertise knowledge. Fortunately, Korean speech recognition becomes manageable with the aid of recent breakthroughs in "End-to-end" model. The end-to-end model decodes mel-frequency cepstral coefficients directly as text without any intermediate processes. Especially, Connectionist Temporal Classification loss and Attention based model are a kind of the end-to-end. In addition, we combine Bayesian neural network to implement the end-to-end model and obtain Monte Carlo estimates. Finally, we carry out our experiments on the "WorimalSam" online dictionary dataset. We obtain 4.58% Word Error Rate showing improved results compared to Google and Naver API.

주제어

표/그림 (8)

그림 Figure 2.1. Sequence to sequence model.
그림 Figure 2.2. Attention model (Bahdanau et al., 2014).
그림 Figure 4.1. Mel-frequency cepstral coeﬃcients.
그림 Figure 4.2. The structure of the encoder.
그림 Figure 4.3. A ﬁnite automata that searches for correct Korean strings.
표 Table 5.1. Performance comparison between end-to-end deep learning models
표 Table 5.2. Performance comparison when adding a ﬁnite automata language model
표 Table 5.3. Performance comparison with commercial API

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 기존보다 우수한 한국어 음성 인식 모형을 구현하고자 기존의 종단 간 모형에 베이즈 딥러닝을 결합한 새로운 모형을 제안하였다. 베이즈 딥러닝을 모형에 도입함으로써 몬테카를로(Monte Carlo) 추정치를 도출하고, 점 추정치로 예측하던 기존 모형의 한계점을 보완하여 확률적 예측이 가능한 음성 인식 모형을 구현하였다.
본 논문에서는 한국어 음성인식의 성능 개선을 위해 베이즈 신경망을 적용한 종단 간 학습 모형들을 제 안하였다. 제안한 모형들을 검증하기 위해 한국어 단어 사전을 사용하여 각 모형의 정확도를 비교하였 으며 나아가 현재 상용되는 한국어 음성인식 API들과도 성능을 비교했다.

가설 설정

Y∗ = Y ∪ {〈sos〉, 〈eos〉}일 때, Seq2Seq 모형은 입력을 받아서 잠재변수를 생성하는 인코더 Encη : X T → ZT × H, 잠재변수와 모수 ϕ로부터 문자열의 확률 측도를 생성하는 디코더 Decϕ : Z T × H → M(Y ∞∗ )로 구성된다. 인코더와 디코더는 모두 순환신경망을 기반으로 한다. Encη(x) = (z, h′ T )에서 z와 h ′ T는 다음과 같이 재귀적으로 구한다:
이처럼 고유 단어 수가 무수히 많은 교착어의 경우 단어 단위로 모형이 잘 훈련되지 않아 Kwon과 Park (2003)과 같이 형태소 단위로 모형을 훈련하는 방 법이 제안되었다. 형태소란 뜻을 가진 가장 작은 말의 단위로서, 형태소 단위로 훈련할 경우 필요로 하는 단어의 개수가 줄어 효과적이다. 그러나 이러한 접근은 상당한 수준의 언어학적 지식이 요구되며 음 소 발음과 형태소라는 중간 매개가 필요하다는 어려움이 존재한다.

제안 방법

Kim 등 (2017)은 zt를 CTC 모형에서처럼 음성 프레임 xt이 주어졌을 때 y∗t 문자들의 가능성으로 해석을 하여, 디코더를 이용한 예측값과 별개로 새로 운 CTC 예측값을 얻도록 서로 다른 두 모형들을 결합하였다. 결합된 모형의 손실함수로는 CTC와 주 의 기제의 손실함수의 가중평균 LCTCAtt = λLCTC + (1 − λ)LAtt (0 < λ < 1)를 이용하는 아이디어를 제안하였다.
추가적으로 유한 오토 마타를 이용하여 한글의 초 중종성 순서를 조정하였다. 또한 변분 베이즈를 종단 간 학습 모형에 적용하여 몬테카를로 추정치도 구 하였으며 이를 비롯한 여러 모형들의 정확도를 비교하였다. 그 결과 논문에서 제안한 모형의 WER는 26.
모형의 성능은 두 개의 문자열이 같아지기 위해 필요한 추가(add), 편집(edit), 삭제(delete)의 개수인 편집 거리(edit distance)를 바탕으로 한 값들로 측정하였다. 추정치와 실제 문자열의 편집 거리를 실제 문자열의 길이로 나눈 값들을 사용하였으며, 단어 단위로 계산한 word error rate (WER)과 자모 단위 로 계산한 label error rate (LER)을 사용하였다.
본 논문에서는 기존보다 우수한 한국어 음성 인식 모형을 구현하고자 기존의 종단 간 모형에 베이즈 딥러닝을 결합한 새로운 모형을 제안하였다. 베이즈 딥러닝을 모형에 도입함으로써 몬테카를로(Monte Carlo) 추정치를 도출하고, 점 추정치로 예측하던 기존 모형의 한계점을 보완하여 확률적 예측이 가능한 음성 인식 모형을 구현하였다. 또한, 제안한 모형이 기존의 Application Programming Interface (API)와 비교했을 때 유의미한 성능 개선을 보이는지 확인하였다.
본 논문에서 제안한 베이즈 딥러닝 결합의 종단 간 학습 모형(VB-Dropout, VB-Dropout-MC)을 한국 어 사전 음성에 적용하여 Table 5.1에 정리하였다. 또한 빔 너비가 음성 인식 결과에 미치는 영향을 확 인하기 위해 빔 너비를 1, 8, 32로 변화시켰을 때의 결과를 함께 정리하였다.
본 논문에서는 여러 가지 종단 간 모형을 제안하고 한국어 음성인식에 적용하였다. 종단 간 모형으로 CTC, 주의 기제, CTC 주의 기제 결합 모형을 제안하였고, 종단 간 모형의 결과(Y^≤T 또는 Y^∞)로부 터 최적의 문자열을 찾기 위해 빔 탐색을 이용하였다.
본 논문에서는 여러 가지 종단 간 모형을 제안하고 한국어 음성인식에 적용하였다. 종단 간 모형으로 CTC, 주의 기제, CTC 주의 기제 결합 모형을 제안하였고, 종단 간 모형의 결과(Y^≤T 또는 Y^∞)로부 터 최적의 문자열을 찾기 위해 빔 탐색을 이용하였다. 추가적으로 유한 오토 마타를 이용하여 한글의 초 중종성 순서를 조정하였다.
환경 앞서 언급하였던 모든 모형을 이용하여 한국어 음성인식 모형을 구현하였으며, 이를 이용하여 모의실 험들을 진행하고 그 결과를 비교하였다. 모의실험에 사용된 소스 코드는 https://github.

대상 데이터

국립국어원에서 운영하는 우리말샘 온라인 사전을 크롤링(crawling)하여 음성 자료를 수집하였다. 그중 임의로 56,990개의 단어(총 23.
국립국어원에서 운영하는 우리말샘 온라인 사전을 크롤링(crawling)하여 음성 자료를 수집하였다. 그중 임의로 56,990개의 단어(총 23.1시간)를 골라 학습에 사용하였고 또 다른 500개의 단어(총 12.4분)를 이용하여 모형의 성능을 측정하였다.
환경 앞서 언급하였던 모든 모형을 이용하여 한국어 음성인식 모형을 구현하였으며, 이를 이용하여 모의실 험들을 진행하고 그 결과를 비교하였다. 모의실험에 사용된 소스 코드는 https://github.com/dltnwl/ KoSR에 공개되어 있다.
3은 제안한 모형 중 가장 우수한 모형과 실제 상용되는 API의 성능을 비교한 것이다. 이때, 성 능 비교를 위한 검증 데이터로 사전 발음 자료 중 100개의 단어를 사용하였다. 성능을 비교하기 위한 모 형은 5.

데이터처리

5로 고정 하였다. 드롭아웃은 일반 드롭아웃과 Gal과 Ghahramani (2016b)가 제시한 베이지안 드롭아웃을 사용 하여 성능을 비교하였다. 즉, 실제 사후분포의 근사치를 쉽게 다룰 수 있는 확률밀도함수의 모임으로 식 (3.
본 논문에서는 한국어 음성인식의 성능 개선을 위해 베이즈 신경망을 적용한 종단 간 학습 모형들을 제 안하였다. 제안한 모형들을 검증하기 위해 한국어 단어 사전을 사용하여 각 모형의 정확도를 비교하였 으며 나아가 현재 상용되는 한국어 음성인식 API들과도 성능을 비교했다. 5.
모형의 성능은 두 개의 문자열이 같아지기 위해 필요한 추가(add), 편집(edit), 삭제(delete)의 개수인 편집 거리(edit distance)를 바탕으로 한 값들로 측정하였다. 추정치와 실제 문자열의 편집 거리를 실제 문자열의 길이로 나눈 값들을 사용하였으며, 단어 단위로 계산한 word error rate (WER)과 자모 단위 로 계산한 label error rate (LER)을 사용하였다.

이론/모형

모든 모형의 학습은 확률적 경사 하강법(stochastic gradient descent) 방법 중 하나인 Adam을 이용하였다 (Kingma와 Ba, 2014). 학습률(learning rate)은 10−4로 설정하였으며, 총 40번의 에폭(epoch)을 학습하였다.
이 문제는 언어모형을 적용하여 제대로 된 한국어 문자열로 변환이 가능한 경우들만 탐색하도록 설정하는 것으로 해결할 수 있다. 본 논문에서는 유한한 개수의 상태 유한 오토마타(finite automata; FA)에 기 반한 언어모형을 사용하였다. 유한 오토마타는 다음과 같은 요소들의 쌍(tuple)으로 정의된다:
이때, 성 능 비교를 위한 검증 데이터로 사전 발음 자료 중 100개의 단어를 사용하였다. 성능을 비교하기 위한 모 형은 5.1절에서 가장 우수한 정확도를 보인 CTCAtt 결합 모형과 베이즈 딥러닝 음성 인식 모형, 상용 API인 Google API와 네이버 클로바(Clova)를 이용하였다. 본 논문에서 제안한 모형이 상용 API보다 우수한 성능을 보임을 확인할 수 있다.

성능/효과

다음으로, 연구를 위한 음성 자료가 부족했다는 점이 있다. 5.2절의 결과에서 본 논문에서 제안된 모형은 상용 API보다 우수한 성능을 보였으나, 실험에 쓰인 검증 데이터가 제안된 모 형의 훈련 데이터와 유사한 성질을 지녔기에 편향적인 결과가 나올 수 있음을 고려해야 한다.
간단한 실험 결과, 종단 간 한국어 음성 인식 모형에서 문자열 집합 Y를 한글 글 자로 사용하는 대신 이를 초성(onset), 중성(nucleus) 및 종성(coda)로 나눌 때에 계산 시간 및 정확도 면에서 더 좋은 결과를 주는 것이 확인되었다. 요컨대, “통계학”이라고 말하는 음성 자료가 있을 때, 이 를 “ㅌㅗㅇㄱㅖㅎㅏㄱ”으로 디코딩한 뒤 다시 한글로 변환하는 방식이 “통계학” 글자로 바로 디코딩하 는 것보다 효율적이다.
또한 변분 베이즈를 종단 간 학습 모형에 적용하여 몬테카를로 추정치도 구 하였으며 이를 비롯한 여러 모형들의 정확도를 비교하였다. 그 결과 논문에서 제안한 모형의 WER는 26.4%의 WER를 보여 각각 76%, 35%의 WER를 보인 기존의 API 보다 월등히 우수한 성능을 보였다.
1절에서 가장 우수한 정확도를 보인 CTCAtt 결합 모형과 베이즈 딥러닝 음성 인식 모형, 상용 API인 Google API와 네이버 클로바(Clova)를 이용하였다. 본 논문에서 제안한 모형이 상용 API보다 우수한 성능을 보임을 확인할 수 있다. 특히 제안된 모형의 WER와 LER는 각각 26.
실험 결과 일반적인 종단 간 학습 모형에서는 CTCAtt 결합(CTC + Attention) 모형, CTC, 주의 기 제(Attention) 모형 순으로 좋은 성능을 보였으며, 변분 베이즈를 적용한 모형에서는 주의 기제 모형, CTC, CTCAtt 결합 모형 순으로 좋은 성능을 보였다. 일반적인 종단 간 학습 모형과 베이즈 딥러닝을 적용한 모형의 성능을 비교해보았을 땐 주의 기제 모형에서 베이즈 딥러닝을 적용한 모형이 더 나은 성 능을 보인 반면 CTC나 CTCAtt 결합 모형에서는 일반적인 모형의 성능이 더 좋았다.
2은 종단 간 학습 모형들에 유한 오토마타 언어 모형을 적용했을 때의 결과를 나타낸 것이다. 언어 모형의 적용 결과, 대부분 모형에서 성능 향상을 보였으며 CTC에서 가장 높은 성능 향상을 보였 다. 최소의 LER과 WER을 갖는 모형은 각각 언어모형이 적용된 빔 너비가 8 이상인 일반적인 CTC, CTCAtt 결합 모형이었다.
음성인식은 음성 신호(speech signal)의 특징을 추출하여 분석하고, 이를 단어나 문장으로 변환하는 일련의 처리 과정을 의미한다. 음성인식 기반의 인터페이스는 텍스트 혹은 그래픽 기반의 인터페이스보다 의사 교환이 자연스럽고 시각적 제약으로부터 자유로워 접근성이 우수하다는 장점이 있다. 기존의 인 간-기계의 인터페이스 방식이 텍스트, 그래픽 기반이었다면 최근 향상된 음성인식 기술은 그 방식을 음 성 기반으로 확장시켰다.
실험 결과 일반적인 종단 간 학습 모형에서는 CTCAtt 결합(CTC + Attention) 모형, CTC, 주의 기 제(Attention) 모형 순으로 좋은 성능을 보였으며, 변분 베이즈를 적용한 모형에서는 주의 기제 모형, CTC, CTCAtt 결합 모형 순으로 좋은 성능을 보였다. 일반적인 종단 간 학습 모형과 베이즈 딥러닝을 적용한 모형의 성능을 비교해보았을 땐 주의 기제 모형에서 베이즈 딥러닝을 적용한 모형이 더 나은 성 능을 보인 반면 CTC나 CTCAtt 결합 모형에서는 일반적인 모형의 성능이 더 좋았다. 빔 너비를 변화 시켰을 때의 결과에서는 변분 베이즈 모형의 몬테카를로 추정치를 제외하고는 너비를 8 이상 늘리는 것 이 성능에 영향을 주지 않았다.
종단 간 분석을 적용한 한국어 음성인식은 기존 모형이 가졌던 복잡성과 비효율성을 해결하면서 높은 성 능을 보였다는 점에 의의가 있다. 기존에는 한국어의 언어적 특성 등으로 인해서 매우 많은 양의 정제된 데이터가 필요했으며 복잡한 중간 과정을 거쳐야 했다.
본 논문에서 제안한 모형이 상용 API보다 우수한 성능을 보임을 확인할 수 있다. 특히 제안된 모형의 WER와 LER는 각각 26.4%와 4.58%로서, 76%의 WER 값과 29.88 %의 LER 값을 보인 Google API보다 월등히 개선된 성능을 보였다.

후속연구

베이즈 딥러닝 적용한 모형은 그렇지 않은 모형과 비교했을 때, 그 분포를 함께 제안할 수 있다는 장점이 있다. 이 점을 활용하 면 부족한 훈련 데이터에서 기인하는 한계점을 보완할 수 있을 것이라 기대한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	음성인식이란 무엇인가?	음성인식은 음성 신호(speech signal)의 특징을 추출하여 분석하고, 이를 단어나 문장으로 변환하는 일련의 처리 과정을 의미한다. 음성인식 기반의 인터페이스는 텍스트 혹은 그래픽 기반의 인터페이스보다 의사 교환이 자연스럽고 시각적 제약으로부터 자유로워 접근성이 우수하다는 장점이 있다.
	기존의 음성인식 모형은 주로 무엇으로 구성되었는가?	기존의 음성인식 모형은 주로 음소 단위의 음향모형(acoustic model)과 언어모형(language model)으로 구성된다. 여기서 음향모형은 음성 신호를 음소나 유사 음소로 변환하는 작업을 의미하며 변환된 음 소들은 렉시콘(lexicon)과 언어모형에 의해 문법, 문맥에 맞는 언어로 재구성된다.
	음성 기반의 인터페이스 예시는 무엇이 있는가?	이러한 장점에 의해 현재 여러 산업에서 음성 기반의 인터페이스를 활용하고 있다. 예컨대 구글의 ‘Google Assistant’, 애플의 ‘Siri’, 삼성의 ‘Bixby’와 같은 음성인식 비서 플랫폼들이 출시되었으며, 카카오의 ‘미니’나 SKT의 ‘누구’ 등 생활 속 다양한 방면에 음성인식 기술을 접목한 상품들이 개발되고 있다. 이와 같은 흐름에서 더 나은 성능을 갖는 음성인식 기술은 필요성이 높아지고 있다.

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증