최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회, 2018 Oct. 12, 2018년, pp.453 - 458
박호성 (서강대학교, 컴퓨터공학과) , 이동현 (서강대학교, 컴퓨터공학과) , 임민규 (서강대학교, 컴퓨터공학과) , 강요셉 (서강대학교, 컴퓨터공학과) , 오준석 (서강대학교, 컴퓨터공학과) , 서순신 (서강대학교, 컴퓨터공학과) , 김지환 (서강대학교, 컴퓨터공학과)
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
전통적인 음성 인식 시스템의 구조의 문제점은 무엇인가? | 전통적인 음성 인식 시스템의 구조는 DNN-HMM 기반의 음향 모델과 어휘 사전, 언어 모델을 하나의 decoding network로 구성하는 복잡한 방식으로 이루어져 있다. 이 방식은 각 요소의 전문가적 지식을 필요로 하고, 복잡한 네트워크 구조로 이루어져 있다는 문제점이 있다. [1], [2] 이와 비교하여 end-to-end 방식은 기존 DNN-HMM 기반 음향모델, weighted finite state transducer (WFST)를 이용한 decoding network, N-gram을 이용한 언어모델로 구성된 복잡한 방법을 대체하여 text에 대한 speech signal 혹은 feature만으로 구성된 네트워크를 이용하는 방식이다. | |
음성 인식에 있어서 end-to-end system을 구현하는 방법은 무엇인가? | 음성 인식에 있어서 end-to-end system을 구현하는 방법은 지금까지 3가지가 제안되었다. 첫 번째 방법은 CTC를 이용한 방법이다. [4] CTC는 기존 DNN-HMM 방식의 학습에서 필수적으로 요구되는 forced alignment 작업을 없애기 위해 각 signal feature에서 바로 phoneme sequence를 추출하는 방법으로 제안되었다. CTC는 deep learning 모델의 output layer에서 output node의 objective function의 일종으로, signal feature에서 직접적으로 phoneme sequence를 추출하기 때문에 forced alignment 정보를 필요로 하지 않는다. 하지만, HMM 방법에서 사용되는 auto segmentation 방식의 경우 phoneme의 시계열 패턴을 기준으로 best path를 찾는 과정이 이루어지지만, CTC의 경우 단순히 각 feature 별 해당되는 phoneme을 출력하는 것에 지나지 않기 때문에 같은 corpus를 대상으로 할 때 음성인식 성능이 떨어지는 결과를 보이고 있다.[4] 두 번째 방법은 attention network를 이용하는 방법이다. attention network는 sequence-to-sequence 모델의 일종으로, 이는 하나의 입력에 대해 하나의 결과가 나오는 것이 아닌, 입력이 data series로 주어지고, 출력 또한 data series로 주어지는 방법을 말한다. [5] Attention model은 sequence-to-sequence 모델의 가장 유명한 방법 중 하나인 encoder-decoder 모델의 일종이다. 이 모델은 sequence에 대한 정보를 학습할 수 있는 모델을 필요로 하기 때문에 일반적으로 recurrent neural network (RNN) 모델을 주로 사용한다. Attention model은 디코딩하는 과정에서 인코더 모델에서 나오는 결과 벡터 값을 토대로 energy weights들을 계산한 뒤 합치는 방식으로, encoder model의 결과에서 중요하다고 생각되는 output node의 값을 강조하는 메커니즘으로 이루어진다. 이 방식은 end-to-end 방식 중 DNN-HMM과 유사한 가장 높은 성능을 보이고 있지만, sequence들을 하나의 네트워크에 한 번에 입력해야 한다는 문제점이 있어 online decoding에 활용할 수 없다는 단점이 있다. [5] 세 번째 방법은 RNN-Transducer를 이용하는 방법이다. [5], [6] 이 방법은 두 개의 RNN network를 이용하여 alignment 작업 및 supervised training 작업을 동시에 하는 방법이다. RNN transducer 방식은 input feature을 입력으로 하는 network인 transcription network와 output label을 입력으로 하는 prediction network로 구성되어 있다. Transcription network는 입력 frame의 개수만큼 정의된 길이의 input layer node 수를 갖는 RNN network로 transcription vector sequence를 출력한다. Prediction network는 입력 label의 최대 개수만큼 정의된 길이의 input layer node 수를 갖는 RNN network로 같은 개수의 prediction vector sequence를 출력한다. 두 가지 RNN network의 output vector는 decoding network를 구성하며, 두 network를 동시에 학습한다. 이 방법은 모든 경우의 수를 고려하여 탐색하는 CTC 방법과 비교했을 때 decoding 과정에서 연산량이 적고, data를 기반으로 한 보다 정확한 alignment가 가능하다는 장점이 있지만, 네트워크 구조가 복잡하고, 입력 크기의 제한이 있어 문장 단위의 음성인식에는 적합하지 않고, 속도가 느리다는 단점이 있다. [6] | |
전통적인 음성 인식 시스템의 구조는 어떻게 이루어져 있는가? | 전통적인 음성 인식 시스템의 구조는 DNN-HMM 기반의 음향 모델과 어휘 사전, 언어 모델을 하나의 decoding network로 구성하는 복잡한 방식으로 이루어져 있다. 이 방식은 각 요소의 전문가적 지식을 필요로 하고, 복잡한 네트워크 구조로 이루어져 있다는 문제점이 있다. |
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.