[논문]Error Correction for Korean Speech Recognition using a LSTM-based Sequence-to-Sequence Model

Jin, Hye-won; Lee, A-Hyeon; Chae, Ye-Jin; Park, Su-Hyun; Kang, Yu-Jin; Lee, Soowon

doi:10.9708/jksci.2021.26.10.001

초록
AI-Helper

현재 대부분의 음성인식 오류 교정에 관한 연구는 영어를 기준으로 연구되어 한국어 음성인식에 대한 연구는 미비한 실정이다. 하지만 영어 음성인식에 비해 한국어 음성인식은 한국어의 언어적인 특성으로 인해 된소리, 연음 등의 발음이 있어, 비교적 많은 오류를 보이므로 한국어 음성인식에 대한 연구가 필요하다. 또한, 기존의 한국어 음성인식 연구는 주로 편집 거리 알고리즘과 음절 복원 규칙을 사용하기 때문에, 된소리와 연음의 오류 유형을 교정하기 어렵다. 본 연구에서는 된소리, 연음 등 발음으로 인한 한국어 음성인식 오류를 교정하기 위하여 LSTM을 기반으로 한 인공 신경망 모델 Sequence-to-Sequence와 Bahdanau Attention을 결합하는 문맥 기반 음성인식 후처리 모델을 제안한다. 실험 결과, 해당 모델을 사용함으로써 음성인식 성능은 된소리의 경우 64%에서 77%, 연음의 경우 74%에서 90%, 평균 69%에서 84%로 인식률이 향상되었다. 이를 바탕으로 음성인식을 기반으로 한 실제 응용 프로그램에도 본 연구에서 제안한 모델을 적용할 수 있다고 사료된다.

Abstract ▼ AI-Helper

Recently, since most of the research on correcting speech recognition errors is based on English, there is not enough research on Korean speech recognition. Compared to English speech recognition, however, Korean speech recognition has many errors due to the linguistic characteristics of Korean lang...

Recently, since most of the research on correcting speech recognition errors is based on English, there is not enough research on Korean speech recognition. Compared to English speech recognition, however, Korean speech recognition has many errors due to the linguistic characteristics of Korean language, such as Korean Fortis and Korean Liaison, thus research on Korean speech recognition is needed. Furthermore, earlier works primarily focused on editorial distance algorithms and syllable restoration rules, making it difficult to correct the error types of Korean Fortis and Korean Liaison. In this paper, we propose a context-sensitive post-processing model of speech recognition using a LSTM-based sequence-to-sequence model and Bahdanau attention mechanism to correct Korean speech recognition errors caused by the pronunciation. Experiments showed that by using the model, the speech recognition performance was improved from 64% to 77% for Fortis, 74% to 90% for Liaison, and from 69% to 84% for average recognition than before. Based on the results, it seems possible to apply the proposed model to real-world applications based on speech recognition.

주제어

표/그림 (9)

그림 Fig. 1. Structure of the proposed LSTM-based Sequence-to-Sequence Model
표 Table 1. Recognition Results by Speech Recognition Error Type
그림 Fig. 2. Model Performance in Two Layers(Korean Fortis)
그림 Fig. 3. Model Performance in Two Layers(Korean Liaison)
그림 Fig. 4. Model Performance by Layer Count(Korean Fortis)
그림 Fig. 5. Model Performance by Layer Count(Korean Liaison)
표 Table 2. Parameter Settings for the Experiments
표 Table 3. Correction Results of Proposed Model by Number of Layers
표 Table 4. Speech Recognition Correction Results

AI 본문요약
AI-Helper

제안 방법

본 연구에서는 LSTM을 기반으로 한 Seq2seq 모델과 Bahdanau Attention 기법을 사용한 문맥 기반 음성인식 오류 교정 모델을 제안하였다. 특히 다양한 한국어 음성인식 오류 중 된소리 인식 오류와 연음 인식 오류에 대해 교정 실험을 하였다.
본 연구에서는 문맥 기반으로 음성인식 오류를 교정하는 음성인식 후처리 모델을 제안한다. 문맥 기반 오류는 문맥 상 어울리지 않는 어절의 오류와 ‘할꺼다’등의 된소리 인식 오류, ‘해써’등의 연음 인식 오류로 정의한다.
본 연구에서는 LSTM을 기반으로 한 Seq2seq 모델과 Bahdanau Attention 기법을 사용한 문맥 기반 음성인식 오류 교정 모델을 제안하였다. 특히 다양한 한국어 음성인식 오류 중 된소리 인식 오류와 연음 인식 오류에 대해 교정 실험을 하였다. 문장별로 바르게 인식된 어절을 계산하여 제안 모델 성능을 평가한 결과 평균 69%에서 84%로 음성인식의 성능 향상을 확인할 수 있었다.

대상 데이터

본 연구에서는 Table 1의 오류 중 된소리 인식 오류 (Korean Fortis Error)와 연음 인식 오류(Korean Liaison Error)를 교정하였다.
사전 모델 결정 실험 결과로부터 2레이어, 배치 32, 임 베딩 300 파라미터를 가진 모델을 결정하였다.
사전 모델 결정 실험은 3장에서 제안한 LSTM 기반 Seq2seq과 Bahdanau Attention을 결합하여 진행하였으며, Learning Rate를 0.001로 하였다.
또한 모델의 성능을 높이고자 최적의 파라미터를 추정하는 실험을 진행하였다. 실험에서 선정한 파라미터는 총 3개로, 배치 크기(Batch Size), 임베딩 크기(Embedding Size), LSTM 레이어 개수(Number of LSTM Layers)를 선정하였다.
실험을 위하여 학습 데이터에서 음성 파일 부분을 ETRI 한국어 음성인식기로 인식한 결과와 텍스트 원문을 Key-Value 형식으로 저장하였으며, 본 연구에서 교정하고자 하는 오류의 데이터만을 선별하여 진행하였다. 또한 해당 데이터를 이용해 비슷한 데이터 셋을 추가적으로 구축하였다.
또한 해당 데이터를 이용해 비슷한 데이터 셋을 추가적으로 구축하였다. 이를 통해 구축된 데이터는 총 4800개이며 Train Data Set과 Test Data Set은 8:2의 비율로 나누어 실험을 진행했다.

이론/모형

또한 Seq2seq가 가진 정보 손실 및 기울기 소실 문제 (Vanishing Gradient Problem)를 보완하기 위해 Bahdanau Attention을 함께 사용한다. Attention은 인코더에서 전체 입력문장 중 예측부분과 연관된 입력을 위주로 하여 디코더의 Time Step마다 다시 참고한다.
Attention의 추가는 입력문장의 길이에 맞게 컨텍스트 벡터를 개선하며, 마지막 은닉상태 벡터뿐만 아니라 전체 은닉상태 벡터 또한 전달 받아 성능을 향상시킨다. 이 때 사용하는 Attention 스코어 함수에 따라 다양한 Attention 종류가 있는데, 본 연구에서는 컨텍스트 벡터와 임베딩 된 벡터를 연결(concatenate)하는 방법인 Bahdanau Attention을 적용하여 모델을 개선한다.
특히 본 연구가 LSTM을 사용하는 이유는 기존 RNN(Recurrent Neural Network)의 경우 입력 시퀀스의 길이와 출력 시퀀스의 길이의 연관성을 알 수 없을 때 RNN 을 적용하기에는 한계가 있기 때문이다. 이를 해결하기 위해서는 RNN을 이용해 입력에 대한 고정된 차원의 벡터를 생성하거나 해당 벡터를 입력으로 제공하여 다른 시퀀스를 결과로 구하는 방법 등이 있지만, RNN은 장기 의존성 (Long-term Dependency)을 학습하기 어렵다는 문제점이 있으므로 이를 해결하기 위해 LSTM을 사용한다.
이와 같은 문맥 기반 오류 중 된소리 인식 오류 및 연음 인식 오류의 교정을 위하여 본 연구에서 제안하는 모델은 LSTM 기반 Seq2seq 모델과 Bahdanau Attention 기법을 사용한다. Seq2seq는 RNN을 기반으로 한 인코더와 디코더로 구성된다.

성능/효과

하지만 다른 레이어에서는 오류를 교정하지 못한 결과가 나타났을 뿐만 아니라 오류가 나타나지 않은 단어가 변경된 경우도 발생하였다. 따라서 결과 문자열이 입력 문자열의 길이에 대응해서 벗어나는 경우 입력 문장과 같다고 취급하여 교정 결과에 일어날 수 있는 일부 치명적인 오류를 방지할 수 있었다. 본 실험에서 2레이어의 성능이 다른 레이어의 성능보다 우수한 것은 본 연구의 학습 데이터 수가 많지 않아 레이어 수가 늘어남에 따라 오히려 부적절한 교정 규칙을 학습하게 되기 때문인 것으로 사료된다.
특히 다양한 한국어 음성인식 오류 중 된소리 인식 오류와 연음 인식 오류에 대해 교정 실험을 하였다. 문장별로 바르게 인식된 어절을 계산하여 제안 모델 성능을 평가한 결과 평균 69%에서 84%로 음성인식의 성능 향상을 확인할 수 있었다. 하지만 Seq2seq의 특징상 오류와 관련된 데이터가 적거나 없을경우 완전히 해결되지 않는 오류도 존재하였다.
Table 4는 사전 모델 결정 실험으로부터 최적의 파라미터를 설정하여 제안한 모델로 음성인식 오류를 교정한 결과를 표로 나타낸 것이다. 제안 모델을 통하여 음성인식 오류를 교정한 결과, [식 1]에 따른 인식률이 된소리 64% 에서 77%, 연음 74%에서 90%, 평균 69%에서 84%로 향상되었다.

후속연구

향후 연구에서는 더 많은 학습 데이터 및 다양한 유형의 데이터 구축을 통해 본 연구가 제안한 방식의 추가적인 성능 향상을 기대할 수 있을 것이다. 또한 본 연구에서 다루었던 된소리 인식 오류와 연음 인식 오류 외 고유 명사 오류 등 다양한 오류 유형들에 대한 교정 연구가 필요하다.
향후 연구에서는 더 많은 학습 데이터 및 다양한 유형의 데이터 구축을 통해 본 연구가 제안한 방식의 추가적인 성능 향상을 기대할 수 있을 것이다. 또한 본 연구에서 다루었던 된소리 인식 오류와 연음 인식 오류 외 고유 명사 오류 등 다양한 오류 유형들에 대한 교정 연구가 필요하다.

참고문헌 (13)

K. Nam, "A Study on Processing of Speech Recognition Korean Words," JCCT, vol. 5, no. 4, pp. 407-412, Nov. 2019, doi:10.17703/JCCT.2019.5.4.407.

원문보기 상세보기
Dong-Hee Lim, Seung-Shick Kang, Du-seong Chang, "Word spacing Error Correction for the Postprocessing of Speech Recognition", Proceedings of the Korean Information Science Society Conference, vol.33, no. 1(B), pp.25-27, June. 2006.
Ilya Sutskever, Oriol Vinyals, Quoc V. Le, "Sequence to Sequence Learning with Neural Networks", Neural Information Processing Systems, pp.3104-3112, 2014, arXiv:1409.3215.
D. Bahdanau, K. Cho, Y. Bengio, "Neural machine translation by jointly learning to align and translate", Proc. Int. Conf. Learn. Representations, 2014, 2014. arXiv:1409.0473.
Ye-jin Kim, Young-min Park, Sang-woo Kang, Sang-keon Jung, Cheong-jae Lee, Jung-yun Seo, "Post-Processing of Speech Recognition Using Phonological Variables and Improved Edit-distance", Annual Conference on Human and Language Technology, pp.9 - 12, Oct. 2014.
Eiichi Tanaka and Tamotsu Kasai, "Synchronization and Substitution Error-correcting codes for the Levenshtein Metric", IEEE Trans. Information Theory, Vol.IT-22, No.2, pp.156-176, Mar. 1976, doi: 10.1109/TIT.1976.1055532.

상세보기
Sang-Hyun Seo, Jae-Hong Kim, Hae-Jin Kim, Mi-Jin Kim, "Post-Processing of Voice Recognition Using Phonologic Rules and Morphologic analysis", Annual Conference on Human and Language Technology, pp.495-499, Oct. 1997.
So-Yeon Min, Kwang-Hyong Lee, Dong-Seon Lee, Dong-Yeop Ryu, "A Study on Quantitative Evaluation Method for STT Engine Accuracy based on Korean Characteristics", Journal of Korea Academia-Industrial cooperation Society, Vol.21, No 7, pp.699-707, Jul 2020, doi:10.5762/KAIS.2020.21.7.699.

원문보기 상세보기
Seung-joo Choi , Jong-bae Kim, "Comparison Analysis of Speech Recognition Open APIs' Accuracy", Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology, Vol.7, No.8, pp. 411-418, Jul 2017, doi:10.35873/ajmahs.2017.7.8.038.

상세보기
Hyun-Woo Oh, Koen-Nyeong Lee, Dong-Suk Yook, "Performance Comparison Of Open Apis For Speech Recognition", The Journal Of The Acoustical Society Of Korea, 2019.
ETRI, ETRI Speech Recognition, https://aiopen.etri.re.kr.
Kyubyong Park, KSS Dataset: Korean Single Speaker Speech Dataset, https://kaggle.com/bryanpark/korean-single-speaker-speech-dataset.
Seung-Hyeon Park, "Correction of Korean Spelling Errors Using Cosine Similarity Algorithm", Graduate School of Industrial Technology Convergence, Chosun University, 2016.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국내논문] Error Correction for Korean Speech Recognition using a LSTM-based Sequence-to-Sequence Model 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (9)

표/그림 (9)

AI 본문요약
AI-Helper

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (13)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국내논문] Error Correction for Korean Speech Recognition using a LSTM-based Sequence-to-Sequence Model 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (9) 모든 표/그림 보기

표/그림 (9) 슬라이드로 보기

AI 본문요약 엑셀 다운로드 AI-Helper

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (13)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

초록
AI-Helper

표/그림 (9)

표/그림 (9)

AI 본문요약
AI-Helper