$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] Error Correction for Korean Speech Recognition using a LSTM-based Sequence-to-Sequence Model 원문보기

韓國컴퓨터情報學會論文誌 = Journal of the Korea Society of Computer and Information, v.26 no.10, 2021년, pp.1 - 7  

Jin, Hye-won (School of Software, Soongsil University) ,  Lee, A-Hyeon (School of Software, Soongsil University) ,  Chae, Ye-Jin (School of Software, Soongsil University) ,  Park, Su-Hyun (School of Software, Soongsil University) ,  Kang, Yu-Jin (School of Software, Soongsil University) ,  Lee, Soowon (School of Software, Soongsil University)

초록
AI-Helper 아이콘AI-Helper

현재 대부분의 음성인식 오류 교정에 관한 연구는 영어를 기준으로 연구되어 한국어 음성인식에 대한 연구는 미비한 실정이다. 하지만 영어 음성인식에 비해 한국어 음성인식은 한국어의 언어적인 특성으로 인해 된소리, 연음 등의 발음이 있어, 비교적 많은 오류를 보이므로 한국어 음성인식에 대한 연구가 필요하다. 또한, 기존의 한국어 음성인식 연구는 주로 편집 거리 알고리즘과 음절 복원 규칙을 사용하기 때문에, 된소리와 연음의 오류 유형을 교정하기 어렵다. 본 연구에서는 된소리, 연음 등 발음으로 인한 한국어 음성인식 오류를 교정하기 위하여 LSTM을 기반으로 한 인공 신경망 모델 Sequence-to-Sequence와 Bahdanau Attention을 결합하는 문맥 기반 음성인식 후처리 모델을 제안한다. 실험 결과, 해당 모델을 사용함으로써 음성인식 성능은 된소리의 경우 64%에서 77%, 연음의 경우 74%에서 90%, 평균 69%에서 84%로 인식률이 향상되었다. 이를 바탕으로 음성인식을 기반으로 한 실제 응용 프로그램에도 본 연구에서 제안한 모델을 적용할 수 있다고 사료된다.

Abstract AI-Helper 아이콘AI-Helper

Recently, since most of the research on correcting speech recognition errors is based on English, there is not enough research on Korean speech recognition. Compared to English speech recognition, however, Korean speech recognition has many errors due to the linguistic characteristics of Korean lang...

주제어

표/그림 (9)

AI 본문요약
AI-Helper 아이콘 AI-Helper

제안 방법

  • 본 연구에서는 LSTM을 기반으로 한 Seq2seq 모델과 Bahdanau Attention 기법을 사용한 문맥 기반 음성인식 오류 교정 모델을 제안하였다. 특히 다양한 한국어 음성인식 오류 중 된소리 인식 오류와 연음 인식 오류에 대해 교정 실험을 하였다.
  • 본 연구에서는 문맥 기반으로 음성인식 오류를 교정하는 음성인식 후처리 모델을 제안한다. 문맥 기반 오류는 문맥 상 어울리지 않는 어절의 오류와 ‘할꺼다’등의 된소리 인식 오류, ‘해써’등의 연음 인식 오류로 정의한다.
  • 본 연구에서는 LSTM을 기반으로 한 Seq2seq 모델과 Bahdanau Attention 기법을 사용한 문맥 기반 음성인식 오류 교정 모델을 제안하였다. 특히 다양한 한국어 음성인식 오류 중 된소리 인식 오류와 연음 인식 오류에 대해 교정 실험을 하였다. 문장별로 바르게 인식된 어절을 계산하여 제안 모델 성능을 평가한 결과 평균 69%에서 84%로 음성인식의 성능 향상을 확인할 수 있었다.

대상 데이터

  • 본 연구에서는 Table 1의 오류 중 된소리 인식 오류 (Korean Fortis Error)와 연음 인식 오류(Korean Liaison Error)를 교정하였다.
  • 사전 모델 결정 실험 결과로부터 2레이어, 배치 32, 임 베딩 300 파라미터를 가진 모델을 결정하였다.
  • 사전 모델 결정 실험은 3장에서 제안한 LSTM 기반 Seq2seq과 Bahdanau Attention을 결합하여 진행하였으며, Learning Rate를 0.001로 하였다.
  • 또한 모델의 성능을 높이고자 최적의 파라미터를 추정하는 실험을 진행하였다. 실험에서 선정한 파라미터는 총 3개로, 배치 크기(Batch Size), 임베딩 크기(Embedding Size), LSTM 레이어 개수(Number of LSTM Layers)를 선정하였다.
  • 실험을 위하여 학습 데이터에서 음성 파일 부분을 ETRI 한국어 음성인식기로 인식한 결과와 텍스트 원문을 Key-Value 형식으로 저장하였으며, 본 연구에서 교정하고자 하는 오류의 데이터만을 선별하여 진행하였다. 또한 해당 데이터를 이용해 비슷한 데이터 셋을 추가적으로 구축하였다.
  • 또한 해당 데이터를 이용해 비슷한 데이터 셋을 추가적으로 구축하였다. 이를 통해 구축된 데이터는 총 4800개이며 Train Data Set과 Test Data Set은 8:2의 비율로 나누어 실험을 진행했다.

이론/모형

  • 또한 Seq2seq가 가진 정보 손실 및 기울기 소실 문제 (Vanishing Gradient Problem)를 보완하기 위해 Bahdanau Attention을 함께 사용한다. Attention은 인코더에서 전체 입력문장 중 예측부분과 연관된 입력을 위주로 하여 디코더의 Time Step마다 다시 참고한다.
  • Attention의 추가는 입력문장의 길이에 맞게 컨텍스트 벡터를 개선하며, 마지막 은닉상태 벡터뿐만 아니라 전체 은닉상태 벡터 또한 전달 받아 성능을 향상시킨다. 이 때 사용하는 Attention 스코어 함수에 따라 다양한 Attention 종류가 있는데, 본 연구에서는 컨텍스트 벡터와 임베딩 된 벡터를 연결(concatenate)하는 방법인 Bahdanau Attention을 적용하여 모델을 개선한다.
  • 특히 본 연구가 LSTM을 사용하는 이유는 기존 RNN(Recurrent Neural Network)의 경우 입력 시퀀스의 길이와 출력 시퀀스의 길이의 연관성을 알 수 없을 때 RNN 을 적용하기에는 한계가 있기 때문이다. 이를 해결하기 위해서는 RNN을 이용해 입력에 대한 고정된 차원의 벡터를 생성하거나 해당 벡터를 입력으로 제공하여 다른 시퀀스를 결과로 구하는 방법 등이 있지만, RNN은 장기 의존성 (Long-term Dependency)을 학습하기 어렵다는 문제점이 있으므로 이를 해결하기 위해 LSTM을 사용한다.
  • 이와 같은 문맥 기반 오류 중 된소리 인식 오류 및 연음 인식 오류의 교정을 위하여 본 연구에서 제안하는 모델은 LSTM 기반 Seq2seq 모델과 Bahdanau Attention 기법을 사용한다. Seq2seq는 RNN을 기반으로 한 인코더와 디코더로 구성된다.
본문요약 정보가 도움이 되었나요?

참고문헌 (13)

  1. K. Nam, "A Study on Processing of Speech Recognition Korean Words," JCCT, vol. 5, no. 4, pp. 407-412, Nov. 2019, doi:10.17703/JCCT.2019.5.4.407. 

  2. Dong-Hee Lim, Seung-Shick Kang, Du-seong Chang, "Word spacing Error Correction for the Postprocessing of Speech Recognition", Proceedings of the Korean Information Science Society Conference, vol.33, no. 1(B), pp.25-27, June. 2006. 

  3. Ilya Sutskever, Oriol Vinyals, Quoc V. Le, "Sequence to Sequence Learning with Neural Networks", Neural Information Processing Systems, pp.3104-3112, 2014, arXiv:1409.3215. 

  4. D. Bahdanau, K. Cho, Y. Bengio, "Neural machine translation by jointly learning to align and translate", Proc. Int. Conf. Learn. Representations, 2014, 2014. arXiv:1409.0473. 

  5. Ye-jin Kim, Young-min Park, Sang-woo Kang, Sang-keon Jung, Cheong-jae Lee, Jung-yun Seo, "Post-Processing of Speech Recognition Using Phonological Variables and Improved Edit-distance", Annual Conference on Human and Language Technology, pp.9 - 12, Oct. 2014. 

  6. Eiichi Tanaka and Tamotsu Kasai, "Synchronization and Substitution Error-correcting codes for the Levenshtein Metric", IEEE Trans. Information Theory, Vol.IT-22, No.2, pp.156-176, Mar. 1976, doi: 10.1109/TIT.1976.1055532. 

  7. Sang-Hyun Seo, Jae-Hong Kim, Hae-Jin Kim, Mi-Jin Kim, "Post-Processing of Voice Recognition Using Phonologic Rules and Morphologic analysis", Annual Conference on Human and Language Technology, pp.495-499, Oct. 1997. 

  8. So-Yeon Min, Kwang-Hyong Lee, Dong-Seon Lee, Dong-Yeop Ryu, "A Study on Quantitative Evaluation Method for STT Engine Accuracy based on Korean Characteristics", Journal of Korea Academia-Industrial cooperation Society, Vol.21, No 7, pp.699-707, Jul 2020, doi:10.5762/KAIS.2020.21.7.699. 

  9. Seung-joo Choi , Jong-bae Kim, "Comparison Analysis of Speech Recognition Open APIs' Accuracy", Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology, Vol.7, No.8, pp. 411-418, Jul 2017, doi:10.35873/ajmahs.2017.7.8.038. 

  10. Hyun-Woo Oh, Koen-Nyeong Lee, Dong-Suk Yook, "Performance Comparison Of Open Apis For Speech Recognition", The Journal Of The Acoustical Society Of Korea, 2019. 

  11. ETRI, ETRI Speech Recognition, https://aiopen.etri.re.kr. 

  12. Kyubyong Park, KSS Dataset: Korean Single Speaker Speech Dataset, https://kaggle.com/bryanpark/korean-single-speaker-speech-dataset. 

  13. Seung-Hyeon Park, "Correction of Korean Spelling Errors Using Cosine Similarity Algorithm", Graduate School of Industrial Technology Convergence, Chosun University, 2016. 

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로