[논문]비원어민 교수자 음성모델을 이용한 자동발음평가 시스템

박혜빈; 김동헌; 정진우

doi:10.7236/jiibc.2016.16.2.131

비원어민 교수자 음성모델을 이용한 자동발음평가 시스템
An automatic pronunciation evaluation system using non-native teacher's speech model 원문보기

The journal of the institute of internet, broadcasting and communication : JIIBC, v.16 no.2, 2016년, pp.131 - 136

박혜빈 (상명대학교 컴퓨터과학과) , 김동헌 ((주)지앤넷) , 정진우 (상명대학교 컴퓨터과학과)

초록
AI-Helper

외국어 학습에서 발음학습은 가장 중요한 부분 중 하나이다. 발음학습 과정은 학습자의 발음에 대해 정확한 평가와 잘못된 발음이 있을 경우 적절한 피드백을 주어 이를 개선시키는 작업을 포함한다. 숙련된 평가자의 평가는 비용에서, 비숙련 원어민들의 평가는 일관성에서 문제가 있기 때문에 이를 보완할 수 있는 자동발음평가 시스템에 대한 연구가 진행되고 있으며 자동음성인식 기술의 활용이 각광받고 있다. 본 연구에서는 자동음성인식 기술과 비원어민 교수자의 음성 모델을 기반으로 단어 수준에서 학습자의 발음 정확성과 유창성을 평가하는 시스템을 구축하였고, 이를 통해 학습자들이 자신의 발음을 정확히 평가받고 평가결과에 따라 적절한 피드백을 받을 수 있도록 하였다. 또한 시스템의 성능평가를 통해 발음 정확성과 유창성에 대한 자동평가결과가 전반적으로 학습자의 실제 영어실력을 정확히 구분한다는 것을 확인하였다.

Abstract ▼ AI-Helper

An appropriate evaluation on learner's pronunciation has been an important part of foreign language education. The learners should be evaluated and receive proper feedback for pronunciation improvement. Due to the cost and consistency problem of human evaluation, automatic pronunciation evaluation system has been studied. The most of the current automatic evaluation systems utilizes underlying Automatic Speech Recognition (ASR) technology. We suggest in this work to evaluate learner's pronunciation accuracy and fluency in word-level using the ASR and non-native teacher's speech model. Through the performance evaluation on our system, we confirm the overall evaluation result of pronunciation accuracy and fluency actually represents the learner's English skill level quite accurately.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구를 통해 ASR를 기반으로 하는 자동발음평가 시스템에 대한 연구와 원어민 음성으로 훈련된 ASR이 가지는 문제점을 해결하기 위한 연구에 대해 살펴보았다.
본 연구에서는 단어 수준의 발음 정확성과 유창성을 평가하는 시스템을 구축하여 학습자들이 자신의 발음을 평가받고 평가결과에 따라 적절한 피드백을 받도록 하였다.
본 연구에서는 비원어민 교수자의 음성모델을 구축하고, 이를 바탕으로 단어 수준의 발음 정확성과 유창성을 평가하는 시스템을 구축하였다. 먼저 음성인식의 정확성을 높이기 위해서 acoustic model adaptation을 통해 음향모델을 확장하였다.

제안 방법

기존의 연구들과 달리 단어 수준에서 학습자의 발음 정확성과 유창성을 평가하는 시스템을 구축하였고, ASR 인식 결과의 정확성과 신뢰도를 높이기 위해 원어민 음향모델에 학습자가 목표로 하는 집단의 음성으로 acoustic model adaptation을 하였다.
[2]도 확장된 발음사전을 생성하여 음성인식을 수행했는데, [13]과는 달리 한국인 영어 학습자가 영어 문장을 발화한 데이터를 모아서 한국인의 발음 변이에 관한 지식을 추출했고, 이러한 지식을 바탕으로 음소 수준의 발음 전사로부터 음소 발음 변이 규칙을 학습하기 위해 오류주도학습에 의한 접근방법을 설계하였다.
그리고 Sphinx4 음성 인식 엔진을 사용하여 발음 정확성을 평가하였고, 음성에서 단어 단위로 강도(intensity)를 추출하여 발음 유창성을 계산하였다.
먼저 음성인식의 정확성을 높이기 위해서 acoustic model adaptation을 통해 음향모델을 확장하였다.
발음 정확도는 학습자가 얼마나 정확하게 발음을 했는가를 평가하고 발음 유창성은 학습자가 얼마나 목표와 유사하게 발음 했는지를 평가한다.
시스템은 영어학원에서 제공받은 음원으로 평가하였고, 평가결과 발음 정확성과 유창성에 대한 점수가 전반적으로는 영어실력(상, 중, 하)를 구분하였다.
우수, 중간, 부진학습자들에게 5개 문장을 한번은 빠르게 한번은 느리게 말하게 한 후 그 음성을 녹음하여 테스트 파일로 사용하였다. 10개 파일에 대한 발음 정확도 평가결과는 아래 표2와 같다.
이 값들을 각각 평균을 내어 전체평균 최솟값(TAvgMin), 전체평균 최댓값ITAvgMax), 전체평균 평균값(TAvgAvg), 전체평균 평균증가량(TAvgPos), 전체평균 평균감소량(TAvgNeg), 전체평균 단어지속시간(TAvgLen)을 구한다.
이때, 영어학원 으로부터 두 가지 버전(fast, slow)의 음성을 제공받았기 때문에 두 버전을 구분하기 위하여 fast 음성만을 적응시킨 모델과 slow만을 적응시킨 모델 2개를 생성했다.
추출된 강도를 바탕으로 단어별 최솟값, 최댓값, 평균값, 평균증가량, 평균감소량, 단어지속시간을 계산한다.
자동발음평가 시스템의 성능을 평가하기 위하여 국내 영어학원에서 발음학습 관련 음원을 제공받았다. 학원에서 자체적으로 분류한 교수자, 우수학습자(high), 중간학습자(mid), 부진학습자(low) 네 종류의 음원을 제공받아본 시스템이 세 그룹의 학습자들을 정확히 구분할 수 있는 지를 실험하였다.

대상 데이터

ASR로 sphinx4^[11] 음성인식 엔진을 사용하였고, 언어모델은 제공받은 음원에 대한 스크립트로 생성하였다. 발음사전은 카네기멜론 대학에서 제공하는 cmudict을 사용하였고, 음향모델은 voxforge_en_sphinx^[12]를 기반으로 하여 목표인 교수자의 음성을 적응시켰다.
자동발음평가 시스템의 성능을 평가하기 위하여 국내 영어학원에서 발음학습 관련 음원을 제공받았다.

이론/모형

발음사전은 카네기멜론 대학에서 제공하는 cmudict을 사용하였고, 음향모델은 voxforge_en_sphinx[12]를 기반으로 하여 목표인 교수자의 음성을 적응시켰다.
fast 버전의 학습자 음성에서는 fast 버전 음향모델을 사용했고, slow 버전의 학습자 음성에서는 slow 버전 음향모델을 사용하여 테스트했다.
발음 정확도를 계산하기 위하여 먼저 front-end에서 전달된 값을 바탕으로 DB에서 원 문장에 대한 텍스트를 얻는다. 그리고 Needleman-Wunsch[10] 알고리즘을 이용하여 원 문장과 음성인식 결과 텍스트를 정렬시킨다. 정렬시킨 결과는 다음의 표와 같이 나타난다.
GOP 점수는 사용되는 모델에 종속적이기 때문에 인식결과를 증진시키기 위해 화자 적응(speaker adaptation)을 사용하여 화자의 특정 스펙트럼 특성을 적응시켰다. 이때, 특정 음소 오류 패턴을 제외한 화자정규화를 제공하기 위해 MLLR (Maximum Likelihood Regression) 알고리즘을 적용하였다.
[13]은 각 단어에 대한 발음과 목표 학습자의 발음 변이를 포함한 확장된 발음사전을 생성하여 음성인식을 했다. 확장된 발음사전에서 발음 변이는 언어전이론(language transfer theory)을 기반으로 했다.

성능/효과

우수학습자는 발음 정확도가 평균 100%, 중간학습자는 평균 92.8%, 부진학습자는 73.2%로 정확도에 따라 영어실력이 구분됨을 볼 수 있다. 모든 음성파일의 평가결과가 발음 평가 임계치(50%)를 넘겼기 때문에, 발음 유창성 평가에서도 사용하였다.

후속연구

따라서 학습자들의 성별에 영향을 받지 않는 특징을 추가로 뽑아서 발음 유창성을 평가하는 연구를 차후에 진행 할 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	ASR 시스템에서 학습자의 음성을 잘 처리하기 위해서는 어떤 것이 필요한가?	그런데 ASR 시스템은 보통 원어민 음성으로 훈련시키기 때문에 학습자의 음성을 인식한 결과는 원어민을 대상으로 인식한 결과보다 정확성과 신뢰도가 현격히 떨어진다[2]. 따라서 ASR이 학습자의 음성을 잘 처리하기 위해서는 acoustic model adaptation을 통해 인식공간을 확장해 줄 필요가 있다.
	자동음성인식의 특징은?	근래 연구되는 자동발음평가 시스템은 대부분 자동음성인식 기술(Automatic Speech Recognition: ASR)을 활용하여 구축되고 있다. 자동음성인식은 은닉 마르코프모델(Hidden Markov Model: HMM)을 기반으로 하는데[16] 입력이 들어오면 모든 기준 패턴과 비교한 후 가장 유사한 패턴을 찾아 출력한다[3]. 자동음성인식의 특성상 기준 패턴을 준비하기 위한 훈련용 음성코퍼스가 필요하며, 자동발음평가 시스템에서 이것은 원어민의 발음이 된다[3].
	ASR 시스템의 문제점은?	따라서 자동발음평가 시스템은 학습자의 발음이 원어민 발음과 얼마나 유사한지를 계산하고 그것을 바탕으로 평가점수를 내리게 된다. 그런데 ASR 시스템은 보통 원어민 음성으로 훈련시키기 때문에 학습자의 음성을 인식한 결과는 원어민을 대상으로 인식한 결과보다 정확성과 신뢰도가 현격히 떨어진다[2]. 따라서 ASR이 학습자의 음성을 잘 처리하기 위해서는 acoustic model adaptation을 통해 인식공간을 확장해 줄 필요가 있다.

참고문헌 (16)

Weonhee Yun. 2009. Discrepancy between Korean and Native English Raters Evaluating the English Pronunciation Spoken by Korean Learners of English. The Journal of Linguistic Science 48, 201-217.
Jonghoon Lee. 2012. Error Simulation-based Pronunciation Feedback for Korean English Learners. PhD thesis, Division of Electrical and Computer Engineering Pohang University of Science and Technology.
Weonhee Yun. 2012. The Objectives of English Pronunciation Evaluations and the Usability of Machine Scoring. The Journal of Linguistic Science 61, 167-184.
Hyunsong Chung, Tae-yeoub Jang, Weonhee Yun, Ilsung Yun, Jaejin Sa. 2008. A Study on Automatic Measurement of Pronunciation Accuracy of English Speech Produced by Korean Learners of English. Language and Linguistic 42, 165-196
Peabody, M. A. 2011. Methods for Pronunciation Assessment in Computer Aided Lanugage Learning. PhD thesis, Massachusetts Institute of Technology, Cambridge, Massachusetts, USA.
Moustroufas, N. and Digalakis, V. 2007. Automatic pronunciation evaluation of foreign speakers using unknown text. In Comput. Speech Language, 219-230.
Sherif Mahdy Abdou, Salah Eldeen Hamid, M. R. A. S. O. A.-H. M. S. and Nazih, W. 2006. Computer aided pronunciation learning system using speech recognition techniques, in Interspeech.
Chitralekha Bhat, K.L. Srinivas, P. R. 2010. Pronunciation scoring for indian english learners using a phone recognition system. In Proceedings of the First International Conference on Intelligent Interactive Technologies and Multimedia, 135-139.
Srikanth, R. and Salsman, L. B. J. 2012. Automatic Pronunciation Evaluation And Mispronunciation Detection Using CMUSphinx. In 24th International Conference on Computational Linguistics 61-68.
Needleman, Saul B., and Christian D. Wunsch. 1970. A general method applicable to the search for similarities in the amino acid sequence of two proteins. Journal of molecular biology 48.3, 443-453.

상세보기
W. Walker, P. Lamere, P. Kwok, B. Raj, R. Singh, E. Gouvea, P. Wolf, and J. Woelfel. 2004. Sphinx-4: A flexible open source framework for speech recognition. Sun Microsystems Inc. Technical Report SML1 TR2004-0811.
Hauswald, Johann, et al.. 2015. Sirius: An open end-to-end voice and vision personal assistant and its implications for future warehouse scale computers. Proceedings of the Twentieth International Conference on Architectural Support for Programming Languages and Operating Systems. ACM.
Harrison, A. M., Lau, W. Y., Meng, H. M., and Wang, L. 2009. Improving mispronunciation detection and diagnosis of learners' speech with context-sensitive phonological rules based on language transfer. In INTERSPEECH 2787-2790.
Witt, S. M., and Young, S. J. 1997. Language learning based on non-native speech recognition. In Eurospeech.
Kim, S. D., Kim, W. S., & Woo, I. S. 2011. A Study on the Multilingual Speech Recognition using International Phonetic Language. Journal of the Korea Academia-Industrial cooperation Society, 12(7), 3267-3274.

원문보기 상세보기
Jong-Young Ahn, Sang-Bum Kim, Su-Hoon Kim, Kang-In Hur, 2011. A study on Voice Recognition using Model Adaptation HMM for Mobile Environment Journal of Institute of Internet, Broadcasting and Communication (IIBC).

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증