[논문]베이지안 분류 기반의 입 모양을 이용한 한글 모음 인식 시스템

김성우; 차경애; 박세현

doi:10.9717/kmms.2019.22.8.852

베이지안 분류 기반의 입 모양을 이용한 한글 모음 인식 시스템
Recognition of Korean Vowels using Bayesian Classification with Mouth Shape 원문보기

멀티미디어학회논문지 = Journal of Korea Multimedia Society, v.22 no.8, 2019년, pp.852 - 859

김성우 (School of Computer & Communication Engineering, Daegu University) , 차경애 (School of Computer & Communication Engineering, Daegu University) , 박세현 (School of Computer & Communication Engineering, Daegu University)

Abstract ▼ AI-Helper

With the development of IT technology and smart devices, various applications utilizing image information are being developed. In order to provide an intuitive interface for pronunciation recognition, there is a growing need for research on pronunciation recognition using mouth feature values. In this paper, we propose a system to distinguish Korean vowel pronunciations by detecting feature points of lips region in images and applying Bayesian based learning model. The proposed system implements the recognition system based on Bayes' theorem, so that it is possible to improve the accuracy of speech recognition by accumulating input data regardless of whether it is speaker independent or dependent on small amount of learning data. Experimental results show that it is possible to effectively distinguish Korean vowels as a result of applying probability based Bayesian classification using only visual information such as mouth shape features.

주제어

표/그림 (7)

그림 Fig. 1. Face Landmark Extraction: (a) Face Objects detected by Haar Algorithm, (b) Extracted Landmark.
그림 Fig. 2. Definition and the Meaning of Feature Points.
표 Table 1. Hardware Spec.
그림 Fig. 3. Probability Distribution of Attribute Values for Same Person: (a) Attribute [M_x], (b) Attribute [M_y] and (c) Attribute [L_a].
표 Table 2. Recognition result of each Korean vowel pronunciation
그림 Fig. 4. Snapshots of the Pronunciation detection results: (a) Pronunciation 'ㅏ[ɑ]', (b) Pronunciation 'ㅣ[i]', (c) Pronunciation 'ㅐ[æ]', (d) Pronunciation 'ㅗ[o]'.
표 Table 3. Comparison of SVM[20] and proposed Bayesian classifier

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 베이지안 분류에 의한 시각 정보만을 이용한 한글 모음 발음 인식 시스템을 개발하고자한다. 제안하는 시스템은 얼굴의 특징점에서 입 모양특징 벡터를 이용하여 한글 모음을 구분할 수 있는 실시간 학습 모델이다.
본 논문에서는 영상 정보에서 입 모양의 변화를 반영하는 특징값을 이용하여 한글 모음 발음을 인식할 수 있는 베이지안 분류 기반의 알고리즘을 구현하였다. 실험을 통해서 입 모양 특징 벡터의 확률 분포가 다섯 가지 한글 모음 발음을 구분할 수 있는 모수분포로 갱신되어지며, 초기 학습 데이터의 양이 적더라도 모음 발음을 인식할 수 있음을 보였다.
본 논문에서는 한글의 기본형 모음 중 ‘ㅏ[ɑ]’, ‘ㅣ[i]’, ‘ㅜ[u]’, ‘ㅗ[o]’의 네 개의 모음과 영어 모음에서도 사용되는 ‘ㅐ[æ](ㅔ[e])’의 총 다섯 가지의 모음을 구분할 수 있는 입 모양 특징점을 정의하고자한다.

제안 방법

2와 같이 입영역의 가로 길이[M_x], 입 영역의 세로 길이[M_y], 윗입술의 길이[L_a], 아랫입술의 길이[L_b]로 정의한다. 또한 인식률을 높이기 위해서, 입이 움직일 때 함께 변화를 보이는 턱과 볼을 사이의 거리를 이용하여 왼쪽 볼과 오른쪽 볼 사이의 거리[F_x], 입 영역의 상단과 턱의 하단 사이의 거리[F_y]를 측정하여 여섯 가지의 속성 값을 사용한다.
제안하는 시스템은 얼굴의 특징점에서 입 모양특징 벡터를 이용하여 한글 모음을 구분할 수 있는 실시간 학습 모델이다. 또한 특징 파라미터의 사전확률을 계산하여 적은 수의 데이터만으로도 높은 확률의 결과를 도출할 수 있는 기법인 베이지안 이론[7-9]에 기반을 둔 알고리즘을 구현하여 적은 학습데이터만으로도 화자 독립이거나 종속인 경우에 상관없이 입력 데이터의 축적을 통해서 발음 인식 확률을 향상시키는 시스템을 개발한다. 이를 통해서, 기존의 얼굴 특징점 인식 알고리즘으로 자주 사용되어진 SVM(Support Vector Machine)이나 CNN(Convolutional Neural Network) 기반 딥러닝 알고리즘에 비해 복잡한 계산을 요구하지 않고, GPU 등의 고성능 하드웨어에 사양에 구애받지 않을 수 있다.
본 논문에서 제안한 시스템으로 먼저 동일인을 대상으로 하는 화자 종속인 경우의 한글 모음 인식률을 실험하였다. 같은 사람의 이미지 64장으로 훈련한 후, 110장의 이미지를 사용하여 테스트하였다.
실험의 정확도를 향상시키고 dlib에서 얼굴 랜드마크를 100% 정확히 추출할 수 있도록 카메라를 정면으로 봤을 때 10도 내외의 일정 각도에서 얼굴을 인식하도록 하였다. 얼굴 영역은 머리카락의 경계가 되는 이마부터 턱까지 인식 영역 내에 진입하도록 하였으며, 이를 통해서 랜드마크 추출은 매 영상마다 정확한 값을 보인다고 할 수 있다.
본 논문에서는 베이지안 분류에 의한 시각 정보만을 이용한 한글 모음 발음 인식 시스템을 개발하고자한다. 제안하는 시스템은 얼굴의 특징점에서 입 모양특징 벡터를 이용하여 한글 모음을 구분할 수 있는 실시간 학습 모델이다. 또한 특징 파라미터의 사전확률을 계산하여 적은 수의 데이터만으로도 높은 확률의 결과를 도출할 수 있는 기법인 베이지안 이론[7-9]에 기반을 둔 알고리즘을 구현하여 적은 학습데이터만으로도 화자 독립이거나 종속인 경우에 상관없이 입력 데이터의 축적을 통해서 발음 인식 확률을 향상시키는 시스템을 개발한다.
1 (b)와 같이 dlib의 학습 모델을 이용하여 총 68개의 랜드마크를 추출한다. 특징점을 찾은 후 이미지 크기를 정규화하여 입 모양 특징점으로 정의한 요소들 사이의 거리를 계산한다. 따라서 영상에서의 얼굴 크기와 상관없이 일정한 특징점을 표현하는 속성 값을 구할 수 있다.
같은 사람의 이미지 64장으로 훈련한 후, 110장의 이미지를 사용하여 테스트하였다. 훈련이미지와 테스트 이미지는 다섯 가지의 발음이 같은 비율로 구성되어 있으며 훈련 데이터에서 무작위로10회 반복하여 테스트 한 후 획득한 인식률의 평균을 계산하였다. 그 결과, 화자 종속의 경우 최대 94%의발음 인식률을 보였다.

대상 데이터

본 논문에서 제안한 시스템으로 먼저 동일인을 대상으로 하는 화자 종속인 경우의 한글 모음 인식률을 실험하였다. 같은 사람의 이미지 64장으로 훈련한 후, 110장의 이미지를 사용하여 테스트하였다. 훈련이미지와 테스트 이미지는 다섯 가지의 발음이 같은 비율로 구성되어 있으며 훈련 데이터에서 무작위로10회 반복하여 테스트 한 후 획득한 인식률의 평균을 계산하였다.
본 시스템은 딥러닝 알고리즘을 사용하지 않기 때문에 높은 수준의 하드웨어 사양을 요구하지 않는다. 따라서 하드웨어 구성은 Intel Core i7-3770 3.40GHzCPU와 Geforce GTX1060 3GB 그래픽 카드, 그리고 입력 영상의 해상도는 1090x1080로 구성하였다.
제안하는 입 모양에 의한 한글 모음 인식 시스템의 검증을 위해 Table 1과 같은 환경에서 실험하였다. 사용된 영상 데이터는 20대, 30대, 그리고 50대 후반의 남, 여 10명의 발성 모습을 녹화한 총 500개로 구성된다. 500개의 데이터는 ‘ㅏ[ɑ]’, ‘ㅣ[i]’, ‘ㅜ[u]’, ‘ㅐ[æ](ㅔ[e])’, ‘ㅗ[o]’ 의 다섯 개 모음 별로 각각 100개씩으로 이루어져 있다.
4는 실시간 영상에서 프레임마다 각 발음을 추출한 결과이다. 영상은 아이폰 카메라로 촬영한 MPEG-4 동영상을 사용하였으며 인식된 발음을 영상의 상단부에 출력하였으며 영상에 대한 정보를 아래에 나타내었다. 영상은 30초의 ‘ㅏ[ɑ]’, ‘ㅣ[i]’, ‘ㅜ[u]’, ‘ㅐ[æ](ㅔ[e])’, ‘ㅗ[o]’ 다섯 개의 모음 발음을 발화하는 영상이며, 입 모양에 맞는 발음을 정확히 화면에 나타나는 것을 볼 수 있다.
학습 모델을 위한 훈련 이미지는 다소 일정한 조명 환경에서 촬영된 이미지를 사용하였으며 실험 데이터의 경우 밝은 실내와 어두운 실내에서 촬영한 이미지로 30초 이내의 발음 영상을 사용하였다. 단어두운 실내의 경우 화자의 얼굴이 명확하게 보일정도의 조명 상태를 유지하였다.

이론/모형

발음의 정확도를 시각 정보로 분석하는 시스템[4]에서는 dlip[11]의 얼굴 특징 랜드마크(Landmark)를 이용하여 입 모양의 특징점을 검출하고 표준이 되는 발음 모양과의 유사도를 검사하는 RNN(Recurrent Neural Network)기반 모델을 적용하였다.
본 논문에서는 영상에서 얼굴을 감지하고 입 영역을 추출하기 위해서 Haar 알고리즘을 사용하였다.Fig.
한글 모음의 발음 인식을 위해서 입 모양을 구분하기 위한 알고리즘으로 베이지안 분류 기법을 사용한다. 이를 통해서 입 모양 특징점으로 검출되는 속성 값들의 사전 확률(Prior Probability)과 사후 확률(Posterior Probability) 분포에 근거하여 훈련과 테스트 과정이 반복되면서 분류하고자 하는 모음의 확률 분포가 갱신되어가는 모델로 정의한다.

성능/효과

‘ㅜ[u]’ 발음을 제외한모든 발음이 SVM을 사용한 경우보다 최대 26% 정도 높은 인식률을 보였으며, 이를 통해 기존 연구의결과보다 향상된 인식 결과를 보인다는 것을 알 수 있다.
훈련이미지와 테스트 이미지는 다섯 가지의 발음이 같은 비율로 구성되어 있으며 훈련 데이터에서 무작위로10회 반복하여 테스트 한 후 획득한 인식률의 평균을 계산하였다. 그 결과, 화자 종속의 경우 최대 94%의발음 인식률을 보였다. 같은 화자의 경우 고유의 발음 모양을 가지기 때문에 발음에 따른 속성 값의 차이가 분명하고 한 가지 발음에 대한 속성 값의 변화가 크지 않아 인식률이 매우 높다.
또한 제안한 시스템은 입 모양의 특징점 검출을 위한 기존 연구에서 수행되어진 픽셀 기반의 이미지처리 과정을 간소화하고, 딥러닝 기법에 비교하여 계산 복잡성이 낮아 학습이 시간이 오래 걸리지 않고 높은 사양의 하드웨어를 요구하지 않는다는 장점을 가진다.
본 논문에서 제안한 방법에서는 ‘ㅏ[ɑ]’ 발음이 93%로 가장높은 인식률을 보였으며 SVM의 경우 ‘ㅜ[u]’ 발음이 가장 높은 인식률을 보였다.
본 논문에서는 영상 정보에서 입 모양의 변화를 반영하는 특징값을 이용하여 한글 모음 발음을 인식할 수 있는 베이지안 분류 기반의 알고리즘을 구현하였다. 실험을 통해서 입 모양 특징 벡터의 확률 분포가 다섯 가지 한글 모음 발음을 구분할 수 있는 모수분포로 갱신되어지며, 초기 학습 데이터의 양이 적더라도 모음 발음을 인식할 수 있음을 보였다.
위 4.1에서 언급한 총 500개의 이미지를 데이터로 실험한 결과, 전체적으로 약 85%의 발음 인식률을 나타내었으며 Table 2에서 보이는 바와 같이 ‘ㅏ[ɑ]’발음이 93%로 가장 높은 인식률을 나타내었다.

후속연구

본 논문에서는 기존의 딥러닝 기반 얼굴 인식 모델을 사용하지 않고, 한글 모음 인식에 효과적인 특징 벡터를 설계하여, 기계학습의 확률 이론을 적용한 베이지안 학습 모델을 직접 구현하여 발음 인식에 효과적으로 활용될 수 있음을 실험 결과를 통해서 보인다.

질의응답

핵심어	질문	논문에서 추출한 답변
	시각 정보만으로 발음을 인식하기 위해 중요한 요소는 무엇인가?	한편, 시각 정보만으로 발음을 인식하기 위해서는 영상에서 얼굴과 입의 영역을 정확히 검출하는 것이 매우 중요한 요소이다[12]. 입 모양을 시각적으로 분석하여 발음 구간이나 해당 음성 정보로의 변환 등을 실험한 연구로 사람의 눈 위치에 기반하여 입의 위치를 찾고 주변 영역의 밝기 변화 등과 같은 픽셀 기반으로 움직임을 검출하는 옵티컬 플로우를 이용하는 기법들이 있다[13-15].
	멀티 모달 시스템과 오디오-비주얼 음성 인식의 문제점을 보완하기 위해 어떤 연구가 이루어졌는가?	이러한 문제점을 보완하기 위해서 영상 정보만을 이용하여 발음을 인식하기 위해서 입 모양 특징을 분석하여 발음 교정 등의 어플리케이션에 활용하는 시스템을 개발한 연구가 이루어졌다[2-5]. 이 연구들에서는 실험 단어를 발성한 입 영역의 특징 벡터 검출을 위한 과정으로 CNN 등의 알고리즘을 사용하거나[2,3], 입술 영역에 주성분 분해법(PCA, Principal Component Analysis)을 적용하여 특징을 추출하며[5], 입 모양 인식을 위해서는 HMM(Hidden Markov Model)이나 SVM 등을 사용하고 있다[3-5].
	베이지안 이론이란 무엇인가?	제안하는 시스템은 얼굴의 특징점에서 입 모양 특징 벡터를 이용하여 한글 모음을 구분할 수 있는 실시간 학습 모델이다. 또한 특징 파라미터의 사전확률을 계산하여 적은 수의 데이터만으로도 높은 확률의 결과를 도출할 수 있는 기법인 베이지안 이론[7-9]에 기반을 둔 알고리즘을 구현하여 적은 학습데이터만으로도 화자 독립이거나 종속인 경우에 상관없이 입력 데이터의 축적을 통해서 발음 인식 확률을 향상시키는 시스템을 개발한다. 이를 통해서, 기존의 얼굴 특징점 인식 알고리즘으로 자주 사용되어진 SVM(SupportVectorMachine)이나 CNN(Con-volutional Neural Network) 기반 딥러닝 알고리즘에 비해 복잡한 계산을 요구하지 않고,GPU 등의 고성능 하드웨어에 사양에 구애받지 않을 수 있다.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증