최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기멀티미디어학회논문지 = Journal of Korea Multimedia Society, v.22 no.8, 2019년, pp.852 - 859
김성우 (School of Computer & Communication Engineering, Daegu University) , 차경애 (School of Computer & Communication Engineering, Daegu University) , 박세현 (School of Computer & Communication Engineering, Daegu University)
With the development of IT technology and smart devices, various applications utilizing image information are being developed. In order to provide an intuitive interface for pronunciation recognition, there is a growing need for research on pronunciation recognition using mouth feature values. In th...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
시각 정보만으로 발음을 인식하기 위해 중요한 요소는 무엇인가? | 한편, 시각 정보만으로 발음을 인식하기 위해서는 영상에서 얼굴과 입의 영역을 정확히 검출하는 것이 매우 중요한 요소이다[12]. 입 모양을 시각적으로 분석하여 발음 구간이나 해당 음성 정보로의 변환 등을 실험한 연구로 사람의 눈 위치에 기반하여 입의 위치를 찾고 주변 영역의 밝기 변화 등과 같은 픽셀 기반으로 움직임을 검출하는 옵티컬 플로우를 이용하는 기법들이 있다[13-15]. | |
멀티 모달 시스템과 오디오-비주얼 음성 인식의 문제점을 보완하기 위해 어떤 연구가 이루어졌는가? | 이러한 문제점을 보완하기 위해서 영상 정보만을 이용하여 발음을 인식하기 위해서 입 모양 특징을 분석하여 발음 교정 등의 어플리케이션에 활용하는 시스템을 개발한 연구가 이루어졌다[2-5]. 이 연구들에서는 실험 단어를 발성한 입 영역의 특징 벡터 검출을 위한 과정으로 CNN 등의 알고리즘을 사용하거나[2,3], 입술 영역에 주성분 분해법(PCA, Principal Component Analysis)을 적용하여 특징을 추출하며[5], 입 모양 인식을 위해서는 HMM(Hidden Markov Model)이나 SVM 등을 사용하고 있다[3-5]. | |
베이지안 이론이란 무엇인가? | 제안하는 시스템은 얼굴의 특징점에서 입 모양 특징 벡터를 이용하여 한글 모음을 구분할 수 있는 실시간 학습 모델이다. 또한 특징 파라미터의 사전확률을 계산하여 적은 수의 데이터만으로도 높은 확률의 결과를 도출할 수 있는 기법인 베이지안 이론[7-9]에 기반을 둔 알고리즘을 구현하여 적은 학습데이터만으로도 화자 독립이거나 종속인 경우에 상관없이 입력 데이터의 축적을 통해서 발음 인식 확률을 향상시키는 시스템을 개발한다. 이를 통해서, 기존의 얼굴 특징점 인식 알고리즘으로 자주 사용되어진 SVM(SupportVectorMachine)이나 CNN(Con-volutional Neural Network) 기반 딥러닝 알고리즘에 비해 복잡한 계산을 요구하지 않고,GPU 등의 고성능 하드웨어에 사양에 구애받지 않을 수 있다. |
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.