최근 통신 시스템의 연구와 발전 방향은 목소리의 음성 정보와 말하는 얼굴 영상의 화상 정보를 함께 적용하므로서 음성 정보만을 제공하는 경우보다 높은 인식율을 제공한다. 따라서 본 연구는 청각장애자들의 언어 대체수단 중 하나인 구화(speechreading)에서 가장 시각적 변별력이 논은 입모양 인식을 일반 퍼스널 컴퓨터상에서 구현하고자 한다. 본 논문은 기존의 방법과 달리 말하는 영상 시퀀스에서 입모양 인식을 행하기 위해 3차원 모델을 사용하여 입의 벌어진 정도, 턱의 움직임, 입술의 돌출과 같은 3차원 특징 정보를 제공하였다. 이와 같은 특징 정보를 얻기 위해 3차원 형살 모델을 입력 동영상에 정합시키고 정합된 3차원 형상모델에서 각 특징점의 변화량을 인식파라미터로 사용하였다. 그리고, 인식단위로 동영상을 분리하는 방법은 3차원 특징점 변화량에서 얻어지는 강도의 기울기에 의하여 이루어지고, 인식은 각각의 3차인 특징벡터를 이산 HMM 인식기의 인식 파라메타로 사용하였다.
최근 통신 시스템의 연구와 발전 방향은 목소리의 음성 정보와 말하는 얼굴 영상의 화상 정보를 함께 적용하므로서 음성 정보만을 제공하는 경우보다 높은 인식율을 제공한다. 따라서 본 연구는 청각장애자들의 언어 대체수단 중 하나인 구화(speechreading)에서 가장 시각적 변별력이 논은 입모양 인식을 일반 퍼스널 컴퓨터상에서 구현하고자 한다. 본 논문은 기존의 방법과 달리 말하는 영상 시퀀스에서 입모양 인식을 행하기 위해 3차원 모델을 사용하여 입의 벌어진 정도, 턱의 움직임, 입술의 돌출과 같은 3차원 특징 정보를 제공하였다. 이와 같은 특징 정보를 얻기 위해 3차원 형살 모델을 입력 동영상에 정합시키고 정합된 3차원 형상모델에서 각 특징점의 변화량을 인식파라미터로 사용하였다. 그리고, 인식단위로 동영상을 분리하는 방법은 3차원 특징점 변화량에서 얻어지는 강도의 기울기에 의하여 이루어지고, 인식은 각각의 3차인 특징벡터를 이산 HMM 인식기의 인식 파라메타로 사용하였다.
Recently, research and developmental direction of communication system is concurrent adopting voice data and face image in speaking to provide more higher recognition rate then in the case of only voice data. Therefore, we present a method of lipreading in speech image sequence by using the 3-D faci...
Recently, research and developmental direction of communication system is concurrent adopting voice data and face image in speaking to provide more higher recognition rate then in the case of only voice data. Therefore, we present a method of lipreading in speech image sequence by using the 3-D facial shape model. The method use a feature information of the face image such as the opening-level of lip, the movement of jaw, and the projection height of lip. At first, we adjust the 3-D face model to speeching face Image sequence. Then, to get a feature information we compute variance quantity from adjusted 3-D shape model of image sequence and use the variance quality of the adjusted 3-D model as recognition parameters. We use the intensity inclination values which obtaining from the variance in 3-D feature points as the separation of recognition units from the sequential image. After then, we use discrete HMM algorithm at recognition process, depending on multiple observation sequence which considers the variance of 3-D feature point fully. As a result of recognition experiment with the 8 Korean vowels and 2 Korean consonants, we have about 80% of recognition rate for the plosives md vowels.
Recently, research and developmental direction of communication system is concurrent adopting voice data and face image in speaking to provide more higher recognition rate then in the case of only voice data. Therefore, we present a method of lipreading in speech image sequence by using the 3-D facial shape model. The method use a feature information of the face image such as the opening-level of lip, the movement of jaw, and the projection height of lip. At first, we adjust the 3-D face model to speeching face Image sequence. Then, to get a feature information we compute variance quantity from adjusted 3-D shape model of image sequence and use the variance quality of the adjusted 3-D model as recognition parameters. We use the intensity inclination values which obtaining from the variance in 3-D feature points as the separation of recognition units from the sequential image. After then, we use discrete HMM algorithm at recognition process, depending on multiple observation sequence which considers the variance of 3-D feature point fully. As a result of recognition experiment with the 8 Korean vowels and 2 Korean consonants, we have about 80% of recognition rate for the plosives md vowels.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 위의 문제점들을 해결하기 위해 말하는 동영상에서 입술의 움직임에 부합하는 글자를 인식하는 방법과 음절 단위로 입 모양을 인식하기 위해서 동영상에 음절을 효과적으로 분리할 수 있는 간단한 방법제안과 한글에 대해 고찰을 한다. 그림 1은 동영상 입력에서부터 특징 벡터의 추출까지의 과정이다.
제안 방법
폭이다. 따라서 본 연구에서는 입력된 동영상에 정합된 3차원모델로부터 시각 소를 표현할 수 있는 3차원 특징 벡터를 그림 3과 같이 12개의 특징점을 사용하여 4개의 특징 벡터를 추출한다. 4개의 특징벡터는 다음과 같다.
따라서 말하는 영상 시퀀스를 음절 단위로 구분할 필요가 있다. 본 연구에서 입력 동영상의 음절 분리는 특징벡터의 기울기의 굴곡점을 검출하여 분리할 수 있다. 3차원모델로부터 얻어지는 특징 벡터의 강도는 [코리아]를 발성했을 경우 그림 5에 나타낸 것처럼 선형적으로 증가하다가 다음 음절의 발성으로 갈 때 입모양패턴의 끝점으로 연결된다.
WFM을 영상의 각 프레임에 정합하여 입력 영상을 표현하므로 각 프레임당 입술움직임에 대한 WFM 정점의 이동 변위를 구할 수 있다. 본 연구에서는 특징점 검출을 위해 영상의 휘도치 분포를 다단계로 임계화하는 방법을 사용한다. 임의의 대상 영상들로부터 획득된 확률.
수평으로 투영하여 얼굴부위에 해당하는 휘도 치 분포의 경계값을 결정한다. 이 결정된 임계 값에 따라 얼굴이외의 성분으로부터 얼굴을 분할하고, 분할된 얼굴부위를 바탕으로 안면 요소 특징점들(누 코, 입 등)을 추출한다.
인식은 입력특징벡터를 멀티 라벨링 하여 이산HMM의 입력으로 하였다. 인식실험은 학습에 사용될 데이터와 실험에 상용될 데이터를 한국어 8개모음과 2개의 자음의 조합으로 이루어진 음절단위로 행하였다. 인식결과는 [파열음(口, 日, 표)+모음]의 경우는 80%이상의 인식율을 보였으며, 모음(8개)의 경우는 평상적인 조건하에서 그림 7과 같은 인식결과를 보였으며 평균 55%의 인식률을 보였다.
이론/모형
입력동영상으로부터 입술움직임에 대한 3차원 특징벡터를 얻기 위해서는 얼굴 형상을 충실히 표현할 수 있는 3차원모델이 필요하다. 따라서 본 논문에서는 얼굴형상 및 얼굴표면을 표현하기 위해 3차원 위치 좌표 점(X, y, z)과 선으로 근사한 삼각형 구조의 Wire Frame Model(그림. 2)을 사용한다. WFM을 영상의 각 프레임에 정합하여 입력 영상을 표현하므로 각 프레임당 입술움직임에 대한 WFM 정점의 이동 변위를 구할 수 있다.
수정된다. 이러한 multiple observation sequence를특정 벡터로 이용하여 이산 HMM의 입력벡터로 사용하였다. 그림 6에 HMM인식기의 구성도를 나타내었다.
그림 1은 동영상 입력에서부터 특징 벡터의 추출까지의 과정이다. 인식에서는 각 입력특징 벡터에 대한 출력확률을 평균벡터로 하는 정규분포로 가정하고, 다차원(multi-dimensional), 다단계 라벨링 방법을 사용하여 3차원 특징벡터를 입력 벡터로 한 이산 HMM을 사용하였다.[7〜 8]
성능/효과
인식실험은 학습에 사용될 데이터와 실험에 상용될 데이터를 한국어 8개모음과 2개의 자음의 조합으로 이루어진 음절단위로 행하였다. 인식결과는 [파열음(口, 日, 표)+모음]의 경우는 80%이상의 인식율을 보였으며, 모음(8개)의 경우는 평상적인 조건하에서 그림 7과 같은 인식결과를 보였으며 평균 55%의 인식률을 보였다.
입력동영상에서 음절단위를 효과적으로 분리하였으며, 3차원모델의 움직임변위에 따른 특징 벡터를 얻을 수 있었다. 인식은 입력특징벡터를 멀티 라벨링 하여 이산HMM의 입력으로 하였다.
참고문헌 (8)
E.Petajan, B.Bischoff, D.Bodoff, and N. M. Brooke, 'An Improved Automatic Lipreading System to enhance Speech Recognition.' In ACM SIGCHI, 1988
Mase and A.Pentland.'LIP Reading. Automatic Visual Recognition of Spoken Word.' Proc. Image Understanding and Machin Vision, Optical of America, June. 1989
K. E. Finn and A. A. 'Montgomery. Automatic Optically-Based Recognition of Speech.' Pattern Recognition Letters, 8:159 -164, 1988
K. Mase and A. Pentland. 'Lip Reading: Automatic Visual Recognition of poken Words.' Technical Report 117, M.I.T. Media Lab Vision Science, 1989
Danial Reisfeld and Yehezkel Yeshurun, 'Robust Detection of Facial Features by Generalized Symmetry,' Proc. ICPR, pp.117-120 ,1992
Young Dong Lee, Chong Seak Choi, Kap Seak Choi, 'Lip Shape Synthesis of Korean Syllable for Human Interface.' Korea Institut Comunication, vol 19, pp.614-623
L.R.Raider, 'Mathematical Foundations of Hidden Markov Models', Recent Advances in speech understanding and Digital systems
L.R.Raider and B.H.Juang, 'An Introduction to Hidden Markov Models,' IEEE ASSP Magazine Vol. 3, No.1, 99.4-16, Jan 1986
※ AI-Helper는 부적절한 답변을 할 수 있습니다.