[논문]조음 기관의 시각화를 이용한 음성 동기화 애니메이션

이성진; 김익재; 고형석

문제 정의

본 논문 에서는 조음 기관에 대한 3차원 모델을 사용자가 쉽게 제어할 수 있는 인터페이스를 구현하였다.
본 논문 에서는 조음 기관의 움직임 데이터를 얻기 위해 ‘J&T 컨트롤 인터페이스’를 개발하였다[12][13]. 먼저, 조음점(조음 자리)에 따른 음소를 그룹화 시켜 조음기관의 모델을 정의 하였다.
본 논문에서는 이러한 조음 기관의 움직임을 생성해 내는 거에 초점을 맞췄으며, 새로운 음성이 들어 올 때 동기화된 움직임을 만들어 내는 것이 가능하도록 하였다.
본 연구에서는 조음 기관의 움직임 데이터를 획득하기 위한 J&T 컨트롤 인터페이스를 구현하였고, 인터페이스를 통해 생성된 데이터로부터 [1]에 기반한 매개변수 궤도(trajectory)를 만들어 냈다. 그리고 이를 통해 새로 입력된 음성에 동기화된 조음 기관의 움직임 생성해 낼 수 있었다.
본 연구의 목적은 새로운 음성에 동기화된 조음 기관의 움직임을 생성해 내는 것이다. 실제 촬영하기 어려운 조음 기관의 움직임 데이터를 ‘J&T 컨트롤 인터페이스’를 통해 모든 말뭉치(corpus)와 동기화된 음성 데이터로 생성해 낸다.

제안 방법

1 절에서 정의한 조음 기관 모델을 바탕으로 형태 혼합 기법(Blend Shape)을 수행하기 위한 기저 모델을 정의 한다. 19개의 자음을 조음점(조음 자리)의 위치에 따라 8가지로 그룹화 하고, 각 그룹에 해당하는 모델을 만들어 내 가장 기본적인 7개의 조음 기관 모델을 구축 하였다.
2장에서 구축한 J&T 컨트롤 인터페이스를 이용하여 모든 말뭉치(corpus)의 연속된 음소에 대한 매개변수 값을 얻었다. 4장에서는 이런 매개 변수 값을 이용하여 새로운 음성이 들어 올 때, 그것에 동기화된 조음 기관의 애니메이션을 만들어 내는 방법에 대해서 설명한다.
2 절에서 정의한 기저 모델에 적용하여, 음성에 동기화된 조음기관의 움직임을 얻을 수 있었다. 가장 먼저 조음 기관의 움직임을 생성해 냈고, 이를 바탕으로 실제 모션 캡쳐 방법을 사용하여 3.2절을 통해 재생성 해낸 얼굴 움직임과 동기화 하여 애니메이션을 만들어 냈다[그림4.2].
이를 위해, 혀의 움직임을 결정하기 위해 23개(19개의 한국어 자음+f, v, θ, ð)의 자음[14][15][16][18][19]을 6개의 클래스로 구분하여, 형태 혼합기법을 수행하기 위한 6개의 정적인 형태를 기저로 정의 하였다. 그리고 혀를 제외한 조음 기관의 움직임을 생성하기 위해 1개의 DOF로 기저를 정의 하였다. 따라서 총 7개의 매개변수를 제어 함으로써, 원하는 형태의 조음 기관의 모양을 변형 시킬 수 있었고, ‘J&T 컨트롤 인터페이스’를 통해 음성에 대한 움직임 데이터 즉, 음성과 동기화된 연속된 매개변수를 얻을 수 있었다.
이렇게 생성된 데이터를 [1]에 기반하여 새로운 음성이 입력 될 때, 그것에 동기화된 조음 기관의 움직임을 생성해 냈다. 동시 조음(coarticulation) 문제를 하기 위해, 분산 행렬을 고려 하였다. 그리고 두 음소에 기반된 매개변수 값 사이의 매끄러움(smoothness)을 추가 하기 위해 2차 매끄러움(smoothness) 행렬을 사용하였다.
[그림 2-1]의 양순음(1)과 치조음(2)은 입술의 움직임을 통해서 결정되기 때문에, 캐릭터(character)의 외관 입술 움직임을 통해서 표현 될 수 있다. 따라서 조음 기관(혀, 이, 성대)의 형태에는 영향을 미치지 않아 하나의 그룹으로 묶어 형태를 정의 하였다. 이를 바탕으로 따른 8개의 그룹을 7개의 조음 기관 형태로 정의 하여 표현하였다[그림 2-2].
먼저, 데이터 수집을 위해, 각 음소 단위로 매개변수 값을 조절하여 저장할 수 있는 ‘J&T 컨트롤 인터페이스’를 제작하였다. 이 인터 페이스는 조음 기관의 기저를 제어할 수 있는 매개변수를 조절함으로써 조음 기관의 변형된 형태를 시각적으로 보고 수정할 수 있도록 구현 되었다.
본 논문 에서는 조음 기관의 움직임 데이터를 얻기 위해 ‘J&T 컨트롤 인터페이스’를 개발하였다[12][13]. 먼저, 조음점(조음 자리)에 따른 음소를 그룹화 시켜 조음기관의 모델을 정의 하였다. 그리고 이 모델을 기저모델 기반 선형 합성 방법(Blend shape Interpolation)[9][10][11][17]에 적용시켜 사용자가 원하는 형태로 조음 기관 모양을 제어할 수 있도록 하였다.
먼저, 혀의 기저들을 만들어 내기 위해 조음 기관 모델을 표현하기 위한 대표 자음을 선택한 후, 명시하도록 하였다. 양순음과 순치음에 대해서 ㅂ-계열 <ㅂ(b), ㅍ(p), ㅃ, ㅁ(m), (f), (v)>, 치(간)음에 대해선 θ-계열<(θ), (ð) >, 그리고, 나머지들에 대해선 다음처럼 분류하여 나타낼 수 있다.
본 논문 에서는 언어 치료 전문가에게 ‘J&T 컨트롤 인터페이스’를 제작하여, 이러한 초기값(initial guess)를 쉽게 수정한 후 저장할 수 있도록 하였다. 모든 말뭉치(corpus)에 대해 언어 치료 전문가가 데이터를 처리할 수 있도록 하였으며, 이를 이용하여 모든 말뭉치(corpus)에 대한 조음 기관 움직임 데이터를 얻을 수 있었다.
반면에 분산 값이 큰 경우, 매개변수 데이터들이 흩어져 있으므로, 이웃하는 음소에 따라 그것에 유연하게 동시조음(coarticulation) 현상을 잘 반영할 수 있도록 원하는 음소를 선택하여 동시조음 효과를 잘 표현한다. 본 논문 에서는 모든 음소에 같은 동시 조음 효과를 적용 하기 위해, 위의 분산 행렬의 역행렬을 구하여 모든 프레임에 있는 음소에 적용하여, 모든 프레임에 대해 동시조음(coarticulation) 현상에 대해 같은 가중치를 할당하였다.
본 논문 에서는 언어 치료 전문가에게 ‘J&T 컨트롤 인터페이스’를 제작하여, 이러한 초기값(initial guess)를 쉽게 수정한 후 저장할 수 있도록 하였다. 모든 말뭉치(corpus)에 대해 언어 치료 전문가가 데이터를 처리할 수 있도록 하였으며, 이를 이용하여 모든 말뭉치(corpus)에 대한 조음 기관 움직임 데이터를 얻을 수 있었다.
본 논문 에서는 조음점(조음자리)에 따른 분류를 기준으로 조음 기관의 정적인 형태를 정의 하였다. [그림 2-1]의 양순음(1)과 치조음(2)은 입술의 움직임을 통해서 결정되기 때문에, 캐릭터(character)의 외관 입술 움직임을 통해서 표현 될 수 있다.
이렇게 저장된 데이터를 이용하여, 새로운 음성이 들어 올 때 그것과 동기화된 조음 기관의 움직임을 만들어 낼 수 있었다. 본 논문에서는 2차원 비디오 기반인 MMM[1]을 3차원으로 확장한 후, 조음 기관 모델에 적용하여, 음성에 동기화된 조음 기관의 움직임을 얻었다. 이를 구현하기 위해, 전체 말뭉치(corpus)에 대해 얻어진 데이터의 평균과 분산 값을 구하였다.
본 논문에서는 [1] 에서 사용한 1차 매끄러움(smoothness)행렬 W^TW를 사용하지 않고, 더 매끄러움(smoothness)를 만들어 내기 위해, W^TWW^TW과 같은 2차 매끄러움 행렬을 사용하였다.
본 연구의 목적은 새로운 음성에 동기화된 조음 기관의 움직임을 생성해 내는 것이다. 실제 촬영하기 어려운 조음 기관의 움직임 데이터를 ‘J&T 컨트롤 인터페이스’를 통해 모든 말뭉치(corpus)와 동기화된 음성 데이터로 생성해 낸다. 그리고 말뭉치(corpus)에 저장되어 있지 않은 새로운 음성이 들어 올 때, 기존의 말뭉치(corpus) 데이터를 이용하여 새로운 음성에 동기화된 조음 기관의 움직임을 생성해 내는 것이다.
이렇게 구해진 평균과 분산 값을 이용하여 기존의 말뭉치(corpus)에 없는 새로운 입력 음성이 들어 올 때, 그것에 동기화된 음소에 대한 연속된 매개 변수 값을 얻을 수 있었다. 연속된 음소가 있고 그것의 평균 값을 할당하여 이산적으로 표현된 연속된 매개 변수 값들이 존재 할 때, 그 값들 간의 연결을 부드럽게 만들어주기 위해 규칙화 문제(regularization problem)[2][3]을 각 프레임 단위로 풀어내어 매개변수 궤도(parameter trajectory)를 얻었다. 궤도 합성 문제(trajectory synthesis problem)를 통해 얻은 각 프레임에 대한 매개변수 값은 자음을 발음할 때 나타나게 되는 정적인 조음 기관의 형태를 기저로 갖는 형태 혼합 기법의 매개변수에 그대로 적용하여, 새로 입력된 음성에 동기화된 조음 기관의 움직임을 만들어 낼 수 있다.
먼저, 데이터 수집을 위해, 각 음소 단위로 매개변수 값을 조절하여 저장할 수 있는 ‘J&T 컨트롤 인터페이스’를 제작하였다. 이 인터 페이스는 조음 기관의 기저를 제어할 수 있는 매개변수를 조절함으로써 조음 기관의 변형된 형태를 시각적으로 보고 수정할 수 있도록 구현 되었다. 이 인터페이스를 이용하여 실제 음성에 동기화된 초기값(Initial Guess)이 주어졌을 때, 언어치료 전문가들이 각 음소에서의 조음 기관의 변형 형태를 보면서 초기값(Initial Guess)을 수정하여 실제 조음기관의 모양과 비슷한 형태를 나타내는 데이터 값을 저장할 수 있게 하였다.
이 인터 페이스는 조음 기관의 기저를 제어할 수 있는 매개변수를 조절함으로써 조음 기관의 변형된 형태를 시각적으로 보고 수정할 수 있도록 구현 되었다. 이 인터페이스를 이용하여 실제 음성에 동기화된 초기값(Initial Guess)이 주어졌을 때, 언어치료 전문가들이 각 음소에서의 조음 기관의 변형 형태를 보면서 초기값(Initial Guess)을 수정하여 실제 조음기관의 모양과 비슷한 형태를 나타내는 데이터 값을 저장할 수 있게 하였다.
8)식에서 알 수 있듯이 7개의 매개변수 값으로 이루어져 있다. 이러한 데이터를 같은 음소로 레이블링(labeling)된 값들끼리 40개의 그룹으로 클래스화 하여 묶었다.
이렇게 생성된 조음 기관 모델을 혀와 혀를 제외한 구강구조(이, 성대)로 나눠 두 개의 기저 집합으로 표현 하였다.
이렇게 혀와 혀를 제외한 조음 기관(이, 성대)에 의해서 정의된 기저를 이용하여 새로운 형태를 만들어 내는 방법에 대해서 다음 (2.2.2)장에서 좀더 자세히 살펴 보도록 하겠다.
이렇게 각 클래스로 그룹화된 값들은 일정한 중심값에 몰리는 경향이 있음을 알 수 있다. 이를 바탕으로 본 논문에서는 각 클래스에 해당하는 매개변수 값들의 평균(mean)과 공분산(covariance) 을 구하였다.
이를 위해, 혀의 움직임을 결정하기 위해 23개(19개의 한국어 자음+f, v, θ, ð)의 자음[14][15][16][18][19]을 6개의 클래스로 구분하여, 형태 혼합기법을 수행하기 위한 6개의 정적인 형태를 기저로 정의 하였다. 그리고 혀를 제외한 조음 기관의 움직임을 생성하기 위해 1개의 DOF로 기저를 정의 하였다.
이번 장에서는 형태 혼합 기법(Blend Shape)을 사용하여, 조음 기관의 새로운 움직임을 만들어 내는 방법에 대해서 제안한다.

대상 데이터

하지만, 이러한 방법으론 얼굴 외관이 아닌, 얼굴 내부(혀와 성대를 포함하는 조음 기관)의 움직임 데이터를 얻을 수 없다. 본 실험에서는 ‘J&T 컨트롤 인터페이스’를 구현하여, 음성에 동기화된 조음 기관의 움직임 데이터를 생성해 냈다.

데이터처리

본 논문에서는 2차원 비디오 기반인 MMM[1]을 3차원으로 확장한 후, 조음 기관 모델에 적용하여, 음성에 동기화된 조음 기관의 움직임을 얻었다. 이를 구현하기 위해, 전체 말뭉치(corpus)에 대해 얻어진 데이터의 평균과 분산 값을 구하였다. 이렇게 구해진 평균과 분산 값을 이용하여 기존의 말뭉치(corpus)에 없는 새로운 입력 음성이 들어 올 때, 그것에 동기화된 음소에 대한 연속된 매개 변수 값을 얻을 수 있었다.

이론/모형

J&T 컨트롤 인터페이스를 통해 얻은 매개 변수 값들을 이용하여, 새로운 입력 음성이 들어 올 때, 그것에 동기화된 조음 기관의 움직임을 MMM(Multidimensional Morphable Model) 모델을 통하여 생성해 냈다. 본 논문에서는 모든 말뭉치(corpus)에 대한 조음 기관의 매개변수 값을 얻지 못하였다.
동시 조음(coarticulation) 문제를 하기 위해, 분산 행렬을 고려 하였다. 그리고 두 음소에 기반된 매개변수 값 사이의 매끄러움(smoothness)을 추가 하기 위해 2차 매끄러움(smoothness) 행렬을 사용하였다. 이를 이용하여, 입력 음성에 동기화된 조음 기관의 움직임을 생성해 냈다.
먼저, 조음점(조음 자리)에 따른 음소를 그룹화 시켜 조음기관의 모델을 정의 하였다. 그리고 이 모델을 기저모델 기반 선형 합성 방법(Blend shape Interpolation)[9][10][11][17]에 적용시켜 사용자가 원하는 형태로 조음 기관 모양을 제어할 수 있도록 하였다. 조음 기관의 움직임과 연관되는 음소의 키프레임 (keyframe)에 값을 주고 캣물롬 보간 기법(catmull Rom interpolation)을 통해 모든 말뭉치(corpus)에 대한 조음기관의 움직임을 만들어 냈다.
1). 그리고 이를 조합하여 새로운 형태의 조음 기관의 모델을 만들어 내고(2.2.2), 캣물롬 보간 기법(catmull Rom interpolation)을 사용하여 새로이 입력된 말에 대한 조음 기관의 초기값(Initial Guess) 움직임을 생성해 낸다(2.2.3).
>의 연속된 값을 얻어내는 것이 필요 하다. 본 논문 에서는 이러한 움직임을 만들어 내기 위해, 3차 보간 기법을 사용하였다.
새로 입력된 음성에 대한 매개변수의 궤도를 생성해 내기 위해, 본 논문에서는 [1] 에서 보여진 규칙화 이론(regularization theory)을 사용한다.
그리고 이 모델을 기저모델 기반 선형 합성 방법(Blend shape Interpolation)[9][10][11][17]에 적용시켜 사용자가 원하는 형태로 조음 기관 모양을 제어할 수 있도록 하였다. 조음 기관의 움직임과 연관되는 음소의 키프레임 (keyframe)에 값을 주고 캣물롬 보간 기법(catmull Rom interpolation)을 통해 모든 말뭉치(corpus)에 대한 조음기관의 움직임을 만들어 냈다. 구현된 인터페이스를 언어치료 전문가에게 주고 새롭게 입력된 음소 시퀀스(sequence)에 대해 만들어진 조음 기관의 움직임을 수정함으로써, 조음기관의 3차원 움직임 데이터를 얻을 수 있었다.

성능/효과

조음 기관의 움직임과 연관되는 음소의 키프레임 (keyframe)에 값을 주고 캣물롬 보간 기법(catmull Rom interpolation)을 통해 모든 말뭉치(corpus)에 대한 조음기관의 움직임을 만들어 냈다. 구현된 인터페이스를 언어치료 전문가에게 주고 새롭게 입력된 음소 시퀀스(sequence)에 대해 만들어진 조음 기관의 움직임을 수정함으로써, 조음기관의 3차원 움직임 데이터를 얻을 수 있었다.
그리고 혀를 제외한 조음 기관의 움직임을 생성하기 위해 1개의 DOF로 기저를 정의 하였다. 따라서 총 7개의 매개변수를 제어 함으로써, 원하는 형태의 조음 기관의 모양을 변형 시킬 수 있었고, ‘J&T 컨트롤 인터페이스’를 통해 음성에 대한 움직임 데이터 즉, 음성과 동기화된 연속된 매개변수를 얻을 수 있었다.

후속연구

공분산 행렬에서의 요소들은, 각 요소들 사이의 상관관계에 대한 수치를 나타낸다. 그러나, 본 논문에서는 공분산 행렬 요소를 나타내는 평균값 요소들은 각각 서로 다른 기저를 제어하는 매개변수 이므로, 각 요소들 사이의 상관관계는 전혀 고려될 필요가 없다. 따라서, 공분산 행렬의 대각 부분 요소인 분산 값만을 고려하여, 각 클래스에서의 흩어진 정도를 분석 하여 나타낼 수 있다.
또한, 이 논문을 이용하여 3차원 캐릭터를 이용한 장애 아동 재활 치료 프로그램으로 개발이나, 영화 캐릭터에서의 조음 기관의 움직임 성에 응용할 수 있을 것이다.
예를 들어, 예사소리 ‘ㅂ’과 된소리 ‘ㅃ’, 그리고 거센소리 ‘ㅍ’ 사이에는 같은 정적인 조음 기관의 모양을 나타낼지라도, 발음 할 때 공기의 압력이나 발음 지속 시간에 따라 확연히 다른 자음이 된다. 이를 제어할 수 있는 컨트롤 인터페이스를 추가한다면, 좀더 명확한 초기값(Initial Guess) 측정이 가능할 것이고, 언어 치료 전문가 들이 이 인터페이스를 통해 더 많은 데이터 처리를 좀 더 명확하게 처리 할 수 있을 것이다.
향후 과제로는, ‘J&T 컨트롤 인터페이스’에서 입력 음성에 동기화된 초기값(Initial Guess)을 생성해 내는 부분이다. 같은 클래스에 포함되는 자음들 사이의 차이를 명확히 하지 않았다.

핵심어	질문	논문에서 추출한 답변
	단순히 감정을 표현하는 얼굴의 표정 움직임과는 달리 음성에 동기화된 얼굴 애니메이션을 좀 더 사실적으로 만들기 위해서는 무엇이 필요한가?	단순히 감정을 표현하는 얼굴의 표정 움직임과는 달리 음성에 동기화된 얼굴 애니메이션을 좀 더 사실적으로 만들기 위해서는 음성에 따른 입술의 움직임과 입술과 동기화된 조음 기관의 순간적인 움직임을 나타내는 것이 필요 하다. 그러나 캡쳐(capture) 할 수 없을 정도로 빠르게 움직이는 입술과 입 속의 조음 기관을 표현하는데 한계가 있다.
	기존의 모션 캡쳐 기법으로 조음 기관의 움직임 데이터를 만들어 낼 수 없는 이유는 무엇인가?	그러나 캡쳐(capture) 할 수 없을 정도로 빠르게 움직이는 입술과 입 속의 조음 기관을 표현하는데 한계가 있다. 특히, 실제 조음 기관의 움직임은 마커를 붙일 수 없기 때문에, 기존의 모션 캡쳐 기법[4][5]으로는 조음 기관의 움직임 데이터를 만들어 낼 수 없다.
	J&T 컨트롤 인터페이스는 무엇을 할 수 있도록 구현되었는가?	먼저, 데이터 수집을 위해, 각 음소 단위로 매개변수 값을 조절하여 저장할 수 있는 ‘J&T 컨트롤 인터페이스’를 제작하였다. 이 인터 페이스는 조음 기관의 기저를 제어할 수 있는 매개변수를 조절함으로써 조음 기관의 변형된 형태를 시각적으로 보고 수정할 수 있도록 구현 되었다. 이 인터페이스를 이용하여 실제 음성에 동기화된 초기값(Initial Guess)이 주어졌을 때, 언어치료 전문가들이 각 음소에서의 조음 기관의 변형 형태를 보면서 초기값(Initial Guess)을 수정하여 실제 조음기관의 모양과 비슷한 형태를 나타내는 데이터 값을 저장할 수 있게 하였다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

조음 기관의 시각화를 이용한 음성 동기화 애니메이션
Speech Animation by Visualizing the Organs of Articulation 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

조음 기관의 시각화를 이용한 음성 동기화 애니메이션 Speech Animation by Visualizing the Organs of Articulation 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

조음 기관의 시각화를 이용한 음성 동기화 애니메이션
Speech Animation by Visualizing the Organs of Articulation 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper