[논문]PCA와 HMM을 이용한 실시간 립리딩 시스템의 설계 및 구현

이지근; 이은숙; 정성태; 이상설

문제 정의

따라서, 본 논문에서는 화자의 움직임이 허용되고 컬러나 조명과 같은 환경 변화에 대한 제한을 완화시킨 영상을 이용하였으며, 기존의 오프라인으로 실험되었던 립리딩 시스템에 반하여 립리딩 실험의 전반적인 과정인 얼굴영역 검출단계에서 인식단계까지의 과정이 한번에 이루어질 수 있는 실시간 독립립리딩 시스템을 구현하였다. 본 논문에서 구현한 시스템은 화자가 직접 자신의 학습 데이터를 시스템 온라인 상태에서 생성하고 추가할 수 있으며, 인식 데이터를 생성, 입력하여 시스템 온라인 상태에서 학습과 동시에 실시간으로 인식 실험을 할 수 있는 립리딩 시스템을 구현하는 데에 연구 목적을 두었다.
본 논문에서 구현한 시스템은 화자가 직접 자신의 학습 데이터를 시스템 온라인 상태에서 생성하고 추가할 수 있으며, 인식 데이터를 생성, 입력하여 시스템 온라인 상태에서 학습과 동시에 실시간으로 인식 실험을 할 수 있는 립리딩 시스템을 구현하는 데에 연구 목적을 두었다. 또한 본 논문에서 구현된 립리딩 시스템에 대하여 잡음이 있는 환경에서 저하되는 음성인식률의 보상 정도와 가능성을 실험하였고 구현된 립리딩 시스템만의 자체 인식률을 평가하였다. 또한 기존의 립리딩시스템들이 대부분 고성능의 비디오 카메라를 사용하여 영상을 획득했던 것에 대하여 이를 범용으로 사용되 는 저가의 PC 카메라로 대신하였으며, 입술영역 검출의 전단계인 얼굴영역 검출에서부터 립리딩인식 실험까지의 과정이 한번에 순차적으로 이루어지도록 시스템을 구성하였다.
따라서, 본 논문에서는 화자의 움직임이 허용되고 컬러나 조명과 같은 환경 변화에 대한 제한을 완화시킨 영상을 이용하였으며, 기존의 오프라인으로 실험되었던 립리딩 시스템에 반하여 립리딩 실험의 전반적인 과정인 얼굴영역 검출단계에서 인식단계까지의 과정이 한번에 이루어질 수 있는 실시간 독립립리딩 시스템을 구현하였다. 본 논문에서 구현한 시스템은 화자가 직접 자신의 학습 데이터를 시스템 온라인 상태에서 생성하고 추가할 수 있으며, 인식 데이터를 생성, 입력하여 시스템 온라인 상태에서 학습과 동시에 실시간으로 인식 실험을 할 수 있는 립리딩 시스템을 구현하는 데에 연구 목적을 두었다. 또한 본 논문에서 구현된 립리딩 시스템에 대하여 잡음이 있는 환경에서 저하되는 음성인식률의 보상 정도와 가능성을 실험하였고 구현된 립리딩 시스템만의 자체 인식률을 평가하였다.

제안 방법

이어서, 영상획득(Image capture)이 시작된 후 인식을 위해 입력되는 RGB 영상을 HSI 컬러로 변환한다. HSI 컬러로 변환된 영상에 이미 만들어진 얼굴 색도 히스토그램 모델을 적용하여 얼굴의 색도 확률 분포 영역을 검출하였다. 또한 이와 함께 평균 이동 알고리즘(Mean shift Algorithm)을 이용하여 얼굴 검출과 움직이는 화자를 추적하는데 사용하였다.
인식 알고리즘으로는 HMM(Hidden Markov Model)을 이용하였고, HTK(Hidden markov Tool Kit)를 사용하여 학습과 테스트 실험을 하였다. PCA를 통하여 주줄된 특징 계수는 HTK에 적용할 수 있도록 데이터의 형식을 변형하여 사용하였다. 본 논문에서 구현한 립리딩 시스템을 이용하여 잡음이 있는 음성과 합병하여 인식률 실험을 해 본 결과, 음성 잡음 비에 따라서 음성 인식률을 약 40~85%까지 향상시킬 수 있었고, 립리딩 시스템만의 자체 인식 실험 결과 화자 종속일 경우 90%의 인식률을 보였다.
또한 본 논문에서 구현된 립리딩 시스템에 대하여 잡음이 있는 환경에서 저하되는 음성인식률의 보상 정도와 가능성을 실험하였고 구현된 립리딩 시스템만의 자체 인식률을 평가하였다. 또한 기존의 립리딩시스템들이 대부분 고성능의 비디오 카메라를 사용하여 영상을 획득했던 것에 대하여 이를 범용으로 사용되 는 저가의 PC 카메라로 대신하였으며, 입술영역 검출의 전단계인 얼굴영역 검출에서부터 립리딩인식 실험까지의 과정이 한번에 순차적으로 이루어지도록 시스템을 구성하였다. 구현된 립리딩 시스템은 얼굴과 입술 영역 검출을 위하여 색도(Hue) 히스토그램 모델을 이용하였다.
따라서 얼굴과 입술 영역 검출을 위하여 입력 영상 안에서 픽셀들에 대한 색도 값의 분포를 나타내는 색도 히스토그램 모델을 이용하였다. 먼저 RGB 값을 갖는 입력 영상에서 얼굴이 위치해 있을 가능성이 있는 영역을 얼굴의 색도 확률분포 영역으로 정의하고, 이 영역을 구하기 위하여 입력 영상의 첫 프레임에서 얼굴색의 HSI 색도(Hue) 히스토그램 모델을 만든다. 이어서, 영상획득(Image capture)이 시작된 후 인식을 위해 입력되는 RGB 영상을 HSI 컬러로 변환한다.
영상획득 장치에서 획득된 컬러 영상은 RGB 컬러인데, 이는 조명 변화에 민감하게 반응하는 특성을 가지고 있다. 본 논문에서는 RGB 컬러를 HSI 컬러로 변환하여 원래 객체가 가지고 있는 색을 표현하는 색도 성분을 이용하여 영상이 조명에 영향을 적게 받도록 하였다. 얼굴 영역 검출에서는 입력 영상의 일정한 크기의 영역에서 픽셀들의 색도를 이용하여 색도 히스토그램 모델을 만들고 이를 색도 영상에 적용하여 얼굴의 색도 확률 분포 영역을 추출하였다.
실험은 본 논문에서 구현된 립리딩 시스템을 사용하여 화자 독립일 때와 화자 종속일 때의 두 가지 경우에 잡음 환경에서의 음성인식률 저하를 보상하는 실험과 구현된 립리딩 시스템만의 자체적인 인식실험을 하였다. 실험에 사용된 립리딩 학습데이터는 시스템 온라인 상태에서 저가의 범용 PC 카메라를 이용하여 영상을 입력받아 얼굴영역을 검출하고 검출된 얼굴 영역 내에서 입술영역을 검출한후 실시간으로 학습하였다.
본 논문에서는 RGB 컬러를 HSI 컬러로 변환하여 원래 객체가 가지고 있는 색을 표현하는 색도 성분을 이용하여 영상이 조명에 영향을 적게 받도록 하였다. 얼굴 영역 검출에서는 입력 영상의 일정한 크기의 영역에서 픽셀들의 색도를 이용하여 색도 히스토그램 모델을 만들고 이를 색도 영상에 적용하여 얼굴의 색도 확률 분포 영역을 추출하였다. 이와 함께 얼굴영역의 검출과 움직이는 화자의 얼굴을 추적하기 위한 방법으로는 평균 이동 알고리즘을 사용하였다.
먼저 RGB 값을 갖는 입력 영상에서 얼굴이 위치해 있을 가능성이 있는 영역을 얼굴의 색도 확률분포 영역으로 정의하고, 이 영역을 구하기 위하여 입력 영상의 첫 프레임에서 얼굴색의 HSI 색도(Hue) 히스토그램 모델을 만든다. 이어서, 영상획득(Image capture)이 시작된 후 인식을 위해 입력되는 RGB 영상을 HSI 컬러로 변환한다. HSI 컬러로 변환된 영상에 이미 만들어진 얼굴 색도 히스토그램 모델을 적용하여 얼굴의 색도 확률 분포 영역을 검출하였다.

대상 데이터

1) PC카메라로 320x240 크기의 영상 획득한다.
본 논문에서는 70×50 크기의 입술 이미지를 사용하였다
실험은 본 논문에서 구현된 립리딩 시스템을 사용하여 화자 독립일 때와 화자 종속일 때의 두 가지 경우에 잡음 환경에서의 음성인식률 저하를 보상하는 실험과 구현된 립리딩 시스템만의 자체적인 인식실험을 하였다. 실험에 사용된 립리딩 학습데이터는 시스템 온라인 상태에서 저가의 범용 PC 카메라를 이용하여 영상을 입력받아 얼굴영역을 검출하고 검출된 얼굴 영역 내에서 입술영역을 검출한후 실시간으로 학습하였다. 학습데이터 단어로는 오디오 및 CD플레이어를 작동시키기 위해 필요한 단어들(재생, 정지, 종료, 앞으로, 뒤로)을 사용하였다.
첫 번째 인식 실험에서는 입술인식과 음성인식을 모두 화자독립으로 수행하였으며 학습 데이터는 15명, 실험데이터는 2명으로 하였다. 음성인식의 경우, 5개의 단어를 연속 발음한 16비트 PCM형식의 AVI 포맷의 음성 데이터를 사용하였고, 이 음성 파일에 오디오 편집 프로그램인 쿨에디트 프로(Cool Edit Pro)를 이용하여 무 잡음의 음성 데이터에 Brown 잡음을 혼합하여 생성된 잡음-음성 데이터를 사용하였다. 음성 인식 알고리즘으로는 입술인식과 동일하게 HMM을 사용하였으며, 사용된 HMM 모델은 3 stateleft-to-right 전이형태의 HMM 모델을 사용하여 학습-인식 실험을 하였다.
입력 영상은 320×240 크기에 24비트 RGB 칼라 값을 갖는 프레임을 이용하였다
첫 번째 인식 실험에서는 입술인식과 음성인식을 모두 화자독립으로 수행하였으며 학습 데이터는 15명, 실험데이터는 2명으로 하였다. 음성인식의 경우, 5개의 단어를 연속 발음한 16비트 PCM형식의 AVI 포맷의 음성 데이터를 사용하였고, 이 음성 파일에 오디오 편집 프로그램인 쿨에디트 프로(Cool Edit Pro)를 이용하여 무 잡음의 음성 데이터에 Brown 잡음을 혼합하여 생성된 잡음-음성 데이터를 사용하였다.
실험에 사용된 립리딩 학습데이터는 시스템 온라인 상태에서 저가의 범용 PC 카메라를 이용하여 영상을 입력받아 얼굴영역을 검출하고 검출된 얼굴 영역 내에서 입술영역을 검출한후 실시간으로 학습하였다. 학습데이터 단어로는 오디오 및 CD플레이어를 작동시키기 위해 필요한 단어들(재생, 정지, 종료, 앞으로, 뒤로)을 사용하였다. 입력되는 영상은 15 Frame/sec 이고, 저장되는 입술정보는 대략 1020 프레임의 이미지를 얻었다.
화자종속 립리딩 시스템은 앞 절의 화자독립 립리딩 시스템과 동일한 방법과 조건으로 수행하였으며 학습데이터는 8회 발성한 영상 및 음성을 사용하였고, 실험데이터는 2회 발성한 영상과 음성으로 하였다. 화자종속 립리딩만의 실험결과 95%의 인식률을 보였고, 음성만을 인식했을 경우 표 4와 같이 Brown 잡음의 비율에 따라서 인식률이 변하는 데이터와 합병하여 실험하였다.

데이터처리

입력 영상은 320×240 크기에 24비트 RGB 칼라 값을 갖는 프레임을 이용하였다. 구현 프로그램으로는 Visual C++6.0을 이용하여 얼굴영역 검출과 입술 영역 검출을 구현하였으며 학습 및 인식을 위하여 HTK를 사용하였다.
본 논문에서는 입술영역을 검출하기 위하여 색도 평균 마스크를 이용하였다. 입술은 얼굴의 크기에 비례적으로 있으므로 마스크의 크기를 얼굴 영역의 X축의 1/4 크기로 하였다.

이론/모형

3) 얼굴 확률 분포 영역에서 평균 이동 알고리즘(Mean shift algorithm)을 이용하여 얼굴 영역의 검출과 추적을 수행한다.
개략적인 입술 영역을 검출한 후, PCACPrinciple Component Analysis)를 이용하여 입술 파라미터를 추출하기 위해 일정한 입술 위치와 크기를 갖는 입술 영역을 추출한다. 그림 7(b)와 같이 정확한 입술의 분할과 일정한 크기의 입술 영역을 추출하기 위해 입술의 양 끝점을 검출한다.
또한 이와 함께 평균 이동 알고리즘(Mean shift Algorithm)을 이용하여 얼굴 검출과 움직이는 화자를 추적하는데 사용하였다. 검출된 얼굴 영역에서는 입술 검출을 위하여 색도와 명도를 이용하였고, 검출된 입술 영역에서 학습과 인식에 필요한 영상 정보를 추출하기 위하여 PCA(Principal Component Analysis)를 사용하였다. 인식 알고리즘으로는 HMM(Hidden Markov Model)을 이용하였고, HTK(Hidden markov Tool Kit)를 사용하여 학습과 테스트 실험을 하였다.
추출한 입술의 양 끝점 의 두 좌표는 입의 중앙 좌표를 결정하는데 이용되고 결정된 중앙좌표를 기준으로 70×50크기의 정규화 된 이미지로 저장한다. 검출된 입술 영역에서 PCA(PrincipleComponent Analysis)를 이용하여 입술의 파라미터를 구하기 위해 그레이 레벨의 PGM(Portable Gray Map) 파일로 저장한다. 그림 8은 "다음"이라는 발음을 하였을 경우에 입력영상에서 추출되는 28프레임의 입술영역이다.
또한 기존의 립리딩시스템들이 대부분 고성능의 비디오 카메라를 사용하여 영상을 획득했던 것에 대하여 이를 범용으로 사용되 는 저가의 PC 카메라로 대신하였으며, 입술영역 검출의 전단계인 얼굴영역 검출에서부터 립리딩인식 실험까지의 과정이 한번에 순차적으로 이루어지도록 시스템을 구성하였다. 구현된 립리딩 시스템은 얼굴과 입술 영역 검출을 위하여 색도(Hue) 히스토그램 모델을 이용하였다. 색도(Hue)는 RGB 컬러가 조명 의 영 향에 민감하다는 단점을 보완할 수 있기 때문에 영상 인식에서 많이 사용되는 컬러 모델이기도 하다.
색도(Hue)는 RGB 컬러가 조명 의 영 향에 민감하다는 단점을 보완할 수 있기 때문에 영상 인식에서 많이 사용되는 컬러 모델이기도 하다. 따라서 얼굴과 입술 영역 검출을 위하여 입력 영상 안에서 픽셀들에 대한 색도 값의 분포를 나타내는 색도 히스토그램 모델을 이용하였다. 먼저 RGB 값을 갖는 입력 영상에서 얼굴이 위치해 있을 가능성이 있는 영역을 얼굴의 색도 확률분포 영역으로 정의하고, 이 영역을 구하기 위하여 입력 영상의 첫 프레임에서 얼굴색의 HSI 색도(Hue) 히스토그램 모델을 만든다.
HSI 컬러로 변환된 영상에 이미 만들어진 얼굴 색도 히스토그램 모델을 적용하여 얼굴의 색도 확률 분포 영역을 검출하였다. 또한 이와 함께 평균 이동 알고리즘(Mean shift Algorithm)을 이용하여 얼굴 검출과 움직이는 화자를 추적하는데 사용하였다. 검출된 얼굴 영역에서는 입술 검출을 위하여 색도와 명도를 이용하였고, 검출된 입술 영역에서 학습과 인식에 필요한 영상 정보를 추출하기 위하여 PCA(Principal Component Analysis)를 사용하였다.
Viterbi 알고리즘은 최적의 상태 열과 그 상태 열을 통한 확률을 구하는데 사용되 고, Baum-Welch 재 추정 알고리즘은 초기 모델이 주어졌을 때, 학습 데이터를 사용하여 관측 심볼의 발생확률을 최대화하기 위해 HMM 파라미터 λ를 반복적으로 학습시키는데 사용된다. 본 논문에서는 HMM 알고리즘이 적용된 HTK(Hidden Markov Toolkit)을 이용하여 학습과 인식을 하였다. HTK는 HMM인식 알고리즘을 수행할 수 있도록 HMM 모델 생성, 모델의 재추정과 학습 및 인식, 그리고 인식결과 분석에 필요한 라이브러리를 지원하고 있는 인식관련 툴킷이다.
얼굴의 색도 확률 분포 영상에서 평균 이동 알고리즘을 사용하여 움직이는 화자의 얼굴영역을 추적할 수 있게 하였다. 얼굴 영역 검출과 추적을 위한 방법은 그림 4와 같은 순서로 진행한다.
음성인식의 경우, 5개의 단어를 연속 발음한 16비트 PCM형식의 AVI 포맷의 음성 데이터를 사용하였고, 이 음성 파일에 오디오 편집 프로그램인 쿨에디트 프로(Cool Edit Pro)를 이용하여 무 잡음의 음성 데이터에 Brown 잡음을 혼합하여 생성된 잡음-음성 데이터를 사용하였다. 음성 인식 알고리즘으로는 입술인식과 동일하게 HMM을 사용하였으며, 사용된 HMM 모델은 3 stateleft-to-right 전이형태의 HMM 모델을 사용하여 학습-인식 실험을 하였다. 학습과 인식 도구로는 입술 인식과 음성인식 모두 HTK를 이용하였다.
음성-입술을 합병하는 방법은 음성과 입술정보를 각각 인식한 후 인식 결과를 합병하는 방법[8]을 사용하였다. 입술인식률(Mlip)과 음성인식률(Mspeech) 결과에 잡음도에 따른 가변적 가중치(a)를 주어 인식률을 합병하여 식(27)과 같이 합병 인식 결과(M)를 구하였다.
얼굴 영역 검출에서는 입력 영상의 일정한 크기의 영역에서 픽셀들의 색도를 이용하여 색도 히스토그램 모델을 만들고 이를 색도 영상에 적용하여 얼굴의 색도 확률 분포 영역을 추출하였다. 이와 함께 얼굴영역의 검출과 움직이는 화자의 얼굴을 추적하기 위한 방법으로는 평균 이동 알고리즘을 사용하였다.
검출된 얼굴 영역에서는 입술 검출을 위하여 색도와 명도를 이용하였고, 검출된 입술 영역에서 학습과 인식에 필요한 영상 정보를 추출하기 위하여 PCA(Principal Component Analysis)를 사용하였다. 인식 알고리즘으로는 HMM(Hidden Markov Model)을 이용하였고, HTK(Hidden markov Tool Kit)를 사용하여 학습과 테스트 실험을 하였다. PCA를 통하여 주줄된 특징 계수는 HTK에 적용할 수 있도록 데이터의 형식을 변형하여 사용하였다.
HTK는 HMM인식 알고리즘을 수행할 수 있도록 HMM 모델 생성, 모델의 재추정과 학습 및 인식, 그리고 인식결과 분석에 필요한 라이브러리를 지원하고 있는 인식관련 툴킷이다. 인식에 필요한 특징 데이터는 PCA에서 구한 특징 계수들을 HTK 파일 형식에 맞게 변환하여 이용하였고 사용된 HMM 모델은 3-stateleft-to-right 전이형태의 모델을 사용하였다. 그림 11과 12는 본 논문에서 실험한 HTK 진행 과정과 실험에 사용된 HTK 파일 형식이다.
음성 인식 알고리즘으로는 입술인식과 동일하게 HMM을 사용하였으며, 사용된 HMM 모델은 3 stateleft-to-right 전이형태의 HMM 모델을 사용하여 학습-인식 실험을 하였다. 학습과 인식 도구로는 입술 인식과 음성인식 모두 HTK를 이용하였다. 실험결과 화자독립 립리딩만의 인식률은 40%의 결과를 보였고, 음성만을 인식했을 경우 표 2와 같이 Brown 잡음의 비율에 따라 인식률이 변화하는 음성 데이터와 합병하여 실험하였다.

성능/효과

PCA를 통하여 주줄된 특징 계수는 HTK에 적용할 수 있도록 데이터의 형식을 변형하여 사용하였다. 본 논문에서 구현한 립리딩 시스템을 이용하여 잡음이 있는 음성과 합병하여 인식률 실험을 해 본 결과, 음성 잡음 비에 따라서 음성 인식률을 약 40~85%까지 향상시킬 수 있었고, 립리딩 시스템만의 자체 인식 실험 결과 화자 종속일 경우 90%의 인식률을 보였다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

PCA와 HMM을 이용한 실시간 립리딩 시스템의 설계 및 구현
Design and Implementation of a Real-Time Lipreading System Using PCA & HMM 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

PCA와 HMM을 이용한 실시간 립리딩 시스템의 설계 및 구현 Design and Implementation of a Real-Time Lipreading System Using PCA & HMM 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

이 논문을 인용한 문헌

저자의 다른 논문 :

이지근 (6) 정성태 (59) 이상설 (16)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

PCA와 HMM을 이용한 실시간 립리딩 시스템의 설계 및 구현
Design and Implementation of a Real-Time Lipreading System Using PCA & HMM 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper