소음환경에서의 음성인식 문제점으로 인해 1990년대 중반부터 음성정보와 영양정보를 결합한 AVSR(Audio Visual Speech Recognition) 시스템이 제안되었고, Lip Reading은 AVSR 시스템에서 시각적 특징으로 사용되었다. 본 연구는 효율적인 AVSR 시스템을 구축하기 위해 입 모양만을 이용한 발화 단어 인식률을 극대화하는데 목적이 있다. 본 연구에서는 입 모양 인식을 위해 실험단어를 발화한 입력 영상으로부터 영상의 전처리 과정을 수행하고 입술 영역을 검출한다. 이후 DNN(Deep Neural Network)의 일종인 CNN(Convolution Neural Network)을 이용하여 발화구간을 검출하고, 동일한 네트워크를 사용하여 입 모양 특징 벡터를 추출하여 HMM(Hidden Markov Mode)으로 인식 실험을 진행하였다. 그 결과 발화구간 검출 결과는 91%의 인식률을 보임으로써 Threshold를 이용한 방법에 비해 높은 성능을 나타냈다. 또한 입모양 인식 실험에서 화자종속 실험은 88.5%, 화자 독립 실험은 80.2%로 이전 연구들에 비해 높은 결과를 보였다.
소음환경에서의 음성인식 문제점으로 인해 1990년대 중반부터 음성정보와 영양정보를 결합한 AVSR(Audio Visual Speech Recognition) 시스템이 제안되었고, Lip Reading은 AVSR 시스템에서 시각적 특징으로 사용되었다. 본 연구는 효율적인 AVSR 시스템을 구축하기 위해 입 모양만을 이용한 발화 단어 인식률을 극대화하는데 목적이 있다. 본 연구에서는 입 모양 인식을 위해 실험단어를 발화한 입력 영상으로부터 영상의 전처리 과정을 수행하고 입술 영역을 검출한다. 이후 DNN(Deep Neural Network)의 일종인 CNN(Convolution Neural Network)을 이용하여 발화구간을 검출하고, 동일한 네트워크를 사용하여 입 모양 특징 벡터를 추출하여 HMM(Hidden Markov Mode)으로 인식 실험을 진행하였다. 그 결과 발화구간 검출 결과는 91%의 인식률을 보임으로써 Threshold를 이용한 방법에 비해 높은 성능을 나타냈다. 또한 입모양 인식 실험에서 화자종속 실험은 88.5%, 화자 독립 실험은 80.2%로 이전 연구들에 비해 높은 결과를 보였다.
Due to speech recognition problems in noisy environment, Audio Visual Speech Recognition (AVSR) system, which combines speech information and visual information, has been proposed since the mid-1990s,. and lip reading have played significant role in the AVSR System. This study aims to enhance recogn...
Due to speech recognition problems in noisy environment, Audio Visual Speech Recognition (AVSR) system, which combines speech information and visual information, has been proposed since the mid-1990s,. and lip reading have played significant role in the AVSR System. This study aims to enhance recognition rate of utterance word using only lip shape detection for efficient AVSR system. After preprocessing for lip region detection, Convolution Neural Network (CNN) techniques are applied for utterance period detection and lip shape feature vector extraction, and Hidden Markov Models (HMMs) are then used for the recognition. As a result, the utterance period detection results show 91% of success rates, which are higher performance than general threshold methods. In the lip reading recognition, while user-dependent experiment records 88.5%, user-independent experiment shows 80.2% of recognition rates, which are improved results compared to the previous studies.
Due to speech recognition problems in noisy environment, Audio Visual Speech Recognition (AVSR) system, which combines speech information and visual information, has been proposed since the mid-1990s,. and lip reading have played significant role in the AVSR System. This study aims to enhance recognition rate of utterance word using only lip shape detection for efficient AVSR system. After preprocessing for lip region detection, Convolution Neural Network (CNN) techniques are applied for utterance period detection and lip shape feature vector extraction, and Hidden Markov Models (HMMs) are then used for the recognition. As a result, the utterance period detection results show 91% of success rates, which are higher performance than general threshold methods. In the lip reading recognition, while user-dependent experiment records 88.5%, user-independent experiment shows 80.2% of recognition rates, which are improved results compared to the previous studies.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구는 효율적인 AVSR 시스템을 구축하기 위해 입 모양만을 이용한 발화 단어 인식률을 극대화하는 동시에 하나의 네트워크로 발화구간 검출과 입 모양 인식이 가능한지 확인하는데 목적이 있다. 이 두 가지 목적을 달성하기 위해 발화구간 자동 검출로 학습시킨 CNN(Convolution Neural Network)을 이용하여 발화구간 검출 실험을 하였고, 동일한 네트워크로 입 모양 특징을 추출하였다.
따라서 본 연구에서 제안한 방법을 검토하기 위한 발화 단어에 대한 데이터베이스를 자체적으로 10개 단어에 대해 10명으로부터 수집한 동영상으로 구축하였다. 본 논문에서 제안한 실험의 주목적은 모바일 환경에서 Wake-Up 기능이 가능한 명령어들에 대해 입모양만을 이용한 발화 단어 인식이다. Wake-Up 기능의 시작을 알리는 “하이”와 다양한 모바일 명령어의 합성어를한 단어로 구성하여 데이터베이스를 구축하였다.
제안 방법
본 연구는 효율적인 AVSR 시스템을 구축하기 위해 입 모양만을 이용한 발화 단어 인식률을 극대화하는 동시에 하나의 네트워크로 발화구간 검출과 입 모양 인식이 가능한지 확인하는데 목적이 있다. 이 두 가지 목적을 달성하기 위해 발화구간 자동 검출로 학습시킨 CNN(Convolution Neural Network)을 이용하여 발화구간 검출 실험을 하였고, 동일한 네트워크로 입 모양 특징을 추출하였다. 추출된 입 모양 특징을 차원 축소하여 HMM(Hidden Markov Model)으로 인식 실험을 진행하였고, 그 결과 평균 인식률이 80.
기존의 방법들을 분석 평가한 본 연구의 이전 연구에서는 입술 영역의 화소 단위 변화량보다 입술 특정 부위의 위치 변화를 검출하는 것이 더 정확한 입술의 움직임을 추정할 수 있으며, 단어 인식률이 개선됨을 보여주었다[1]. 상대적으로 낮은 인식률을 보이는 고립 단어에 대해 우리는 다양한 특징점의 성능을 DTW(Dynamic Time Wrapper)를 사용해 점검하였다. 입술 영역을 화소 단위 혹은 화소를 지역별 격자 단위로 묶어 명암, Oprical Flow, Sobel 연산자를 사용하는 경우, 명암 잡음으로 인하여 검출된 입술 영역에 대해 영상 흔들림 현상이 관찰되기 때문에 인식률 저하 현상이 발생하였다.
위에서 제기된 입술 영역 혹은 특정 입술 부위 검출의 어려움과 움직임 구간 검출 저해 문제를 동시에 해결하기 위해 우리는 CNN을 이용한 발화구간 검출 방법과 그와 동일한 네트워크를 이용한 입술 움직임 특징 추출을 제안한다. 본 논문에서는 동일한 네트워크를 사용할 경우, 학습시간 및 실행시간을 단축시킬 수 있으며, 발화 구간 검출과 입 모양 인식에 대한 별도의 특징 처리가 불필요하다는 연구결과를 도출하였다.
따라서 이전 연구들에서 시도되었던 별도의 입술 윤곽 추정 등의 특징생성 과정이 없고, 영상 흔들림으로 인한 입술 영역의 위치 변화에 강인한 특징을 학습과정에서 자동으로 생성할 수 있다. 그리고 Lip Reading의 전처리에 포함되나 Lip Reading을 위한 특징점에 공통적으로 의존하는 기존 입술 발화 구간 검출 방법을 대신하기 위해, Lip Reading 특징점 추출과 함께 CNN을 사용하는 입술발화구간 검출도 제안한다.
이후, 밝기 분포가 특정한 부분으로 치우친 것을 해소하기 위해 넓은 영역에 걸쳐 밝기분포를 넓히는 HistogramEqualization을 Y 채널에 대해 수행하였다.
본 연구에서 CNN을 이용한 입 모양 인식을 위해 [Fig. 1]과 같이 전처리, 입술 영역 검출, 발화구간 검출 및 특징 생성을 수행 후, 차원 축소를 거쳐 HMM으로 고립단어 인식 실험을 수행하였다.
모바일로 촬영된 크기 1080x1920으로 입력된 영상 데이터에 대해 크기를 줄이기 위하여 280x500으로 크기를 축소시킨다. 그리고 휘도 보정을 위해 YCbCr 색상공간 변환을 거친 후 히스토그램 평활화를 수행하였다. RGB 색상공간 영상은 R, G, B 각각에 대한 정보를 모두 가지고 있기 때문에 정보량이 많아지고 주변 조명의 변화에 상대적으로 민감하다.
전처리 과정 후 입술 영역 검출을 위해 눈 위치에 기반하여 입술 영역을 검출하였다. 먼저 Viola와 Jones가 제안한 Adaboost 알고리즘을 이용하여 얼굴 영역을 검출한다.
이렇게 검출된 입술 영역 영상은 개인 간 눈과 눈 사이의 거리가 모두 다르고, 영상 잡음으로 인하여 동일 화자에서도 검출된 입술 영역의 크기가 모두 다르다. 따라서 동일한 크기로 이미지 크기를 정규화 하였고, 본 연구에서는 이후 CNN에서 사용할 이미지의 크기인 32x32로 크기를 정규화 하였다.
본 연구에서는 5 × 5 크기의 Convolution 커널을 사용하였고, 필터는 가우시안 필터를 사용하였다.
본 연구에서는 3 × 3 Pooling 커널을 사용하였다.
본 연구에서는 [Fig. 5]와 같이 Convolution 연산과 Pooling 연산을 담당하는 레이어를 4번 중첩 후 여기서 출력된 데이터를 Fully-Connected Layer에 입력시켜 최종적으로 발화구간과 비발화구간으로 출력하였다.
Wake-Up 기능의 시작을 알리는 “하이”와 다양한 모바일 명령어의 합성어를한 단어로 구성하여 데이터베이스를 구축하였다.
따라서 1024차원의 특징점 벡터는 n차원의 벡터로 축소된다. 본 연구에서는 10차원 벡터로 축소하였다.
그러나 시계열 데이터는 비선형적인 특성을 갖는 신호에서 얻어지는 데이터들의 불확실성 때문에 확률모델을 주로 사용한다. 본 연구에서는 시계열 데이터에 특화된 HMM을 사용하여 인식 실험을 진행한다[2,4,7,9,10,12,28].
발화구간 검출은 화자독립, 10-fold validation으로 검증하였다. 총 1000개의 발화영상 중에서 9명이 10개의 실험단어를 10회 발화한 900개의 발화 영상을 학습용으로, 1명이 10개의 실험단어를 10회 발화한 100개의 발화영상을 테스트용으로 사용하였다.
이를 화자 10명에 대해 동일한 방법으로 10번 반복하여 획득한 10개의 인식률에 대해 평균을 계산하였다. 또한 발화구간 Labeling은 모든 데이터에 대해 수동으로 검출하였다.
입 모양 인식실험은 화자독립과 화자종속 실험으로 구분하여 동일하게 10-fold validation으로 검증하였다. 화자 독립 실험은 발화구간 검출 실험 방법과 동일하게 진행하였다.
대상 데이터
실험 DB는 일반적인 스마트폰 동영상 영상 규격인 1080p(1920 × 1080)를 30fps로 촬영하였다.
실험단어는 “하이갤럭시(w1)”, “하이알라딘(w2)”, “하이스마트폰(w3)”, “하이카메라(w4)”, “하이메시지(w5)”, “하이카카오톡(w6)”, “하이전화걸기(w7)”, “하이내비게 이션(w8)”, “하이이메일(w9)”, “하이시스트란(w10)”으로 스마트폰 음성명령과 관련된 10개의 단어로 구성하였다.
AVSR 시스템을 위한 영어 기반의 학술용 오픈 데이터베이스는 다양한 반면, 한국어 기반 학술용 오픈 AVSR 데이터베이스는 단순한 숫자에 대한 발화 정도로 국한되어 있다. 따라서 본 연구에서 제안한 방법을 검토하기 위한 발화 단어에 대한 데이터베이스를 자체적으로 10개 단어에 대해 10명으로부터 수집한 동영상으로 구축하였다. 본 논문에서 제안한 실험의 주목적은 모바일 환경에서 Wake-Up 기능이 가능한 명령어들에 대해 입모양만을 이용한 발화 단어 인식이다.
실험단어는 “하이갤럭시(w1)”, “하이알라딘(w2)”, “하이스마트폰(w3)”, “하이카메라(w4)”, “하이메시지(w5)”, “하이카카오톡(w6)”, “하이전화걸기(w7)”, “하이내비게 이션(w8)”, “하이이메일(w9)”, “하이시스트란(w10)”으로 스마트폰 음성명령과 관련된 10개의 단어로 구성하였다. 스마트폰을 가장 많이 사용하는 연령대를 고려하여 피험자는 모두 20대와 30대로 총 10명(남자 5, 여자 5)이며, 10개의 단어에 대해 10회씩 발화하여 총 1000개의 DB를 구축하였다. 실험 DB는 일반적인 스마트폰 동영상 영상 규격인 1080p(1920 × 1080)를 30fps로 촬영하였다.
발화구간 검출은 화자독립, 10-fold validation으로 검증하였다. 총 1000개의 발화영상 중에서 9명이 10개의 실험단어를 10회 발화한 900개의 발화 영상을 학습용으로, 1명이 10개의 실험단어를 10회 발화한 100개의 발화영상을 테스트용으로 사용하였다. 이를 화자 10명에 대해 동일한 방법으로 10번 반복하여 획득한 10개의 인식률에 대해 평균을 계산하였다.
화자 독립 실험은 발화구간 검출 실험 방법과 동일하게 진행하였다. 화자종속 실험을 위해 1명이 10개의 실험단어를 9회 발화한 90개의 발화 영상을 학습용으로, 10개의 실험단어를 1회 발화한 10개의 발화 영상을 테스트용으로 사용하였다. 이 과정을 10명에 대해 동일한 방법으로 진행하여 획득한 10개의 인식률에 대해 평균을 계산하였다.
데이터처리
총 1000개의 발화영상 중에서 9명이 10개의 실험단어를 10회 발화한 900개의 발화 영상을 학습용으로, 1명이 10개의 실험단어를 10회 발화한 100개의 발화영상을 테스트용으로 사용하였다. 이를 화자 10명에 대해 동일한 방법으로 10번 반복하여 획득한 10개의 인식률에 대해 평균을 계산하였다. 또한 발화구간 Labeling은 모든 데이터에 대해 수동으로 검출하였다.
화자종속 실험을 위해 1명이 10개의 실험단어를 9회 발화한 90개의 발화 영상을 학습용으로, 10개의 실험단어를 1회 발화한 10개의 발화 영상을 테스트용으로 사용하였다. 이 과정을 10명에 대해 동일한 방법으로 진행하여 획득한 10개의 인식률에 대해 평균을 계산하였다.
이론/모형
전처리 과정 후 입술 영역 검출을 위해 눈 위치에 기반하여 입술 영역을 검출하였다. 먼저 Viola와 Jones가 제안한 Adaboost 알고리즘을 이용하여 얼굴 영역을 검출한다. Adaboost 알고리즘은 Haar-Wavelet 특징을 이용하여 적절한 약 분류기를 선택하고 이에 가중치를 부여하는 알고리즘이다[22].
우리는 발화구간 검출을 위해 Alext Krizhevsky가 CIFAR-10 데이터 셋을 분류하기 위해 제안한 네트워크 모델을 사용하였다[26].
인식기는 음성과 같은 시계열 데이터 인식 문제에서 가장 뛰어난 성능을 보이는 HMM을 사용하였다. 입력되는 이미지 프레임 별로 검출되는 발화구간 검출과는 달리, 단어 인식에 이미지 프레임의 시계열 정보가 중요하다.
본 연구에서는 CNN을 이용한 실험을 진행하기 위해 CNN의 대표적인 Tool인 CAFFE를 이용하였다. CAFFE는 BVLC에서 공개 소프트웨어로 배포하고 있는 소프트웨어로 핵심 GPU는 c++언어와 CUDA로 작성되어 있으며, 핵심코드를 고칠 필요없이 Protobuf라는 텍스트 설정 파일만을 변경함으로써 CNN의 구조를 바꾸는 것이 가능한 것이 특징이다.
성능/효과
이 두 가지 목적을 달성하기 위해 발화구간 자동 검출로 학습시킨 CNN(Convolution Neural Network)을 이용하여 발화구간 검출 실험을 하였고, 동일한 네트워크로 입 모양 특징을 추출하였다. 추출된 입 모양 특징을 차원 축소하여 HMM(Hidden Markov Model)으로 인식 실험을 진행하였고, 그 결과 평균 인식률이 80.2%로 나타났다.
입술 움직임 정보를 입술 윤곽을 근사화한 좌표를 이용해 추출하는 경우가 더 주효한 특징이 되는데, 특히 입술의 가로, 세로 비율이 발화 단어를 인식하는 가장 중요한 정보임을 재확인하였다. 모음에 주도적으로 영향을 받는 음성인식과는 달리 특정 자음 발화시 발생하는 입술의 닫힘 현상이 단어인식에 주요한 특징이 될 수 있음을 확인하였다.
두 번째, Lip Reading의 자동화에 필수적인 입술 움직임 구간 검출 역시 입술의 윤곽 검출이나 입술 영역 영상값 등에 종속적[1,16,17]인데 영상 잡음으로 인한 낮은 검출 성공률이 움직임 구간 검출의 성공률마저 저해하는 것으로 나타났다.
위에서 제기된 입술 영역 혹은 특정 입술 부위 검출의 어려움과 움직임 구간 검출 저해 문제를 동시에 해결하기 위해 우리는 CNN을 이용한 발화구간 검출 방법과 그와 동일한 네트워크를 이용한 입술 움직임 특징 추출을 제안한다. 본 논문에서는 동일한 네트워크를 사용할 경우, 학습시간 및 실행시간을 단축시킬 수 있으며, 발화 구간 검출과 입 모양 인식에 대한 별도의 특징 처리가 불필요하다는 연구결과를 도출하였다.
화자종속실험에서 “하이전화걸기(w7)”가 92%로 가장 높은 인식률을 보였고, “하이알라딘(w2)”, “하이이메일 (w9)”, “하이시스트란(w10”이 각각 86%로 인식률이 낮았다.
검출 실험 결과 Threshold를 이용한 검출 결과인 67.44%보다 높은 결과를 나타냈다. 6번 화자와 10번 화자를 제외한 나머지 화자들은 인식결과가 90% 이상으로나타났으며, 6번화자와 10번화자는 각각 74.
44%보다 높은 결과를 나타냈다. 6번 화자와 10번 화자를 제외한 나머지 화자들은 인식결과가 90% 이상으로나타났으며, 6번화자와 10번화자는 각각 74.45%와 79.14%로 비교적 검출 성능이 낮았다. 실험 결과는 Threshold를 이용한 발화구간 검출 방법의 한계를 CNN을 이용한 발화구간 검출 방법으로 극복할 수 있는 것을 보여준다.
14%로 비교적 검출 성능이 낮았다. 실험 결과는 Threshold를 이용한 발화구간 검출 방법의 한계를 CNN을 이용한 발화구간 검출 방법으로 극복할 수 있는 것을 보여준다. [Table 3]은 전체 데이터에 대한 발화구간 검출의 Confusion Matrix이다.
CNN을 이용하여 특징을 추출하고 HMM으로 인식실험을 진행한 실험 결과 [Table 4], [Fig. 7]와 같이 화자 종속 실험에서 평균 88.5%, 화자독립 실험에서 평균 80.2%로 기존 방법들을 분석 평가한 이전 연구[1]에 비해 월등히 높은 인식 성능을 나타냈다.
특히 이전 연구에서 평균 인식률이 가장 높았던 좌표 기반 특징벡터로 인식 실험 한 실험 단어 중 가장 낮은 성능을 보인 “하이전화걸기(w7)”의 인식 성능이 본 연구에서 제안한 방법을 이용한 인식 실험에서 압도적으로 높아진 것을 확인할 수 있었다.
화자 간 변별력에 대해 영향을 받지 않는 화자 종속 실험 결과에서 가장 낮은 인식률을 보인 실험단어들의 공통적인 특징은 같은 모음이 연속적으로 나타난다는 것으로 관찰되었다. “하이알라딘(w2)”과 “하이이메일(w9)”은 각각 모음 /ㅏ/와 /ㅣ/가 연속적으로 관찰되고, “하이 시스트란(w10)”은 모음 /ㅣ/와 /ㅡ/가 연속적으로 관찰된다.
또한, 각 특징을 비교한 이전 연구결과에서는 입술소리 /ㅁ/, /ㅂ/, /ㅍ/가 포함된 특정 실험 단어의 인식률이 높게 나타난 반면, 본 연구에서는 입술 소리가 포함된 특정 실험 단어의 인식 성능이 특별히 높은 인식률을 나타내지 않았다. 이는 입술 소리를 비발화구간으로 인식한 것으로 인해 입술 소리의 입 모양 특징이 유실되었기 때문으로 판단된다.
본 논문에서는 입 모양 인식을 위해서 CNN 기반의 발화구간 검출을 하는 실험 과정을 통하여 하나의 문제를 위해 학습된 CNN을 종속관계에 있는 다른 문제에도 적용시킬 수 있다는 시사점을 발견하게 되었다.
AVSR 시스템에서 Lip Reading System의 성능은 전체 시스템의 성능을 결정짓는 핵심적인 요소이다. 본 연구는 발화구간 검출과 입 모양 인식과 같은 유사하지만 종속적인 문제에서 동일한 CNN 구성을 이용할 수 있는 가능성도 보였다. 그러나 화자종속 실험과 화자 독립실험의 실험 결과의 인식률 추이가 상이한 것으로 관찰되며, 화자독립 실험의 인식률 편차가 상대적으로 컸다.
본 연구는 발화구간 검출과 입 모양 인식과 같은 유사하지만 종속적인 문제에서 동일한 CNN 구성을 이용할 수 있는 가능성도 보였다. 그러나 화자종속 실험과 화자 독립실험의 실험 결과의 인식률 추이가 상이한 것으로 관찰되며, 화자독립 실험의 인식률 편차가 상대적으로 컸다. 이는 추출된 특징 벡터의 클래스 간 변별력이 화자 간 변별력보다 높은 것으로 판단된다.
후속연구
발화구간을 비발화구간으로 인식한 경우는 입술소리로 인한 것으로 분석되었다. CNN을 이용하여 발화구간을 검출하는 것은 대체적으로 만족스러운 결과로 나타났으나, 입술소리와 비발화구간을 구분하기 위한 추가적인 연구가 필요하다.
이는 추출된 특징 벡터의 클래스 간 변별력이 화자 간 변별력보다 높은 것으로 판단된다. 따라서 각 화자의 발화 시 나타나는 입술 모양의 편차를 극복할 수 있는 추가 연구가 필요하다.
마지막으로 이 연구를 통해 소음환경에서의 음성인식 성능 향상에 충분히 도움이 될 수 있을 것이라는 예측을 할 수 있었고, 앞서 기술한 문제를 해결하고, 추가적인 연구가 진행된다면 좀 더 강인한 AVSR 시스템을 구축할 것으로 기대한다.
질의응답
핵심어
질문
논문에서 추출한 답변
음성 인터페이스의 장점은 무엇인가?
인간과 컴퓨터의 상호작용 수단 중 하나인 음성은 인간과 기계 간 정보교환의 효율적인 방법 중 하나이다. 음성 인터페이스는 기존의 마우스, 키보드를 사용하는 사용자 인터페이스보다 더 직관적이고 다양한 형태의 상호작용이 가능하다는 이점이 있다[1].
음성인식이 가진 문제점은 무엇인가?
최근 음성인식기술은 이미 상용화되어 다양한 제품에 적용하여 출시되고 있다. 그러나 음성인식은 소음이 존재하는 실제 환경에서 인식률이 하락하는 문제점이 있다. 이를 극복하기 위해 음성 신호만으로 여러 가지 방법을 적용시켜 소음 환경에서 음성 인식률의 하락을 막는 방법들이 연구되어 왔다[2].
입술의 가로, 세로 비율의 변화를 통해 입술의 움직임을 검출하는 방법이 가진 두 가지 문제점은 무엇인가?
그러나 입술의 가로, 세로 비율의 변화를 통해 입술의 움직임을 검출하는 방법은 다음과 같은 문제점을 안고 있다. 첫 번째, 입 모양 인식 시스템에서 입술 윤곽을 검출하는 방법 및 입술 영역의 움직임, edge 정보, 영상 정보 등을 추출하는 단계는 정확성과 안정성에 있어 매우 중요한 문제이다[14]. 그러나 영상 처리 시 입술 영역의 검출에 대한 많은 시도들이 이루어져 있으나, 정확한 입술 영역 검출은 여전히 어려운 문제이다[13,14,15]. 기존 우리의 연구에서 검출된 입술 영역의 흔들림 문제가 인식률 저하로 나타나는 문제가 발견되었다.
두 번째, Lip Reading의 자동화에 필수적인 입술 움직임 구간 검출 역시 입술의 윤곽 검출이나 입술 영역 영상값 등에 종속적[1,16,17]인데 영상 잡음으로 인한 낮은 검출 성공률이 움직임 구간 검출의 성공률마저 저해하는 것으로 나타났다.
참고문헌 (28)
Y. K. Kim, J. G. Lim, and M. H. Kim, “Feature Generations Analysis of Lip Image Streams for Isolate Words Recognition,” International Journal of Multimedia and Ubiquitous Engineering, Vol. 10, No. 10, pp. 337-346, 2015.
Luettin, Juergen, and Neil A. Thacker, “Speechreading using probabilistic models,” Computer Vision and Image Understanding, Vol. 65, No. 2, pp. 163-178, 1997.
E. K. Kim, Y. D. Kwon, and J. S. Lee. "Neural Network Vowel-Recongition Jointly Using Voice Features and Mouth Shape Image". Korean Institute of Information Scientists and Engineers Congress 1996, Vol. 23 No. 2A, pp. 693-696, 1996.
J. S., Lee, and C. H. Park, "Automatic Lipreading Using Color Lip Images and Principal Component Analysis," Journal of Information Processing Systems B, Vol. 15, No. 3 pp. 229-236, 2008.
Shaikh, A. A., Kumar, D. K., Yau, W. C., Azemin, M. C., and Gubbi, J, "Lip reading using optical flow and support vector machines," Image and Signal Processing (CISP), 2010 3rd International Congress on., Vol. 1, 2010.
Shaikh, Ayaz A., Dinesh K. Kumar, and Jayavardhana Gubbi, “Automatic visual speech segmentation and recognition using directional motion history images and Zernike moments,” The Visual Computer, Vol. 29, No. 10, pp. 969-982, 2010.
Lan, Y., Theobald, B. J., Harvey, R., Ong, E. J., and Bowden, R, "Improving visual features for lip-reading.," In AVSP 2010, International Conference on Audio-Visual Speech Processing, pp. 7-3, 2010.
Kim Y. K., Lim J. G., and Kim M. H., "Lip Reading Algorithm Using Bool Matrix and SVM," International Conference on Small & Medium Business, (in Korean), (2015), pp. 267-268.
Sujatha, B., and T. Santhanam, "A novel approach integrating geometric and Gabor wavelet approaches to improvise visual lip-reading," Int. J. Soft Comput 5, pp. 13-18, 2010.
Ibrahim, M. Z., and D. J. Mulvaney, "Robust geometrical-based lip-reading using Hidden Markov models," EUROCON, 2013 IEEE, pp. 2011-2016, 2013.
Werda, Salah, Walid Mahdi, and Abdelmajid Ben Hamadou, "Lip localization and viseme classification for visual speech recognition," arXiv preprint arXiv:1301.4558, Vol. 5, No. 1, pp. 62-75 2013.
Wang, S. L., Lau, W. H., Leung, S. H. and Yan, H, "A real-time automatic lipreading system," Circuits and Systems, 2004. ISCAS'04. Proceedings of the 2004 International Symposium on., Vol. 2, 2004.
Cetingul, H. E., Yemez, Y., Erzin, E. and Tekalp, A. M, “Discriminative analysis of lip motion features for speaker identification and speech-reading,” Image Processing, IEEE Transactions on., Vol. 15, No. 10, pp. 2879-2891, 2006.
Siatras, S., Nikolaidis, N., Krinidis, M., and Pitas, I., “Visual lip activity detection and speaker detection using mouth region intensities,” Circuits and Systems for Video Technology, IEEE Transactions on, Vol. 19, No. 1, pp. 133-137, 2009.
Arsic, Aleksandra, Milos Jordanski, and Milan Tuba, "Improved lip detection algorithmbased on region segmentation and edge detection," Telecommunications Forum Telfor (TELFOR), 2015 23rd. IEEE, 2015.
G. B. Kim, J. W. Ryu, and N. I. Cho, “Voice Activity Detection using Motion and Variation of Intensity in The Mouth Region,” Journal of Broadcast Engineering, Vol. 17, No. 3, pp. 519-528, 2012.
E. K. Kim, “Speech Activity Detection using Lip Movement Image Signals,” Journal of the Institute of Signal Processing and Systems, Vol. 11, No. 4, pp. 289-297, 2010.
J. S. Kim, J. G. Nam , and B. T. Zhang, "Deep Learning-based Video Analysis Techniques" Journal of Korean Institute Information Scientists Engineers, Vol. 33, No. 9, pp. 21-31, 2015.
Yun-A Hur, Keun-Ho Lee, “A Study on Countermeasures of Convergence for Big Data and Security Threats to Attack DRDoS in U-Healthcare Device,” Journal of the Korea Convergence Society, Vol. 6, No. 4, pp. 243-248, 2015.
G. J. Jang and J. S. Park, "Visual Object Recognition Based on Deep Neural Networks Implemented by CAFFE". Journal of Korean Institute Information Scientists Engineers, Vol. 33, No. 8, pp. 49-54, 2015.
Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton, "Imagenet classification with deep convolutional neural networks," Advances in neural information processing systems. pp1097-1105, 2012.
Viola, Paul, and Michael Jones, "Rapid object detection using a boosted cascade of simple features," Computer Vision and Pattern Recognition, 2001. CVPR 2001. Proceedings of the 2001 IEEE Computer Society Conference on., Vol. 1, 2001.
S.I. Chien and Il Choi, "Face and Facial Landmarks Location Based on Log-Polar Mapping," Lecture Notes in Computer Science, pp. 379-386, 2000.
Lim, Jong Gwan, Jaehong Kim, and Dong-Soo Kwon, "Multidimensional evaluation and analysis of motion segmentation for inertial measurement unit applications," Multimedia Tools and Applications, pp. 1-28, 2015.
Lim, Jong Gwan, Mi-hye Kim, and Sahngwoon Lee, "Empirical Validation of Objective Functions in Feature Selection Based on Acceleration Motion Segmentation Data," Mathematical Problems in Engineering, 2015.
Krizhevsky, Alex, and G. Hinton, "Convolutional deep belief networks on cifar-10," Unpublished manuscript, 2010.
Maini, Raman, and Himanshu Aggarwal, “Study and comparison of various image edge detection techniques,” International journal of image processing (IJIP), Vol. 3, No. 1, pp. 1-11, 2009.
Jun-Yeon Lee, “Forecasting the Time-Series Data Converged on Time PLOT and Moving Average,” Journal of the Korea Convergence Society, Vol. 6, No. 4, pp. 161-167, 2015.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.