[논문]음성/영상 정보를 이용한 새로운 끝점추정 방식에 기반을 둔 음성인식 시스템

이동근; 김성준; 계영철

음성/영상 정보를 이용한 새로운 끝점추정 방식에 기반을 둔 음성인식 시스템
A Speech Recognition System based on a New Endpoint Estimation Method jointly using Audio/Video Informations 원문보기

방송공학회논문지 = Journal of broadcast engineering, v.8 no.2, 2003년, pp.198 - 203

이동근 (홍익대학교 전자공학과) , 김성준 (홍익대학교 전자공학과) , 계영철 (홍익대학교 전자공학과)

초록
AI-Helper

본 논문에서는 멀티미디어 데이터에 존재하는 입술의 움직임(영상언어)과 음성을 함께 이용하여 음성의 끝점을 정확히 추정하는 방법과 이를 기반으로 한 음성인식 시스템을 제안한다. 잡음 섞인 음성의 끝점추정 방법은 다음과 같다. 각 테스트 단어에 대하여 영상언어를 이용한 끝점과 깨끗한 음성을 이용한 끝점을 각각 구한 후 이것들의 차이를 계산한다. 이 차이에 영상언어 끝점을 더하여 잡음 섞인 음성의 끝점으로 추정한다. 이와 같은 끝점(즉, 음성구간)의 추정방법을 인식기에 적용한다. 동일한 구간의 음성이 인식기의 각 단어모델에 입력되는 기존의 인식 방법과는 달리, 새로운 인식기에서는 각 단어별로 추정된 서로 다른 구간의 음성이 각 해당단어모델에 입력된다. 제안된 방식을 모의실험 한 결과, 음성잡음의 크기에 관계없이 정확한 끝점을 추정 할 수 있었으며, 그 결과 약 8% 정도의 인식률 향상을 이루었다.

Abstract ▼ AI-Helper

We develop the method of estimating the endpoints of speech by jointly using the lip motion (visual speech) and speech being included in multimedia data and then propose a new speech recognition system (SRS) based on that method. The endpoints of noisy speech are estimated as follows : For each test word, two kinds of endpoints are detected from visual speech and clean speech, respectively Their difference is made and then added to the endpoints of visual speech to estimate those for noisy speech. This estimation method for endpoints (i.e. speech interval) is applied to form a new SRS. The SRS differs from the convention alone in that each word model in the recognizer is provided an interval of speech not Identical but estimated respectively for the corresponding word. Simulation results show that the proposed method enables the endpoints to be accurately estimated regardless of the amount of noise and consequently achieves 8 o/o improvement in recognition rate.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

그러나 이러한 방법을 적용하기 위해서는 단어 I가 정확히 예상되어야 하므로 끝점검출 목적만으로는 이것을 사용할 수 없다. 따라서 본 논문에서는 이러한 방법을 인식기에 적용하여 인식률을 향상시키는 방법을 제안한다.
본 논문에서는 음성정보와 영상정보를 함께 이용하는 새로운 끝점추정 방법에 기반을 둔 음성인식 시스템을 제안하였다. 실험결과 제안된 음성+영상 끝점 추정 방법은 음성신호만을 이용한 끝점검출 방법에 비하여 잡음크기에 무관하게 음성구간을 검출할 수 있음을 보였다.
음성에 잡음이 심한 경우에는 음성의 끝점검출이 상당히 부정확하게 된다고 알려져 있다(1) 본 절에서는 영상정보를 이용하여 이러한 문제를 극복하는 방법을 제시한다.
입력단어가 정확히 예상되는 단어모델 I 에서 음성과 영상을 함께 이용한 끝점 추정의 성능을 비교하기 위해. 식 (2)와 같이 알고리즘으로 추정한 끝점(그림 4)에서 음성신호로부터 수작업으로 검출한 끝점을 뺀 차이를 오차로 사용하였다.

제안 방법

본 논문에서는 이러한 입술영상의 움직임을 영상언어(visual speech) 라고 한다. 먼저, 각 테스트 단어들에 대하여, 영상 언어에서 검출한 끝점과 깨끗한 음성으로부터 검출한 끝점의 차이 값을 각각 계산하여 테이블을 작성한다. 본 논문에서는 이테이블을 DIS 테이블이라 칭한다.
본 논문에서는 고립단어의 인식만을 다루었다. 연결단어나 가변어휘의 경우에 대한 본 방식의 적용에 관한 연구가 현재 진행 중이다.
포물선으로 모델링 한다. 본 논문에서는 입술 포물선의 높이를 음성구간 검출을 위한 특징으로 사용하다(2)(3)
앞서 언급한 음성+영상 끝점검출 방식이 인식기의 성능에 미치는 영향을 분석하기 위하여 음성의 SNR을 변화시키면서 기존 인식기와 제안된 인식기의 성능을 비교하였다(표 2). SNR이 높은 경우에는 인식률에 차이가 없으나, 25dB, 20dB 에서는 약 8% 정도의 인식률이 향상되었다.
이러한 문제점을 해결하기 위하여 멀티미디어 데이터에 존재하는 영상정보와 음성정보를 함께 이용하는 방법을 제안한다. 입술영상의 움직임을 분석하면 발음된 단어의 시작과 끝뿐만 아니라 그 의미도 인지할 수 있다.
입력 영상으로부터 입술영역을 판별한 후 입술 영역에서 16개의 경계점을 추출하고 이것들을 이용하여 입술을 포물선으로 모델링 한다. 본 논문에서는 입술 포물선의 높이를 음성구간 검출을 위한 특징으로 사용하다(2)(3)
이러한 끝점(즉, 음성구간) 추정방법을 인식기에 적용한다. 입력영상과 DIS 테이블을 이용하여 각 단어별 예상 음성 구간을 추정한 후, 인식기의 각 단어모델에 해당 구간의 음성을 입력하여 모델별 인식 스코어를 구한다. 출력된 인식스코어들 중 가장 높은 값을 갖는 모델을 인식 결과로 출력 한다.
잡음 섞인 음성신호의 끝점을 추정하기 위하여 영상정보로부터 검출한 끝점에 DIS 테이블에 저장되어있는 (영상 끝점과 음성끝점의 평균차이인) 평균 끝점거리를 더한다. 이러한 끝점(즉, 음성구간) 추정방법을 인식기에 적용한다.

대상 데이터

디지털 캠코더를 이용하여 음성과 영상신호를 동시에 획득하였으며, 10명의 화자가 총 4자리 연속 숫자 10가지를 각각 10번씩 반복 발음하여 총 1000개로 구성된 음성- 영상 데이터베이스를 구축하였다. 음성은 실험실 환경에서 16bit 양자화.
12차 LPC-켑스트럼 계수를 사용하였다. 영상은 디지털캠코더로 촬영한 320x240 픽셀, 30 프레임/s, 24-bit RGB 컬러 이미지이며, 영상언어의 끝점을 좀더 정확히 검출하기 위해 60 프레임/s로 선형 보간하여 사용하였다⑸ 인식 알고리즘은 코드북 사이즈 256, state수 8인 discrete HMM을 이용하였다.

이론/모형

검줄하여야한다. 본 논문에서는 음성구간의 정확한 검출을 위하여 음성 끝점검출 방식과 입술모양의 영상 변화로부터 음성구간을 검출하는 영상언어 끝점검출 방식을 함께 이용한다. 음성 끝점 검출을 위한 알고리즘으로 Rabiner가 제안한 프레임 에너지와 영교차율을 이용하였다
본 논문에서는 음성구간의 정확한 검출을 위하여 음성 끝점검출 방식과 입술모양의 영상 변화로부터 음성구간을 검출하는 영상언어 끝점검출 방식을 함께 이용한다. 음성 끝점 검출을 위한 알고리즘으로 Rabiner가 제안한 프레임 에너지와 영교차율을 이용하였다

성능/효과

2). SNR이 높은 경우에는 인식률에 차이가 없으나, 25dB, 20dB 에서는 약 8% 정도의 인식률이 향상되었다. 그러나 그 이하의 SNR에서는 음성구간의 정확성 보다는 음질이 성능을 좌우하므로 인식성능의 향상을 얻지 못하였다.
그러나, 제안된 방법을 사용하면 참값에 비하여 거의 오차 없이 신뢰성 있게 음성구간을 검출함을 알 수 있다.
따라서 정규화된 높이가 1이면 입술이 닫혀있는 상태이고, 1보다 커지면 열려있는 상태라고 가정할 수 있다. 실험결과 문턱치(threshold) 가 1.1 정도이면 영상언어의 발음 구간을 검출할 수 있음을 확인하였다. 그림 1은 영상 프레임의 진행에 따른 입술 높이의 변화를 나타낸다.
실험결과 제안된 음성+영상 끝점 추정 방법은 음성신호만을 이용한 끝점검출 방법에 비하여 잡음크기에 무관하게 음성구간을 검출할 수 있음을 보였다. 이러한 방법으로 추정한 음성구간을 제안된 인식시스템에 적용하였을경우 인식률이 약 8% 정도 향상됨을 알 수 있었다.
실험결과 제안된 음성+영상 끝점 추정 방법은 음성신호만을 이용한 끝점검출 방법에 비하여 잡음크기에 무관하게 음성구간을 검출할 수 있음을 보였다. 이러한 방법으로 추정한 음성구간을 제안된 인식시스템에 적용하였을경우 인식률이 약 8% 정도 향상됨을 알 수 있었다.

참고문헌 (5)

L. R. Rabiner and M. R. Sambur, 'An Algorithm for Determining the Endpoints of Isolated Utterances,' Bell Syst. Tech. J., Vol. 54, No.2, February 1975

상세보기
G. Potamianos, H.P. Graf, and E. Cosatto, 'An image transform approach for HMM based automatic lipreading', Proc. Int. Conf. Image Process., Chicago, 1998
Juergen Luettin, Neil A. Thacker and S.W.Beet. 'Locating and Tracking Facial Speech Features', Proceedings of ICPR'96 1996
이철우, 계영철, 고인선, '강인한 음성인식을 위한 이중모드 센서의 결합방식에 관한연구', 한국음향학회 논문지, 제 20권, 제 6호. PP. 51-56, 2001
T. Wark and S. Sridharan, ' A syntactic approach to automatic lip feature extraction for speaker identification', Proceedings of the IEEE. 1998

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

음성/영상 정보를 이용한 새로운 끝점추정 방식에 기반을 둔 음성인식 시스템
A Speech Recognition System based on a New Endpoint Estimation Method jointly using Audio/Video Informations 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

참고문헌 (5)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

음성/영상 정보를 이용한 새로운 끝점추정 방식에 기반을 둔 음성인식 시스템 A Speech Recognition System based on a New Endpoint Estimation Method jointly using Audio/Video Informations 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

참고문헌 (5)

이 논문을 인용한 문헌

저자의 다른 논문 :

김성준 (1) 계영철 (16)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

음성/영상 정보를 이용한 새로운 끝점추정 방식에 기반을 둔 음성인식 시스템
A Speech Recognition System based on a New Endpoint Estimation Method jointly using Audio/Video Informations 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper