[논문]음성 및 제스처를 이용한 멀티 모달 명령어 인식 시스템

김정현; 노용완; 권형준; 홍광석

문제 정의

하지만 일반인에게 있어 수화의 완벽한 학습 및 자연적인 해석은 매우 어려울 뿐만 아니라 전문적인 해석과 번역을 위해선 많은 학습 시간이 요구되어지며 청각장애인에 의해 표현되어지는 모든 대화 요소를 인식하고 해석하는 것은 불가능하다. 따라서, 본 논문에서는 WPS 기반의 내장형 수화 인식기를 구현하기 위하여 ” 한국어 표준 수화 교본[4]”을 분석하고 수화소의 분류 기준에 따라 25가지의 기본 수화 제스처를 선정하였고 수화 제스처에 필요한 관련 수형(手形) 제스처를 손의 형태, 굽힘 그리고 뒤틀림 등의 정도에 따라 23가지 손 제스처로 분류하여 이들의 조합과 표현에 따라 여행 정보 안내와 관련되어진 62개의 문장형 인식 모델과 104개의 단어 인식 모델을 선정하였으며 수화 제스처에 필요한 관련 손 제스처의 예는 그림 1로 표현하였다.
근래에 있어 멀티 모달상호작용(Multi-Modal Interaction) 및 차세대 PC를 위한 오감 인식 기술에 대한 관심과 연구가 활발히 추진되어짐에 따라 제안되어진 두 감각 요소는 단순한 의사 교환의 수단이 아닌 기존의 마우스나 키보드를 대체할 수 있는 새로운 입력 요소로 연구의 범위가 확대되어지는 경향을 보이고 있다. 따라서, 본 논문에서는 WPS기반의 내장형 수화 인식기와 VXML을 이용한 웹기반의 음성인식 시스템을 통합한 멀티 모달 명령어 인식 시스템을 제안하고 구현하였다.
즉, 화자의 제스처 정보를 인식하고 표현하려는 시도가 진행 중으로, 잡음이 심한 환경에서 음성 신호는 크게 영향을 받지만 햅틱 장치를 이용한 화자의 제스처 신호는 잡음에 전혀 영향을 받지 않기 때문에 이들의 정보를 함께 분석하고 사용함으로써 주어진 환경에 대한 최적의 인식 성능을 보장할 수 있다. 따라서, 본 논문에서는 잡음환경에서의 명확한 의사 전달 및 휴대용 단말기에서의 음성-제스처 통합 인식을 위한 사용자 인터페이스 관련 연구를 목적으로 Voice-XML과 WPS 기반의 음성 및 내장형 수화 인식기를 통합한 멀티모달 명령어 인식 시스템을 제안하고 구현한다. 제안되어진 MMIRS는 잡음 환경을 분석하고 측정함으로써 잡음의 정도에 따라 개별 언어 인식기에 서로 다른 가중치를 부여함으로써 주어진 환경에서 보다 명확하고 자연적인 대화 요소를 제공할 수 있으며 인터넷과 무선통신망을 기반으로 규정된 명령어 및 언어 정보를 인식하고 표현함으로써 보다 광범위한 정보의 교환이 가능하다.

제안 방법

발성하게 된다. 15인의 피험자가 62개의 문장형 인식 모델과 104개의 단어 인식 모델에 대하여 잡음과 비 잡음 환경에서 연속적으로 10회의 반복실험을 수행하였고 주어진 상항에 따른 개별 명령어 인식기 및 MMIRS의 평균 인식율을 비교, 분석하였다. 표 1은 잡음과 비잡음 환경 하에서의 규정된 인식 모델에 대한 개별 명령어 인식기 및 MMIRS의 평균 인식율을 보여주며 그림9~12를 통해 실험결과를 도식화 하였다.
:1 러나 이러한 기법들의 적용에 있어서는 다차원적 특징에 따른 복잡한 수학적 계산 알고리즘이 필요하고 분산처리환경에서는 적용하기가 매우 힘들며 패턴(데이터)의 크기에 따라 계산비용이 결정되어지고 메모리 교환과 할당의 최소화를 위한 여러 가지 제약사항 및 문제점들을 고려하여야만 한다[7], [8], [9], 따라서 본 논문에서는 입력되어진 수화 제스처 데이터에 대하여 의미 있는 유효 제스처 구간과 동작간의 천이구간을 분류하고 효율적인 분석 및 클러스터링을 위하여 RDBMS (Relational Database Management Systems)4 채택하였고 SQL (StructuredQuery Language)기반의 analytic function을 적용함으로써 보다 합리적이고 향상되어진 수화 제스처 학습 및 인식모델을 형성할 수 있었다. 수화 제스처의 효율적인 클러 스터링 을 위 한 RDBMS 클러스터 링 모듈의 구성 및 규칙은 그림 3과 같다.
미친다. 따라서, 본 논문에서는 수화 제스처를 획득하기 위한 장치로 햅틱 응용 분야에서 주요한 입력장치로 사용되어지고 있는 5DT사의 무선 장갑 장치와 모션 추적기 (Fastrak®)를 이용하였다. 무선 장갑 장치는 Fiber-Optic Flex Sensor를 사용하여 사용자의 손가락 굽힘 정도를 파악하고 이로부터 데이터를 획득할 수 있는 기본적인 제스처 인식장치로서 Pitch & Roll 센서를 자체 내장하고 있으므로 손목의 굽힘과 뒤틀림에 대한 측정도 별다른 장비 없이 가능한 특징을 가진다.
본 논문에서는 수화 제스처 입력 모듈과 내장형 수화인식 기(WPS)간의 이격거리를 반경 10M의 타원 형태로 구성하고 햅틱 장치를 착용 후 규정된 위치로 이동하면서 인식 모델에 상응하는 수화 제스처를 취함과 동시에 휴대용 단말기의 헤드셋을 이용하여 규정된 명령어 인식 모델을 발성하게 된다. 15인의 피험자가 62개의 문장형 인식 모델과 104개의 단어 인식 모델에 대하여 잡음과 비 잡음 환경에서 연속적으로 10회의 반복실험을 수행하였고 주어진 상항에 따른 개별 명령어 인식기 및 MMIRS의 평균 인식율을 비교, 분석하였다.
다음과 같다. 본 논문에서는 수화 제스처의 획득을 위한 무선 햅틱 장치로서 5DT 사의 data glove와 fastrak®를 채택하였고 내장형 수화 인식기의 구현을 위한 H/W 플랫폼은 임베디드 Linux기반의 WPS (i.MX21 test board)를 적용하였으며 웹기반의 음성 인식 및 합성을 위하여 웹기반 음성 인터페이스 VXML을 도입하였다.
입력요소는 다시 인식, 해석, 통합모듈로 세분화되어지며 이를 통해 다중 감각 기관 및 인식 대상에 대한 인식결과는 해석되어지고 통합되어진다. 본 논문에서는 인식의 대상을 인간의 오감 요소 중 음성과 제스처를 입력 요소로 규정하고 개별 감각 요소에 의한 명령어 인식 모델을 웹과 WPS를 기반으로 인식하며 , , 멀티 모달 서버”에서 통합, 해석되어진다. 해석되어진 인식 결과는 음성, 제스처, 포인팅 디바이스 등의 정보를 통합 시켜 인터랙션 관리기로 전달되어지며 인터랙션 관리기로부터 사용자에게 전달할 정보가 입력이 되면 어떤 모드로 출력할 것인지를 결정하게 된다.
이때 출력 모드가 하나로 결정이 되고 만약에 주 모드로 출력이 불가능한 경우에는 보충 모드가 출력으로 결정된다. 특별히, 본 연구에서는 차세대 PC 플랫폼으로서의 WPS를 기반으로 제스처를 인식하고통합되어진 인식결과를 WPS에서 음성과 시각적 요소로 표현하기 위해서 HMD (Head-Mounted Displa0를 포함하는 확장된 출력모듈을 구현하였다. 그림 6에서는 본연구에서의 음성-제스처기반의 MMI의 기본 개념과 구조를 도식화하였다.

이론/모형

④ Implementation platform은 VXML interpreter context 와 VXML interpreter에 의해 통제된다. 또한, 웹 기반의 음성인식 및 합성을 위하여 본 논문에서는 ASR-engine 으로서 KT 의 'HUVOIS-TTS'를 이용하였으며 'HUVOIS-TTS'는 시각-청각 장애인을 위한 음성 인식 및 합성 소프트웨어로 제공되어진다.
수화 제스처의 보다 정확한 인식과 WPS 기반의 내장형 수화 인식 시스템의 구현을 위하여 본 논문에서는 Fuzzy Max-Min 합성 및 추론 기법을 적용하였다. 또한 임베디드 시스템의 제어에 있어 보다 쉽게 표현이 가능한 사다리꼴 모양의 fuzzy 소속 함수를 적용함으로써 다양한 수화 제스처 인식 모델에 대하여 보다 빠른 인식 시간과 효율적인 제스처 데이터의 처리가 가능하였다.

성능/효과

또한 임베디드 시스템의 제어에 있어 보다 쉽게 표현이 가능한 사다리꼴 모양의 fuzzy 소속 함수를 적용함으로써 다양한 수화 제스처 인식 모델에 대하여 보다 빠른 인식 시간과 효율적인 제스처 데이터의 처리가 가능하였다. 제안되어진 Fuzzy Max-Min 합성은 수식(1) [10]로 정의되어지며, Fuzzy Max-Min 수화 인식모듈의 합성과 추론 규칙에 필요한 가중치, 그리고 명령어 인식모델 “당신에 해당하는 fuzzy 소속 함수를 그림 4로 표현하였다.
따라서, 본 논문에서는 잡음환경에서의 명확한 의사 전달 및 휴대용 단말기에서의 음성-제스처 통합 인식을 위한 사용자 인터페이스 관련 연구를 목적으로 Voice-XML과 WPS 기반의 음성 및 내장형 수화 인식기를 통합한 멀티모달 명령어 인식 시스템을 제안하고 구현한다. 제안되어진 MMIRS는 잡음 환경을 분석하고 측정함으로써 잡음의 정도에 따라 개별 언어 인식기에 서로 다른 가중치를 부여함으로써 주어진 환경에서 보다 명확하고 자연적인 대화 요소를 제공할 수 있으며 인터넷과 무선통신망을 기반으로 규정된 명령어 및 언어 정보를 인식하고 표현함으로써 보다 광범위한 정보의 교환이 가능하다.

후속연구

그러나 음성과 제스처의 통합 인식 및 표현에 있어 인간의 발성과 제스처의 표현은 서로 다른 시간적 차이를 가지게 되며 이로 인한 동기화의 문제는 매우 중요하다, 그리고 이러한 입력 동기화 문제의 해결을 위하여 지속적인 연구가 요구되어지며 향후 인간의 오감 요소 중 보다 많은 감각 요소를 인식하고 통합함으로써 보다 향상된 HCI의 구현과 더불어 인간의 오감요소를 이용한 사용자 인증 기술의 설계 및 구현을 향후 과제로 남기고자 한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

음성 및 제스처를 이용한 멀티 모달 명령어 인식 시스템
Multi-Modal Instruction Recognition System using Speech and Gesture 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

음성 및 제스처를 이용한 멀티 모달 명령어 인식 시스템 Multi-Modal Instruction Recognition System using Speech and Gesture 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

음성 및 제스처를 이용한 멀티 모달 명령어 인식 시스템
Multi-Modal Instruction Recognition System using Speech and Gesture 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper