조충상
/ 경기도 성남시 수정구 위례동로 **, ****동 ***호 (창곡동, 위례 자연앤 래미안이편한세상)
박한무
/ 경기도 성남시 분당구 백현로 ***, A동 ****호 (수내동, 로얄팰리스 하우스빌)
김창조
/ 경기도 수원시 장안구 서부로 ****, ***동 ***호
출원인 / 주소
한국전자기술연구원 / 경기도 성남시 분당구 새나리로 ** (야탑동)
대리인 / 주소
청운특허법인
심사청구여부
있음 (2019-09-18)
심사진행상태
등록결정(재심사후)
법적상태
등록
초록▼
본 발명의 일실시예에 따르면, 수어 영상으로부터 수어 사용자의 감정 또는 의도를 나타내는 비언어적 수어정보를 획득하고 비언어-음성표현으로 변환하는 비언어-음성표현 변환모듈, 및 상기 수어 영상을 음성문장으로 번역하고 상기 비언어-음성표현을 반영한 대화형음성을 생성하여 출력하는 수어-음성 번역모듈을 포함하는, 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치를 제공하고, 음성으로부터 음성 언어 사용자의 감정 또는 의도를 나타내는 비언어적 음성정보를 획득하고 비언어-수어표현으로 변환하는 비언어-수어표현 변환모듈, 및 상기
본 발명의 일실시예에 따르면, 수어 영상으로부터 수어 사용자의 감정 또는 의도를 나타내는 비언어적 수어정보를 획득하고 비언어-음성표현으로 변환하는 비언어-음성표현 변환모듈, 및 상기 수어 영상을 음성문장으로 번역하고 상기 비언어-음성표현을 반영한 대화형음성을 생성하여 출력하는 수어-음성 번역모듈을 포함하는, 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치를 제공하고, 음성으로부터 음성 언어 사용자의 감정 또는 의도를 나타내는 비언어적 음성정보를 획득하고 비언어-수어표현으로 변환하는 비언어-수어표현 변환모듈, 및 상기 음성을 수어문장으로 변환하고 상기 비언어-수어표현을 반영한 대화형수어영상을 생성하여 출력하는 음성-수어 번역모듈을 포함하는, 사용자의 감정 또는 의도를 반영한 대화형 음성-수어 번역 장치를 제공함으로써, 수어 사용자와 음성 언어 사용자의 대화시 수어와 음성 언어의 언어적인 의미전달 뿐만 아니라 의사소통 과정에서 표현되는 감정이나 의도와 같은 비언어적 의미도 전달할 수 있는 의사소통 환경을 제공할 수 있다.
대표청구항▼
수어 영상으로부터 수어 사용자의 표정, 시선, 수어 동작의 크기, 속도로 전달되는 감정 또는 의도를 나타내는 비언어적 수어정보를 획득하고, 상기 비언어적 수어정보를 음성의 속도, 음색, 어조, 크기로 전달되는 비언어-음성표현으로 변환하는 비언어-음성표현 변환모듈; 및 상기 수어 영상을 음성문장으로 번역하고, 상기 음성문장에 기초하여 대화형음성을 생성하여 출력하는 수어-음성 번역모듈을 포함하며,상기 비언어-음성표현 변환모듈은 얼굴 인식 및 모션 인식을 통하여 상기 수어 영상으로부터 수어 사용자의 감정 또는 의도를 추론하기 위한 수어
수어 영상으로부터 수어 사용자의 표정, 시선, 수어 동작의 크기, 속도로 전달되는 감정 또는 의도를 나타내는 비언어적 수어정보를 획득하고, 상기 비언어적 수어정보를 음성의 속도, 음색, 어조, 크기로 전달되는 비언어-음성표현으로 변환하는 비언어-음성표현 변환모듈; 및 상기 수어 영상을 음성문장으로 번역하고, 상기 음성문장에 기초하여 대화형음성을 생성하여 출력하는 수어-음성 번역모듈을 포함하며,상기 비언어-음성표현 변환모듈은 얼굴 인식 및 모션 인식을 통하여 상기 수어 영상으로부터 수어 사용자의 감정 또는 의도를 추론하기 위한 수어 사용자의 표정, 시선, 수어 동작의 크기, 속도를 포함하는 정보를 추출하고, 추출한 정보에 기초하여 상기 수어 사용자의 감정 또는 의도의 종류를 라벨링하고 크기를 수치화하여 비언어적 수어정보를 획득하는 비언어적 수어정보 획득부; 및 상기 비언어적 수어정보를 음성 언어의 비언어적 표현에 해당하는 음성의 속도, 음색, 어조, 크기로 변환하되, 인식가능한 감정 또는 의도의 종류 및 크기를 전체 벡터공간으로 하고 상기 비언어적 수어정보에 포함된 감정 또는 의도의 종류 및 크기를 지시하도록 형성된 One-Hot Vector 형태의 특성벡터로 비언어-음성표현을 생성하는 비언어-음성표현 특징 변환부를 포함하고,상기 수어-음성 번역모듈은 수어 영상을 입력받아 수어를 글로스의 시퀀스로 출력하도록 학습된 제1 딥러닝 신경망 네트워크를 이용하여, 상기 수어 영상에 포함된 복수의 연속적인 동작들을 글로스의 시퀀스로 인식하는 글로스 인식부와, 수어의 문법에 따른 글로스의 시퀀스를 입력받아 음성 언어의 문법에 따른 음성문장으로 출력하도록 학습된 제2 딥러닝 신경망 네트워크를 이용하여, 상기 글로스 인식부가 인식한 글로스의 시퀀스로 이루어진 수어문장을 음성문장으로 번역하는 글로스-음성문장 번역부를 포함하는 수어-음성문장 번역부; 및 음성문장과 비언어-음성표현을 입력받아 대화형음성을 생성하도록 학습된 제3 딥러닝 신경망 네트워크를 이용하여, 상기 수어-음성문장 번역부에서 번역한 상기 음성문장과 상기 비언어-음성표현 특징 변환부가 생성한 상기 비언어-음성표현을 입력받아 상기 제3 딥러닝 신경망 네트워크에 입력하여, 상기 수어 사용자의 감정 또는 의도가 청각적으로 나타나도록 상기 비언어-음성표현이 반영되어 음성의 속도, 음색, 어조, 크기가 변형된 대화형음성을 생성하는 대화형음성 합성부를 포함하고,상기 글로스는 하나 또는 복수의 동작의 연속으로 이루어지는 수어의 의미단위이고,상기 글로스의 시퀀스는 복수의 글로스가 수어 문법에 따라 순서대로 나열되는 것이며,상기 제1 딥러닝 신경망 네트워크는 순환 신경망 구조로 이루어진 인코더와 순환 신경망 구조로 이루어진 디코더를 포함하는 시퀀스 투 시퀀스 구조를 갖고, 입력이 수어 영상에서 수어 사용자의 신체의 특징점들을 추출하고 시간의 흐름에 따라 변화하는 특징점들의 좌표값을 순서대로 나열한 데이터이고 정답이 글로스의 시퀀스인 학습데이터를 이용하여 학습되는 것이고, 상기 제2 딥러닝 신경망 네트워크는 순환 신경망 구조로 이루어진 인코더와 순환 신경망 구조로 이루어진 디코더를 포함하는 시퀀스 투 시퀀스 구조를 갖고, 입력이 글로스의 시퀀스이고 정답이 단어의 시퀀스로 이루어진 음성문장인 학습데이터를 이용하여 학습되는 것인, 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치.
연구과제 타임라인
LOADING...
LOADING...
LOADING...
LOADING...
LOADING...
이 특허에 인용된 특허 (4)
[일본]
DEVICE AND SYSTEM FOR FINGER LANGUAGE INTERPRETATION |
SAKO YUTAKA,
SAGAWA HIROHIKO,
ABE MASAHIRO,
ICHIKAWA HIROSHI,
INOUE KIYOSHI,
ARAI KIYOSHI,
SHIMURA TAKANORI,
TODA YUJI
※ AI-Helper는 부적절한 답변을 할 수 있습니다.