수화는 언어적 구조와 규칙을 가지며 손의 움직임, 모양 정보로 구별되며, 지화는 다양한 형태의 문자를 나타내며 손의 행태 정보로 구별된다. 수화언어 인식은 수화 문장에서 의미 있는 수화, 지화, 그리고 그 이외의 손 동작 및 손 모양을 검출 및 인식하는 것이다. 수화와 지화의 구조는 상당히 다르기 때문에, 수화와 지화를 동시에 인식 및 검출하는 것은 어려운 문제이다. 본 논문에서는 3단계의 계층적 구조로 구성된 수화 및 지화 검출 방법을 제안한다. 첫 번째 단계에서는 2계층 CRF(Conditional Random Field)를 이용하여 수화, 지화, 그리고 그 이외의 손 동작을 구별한다. 두 번째 단계에서는 BoostMap 임베딩을 이용하여 수화 및 지화의 손 모양을 인식한다. 마지막 단계에서는 CRF를 이용하여 손 모양은 비슷하지만 움직임이 다른 지화를 구별한다. 제안된 방법은 청각장애인이 수행한 수화 분장에서 83%의 수확인식률과 78%의 지화 인식률을 보였다.
수화는 언어적 구조와 규칙을 가지며 손의 움직임, 모양 정보로 구별되며, 지화는 다양한 형태의 문자를 나타내며 손의 행태 정보로 구별된다. 수화언어 인식은 수화 문장에서 의미 있는 수화, 지화, 그리고 그 이외의 손 동작 및 손 모양을 검출 및 인식하는 것이다. 수화와 지화의 구조는 상당히 다르기 때문에, 수화와 지화를 동시에 인식 및 검출하는 것은 어려운 문제이다. 본 논문에서는 3단계의 계층적 구조로 구성된 수화 및 지화 검출 방법을 제안한다. 첫 번째 단계에서는 2계층 CRF(Conditional Random Field)를 이용하여 수화, 지화, 그리고 그 이외의 손 동작을 구별한다. 두 번째 단계에서는 BoostMap 임베딩을 이용하여 수화 및 지화의 손 모양을 인식한다. 마지막 단계에서는 CRF를 이용하여 손 모양은 비슷하지만 움직임이 다른 지화를 구별한다. 제안된 방법은 청각장애인이 수행한 수화 분장에서 83%의 수확인식률과 78%의 지화 인식률을 보였다.
Signs are dynamic gestures discriminated by continuous hand motions and hand configurations, while fingerspellings are combinations of continuous hand configurations. Sign language spotting is the task of detection and recognition of signs and fingerspellings in a signed utterance. The internal stru...
Signs are dynamic gestures discriminated by continuous hand motions and hand configurations, while fingerspellings are combinations of continuous hand configurations. Sign language spotting is the task of detection and recognition of signs and fingerspellings in a signed utterance. The internal structures of signs and fingerspellings differ significantly. Therefore, it is difficult to spot signs and fingerspellings simultaneously. In this paper, a novel method for spotting signs and fingerspellings is proposed. It can distinguish signs, fingerspellings and non-sign patterns. This is achieved through a hierarchical framework consisting of three steps: (1) Candidate segments of signs and fingerspellings are discriminated using a two-layer Conditional Random Field (CRF). (2) Hand shapes of segmented signs and fingerspellings are verified using BoostMap embeddings. (3) The motions of fingerspellings are verified in order to distinguish those which have similar hand shapes and different hand motions. Experiments demonstrate that the proposed method can spot signs and fingerspellings from utterance data at rates of 83% and 78%, respectively.
Signs are dynamic gestures discriminated by continuous hand motions and hand configurations, while fingerspellings are combinations of continuous hand configurations. Sign language spotting is the task of detection and recognition of signs and fingerspellings in a signed utterance. The internal structures of signs and fingerspellings differ significantly. Therefore, it is difficult to spot signs and fingerspellings simultaneously. In this paper, a novel method for spotting signs and fingerspellings is proposed. It can distinguish signs, fingerspellings and non-sign patterns. This is achieved through a hierarchical framework consisting of three steps: (1) Candidate segments of signs and fingerspellings are discriminated using a two-layer Conditional Random Field (CRF). (2) Hand shapes of segmented signs and fingerspellings are verified using BoostMap embeddings. (3) The motions of fingerspellings are verified in order to distinguish those which have similar hand shapes and different hand motions. Experiments demonstrate that the proposed method can spot signs and fingerspellings from utterance data at rates of 83% and 78%, respectively.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 3단계의 계층적 구조로 구성된 지화와 수화를 동시에 검출할 수 있는 방법을 제안하였다. 제안 된 방법은 정의된 수화 및 지화와 비수화 손 동작 및 손 모양을 우수하게 구별할 수 있는 방법임을 실험결과를 통해 확인하였다’ 특히, 수화는 언어적 구조와 규칙을 가지며 손의 움직임, 모양 정보로 구별되며, 지화 는 다양한 형태의 문자를 나타내며 손의 형태 정보로 구별된다.
제안 방법
제안된 방법의 성능을 평가하기 위해서 HMM, CRF [3,7-9,12,13]와 성능을 비교 평가하였다. 5개의 상태를 갖는 이산 HMM을 각 수화 단어별로 생성하였다. 그리 고, HMM, CRF를 위해서는 학습 데이터에서 CDR값을 최대로 갖는 고정된 임계치값을 선택하였다.
그림 1에서 볼 수 있는 바와 같이, 본 논문에서는 연 속된 수화 문장에서 수화, 지화, 그리고 비수화 영역을 분할하기 위해서 계충적 CRF에 기반한 모델을 이용하 였고, 손 모양을 인식하기 위해서는 BoostMap 임베딩 을, 마지막으로, 손 모양은 비슷하지만 움직임이 다른 지화를 구별하기 위해서 CRF를 적용하였다
그림 5는 제안된 계층적 CRF를 이용하여 수화 및 지 화를 적출하는 과정에서 각 레이블의 확률값 변화를 보여주고 있다. 그림에서 볼 수 있듯이 비수화를 위한 레 이블의 확률값과 어휘집에 정의된 수화 및 지화의 확률값을 비교하여 최대값을 선택하여 수화, 지화 그리고 비 수화를 구별하였다.
수화 문장에서 의미 있는 수화, 지화, 그리고 그 이외의 손 동작 및 손 모양을 검출하기 위해서 CRF를 이용한 적응적 임계치 모델을 적용하였다[7-91 비수화에 대한 정보가 없는 학습 데이터를 이용하여 전통적인 CRF 모델을 생성한다. 이렇게 생성된 전통적인 CRF 모델에 비수화를 위한 레이블을 추가하고 비수화 레이블의 전 이, 상태 특징 함수의 가중치값을 생성한다[7,8].
일부 지화의 경우 그림 4에서 볼 수 있듯이, 손 모양 은 비슷하지만 손의 움직임 정보가 다르다. 이러한 문제를 해결하기 위해서 손의 모양 정보를 추가적으로 인식 하여 지화 T, 了, 그리고 지화 T, 'Z'를 CRF* 적용하여 구별한다.
제안된 방법은 언어적 구조와 규칙이 다른 수 화와 지화를 동시에 인식할 수 있다. 제안된 방법은 첫 번째 단계에서는 2계층 CRF를 이용하여 수화, 지화, 그리고 그 이외의 손 동작을 구별한다.
제안된 방법은 언어적 구조와 규칙이 다른 수 화와 지화를 동시에 인식할 수 있다. 제안된 방법은 첫 번째 단계에서는 2계층 CRF를 이용하여 수화, 지화, 그리고 그 이외의 손 동작을 구별한다. 두 번째 단계에서는 BoostMap 임베당을 이용하여 수화 및 지화의 손 모양을 인식한다.
대상 데이터
실험에 사용된 데이터베이스는 24단어의 ASL(American Sign Language) 수화와 17개의 ASL 지화로 구성되었으며, 청각장애인이 수화 문장을 수행하였다[7-9]. 표 1 은 24개의 ASL 수화 단어를 보여주고 있다.
데이터처리
표 1 은 24개의 ASL 수화 단어를 보여주고 있다. 제안된 방 법의 성능을 평가하기 위해서 SER(Sign Error Rate)과 CDR(Correct Detection Rate)을 측정하였다[7-9J
제안된 방법의 성능을 평가하기 위해서 HMM, CRF [3,7-9,12,13]와 성능을 비교 평가하였다. 5개의 상태를 갖는 이산 HMM을 각 수화 단어별로 생성하였다.
이론/모형
이러한 문제를 해결하기 위해서 BoostMap 임베딩을 이용하여 손 모양을 인식한다. 본 시스템에서는 Athitsos 등이 제안한 방법을 사용하였다[10丄 학습 데이터 생성 을 위해서 Poser[U]를 사용하였으며 Canny 에지 검출 기를 이용하여 특징을 추출하였다. 손 모양 인식 결과를 반영하기 위해서 일정 시간 동안 결과를 누적한다[7,8丄
그림 2에서 볼 수 있는 바와 같이, 지화는 손의 모양 정보로 구별되는 경우가 많다 또한 수화의 경우 손의 움직임은 비슷하지만, 손 모양이 다른 경우가 발생한다. 이러한 문제를 해결하기 위해서 BoostMap 임베딩을 이용하여 손 모양을 인식한다. 본 시스템에서는 Athitsos 등이 제안한 방법을 사용하였다[10丄 학습 데이터 생성 을 위해서 Poser[U]를 사용하였으며 Canny 에지 검출 기를 이용하여 특징을 추출하였다.
성능/효과
본 논문에서는 3단계의 계층적 구조로 구성된 지화와 수화를 동시에 검출할 수 있는 방법을 제안하였다. 제안 된 방법은 정의된 수화 및 지화와 비수화 손 동작 및 손 모양을 우수하게 구별할 수 있는 방법임을 실험결과를 통해 확인하였다’ 특히, 수화는 언어적 구조와 규칙을 가지며 손의 움직임, 모양 정보로 구별되며, 지화 는 다양한 형태의 문자를 나타내며 손의 형태 정보로 구별된다.
표 2의 수화 적출 결과에서 볼 수 있듯이 제안된 Proposed ]俊比<妒诳 의 CDR 이 HMM이나 CRF보다 높고, SER 은 낮았다.
표 3의 지화 적출 결과에서 볼 수 있듯이, 표 2의 수 화 적출 결과와 유사하게 제안된 Proposed MethodBM£ 의 CDR 이 HMM이나 CRF보다 높교, SER 은 낮았다.
후속연구
향후 연구 내용은 지화, 수화와 같은 수지 신호(manual sign)와 얼굴 표정 및 몸 동작과 같은 비수지 신호 (non-manual sign)를 인식하는 것이다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.