본 논문은 비주얼 정보, 오디오 정보, 중력 센서 정보에 기반한 멀티 모달 응급상황 인식 시스템을 제안한다. 제안된 시스템은 비디오 처리 모듈, 오디오 처리 모듈, 중력 센서 처리 모듈, 멀티모달 통합 모듈로 구성된다. 비디오 처리 모듈과 오디오 처리 모듈 각각은 이동, 정지 기절 등의 동작을 인식하여 멀티모달 통합 모듈에 전달한다. 멀티 모달 통합 모듈은 전달된 정보로부터 응급 상황을 인식하고 오디오 채널을 통하여 사용자에게 질문을 하고 대답을 인식함으로써 응급 상황을 재확인한다. 실험결과 영상에서는 91.5%, 착용형 중력센서는 94% 인식률을 보였으나 이들을 통합하면 응급상황을 100% 인식하는 결과를 보였다.
본 논문은 비주얼 정보, 오디오 정보, 중력 센서 정보에 기반한 멀티 모달 응급상황 인식 시스템을 제안한다. 제안된 시스템은 비디오 처리 모듈, 오디오 처리 모듈, 중력 센서 처리 모듈, 멀티모달 통합 모듈로 구성된다. 비디오 처리 모듈과 오디오 처리 모듈 각각은 이동, 정지 기절 등의 동작을 인식하여 멀티모달 통합 모듈에 전달한다. 멀티 모달 통합 모듈은 전달된 정보로부터 응급 상황을 인식하고 오디오 채널을 통하여 사용자에게 질문을 하고 대답을 인식함으로써 응급 상황을 재확인한다. 실험결과 영상에서는 91.5%, 착용형 중력센서는 94% 인식률을 보였으나 이들을 통합하면 응급상황을 100% 인식하는 결과를 보였다.
This paper presents a multimodal emergency recognition system based on visual information, audio information and gravity sensor information. It consists of video processing module, audio processing module, gravity sensor processing module and multimodal integration module. The video processing modul...
This paper presents a multimodal emergency recognition system based on visual information, audio information and gravity sensor information. It consists of video processing module, audio processing module, gravity sensor processing module and multimodal integration module. The video processing module and gravity sensor processing module respectively detects actions such as moving, stopping and fainting and transfer them to the multimodal integration module. The multimodal integration module detects emergency by fusing the transferred information and verifies it by asking a question and recognizing the answer via audio channel. The experiment results show that the recognition rate of video processing module only is 91.5% and that of gravity sensor processing module only is 94%, but when both information are combined the recognition result becomes 100%.
This paper presents a multimodal emergency recognition system based on visual information, audio information and gravity sensor information. It consists of video processing module, audio processing module, gravity sensor processing module and multimodal integration module. The video processing module and gravity sensor processing module respectively detects actions such as moving, stopping and fainting and transfer them to the multimodal integration module. The multimodal integration module detects emergency by fusing the transferred information and verifies it by asking a question and recognizing the answer via audio channel. The experiment results show that the recognition rate of video processing module only is 91.5% and that of gravity sensor processing module only is 94%, but when both information are combined the recognition result becomes 100%.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 독거인의 댁내 거주 시 발생될 수 있는 응급상황을 영상과 음성, 착용형 중력센서 세 가지의 멀티모달 정보를 이용하여 자동으로 인지할 수 있도록 하는 시스템을 제안한다.<그림 1>은 멀티모달 정보를 이용한 응급상황 인식시스템 구성도 이다.
본 논문에서는 사용자가 댁내 공간인 거실에서 기절하거나 본인이 응급 상황임을 감지하고 이를 알리고자 할 때 또는 욕실에 들어 간 후 응급상황이 발생하여 욕실 밖으로 나오지 못했을 때 이를 응급상황으로 인식하고 처리하는 시스템을 제안하였다. 이러한 응급상황을 인식하고 처리하기 위해 영상 처리부와 음성 처리부, 착용형 중력센서부가 이를 감지하여 멀티모달 통합 인식부에 이를 알리고 멀티모달 통합 인식부에서는 정보를 종합적으로 판단하여 음성 인터페이스를 통해 응급상황을 재차 확인하여 응급상황으로 판별한다.
제안 방법
실험자는 거실에서 앉기, 눕기, 기절의 3가지 동작을 실시하였으며, 앉는 동작은 10번, 눕는 동작은 10번, 기절동작은 180번 실시했다. 그리고 욕실에서는 중력 센서를 착용한 상태에서 10번, 착용하지 않은 상태에서 10번의 기절동작을 실시하였다.
정지, 앉기, 눕기. 기절과 같은 동작 정보를 검출할 뿐만 아니라 영상에서 현관, 소파, 안방, 욕실 등과 같은 공간 정보를 이용하여 사용자가 방에 들어갔는지, 방에서 나왔는지, 욕실에 얼마동안 머무르고 있는지 등의 사용자 위치 정보도 검출하고. 사용자가 욕실에 필요 이상으로 너무 오래 동안 머무르는 등의 비정상적인 상황도 인식한다.
데이터 전송 방법에서 영상 및 음성 센서는 TCP/IP를 이용한 Socket 통신을 사용 하였으며, 착용형 중력 센서는 Bluetooth를 이용한 시리얼 통신을 사용하여 데이터를 전송한다. 또한 멀티모달 정보를 안정적으로 전송하기 위해 통신프로토콜을 설계해 적용했다.
그러나 욕실 환경에서는 영상을 사용하여 실험 대상자가 욕실에 들어갔는지 나왔는지 만을 확인할 수 있다는 문제와, 욕실에서 샤워할 때는 착용형 센서를 벗어놓을 수밖에 없다는 문제가 있다. 따라서 욕실 내에서 중력 센서를 착용한 상태에서 발생한 응급상황은 센서와 음성을 사용하여 인식하였고 착용형 센서를 벗어놓고 발생한 응급상황은 영상으로부터 사용자가 욕실에서 지정된 시간 이상 나오지 않는 경우에 음성으로 확인하여 인식하였다.
실내에 설치된 카메라로부터 수집된 영상 데이터를 통해 일련의 영상처리 방법을 사용하여 움직이는 객체 영역을 추출하여 독거인의 이동과 정지, 기절동작을 판단하고 정의 되어 있는 공간정보를 구분하여 위치 변화까지 판단할 수 있도록 한다. 또한 독거인의 몸에 착용한 중력 센서의 측정 데이터를 이용하여 몸동작을 인식할 수 있도록 하고, 마이크로부터 소리를 입력받아 잡음 제거 등 전처리를 수행하고 음성과 비음성을 구분하여 음성에 대해서는 발성 단어를 인식하도록 한다. 멀티모달 통합 정보에 의해 인식된 결과에 따라 사용자에게 응급상황인지를 확인하는 메시지를 보내고 사용자의 응답을 인식하여 응급상황을 최종적으로 결정하여 응급 호출을 수행할 수 있도록 한다.
또한 멀티모달 정보를 안정적으로 전송하기 위해 통신프로토콜을 설계해 적용했다.
X, y, z의 3축 정보는 A/D 컨버터를 통해 마이크로프로세서로 입력받게 된다. 먼저, 센서의 기울어진 축을 보정하기 위해 3축 정보를 동일한 값으로 변환하고, 이 정보를 기준으로 X, y, z 각 축의 기울임 정도를 측정한다. 각 축의 변화를 통해 걷기 , 눕기 , 기절 등의 동작을 인식하게 된다.
또한 독거인의 몸에 착용한 중력 센서의 측정 데이터를 이용하여 몸동작을 인식할 수 있도록 하고, 마이크로부터 소리를 입력받아 잡음 제거 등 전처리를 수행하고 음성과 비음성을 구분하여 음성에 대해서는 발성 단어를 인식하도록 한다. 멀티모달 통합 정보에 의해 인식된 결과에 따라 사용자에게 응급상황인지를 확인하는 메시지를 보내고 사용자의 응답을 인식하여 응급상황을 최종적으로 결정하여 응급 호출을 수행할 수 있도록 한다. 이와 같이 영상센서, 착용형 중력센서, 음성센서를 이용하여 응급상황을 인식하고 음성을 이용하여 응급상황을 재확인함으로써 본 논문에서 제안된 응급상황 감지 방법은 기존의 방법에 비하여 보다 안정적이다.
본 논문에서는 어안 영상을 투시 영상으로 변환하여 사람의 몸에 매핑된 타원의 형태 변화와 움직임 속도 등을 이용하여 기절 동작을 판별 하였으며, 어안 렌즈 영상보다는 투시 영상에서 몸의 형태 변화가 더 분명하게 나타나므로 투시 영상을 이용해 기절 동작을 판별하였다.<그림 3>은 투시 영상을 이용해 기절 동작과정을 보이고 있다.
기절 동작의 경우 3축의 충격 파형이 검출되고 축이 틀어져 유지될 때 응급상황으로 판단하여 멀티모달 통합 인식부에 응급상황 데이터를 보낸다. 본 논문에서는 중력센서 칩 (MMA7260Q), 마이크로프로세서 (ATmega〔28), Bluetooth 칩 등을 이용하여 착용형 중력센서 모듈을 제작했다.
전처리된 영상과 배경모델을 이용해 움직이는 객체에 대한 전경영상을 생성 한다. 생성된 전경영상에서 불필요한 잡음을 제거하기 위해 4개 이하의 픽셀로 구성된 영역은 제거하고 Morphology Close 연산〔20]을 적용하여 서로 떨어져 있는 영역들을 합병하였다. 잡음이 제거된 전경 영상에서 움직이는 객체를 타원으로 매핑하기 위해서 윤곽선 검출 기법을 사용 하였으며, 연결되어 있는 전경 픽셀 영역들의 외곽 점들을 추적하여 타원으로 매핑 하였다.
<그림 1>은 멀티모달 정보를 이용한 응급상황 인식시스템 구성도 이다. 실내에 설치된 카메라로부터 수집된 영상 데이터를 통해 일련의 영상처리 방법을 사용하여 움직이는 객체 영역을 추출하여 독거인의 이동과 정지, 기절동작을 판단하고 정의 되어 있는 공간정보를 구분하여 위치 변화까지 판단할 수 있도록 한다. 또한 독거인의 몸에 착용한 중력 센서의 측정 데이터를 이용하여 몸동작을 인식할 수 있도록 하고, 마이크로부터 소리를 입력받아 잡음 제거 등 전처리를 수행하고 음성과 비음성을 구분하여 음성에 대해서는 발성 단어를 인식하도록 한다.
실험에서는 영상 또는 착용형 중력센서를 이용해 기절 동작이 감지되면 기절 여부를 확인하기 위하여 질의와 답변 형태로 음성출력과 음성인식을 통하여 사용자로 하여금 응급상황을 다시 확인하였다. 거실환경에서는 영상, 음성, 착용형 중력 센서에서 발생하는 정보를 이용해 응급상황 여부를 확인할 수 있었다.
실험은 거실과, 욕실에서 이루어 졌으며, 실험자가 거실에서 200번, 욕실에서 20번, 모두 220번의 실험을 실시하였다. 실험자는 거실에서 앉기, 눕기, 기절의 3가지 동작을 실시하였으며, 앉는 동작은 10번, 눕는 동작은 10번, 기절동작은 180번 실시했다. 그리고 욕실에서는 중력 센서를 착용한 상태에서 10번, 착용하지 않은 상태에서 10번의 기절동작을 실시하였다.
Ⅵ. 실험결과
실험환경은 댁내 공간인 거실에서 이루어 졌으며, 천정에 어안렌즈가 부착된 카메라를 설치하고 실험 대상자 허리에 착용형 중력센서를 착용하였다. 실험은 거실과, 욕실에서 이루어 졌으며, 실험자가 거실에서 200번, 욕실에서 20번, 모두 220번의 실험을 실시하였다.
음성과 비음성의 판별을 위한 특징으로는 모듈레이션 에너지(Modulation Energy, ME), 켑스트럴 플럭스(Cepstral Flux, CF) 및 멜프리컨시 캡스트럴 모듈레이션 에너지 (Mel-Frequency Cepstrum Modulation Energy, MCME) 등의 특징 벡터들을 구한다. MFCC가 임의의 시간에 존재하는 오디오 신호의 음향적 특징을 반영한다면 나머지의 특징 벡터들은 보다 넓은 시간 구간에서의 음향적 특징의 변화 양상을 나타내기 위해 사용되는 특징 벡터들이다.
이러한 응급상황을 인식하고 처리하기 위해 영상 처리부와 음성 처리부, 착용형 중력센서부가 이를 감지하여 멀티모달 통합 인식부에 이를 알리고 멀티모달 통합 인식부에서는 정보를 종합적으로 판단하여 음성 인터페이스를 통해 응급상황을 재차 확인하여 응급상황으로 판별한다. 실험결과 본 논문에서 제안한 방법은 멀티모달 정보를 이용하여 상호 보완적인 역할을 하면서 높은 응급 상황 인식률을 보였다.
생성된 전경영상에서 불필요한 잡음을 제거하기 위해 4개 이하의 픽셀로 구성된 영역은 제거하고 Morphology Close 연산〔20]을 적용하여 서로 떨어져 있는 영역들을 합병하였다. 잡음이 제거된 전경 영상에서 움직이는 객체를 타원으로 매핑하기 위해서 윤곽선 검출 기법을 사용 하였으며, 연결되어 있는 전경 픽셀 영역들의 외곽 점들을 추적하여 타원으로 매핑 하였다.〔21, 22〕
대상 데이터
중력센서를 착용하였다. 실험은 거실과, 욕실에서 이루어 졌으며, 실험자가 거실에서 200번, 욕실에서 20번, 모두 220번의 실험을 실시하였다. 실험자는 거실에서 앉기, 눕기, 기절의 3가지 동작을 실시하였으며, 앉는 동작은 10번, 눕는 동작은 10번, 기절동작은 180번 실시했다.
이론/모형
본 논문의 영상 처리부는 참고문헌〔17-18〕의 방법을 사용하였다. 화각이 175도인 어안렌즈가 부착된 카메라로부터 영상을 입력 받아 가우시안 혼합 모델기반의 적응적 배경 모델링 방법〔19〕을 이용해 조명변화에 강건한 사람검출 및 추적을 수행하였다.
음성 인식 및 소리 분류를 위한 특징으로는 멜프리컨시 캡스트럴 계수 (Mel-Frequency Cepstral Confidents, MFCC)를 사용한다. 여기에서 MFCC는 분석 구간의 오디오 신호에 푸리에 변환을 취하여 스펙트럼을 구한 후, 구한 스펙트럼에 대해 멜 스케일에 맞춘 삼각 필터 뱅크를 대응 시켜 각 밴드에서의 크기의 합을 구하고 필터 뱅크 출력값에 로그를 취한 후, 이산 코사인 변환을 하여 구해진 특징 벡터로써 음성 인식에서 많이 사용되며, 스펙트럼을 기반으로 인간의 청각 특성을 나타내는 것이다.
화각이 175도인 어안렌즈가 부착된 카메라로부터 영상을 입력 받아 가우시안 혼합 모델기반의 적응적 배경 모델링 방법〔19〕을 이용해 조명변화에 강건한 사람검출 및 추적을 수행하였다.
성능/효과
이러한 경우는 음성을 이용하여 확인함으로써 기절 동작이 아닌 것으로 확인할 수 있었다. 기절동작을 비기 절 동작으로 인식하는 경우가 발생하였는데 , 본 실험에서는 한 동작에 대하여 영상과 중력센서가 동시에 비기절동작으로 인식하는 경우가 없어서 멀티모달의 인식 결과가 100%가 될 수 있었다. 만약 동시에 비기절동작으로 인식하는 경우가 있다면 멀티모달의 인식결과도 100%가 되지 않을 수 있다.
오디오 신호의 스펙트럼은 피치 하모닉 성분 등 음정 변화에 따른 세밀한 스펙트럼의 변화에 민감하여 판별 성능이켑스트럼 기반 방법보다 저하되는 문제점이 있다. 따라서, 스펙트럼보다 상호 상관이 적은 켑스트럼을 이용하여 푸리에 변환을 수행하여 시간에 따른 변화양상을 측정함으로써 보다 신뢰도 높은 판별 성능을 보인다.
본 논문에서는에 나타나 있는바와 같이 실험 결과 거실에서의 기절 동작에 대하여 영상에서는 91.5% 인식률을 보였으며 착용형 중력센서는 94% 인식률을 보였으나, 영상, 착용형 중력 센서, 음성을 통합한 경우에는 영상정보, 중력 센서 정보, 음성정보가 서로 상호 보완함으로써 응급상황을 100% 인식하는 결과를 얻을 수 있었다.
이러한 응급상황을 인식하고 처리하기 위해 영상 처리부와 음성 처리부, 착용형 중력센서부가 이를 감지하여 멀티모달 통합 인식부에 이를 알리고 멀티모달 통합 인식부에서는 정보를 종합적으로 판단하여 음성 인터페이스를 통해 응급상황을 재차 확인하여 응급상황으로 판별한다. 실험결과 본 논문에서 제안한 방법은 멀티모달 정보를 이용하여 상호 보완적인 역할을 하면서 높은 응급 상황 인식률을 보였다. 또한 음성 인터페이스를 통해 응급 상황을 다시 확인함으로써 잘못된 응급호출을 줄일 수 있었다.
욕실에서는 중력 센서를 착용한 경우의 기절 동작 10번을 중력센서가 모두 정확하게 인식하였고 중력 센서를 착용하지 않은 경우의 기절 동작 10번을 영상 정보로부터 모두 정확하게 인식할 수 있었다. 전체 기절동작을 20번으로 했을때에 중력센서와 영상 각각의 인식률은 50%가 되었지만 두 정보를 합한 멀티모달의 경우에는 인식률이 100%가 되었다.
멀티모달 통합 정보에 의해 인식된 결과에 따라 사용자에게 응급상황인지를 확인하는 메시지를 보내고 사용자의 응답을 인식하여 응급상황을 최종적으로 결정하여 응급 호출을 수행할 수 있도록 한다. 이와 같이 영상센서, 착용형 중력센서, 음성센서를 이용하여 응급상황을 인식하고 음성을 이용하여 응급상황을 재확인함으로써 본 논문에서 제안된 응급상황 감지 방법은 기존의 방법에 비하여 보다 안정적이다. 또한 어느 한 센서가 오작동 하거나 사용자가 착용 형 중력 센서를 착용하지 않거나 하는 경우에도 응급상황을 감지할 수 있는 장점을 가진다.
있었다. 전체 기절동작을 20번으로 했을때에 중력센서와 영상 각각의 인식률은 50%가 되었지만 두 정보를 합한 멀티모달의 경우에는 인식률이 100%가 되었다.
판별한다. 판별된 결과가 음성으로 판별된 경우 음성인식기를 이용하여 사용자의 음성이 비상 상황의 처리를 위한 요청인지 아닌지 인식하여 만일 사용자의 음성이 '빨리 병원에 연락해줘와 같은 비상 상황 요청의 경우 멀티모달 통합 인식부에 비상상황 요청이 있음을 알린다.
후속연구
또한 음성 인터페이스를 통해 응급 상황을 다시 확인함으로써 잘못된 응급호출을 줄일 수 있었다. 현재 시스템은 PC 환경에서 구현되어 있는데, 독거인의 댁내에 응급 호출만을 위하여 PC 를 24시간 운용하는 것은 현실적으로 어려울 수 있으므로, 향후에는 본 시스템을 저가의 임베디드 시스템에 구현하여 설치 및 사용이 용이하도록 할 계획이다.
참고문헌 (24)
J. K. Aggarwal and Q. Cai, "Human Motion Analysis: A Review," Computer Vision and Image Understand, Vol. 73, No. 3, pp.423-440. Mar. 1999.
C. Rigotti, P. Cerveri, G. Andreoni, A. Pedotti, and G. Ferrigno,"Modeling and Driving a Reduced Human Mannequin through Motion Captured Data: A Neural Network Approach," IEEE Trans. on System, man, and Cybernetics-part A, Vol. 31, No. 3, pp. 187-193, Mar 2001.
Y. G. Lee, J. K. Kim, M. T. Son and M. H. Lee, "Implementation of Accelerometer Sensor Module and Fall Detection Monitoring System based on Wireless Sensor Network," Annual International Conference of the IEEE Engineering in Medicine and Biology Society, pp.2315-2318, Aug. 2007.
M. R. Naraynan, S. R. Lord, M. M. Budge, B. G. Celler and N. H. Lovell, "Falls Management: Detection and Prevention, using a Waist-mounted Triaxial Accelerometer" Annual International Conference of the IEEE Engineering in Medicine and Biology Society, pp. 4037-4040, Aug. 2007.
M. Kangas, A. Konttila, I. Winblad and T. Jamsa, "Determination of simple thresholds for accelerometry-based parameters for fall detection," Annual International Conference of the IEEE Engineering in Medicine and Bioloy Society, pp. 136701370, Aug. 2007.
F. R. Allen, E. Ambikairajah, N. H.Lovell and B. G. Celler, "An Adapted Gaussian Mixtrue Model Approach to Acceleromety-Based Movement Classification Using Time-Domain Features," Annual International Conference of the IEEE Engineering in Medicine and Biology Society, pp.3600-3603, Aug. 2006.
A. Sixsmith and N. Johnson, "A smart sensor to detect the falls of the elderlym" IEEE Pervasive Computing, Vol. 3, Issue 2, pp.42-47, April-June 2004.
M. Alwan, P. J. Rajendran, S. Kell, D. Mack, S. Dalal, M. Wolfe and R. Felder, "A Smart and Passive Floor-VibrationBased Fall Detector for Elderly," In Proceedings of Internaltional Conference on Information and Communication Technologies, Vol. 1, pp.1003-1007, 2006.
C. Rougier, J. Meunier, A. St-Arnaud and J. Rousseasu, "Monocular 3D Head Tracking to Detect Falls of Elderly People," International Conference of the IEEE Engineering in Medicine and Biology Society, pp.6384-6387, Aug. 2006.
C. Rougier, J. Meunier, A. St-Arnaud and J. Rousseau, "Fall Detection from Human Shape and Motion History Using Video Surveillance," International Conference on Advanced InformationNetworking and Applications Workshops(AINAW '07), Vol 2. pp.875-880, May. 2007.
B. Jansen, and R. Deklerck, "Context aware inactivity recognition for visual fall detection," Pervasive Health Conference and Workshops, pp.1-4, December 2006.
N.Thome and S. Miguet, "A HHMM-Based Approach for Robust Fall Detection," International Conference on Control, Automation, Robotics and Vision, pp.1-8. December 2006.
D. Anderson, J.M. Keller, M. Skubic, X. Chen, and Z. He, "Recognizing Falls from Silhouettes," Annual International Conference of the IEEE Engineering in Medicine and Biology Society, pp.6388-6391, Aug. 2006.
H. Nait-Charif and S. McKenna, "Activity summarisation and fall detection in supportive home environment," In Proceedings of the 17th International Conference on Pattern Recognition(ICPR), Vol. 4, pp.323-326, Aug. 2004.
S.-G. Miaou, P.-H. Sung, and C.-Y. Huang, "A Customized Human Fall Detection System Using Omni-Camera Images and Personal Information," Proc. of Distributed Diagnosis and Home Healthcare(D2H2) Conference, pp.30-42, Apr. 2006.
M.-L. Wang, C.-C. Huang and H.-Y. Lin, "An IntelligentSurveillance System Based on an Omnidirectional Vision Sensor," IEEE Conference on Cybernetices and Intelligent Systems, pp.1-6, June 2006.
소인미, 한대경, 강선경, 김영운, 정성태, "어안렌즈 카메라를 이용한 기절동작 인식" 한국컴퓨터정보학회논문지, 제 13권, 제 4호, 97-103쪽, 2008년 7월.
김영운, 강선경, 소인미, 한대경, 김윤진, 정성태, "멀티모달 정보를 이용한 응급상황 인식 시스템," 대한전자공학회 하계학술대회, 제 3권, 제 1호, 757-758쪽, 2008년 6월.
C. Stauffer and W.E.L. Grimson, "Adaptive background mixture models for real-time tracking," IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Vol. 2, pp.246-252, June 1999.
R. Crane, "A simplified approach to image processing," Prentice Hall, 1997.
I. Pitas, "Digital Image Processing schemes and Application," New York, John Wiley and Songs Inc., 2000.
A. Fitzgibbon, M. Pilu and R.B. Fisher, "Direct least square fitting of ellipses," IEEE Transactions on Pattern Analysis andMachnie Intelligence, Vol. 21, No. 5, pp.476-489, May 1999.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.