본 논문은 독거노인이나 1인 가구들의 자택 내 건강 모니터링을 위한 행동 인식 방법을 제안한다. 기존에 제안된 사람의 행동 인식 을 위한 방법으로 딥러닝 기술의 개발 이전에는 hand-crafted 방식 으로 사전에 계산된 복잡한 계산식을 사용하여 구현이 복잡하고 제 한적인 조건이 따르는 단점이 있다. 딥러닝 기술의 개발 이후에는 크게 세 가지 방식이 있는데 첫째로 마이크로소프트 사의 Kinect 카 메라를 통해 추출된 사람의 뼈대 좌표 정보를 이용하여 시간적 특 성을 추출하여 학습하는 ...
본 논문은 독거노인이나 1인 가구들의 자택 내 건강 모니터링을 위한 행동 인식 방법을 제안한다. 기존에 제안된 사람의 행동 인식 을 위한 방법으로 딥러닝 기술의 개발 이전에는 hand-crafted 방식 으로 사전에 계산된 복잡한 계산식을 사용하여 구현이 복잡하고 제 한적인 조건이 따르는 단점이 있다. 딥러닝 기술의 개발 이후에는 크게 세 가지 방식이 있는데 첫째로 마이크로소프트 사의 Kinect 카 메라를 통해 추출된 사람의 뼈대 좌표 정보를 이용하여 시간적 특 성을 추출하여 학습하는 RNN 모델 기반 방식과 둘째로 일반 카메 라로 얻은 RGB 영상으로 공간적 특성을 추출하여 학습하는 CNN 모델 기반 방식, 그리고 마지막으로 시-공간적 특성을 같이 사용하 는 3D convolution 모델이나 two-stream 모델 방식이 있다. 하지만 최근 연구되는 모델들은 공용 데이터들로부터 높은 인식률을 얻기 위해 모델 구조가 복잡해지며 많은 컴퓨터 자원을 요구하여 실시간 으로 처리하거나 임베디드 보드에는 적용이 불가능 하다. 이러한 점 을 극복하기 위해 본 논문에서는 모바일 기기에서 임베디드 보드를 탑재하여 실시간으로 행동은 인식하기 위한 방법을 제시한다. 우선 소형 모바일 기기를 사용하기 위해 기존에 사용되는 Kinect camera 가 아닌 일반 RGB camera를 사용하여 3차원 관절 좌표를 뽑아내기 위해 오픈소스 라이브러리인 OpenPose와 3D-baseline을 하나의 파 이프 라인으로 통합하였다. 이렇게 얻어진 관절 좌표를 joint smoothing을 거쳐 노이즈를 제거한 후 CNN 네트워크에 사용하기 위해 관절값을 픽셀화하여 이미지 형태로 변환하였다. 이를 임베디 드 보드 내에서 실시간으로 인식할 수 있도록 6개의 컨볼루션 층으 로 구성된 CNN 네트워크를 통해 분류하였다. 학습은 Kinect camera 로 얻어진 공용 데이터 NTU-RGBD 데이터를 사용하였고 OpenPose 를 통해 전체 관절이 관측되는 정면의 행동 라벨 15개를 뽑아 사용 하였다. 학습을 통해 일반 RGB camera와 kinect camera의 성능 비 교를 위해 제안된 방법으로 얻은 관절의 데이터와 Kinect camera로 얻어진 본연의 관절 데이터를 학습하였다. 학습의 결과 Kinect camera 데이터의 경우 74%의 정확도를 얻었고 제안한 방법으로 얻 은 데이터의 경우 70%의 정확도를 보였으며 이를 통해 크게 성능이 떨어지지 않는 것을 확인할 수 있었다. 또한 모바일 기기가 자택 내 에서 실시간 모니터링을 위해 지속적으로 촬영할 수 있도록 human tracking을 하였다. 모바일 플랫폼은 NVIDIA JETSON XAVIER 임베 디드 보드, OpenCR, ROBOTIS TurtleBot, Logitech c920으로 구성하 였고 OpenPose에서 관측되는 관절의 무게중심과 높이를 사용하여 tracking을 하였다. 이렇게 본 논문에서 제안된 방법으로는 다음과 같은 장점을 얻을 수 있는데 우선 Kinect camera가 아닌 일반 RGB camera를 사용함으로 인해 Kinect camera로 촬영되어 얻어진 공용 데이터 뿐 만 아닌 사전에 녹화된 영상들로부터 훈련 데이터를 구 상할 수 있다. 또한 관절 정보를 이미지 형태로 변환하여 사용하기 에 매 frame 단위로 행동을 분류할 수 있고 이를 임베디드 보드를 탑재한 모바일 기기에서 실시간으로 사용할 수 있다.
본 논문은 독거노인이나 1인 가구들의 자택 내 건강 모니터링을 위한 행동 인식 방법을 제안한다. 기존에 제안된 사람의 행동 인식 을 위한 방법으로 딥러닝 기술의 개발 이전에는 hand-crafted 방식 으로 사전에 계산된 복잡한 계산식을 사용하여 구현이 복잡하고 제 한적인 조건이 따르는 단점이 있다. 딥러닝 기술의 개발 이후에는 크게 세 가지 방식이 있는데 첫째로 마이크로소프트 사의 Kinect 카 메라를 통해 추출된 사람의 뼈대 좌표 정보를 이용하여 시간적 특 성을 추출하여 학습하는 RNN 모델 기반 방식과 둘째로 일반 카메 라로 얻은 RGB 영상으로 공간적 특성을 추출하여 학습하는 CNN 모델 기반 방식, 그리고 마지막으로 시-공간적 특성을 같이 사용하 는 3D convolution 모델이나 two-stream 모델 방식이 있다. 하지만 최근 연구되는 모델들은 공용 데이터들로부터 높은 인식률을 얻기 위해 모델 구조가 복잡해지며 많은 컴퓨터 자원을 요구하여 실시간 으로 처리하거나 임베디드 보드에는 적용이 불가능 하다. 이러한 점 을 극복하기 위해 본 논문에서는 모바일 기기에서 임베디드 보드를 탑재하여 실시간으로 행동은 인식하기 위한 방법을 제시한다. 우선 소형 모바일 기기를 사용하기 위해 기존에 사용되는 Kinect camera 가 아닌 일반 RGB camera를 사용하여 3차원 관절 좌표를 뽑아내기 위해 오픈소스 라이브러리인 OpenPose와 3D-baseline을 하나의 파 이프 라인으로 통합하였다. 이렇게 얻어진 관절 좌표를 joint smoothing을 거쳐 노이즈를 제거한 후 CNN 네트워크에 사용하기 위해 관절값을 픽셀화하여 이미지 형태로 변환하였다. 이를 임베디 드 보드 내에서 실시간으로 인식할 수 있도록 6개의 컨볼루션 층으 로 구성된 CNN 네트워크를 통해 분류하였다. 학습은 Kinect camera 로 얻어진 공용 데이터 NTU-RGBD 데이터를 사용하였고 OpenPose 를 통해 전체 관절이 관측되는 정면의 행동 라벨 15개를 뽑아 사용 하였다. 학습을 통해 일반 RGB camera와 kinect camera의 성능 비 교를 위해 제안된 방법으로 얻은 관절의 데이터와 Kinect camera로 얻어진 본연의 관절 데이터를 학습하였다. 학습의 결과 Kinect camera 데이터의 경우 74%의 정확도를 얻었고 제안한 방법으로 얻 은 데이터의 경우 70%의 정확도를 보였으며 이를 통해 크게 성능이 떨어지지 않는 것을 확인할 수 있었다. 또한 모바일 기기가 자택 내 에서 실시간 모니터링을 위해 지속적으로 촬영할 수 있도록 human tracking을 하였다. 모바일 플랫폼은 NVIDIA JETSON XAVIER 임베 디드 보드, OpenCR, ROBOTIS TurtleBot, Logitech c920으로 구성하 였고 OpenPose에서 관측되는 관절의 무게중심과 높이를 사용하여 tracking을 하였다. 이렇게 본 논문에서 제안된 방법으로는 다음과 같은 장점을 얻을 수 있는데 우선 Kinect camera가 아닌 일반 RGB camera를 사용함으로 인해 Kinect camera로 촬영되어 얻어진 공용 데이터 뿐 만 아닌 사전에 녹화된 영상들로부터 훈련 데이터를 구 상할 수 있다. 또한 관절 정보를 이미지 형태로 변환하여 사용하기 에 매 frame 단위로 행동을 분류할 수 있고 이를 임베디드 보드를 탑재한 모바일 기기에서 실시간으로 사용할 수 있다.
In this paper, we propose a human action recognition method for monitoring the health of the elderly or single households. Early proposed methods for the human action recognition before deep-learning technique used complicated hand-crafted way which is hard to implement and follo...
In this paper, we propose a human action recognition method for monitoring the health of the elderly or single households. Early proposed methods for the human action recognition before deep-learning technique used complicated hand-crafted way which is hard to implement and follows limited conditions. After the deep-learning technique there are three main methods. First, based on RNN network method that extracts temporal features by using skeleton coordinate obtained from Mircosoft’s Kinect camera. Second, CNN network based method that extracts spatial features from RGB images. Finally, 3D-convolutional models or two-stream model methods that use spatio-temporal features. However, recently studied models are deep and complex to obtain high recognition score from public data and cannot be applied to embedded board in real-time due to the heavy computing resources. To overcome this problem we propose a method that can recognize actions in real-time in embedded mobile device. Firstly to use small mobile device, we integrated two open source library OpenPose and 3D-baseline into the one pipeline to extract three-dimensional joint using a general RGB camera instead of Kinect camera. With this joint we conducted joint smoothing to remove noise and then converted into image form by pixelize the joint data to use CNN network. This joints are classified through a CNN network consist of six convolutional layers for real-time recognotion in embedded boards. We used NTU-RGBD public data for training which is obtained from Kinect camera and sorted 15 action class that can observe full joint from OpenPose. Through the training we used the joint data obtained by the proposed method and the original joint data obtained by Kinect camera to compare the performance of RGB camera and Kinect camera. For the result, we got 74% accuracy in Kinect camera data and 70% accuracy in proposed method so that the performance of RGB camera does not drop significantly. Also human tarcking was performed to continuously monitor in ones house. Mobile platform is consist of NVIDIA JETSON XAVIER board, OpenCR, ROBOTIS TurtleBot, Logitech c920 and we tracked the human by using a center of gravity and height of the joint from the OpenPose. With this method, we are expecting following advantages. By using a information obtained from RGB camera rather than a kinect camera, not only using a public data which is generated with kinect camera, but also it is feasible to generating a custom data from previously recorded video. Furthermore, with the sliding window, recognizing human actions in each frame in real time was possible by using converted images.
In this paper, we propose a human action recognition method for monitoring the health of the elderly or single households. Early proposed methods for the human action recognition before deep-learning technique used complicated hand-crafted way which is hard to implement and follows limited conditions. After the deep-learning technique there are three main methods. First, based on RNN network method that extracts temporal features by using skeleton coordinate obtained from Mircosoft’s Kinect camera. Second, CNN network based method that extracts spatial features from RGB images. Finally, 3D-convolutional models or two-stream model methods that use spatio-temporal features. However, recently studied models are deep and complex to obtain high recognition score from public data and cannot be applied to embedded board in real-time due to the heavy computing resources. To overcome this problem we propose a method that can recognize actions in real-time in embedded mobile device. Firstly to use small mobile device, we integrated two open source library OpenPose and 3D-baseline into the one pipeline to extract three-dimensional joint using a general RGB camera instead of Kinect camera. With this joint we conducted joint smoothing to remove noise and then converted into image form by pixelize the joint data to use CNN network. This joints are classified through a CNN network consist of six convolutional layers for real-time recognotion in embedded boards. We used NTU-RGBD public data for training which is obtained from Kinect camera and sorted 15 action class that can observe full joint from OpenPose. Through the training we used the joint data obtained by the proposed method and the original joint data obtained by Kinect camera to compare the performance of RGB camera and Kinect camera. For the result, we got 74% accuracy in Kinect camera data and 70% accuracy in proposed method so that the performance of RGB camera does not drop significantly. Also human tarcking was performed to continuously monitor in ones house. Mobile platform is consist of NVIDIA JETSON XAVIER board, OpenCR, ROBOTIS TurtleBot, Logitech c920 and we tracked the human by using a center of gravity and height of the joint from the OpenPose. With this method, we are expecting following advantages. By using a information obtained from RGB camera rather than a kinect camera, not only using a public data which is generated with kinect camera, but also it is feasible to generating a custom data from previously recorded video. Furthermore, with the sliding window, recognizing human actions in each frame in real time was possible by using converted images.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.