[국내논문]무인 점포 사용자 이상행동을 탐지하기 위한 지능형 모션 패턴 인식 알고리즘 Intelligent Motion Pattern Recognition Algorithm for Abnormal Behavior Detections in Unmanned Stores원문보기
최근 최저시급의 가파른 인상으로 인건비에 대한 부담이 늘어남과 함께 코로나19의 여파로 무인 상점의 점유율이 높아지고 있는 추세이다. 그로 인해 무인 점포를 타겟으로 하는 도난 범죄들도 같이 늘어나고 있어 이러한 도난 사고를 방지하기 위해 Just-Walk-Out 시스템을 도입하고 고비용의 LiDAR 센서, 가중치 센서 등을 사용하거나 수동으로 지속적인 CCTV 감시를 통해서 확인하고 있다. 하지만 이런 고가의 센서를 많이 사용할수록 점포 운영에 있어 비용 부담이 늘어나게 되고, CCTV 확인은 관리자가 24시간 내내 감시하기 어려워서 사용이 제한적이다. 본 연구에서는 이런 센서들이나 사람에 의지하는 부분을 해결할 수 있고 무인점포에서 사용할 수 있는 저비용으로 도난 등의 이상행동을 하는 고객을 탐지하여 클라우드 기반의 알림을 제공하는 인공지능영상 처리 융합 알고리즘을 제안하고자 한다. 또한 본 연구에서는 mediapipe를 이용한 모션캡쳐, YOLO를 이용한 객체탐지 그리고 융합 알고리즘을 통해 무인 점포에서 수집한 행동 패턴 데이터를 바탕으로 각 알고리즘들에 대한 정확도를 확인하며 다양한 상황 실험을 통해 융합 알고리즘의 성능을 증명했다.
최근 최저시급의 가파른 인상으로 인건비에 대한 부담이 늘어남과 함께 코로나19의 여파로 무인 상점의 점유율이 높아지고 있는 추세이다. 그로 인해 무인 점포를 타겟으로 하는 도난 범죄들도 같이 늘어나고 있어 이러한 도난 사고를 방지하기 위해 Just-Walk-Out 시스템을 도입하고 고비용의 LiDAR 센서, 가중치 센서 등을 사용하거나 수동으로 지속적인 CCTV 감시를 통해서 확인하고 있다. 하지만 이런 고가의 센서를 많이 사용할수록 점포 운영에 있어 비용 부담이 늘어나게 되고, CCTV 확인은 관리자가 24시간 내내 감시하기 어려워서 사용이 제한적이다. 본 연구에서는 이런 센서들이나 사람에 의지하는 부분을 해결할 수 있고 무인점포에서 사용할 수 있는 저비용으로 도난 등의 이상행동을 하는 고객을 탐지하여 클라우드 기반의 알림을 제공하는 인공지능 영상 처리 융합 알고리즘을 제안하고자 한다. 또한 본 연구에서는 mediapipe를 이용한 모션캡쳐, YOLO를 이용한 객체탐지 그리고 융합 알고리즘을 통해 무인 점포에서 수집한 행동 패턴 데이터를 바탕으로 각 알고리즘들에 대한 정확도를 확인하며 다양한 상황 실험을 통해 융합 알고리즘의 성능을 증명했다.
The recent steep increase in the minimum hourly wage has increased the burden of labor costs, and the share of unmanned stores is increasing in the aftermath of COVID-19. As a result, theft crimes targeting unmanned stores are also increasing, and the "Just Walk Out" system is introduced to prevent ...
The recent steep increase in the minimum hourly wage has increased the burden of labor costs, and the share of unmanned stores is increasing in the aftermath of COVID-19. As a result, theft crimes targeting unmanned stores are also increasing, and the "Just Walk Out" system is introduced to prevent such thefts, and LiDAR sensors, weight sensors, etc. are used or manually checked through continuous CCTV monitoring. However, the more expensive sensors are used, the higher the initial cost of operating the store and the higher the cost in many ways, and CCTV verification is difficult for managers to monitor around the clock and is limited in use. In this paper, we would like to propose an AI image processing fusion algorithm that can solve these sensors or human-dependent parts and detect customers who perform abnormal behaviors such as theft at low costs that can be used in unmanned stores and provide cloud-based notifications. In addition, this paper verifies the accuracy of each algorithm based on behavior pattern data collected from unmanned stores through motion capture using mediapipe, object detection using YOLO, and fusion algorithm and proves the performance of the convergence algorithm through various scenario designs.
The recent steep increase in the minimum hourly wage has increased the burden of labor costs, and the share of unmanned stores is increasing in the aftermath of COVID-19. As a result, theft crimes targeting unmanned stores are also increasing, and the "Just Walk Out" system is introduced to prevent such thefts, and LiDAR sensors, weight sensors, etc. are used or manually checked through continuous CCTV monitoring. However, the more expensive sensors are used, the higher the initial cost of operating the store and the higher the cost in many ways, and CCTV verification is difficult for managers to monitor around the clock and is limited in use. In this paper, we would like to propose an AI image processing fusion algorithm that can solve these sensors or human-dependent parts and detect customers who perform abnormal behaviors such as theft at low costs that can be used in unmanned stores and provide cloud-based notifications. In addition, this paper verifies the accuracy of each algorithm based on behavior pattern data collected from unmanned stores through motion capture using mediapipe, object detection using YOLO, and fusion algorithm and proves the performance of the convergence algorithm through various scenario designs.
본 연구는 이러한 무인 점포 운영의 어려움을 인지하고 모션 캡쳐 알고리즘과 객체 인식 알고리즘을 융합해서 무인점포 고객의 이상행동을 탐지하는 알고리즘을 제안한다. 제안된 알고리즘을 위해 모션 캡쳐 모델과, 객체 인식 모델, 융합 모델을 통해서 이상징후를 탐지하는 알고리즘을 개발했다.
본 연구에서는 모션 캡쳐 알고리즘을 이용한 사용자 행동 패턴 탐지에 대한 실험을 진행하였다. 실제 무인 점포나 다중 객체가 존재할 수 있는 다수의 점포에서 카메라 촬영을 통해 행동 패턴에 대한 데이터를 수집하였고 촬영하지 못한 특정 패턴에 대해서는 ‘AI-Hub'의 이상행동 영상 데이터를 일부 사용하였다[17].
본 연구에서는 수많은 LiDAR 센서, 가중치 센서 등의 사용으로 고 비용으로 어려움을 겪고 있는 무인 점포에 도움을 주고자 저비용으로 점포 내 사용자들의 행동 패턴을 분석하고 탐지하는 모션 탐지 융합 알고리즘을 제안했다. 다중 객체 탐지가 가능한 객체 인식과 영상 처리를 지원하고 KNN 알고리즘을 제공하는 영상 처리, 객체의 관절점을 제공해 행동 패턴을 탐지할 수 있는 모션 캡처 등을 융합한 알고리즘을 개발했다.
본 연구에서는 앞에서 서술한 아마존 고와 이마트24에서 적용하고 있는 도난 방지 시스템의 허점과 무인 점포 운영에 있어 비용적 부담을 줄여주기 위해 사용자의 모션패턴 인식 알고리즘을 제안한다. 이를 위해 객체 인식, 모션캡쳐 알고리즘들을 찾아보고 연구를 진행하였다.
제안 방법
모션 캡처 모델로 mediapipe 알고리즘을 활용해서 사람의 관절점을 탐지해 서있는 자세, 훔치는 모션, 달리는 자세, 의자에 앉거나 주저앉기, 움직임을 인식하는 모델을 개발했다. 객체인식 알고리즘으로 사람의 형태 및 손모양에 대한 모델을 개발했다. 이를 융합하여 모션캡처에서 발생하는 탐지오류를 줄여서 정확도를 높이는 알고리즘을 개발했다.
본 연구에서는 수많은 LiDAR 센서, 가중치 센서 등의 사용으로 고 비용으로 어려움을 겪고 있는 무인 점포에 도움을 주고자 저비용으로 점포 내 사용자들의 행동 패턴을 분석하고 탐지하는 모션 탐지 융합 알고리즘을 제안했다. 다중 객체 탐지가 가능한 객체 인식과 영상 처리를 지원하고 KNN 알고리즘을 제공하는 영상 처리, 객체의 관절점을 제공해 행동 패턴을 탐지할 수 있는 모션 캡처 등을 융합한 알고리즘을 개발했다. 또한 실제 무인 점포와 수많은 사용자들이 존재하는 점포에서 행동 패턴에 대한 이미지 데이터를 수집하였고 학습 시킨 뒤 알고리즘을 실행하여 행동 패턴 별로 Recall, Precision, F1-Score를 구하였으며 다양한 시나리오를 설계해 실험을 통해 융합 알고리즘의 성능을 보였다.
다중 객체 탐지가 가능한 객체 인식과 영상 처리를 지원하고 KNN 알고리즘을 제공하는 영상 처리, 객체의 관절점을 제공해 행동 패턴을 탐지할 수 있는 모션 캡처 등을 융합한 알고리즘을 개발했다. 또한 실제 무인 점포와 수많은 사용자들이 존재하는 점포에서 행동 패턴에 대한 이미지 데이터를 수집하였고 학습 시킨 뒤 알고리즘을 실행하여 행동 패턴 별로 Recall, Precision, F1-Score를 구하였으며 다양한 시나리오를 설계해 실험을 통해 융합 알고리즘의 성능을 보였다. 이는 곧 무인 점포들의 센서 의존도를 낮추고 본 연구에서 제시한 융합 알고리즘이 이를 대체하게 하여 점포 운영에 있어 비용적인 부담을 줄이는데 도움을 줄 수 있을 것이다.
제안된 알고리즘을 위해 모션 캡쳐 모델과, 객체 인식 모델, 융합 모델을 통해서 이상징후를 탐지하는 알고리즘을 개발했다. 모션 캡처 모델로 mediapipe 알고리즘을 활용해서 사람의 관절점을 탐지해 서있는 자세, 훔치는 모션, 달리는 자세, 의자에 앉거나 주저앉기, 움직임을 인식하는 모델을 개발했다. 객체인식 알고리즘으로 사람의 형태 및 손모양에 대한 모델을 개발했다.
또한 이러한 분류 알고리즘은 현재 다양한 분야에서 활용되고 있으며 여어 학습 방식 중에서 가벼운 편에 속한다[15]. 본 알고리즘에서는 모션 캡쳐 알고리즘에서 제공하는 관절점을 이용해 각 관절마다 각도 값을 계산하여 데이터셋을 만들고 이를 KNN 알고리즘에 적용시켜 인접한 3개의 데이터를 인지하고 학습시킬 데이터에 적합한 군집을 판단하도록 하였다.
본 연구에서 제시하는 알고리즘은 객체 인식 알고리즘과 모션 캡쳐 알고리즘, 영상 처리 알고리즘를 융합한 융합 알고리즘으로 무인 점포 내 사용자 행동 패턴을 탐지한다. 본 연구는 무인 점포 내에서 일어날 수 있는 일부 상황을 제시하고 모션 캡쳐 알고리즘만 사용하였을 때와 알고리즘을 융합하여 사용하였을 때의 탐지 성능 실험하였으며 각 상황에서 원하는 행동 패턴을 탐지를 분석하였다. 결과는 Table 4과 같다.
하지만 다른 객체에 일부가 가려진 상태이거나 조명과 거리 등의 영향으로 객체가 잘 보이지 않는 상태에서는 모션 캡처 알고리즘만으로는 탐지가 불안정한 모습을 일부 보였다. 본 연구는 앞에서 인공지능 융합 알고리즘을 제안하였고 해당 알고리즘에 대한 실험을 진행하였다. 결과적으로 객체 인식 알고리즘과 영상 처리 알고리즘을 사용해 객체가 존재하는 영역만 추출해 모션 캡쳐 알고리즘을 적용하면 일부가 가려진 객체 등의 탐지 정확도가 향상되었다.
본 연구에서 제시하는 알고리즘은 객체 인식 알고리즘과 모션 캡쳐 알고리즘, 영상 처리 알고리즘를 융합한 융합 알고리즘으로 무인 점포 내 사용자 행동 패턴을 탐지한다. 본 연구는 무인 점포 내에서 일어날 수 있는 일부 상황을 제시하고 모션 캡쳐 알고리즘만 사용하였을 때와 알고리즘을 융합하여 사용하였을 때의 탐지 성능 실험하였으며 각 상황에서 원하는 행동 패턴을 탐지를 분석하였다.
본 연구에서는 roboflow에서 human object dataset과 hand object dataset을 ‘YOLO v5 PyTorch' 형태의 포맷으로 변환하여 학습하였고 학습이 완료된 상태에서 실시간 객체 탐지 실험을 진행하였다
본 연구에서는 객체의 행동 패턴을 각 관절의 움직임을 이용하여 분석하기 위해 앞에서 ‘deeplabcut', ‘openpose', ‘mediapipe' 등의 다양한 알고리즘들을 찾아보았고 ‘사람 객체의 관절을 탐지할 수 있는 가'와 ‘실시간으로 빠르게 패턴을 탐지할 수 있는가'의 기준을 모두 충족시킬 수 있는 ‘mediapipe' 알고리즘, 즉 프레임워크를 선택하였다
mediapipe는 사람의 얼굴, 몸체, 손 등의 객체에 Land Mark, 즉 관절점을 찾아주어 탐지한 객체의 움직임을 보여주는 프레임워크 중 하나이다[12, 13]. 본 연구에서는 그 중 사람 몸체와 손 객체의 관절점을 이용하여 무인 점포 내 사용자 객체의 행동 패턴을 분석하고 탐지하도록 구현하였다.
본 연구에서는 실제 무인 점포와 다수의 사용자 객체가 존재하는 수많은 점포에서 실험을 진행하였고 각 알고리즘 별로 객체 탐지와 행동 패턴 탐지에 대한 정밀도와 정확도 등을 확인하였다.
본 연구에서는 앞에서 서술한 아마존 고와 이마트24에서 적용하고 있는 도난 방지 시스템의 허점과 무인 점포 운영에 있어 비용적 부담을 줄여주기 위해 사용자의 모션패턴 인식 알고리즘을 제안한다. 이를 위해 객체 인식, 모션캡쳐 알고리즘들을 찾아보고 연구를 진행하였다.
객체인식 알고리즘으로 사람의 형태 및 손모양에 대한 모델을 개발했다. 이를 융합하여 모션캡처에서 발생하는 탐지오류를 줄여서 정확도를 높이는 알고리즘을 개발했다. 이를 통해, 무인 점포에서 발생하는 다양한 이상행동인 뛰거나 훔치거나 바닥에 주저 앉는 등의 개별 알고리즘의 및 융합 알고리즘의 성능를 검증하였다.
이를 융합하여 모션캡처에서 발생하는 탐지오류를 줄여서 정확도를 높이는 알고리즘을 개발했다. 이를 통해, 무인 점포에서 발생하는 다양한 이상행동인 뛰거나 훔치거나 바닥에 주저 앉는 등의 개별 알고리즘의 및 융합 알고리즘의 성능를 검증하였다.
‘RCNN' 알고리즘은 bounding box를 기준으로 객체를 구별하는 대표적인 알고리즘이다. 입력된 이미지를 여러 장으로 분할하고 CNN 기반 모델을 이용해 이미지를 분석한다. 이미지의 특정 픽셀들을 잡아 다양한 모양의 bounding box들을 추출해 객체를 검출한다[7].
본 연구는 이러한 무인 점포 운영의 어려움을 인지하고 모션 캡쳐 알고리즘과 객체 인식 알고리즘을 융합해서 무인점포 고객의 이상행동을 탐지하는 알고리즘을 제안한다. 제안된 알고리즘을 위해 모션 캡쳐 모델과, 객체 인식 모델, 융합 모델을 통해서 이상징후를 탐지하는 알고리즘을 개발했다. 모션 캡처 모델로 mediapipe 알고리즘을 활용해서 사람의 관절점을 탐지해 서있는 자세, 훔치는 모션, 달리는 자세, 의자에 앉거나 주저앉기, 움직임을 인식하는 모델을 개발했다.
크게 ‘standing', ‘runing', ‘siting', ‘stealing', ‘catching', ‘grabing' 등의 행동 패턴 데이터를 수집하였다. 촬영한 영상에서 특정한 행동 패턴을 취하는 사용자 객체를 선별한 후, 모션 캡쳐 알고리즘을 이용해 객체의 각 관절들의 각도 값을 연산하여 라벨링을 포함하여 데이터셋을 구성하였다. 모션 캡쳐 알고리즘의 행동 패턴 별 recall, precision 및 F1-Score는 Table 2와 같다.
대상 데이터
실제 무인 점포나 다중 객체가 존재할 수 있는 다수의 점포에서 카메라 촬영을 통해 행동 패턴에 대한 데이터를 수집하였고 촬영하지 못한 특정 패턴에 대해서는 ‘AI-Hub'의 이상행동 영상 데이터를 일부 사용하였다[17]
크게 ‘standing', ‘runing', ‘siting', ‘stealing', ‘catching', ‘grabing' 등의 행동 패턴 데이터를 수집하였다
데이터처리
우선 객체 인식 알고리즘에 대한 데이터 수집과 실험을 진행하였다. 본 연구에서 제시하는 시스템 내 YOLO는 사람 또는 손 객체를 탐지하는 역할을 수행하므로 사람과 손에 대한 데이터가 필요하다.
이론/모형
그리하여 본 연구에서 제시하는 시스템은 행동 패턴 모델 학습을 위해 python OpenCV 라이브러리에 내장된 ‘KNN 알고리즘'을 이용하여 모델을 학습시킨다
‘아마존(amazon)'은 시애틀에 무인 식료품점인 ‘아마존 고(amazon go)'를 열었다[2]. 아마존 고는 just walk out 기술이 적용된 매장으로 컴퓨터 비전, 딥러닝 알고리즘, 센서 퓨전, 자율주행 기술을 사용했다. 걸어 나가기만 하면 된다는 뜻으로 매장에서 물건을 집어 나가면 결제가 되는 서비스이다[3].
성능/효과
본 연구는 앞에서 인공지능 융합 알고리즘을 제안하였고 해당 알고리즘에 대한 실험을 진행하였다. 결과적으로 객체 인식 알고리즘과 영상 처리 알고리즘을 사용해 객체가 존재하는 영역만 추출해 모션 캡쳐 알고리즘을 적용하면 일부가 가려진 객체 등의 탐지 정확도가 향상되었다. 결과는 Table 3과 같다.
모션 캡쳐 단일 알고리즘만 사용한 경우에 탐지가 불안정한 상황이 존재했는데 특히 물체에 가려진 객체나 중첩되어 있는 객체들은 정확한 탐지가 어려웠다. 하지만 객체 인식 알고리즘을 함께 사용하여 객체를 확실히 탐지한 뒤 해당 객체만 보여주는 영상 데이터로 다시 행동 패턴을 분석하였을 때, 대부분의 까다로운 상황에서 탐지 가능한 것을 확인할 수 있었다.
후속연구
이는 곧 무인 점포들의 센서 의존도를 낮추고 본 연구에서 제시한 융합 알고리즘이 이를 대체하게 하여 점포 운영에 있어 비용적인 부담을 줄이는데 도움을 줄 수 있을 것이다. 그리고 우리는 본 연구를 해당 융합 알고리즘을 통해 무인 점포뿐만 아니라 무인 카페, 어린이 교통 사고 방지 CCTV, 군부대 내 거수자 탐지 CCTV 등의 시스템으로 확장해 나갈 예정이다.
또한 실제 무인 점포와 수많은 사용자들이 존재하는 점포에서 행동 패턴에 대한 이미지 데이터를 수집하였고 학습 시킨 뒤 알고리즘을 실행하여 행동 패턴 별로 Recall, Precision, F1-Score를 구하였으며 다양한 시나리오를 설계해 실험을 통해 융합 알고리즘의 성능을 보였다. 이는 곧 무인 점포들의 센서 의존도를 낮추고 본 연구에서 제시한 융합 알고리즘이 이를 대체하게 하여 점포 운영에 있어 비용적인 부담을 줄이는데 도움을 줄 수 있을 것이다. 그리고 우리는 본 연구를 해당 융합 알고리즘을 통해 무인 점포뿐만 아니라 무인 카페, 어린이 교통 사고 방지 CCTV, 군부대 내 거수자 탐지 CCTV 등의 시스템으로 확장해 나갈 예정이다.
참고문헌 (17)
Kyungha Min, The number of unmmaned convenience stores?exceeds 3,300 Increased 6 times in 2 years," etnews, 2023.?https://www.etnews.com/20230109000221
Youtube, "Introducing Amazon Go and the world's most?advanced shopping technology," 2016.?https://www.youtube.com/watch?vNrmMk1Myrxc
Just Walk Out, https://justwalkout.com/
Ryan Gross, "How the Amazon Go Store's AI Works,?Towards Data Science, 2019.?https://towardsdatascience.com/how-the-amazon-go-storeworks-a-deep-dive-3fde9d9939e9
Namkyeong Lee, Hyunjun Park, "Key Successful Factors?for Unmanned Convenience Stores in the Fourth Industrial?Revolution : Case of E-Mart24 Self-Store", Vol. 26, No.?2, 2021.?http://dx.doi.org/10.9723/jksiis.2021.26.2.073
Jeongwon Yoo, "E-Mart 24 Smart Store... 3 things that the?Gimpo DC branch does not have and the only the COEX?branch has," goodkyung, 2021.?http://www.goodkyung.com/news/articleView.html?idxno157031
Byungjoon Kim, Yongduek Seo, "Data Generation?System for Flaw Detection of OLED Panel and Application?of RCNN-based Defect Detection," Vol. 20, No. 12,?pp.57-63, 2022.?http://dx.doi.org/10.14801/jkiit.2022.20.12.57
Gunwoo Do, Donghyeon Kim, Siwoong Jang, "Performance?Comparison between Yolov5 and Yolov8 Models trained on?Fire Image," Vol. 27, No. 1, pp.586-588, 2023.?https://www.dbpia.co.kr/journal/articleDetail?nodeIdNODE11498522
Jihoon Lee, Minchan Shin, Junhee Park, Nammee Moon,?"Deep Learning-Based Companion Animal Abnormal?Behavior Detection Service Using Image and Sensor Data,"?Journal of The Korea Society of Computer and Information,?Vol. 27, No. 10, pp.1-9, 2022.?http://dx.doi.org/10.9708/jksci.2022.27.10.001
Inhye Kim, Ilhong Jung, "A Study on Korea Sign Language?Motion Recognition Using OpenPose Based on Deep?Learning," Journal of Digital Contents Society, Vol 22, No.?4, pp.681-687, 2021.?http://dx.doi.org/10.9728/dcs.2021.22.4.681
Suyeon Han, Deawoo Park, "Cat Behavior Pattern Analysis?and Disease Prediction System of Home CCTV Images using?AI," Journal of the Korea Institute of Information and?Communication Engineering, Vol. 26, No. 9, pp.1266-1271,?2022.?http://doi.org/10.6109/jkiice.2022.26.9.1266
Rakbin Song, Yuna Hong, Noyoon Kwak, "User Interface?Using Hand Gesture Recognition Based on Mediapipe Hands?Model," Journal of Korea Multimedia Society, Vol. 26, No.?2, pp.103-115, 2023.?https://doi.org/10.9717/kmms.2023.26.2.103
Bokdeuk Song, Seunghwan Lee, Hongkyw Choi, Sunghoon?Kim, "Design and Implementation of a Stereoscopic Image?Control System based on User Hand Gesture Recognition,"?Journal of the Korea Institute of Information and?Communication Engineering, Vol. 26, No. 3, pp.396-402,?2022.?http://doi.org/10.6109/jkiice.2022.26.3.396
Giwook Cha, Wonhwa Hong, "Development of Optimal?k-Nearest Neighbors (KNN) Model to Predict Demolition?Waste Generation in Redevelopment Area," J. Korean Soc.?Living Environ. Sys., Vol. 30, No. 1, pp.20-29, 2023.?https://doi.org/10.21086/ksles.2023.2.30.1.20
※ AI-Helper는 부적절한 답변을 할 수 있습니다.