본 논문에서는 증강현실(Augmented Reality, AR), 혼합현실(Mixed Reality, MR) 산업에서 컨텐츠로 사용되는 대용량의 포인트클라우드 시퀀스의 전송 및 저장을 위해 화질의 최대화와 데이터의 최소화의 상보적인 관계를 고려 한 압축방법을 제안한다. 제안하는 ...
본 논문에서는 증강현실(Augmented Reality, AR), 혼합현실(Mixed Reality, MR) 산업에서 컨텐츠로 사용되는 대용량의 포인트클라우드 시퀀스의 전송 및 저장을 위해 화질의 최대화와 데이터의 최소화의 상보적인 관계를 고려 한 압축방법을 제안한다. 제안하는 알고리즘은 RGB-D 카메라 시스템을 통 해 획득한 실사기반의 포인트클라우드 시퀀스의 압축을 수행한다. 직접 촬 영하여 획득된 포인트클라우드는 정렬되어 저장되지 않기 때문에 프레임마 다 상이한 포인트 수를 가지며, 프레임 간의 대응되는 포인트를 찾기 힘들 다. 따라서 일반적인 비디오 압축방법과 같은 시퀀스 압축을 위한 움직임 예측 및 보상을 이용한 압축이 어렵다. 제안하는 포인트클라우드 시퀀스 압축 방법은 각 프레임의 움직임을 예 측하기 위해 3D 스켈레톤(Skeleton) 정보를 이용한다. 추출한 스켈레톤의 품질은 압축에 큰 영향을 미치게 되므로 높은 정확도를 요구한다. 포인트 클라우드의 3D 스켈레톤을 추출하기 위해 먼저 네 방향에서 투영 영상을 생성하고 딥러닝 네트워크를 이용하여 각 방향의 2D 스켈레톤을 생성한다. 포인트 클라우드의 네 방향에 위치한 투영평면 위의 스켈레톤을 공간상에 서 교차하는 지점을 찾아 3D 스켈레톤을 획득한다. 이렇게 추출된 3D 스 켈레톤은 낮은 정확도를 가지므로 조인트(Joint) 주변의 포인트클라우드 분포를 분석하여 보다 더 안정적이고 정확도 높은 조인트 위치를 찾는 후처리가 추가된다. 모든 포인트클라우드 프레임의 고정밀 3D 스켈레톤이 추출되면, 압축 단 계로 넘어간다. 시퀀스 압축을 위해 먼저 키프레임(Key frame)을 선정하는 과정이 진행된다. 키프레임 설정주기는 목표 압축률에 따라 정해진다. 목표 압축률에 따라 잔차 포인트클라우드가 일정 개수를 넘게 되는 프레임부터 새로 키프레임을 설정된다. 키프레임 포인트클라우드는 비키프레임의 포인 트클라우드 형태로 변환하기 위해 사용되기 때문에 스켈레톤과 포인트클라 우드 또는 메쉬(Mesh)를 묶는 리깅(Rigging) 과정을 거친다. 그리고 리깅이 완료된 키프레임의 스켈레톤은 비키프레임의 스켈레톤의 위치로 이동하고 그것을 따라 포인트클라우드가 함께 비키프레임의 형태로 변형된다. 머리 카락, 손끝과 같은 세밀한 부분은 스켈레톤의 이동으로 예측할 수 없기 때 문에 원본 프레임과 잔차를 구하여 함께 보내준다. 실제 촬영하여 획득한 대용량의 포인트클라우드 시퀀스의 효과적인 압축 을 위해, 3D 스켈레톤을 이용한 움직임 예측 알고리즘을 제안한다. 정확한 움직임 예측을 위해 딥러닝 모델과 제안하는 후처리 알고리즘을 통해서 고 정밀 스켈레톤을 추출하고, 스켈레톤을 이용하여 움직임 예측 및 보상을 통해 포인트클라우드 시퀀스를 압축한다. 에러가 다수 포함된 딥러닝 기반 으로 추출한 3D 스켈레톤의 에러를 보정하기 위한 후처리를 통해 안정적 으로 추출되는 3D 스켈레톤에 대한 결과를 확인할 수 있었다. 또한 압축 결과에서 알고리즘 적용 전 보다 약 3배의 압축률 향상을 달성하며 각 포 인트클라우드 프레임은 에러의 평균이 1 cm이하의 값을 가진 것을 확인할 수 있다
본 논문에서는 증강현실(Augmented Reality, AR), 혼합현실(Mixed Reality, MR) 산업에서 컨텐츠로 사용되는 대용량의 포인트클라우드 시퀀스의 전송 및 저장을 위해 화질의 최대화와 데이터의 최소화의 상보적인 관계를 고려 한 압축방법을 제안한다. 제안하는 알고리즘은 RGB-D 카메라 시스템을 통 해 획득한 실사기반의 포인트클라우드 시퀀스의 압축을 수행한다. 직접 촬 영하여 획득된 포인트클라우드는 정렬되어 저장되지 않기 때문에 프레임마 다 상이한 포인트 수를 가지며, 프레임 간의 대응되는 포인트를 찾기 힘들 다. 따라서 일반적인 비디오 압축방법과 같은 시퀀스 압축을 위한 움직임 예측 및 보상을 이용한 압축이 어렵다. 제안하는 포인트클라우드 시퀀스 압축 방법은 각 프레임의 움직임을 예 측하기 위해 3D 스켈레톤(Skeleton) 정보를 이용한다. 추출한 스켈레톤의 품질은 압축에 큰 영향을 미치게 되므로 높은 정확도를 요구한다. 포인트 클라우드의 3D 스켈레톤을 추출하기 위해 먼저 네 방향에서 투영 영상을 생성하고 딥러닝 네트워크를 이용하여 각 방향의 2D 스켈레톤을 생성한다. 포인트 클라우드의 네 방향에 위치한 투영평면 위의 스켈레톤을 공간상에 서 교차하는 지점을 찾아 3D 스켈레톤을 획득한다. 이렇게 추출된 3D 스 켈레톤은 낮은 정확도를 가지므로 조인트(Joint) 주변의 포인트클라우드 분포를 분석하여 보다 더 안정적이고 정확도 높은 조인트 위치를 찾는 후처리가 추가된다. 모든 포인트클라우드 프레임의 고정밀 3D 스켈레톤이 추출되면, 압축 단 계로 넘어간다. 시퀀스 압축을 위해 먼저 키프레임(Key frame)을 선정하는 과정이 진행된다. 키프레임 설정주기는 목표 압축률에 따라 정해진다. 목표 압축률에 따라 잔차 포인트클라우드가 일정 개수를 넘게 되는 프레임부터 새로 키프레임을 설정된다. 키프레임 포인트클라우드는 비키프레임의 포인 트클라우드 형태로 변환하기 위해 사용되기 때문에 스켈레톤과 포인트클라 우드 또는 메쉬(Mesh)를 묶는 리깅(Rigging) 과정을 거친다. 그리고 리깅이 완료된 키프레임의 스켈레톤은 비키프레임의 스켈레톤의 위치로 이동하고 그것을 따라 포인트클라우드가 함께 비키프레임의 형태로 변형된다. 머리 카락, 손끝과 같은 세밀한 부분은 스켈레톤의 이동으로 예측할 수 없기 때 문에 원본 프레임과 잔차를 구하여 함께 보내준다. 실제 촬영하여 획득한 대용량의 포인트클라우드 시퀀스의 효과적인 압축 을 위해, 3D 스켈레톤을 이용한 움직임 예측 알고리즘을 제안한다. 정확한 움직임 예측을 위해 딥러닝 모델과 제안하는 후처리 알고리즘을 통해서 고 정밀 스켈레톤을 추출하고, 스켈레톤을 이용하여 움직임 예측 및 보상을 통해 포인트클라우드 시퀀스를 압축한다. 에러가 다수 포함된 딥러닝 기반 으로 추출한 3D 스켈레톤의 에러를 보정하기 위한 후처리를 통해 안정적 으로 추출되는 3D 스켈레톤에 대한 결과를 확인할 수 있었다. 또한 압축 결과에서 알고리즘 적용 전 보다 약 3배의 압축률 향상을 달성하며 각 포 인트클라우드 프레임은 에러의 평균이 1 cm이하의 값을 가진 것을 확인할 수 있다
In this paper, we propose a point cloud sequence compression method used as a content in the Augmented Reality (AR) and Mixed Reality (MR) industries. For transmission and storage, the complementary relationship between maximizing image quality and minimizing data size was considered.
In this paper, we propose a point cloud sequence compression method used as a content in the Augmented Reality (AR) and Mixed Reality (MR) industries. For transmission and storage, the complementary relationship between maximizing image quality and minimizing data size was considered. The proposed algorithm is a whole system that acquires and compresses a pointcloud sequence. Since the point cloud captured directly is not aligned, it has a different number of points per frame, and it is difficult to find a corresponding point between frames. Therefore, it is difficult to compress using motion prediction and compensation for sequence compression like a general video compression method. The proposed point cloud sequence compression method uses 3D skeleton information to predict the motion of each frame. The quality of the extracted skeleton has a great influence on compression, so high accuracy is required. In order to extract the 3D skeleton of the point cloud, a map image is first generated in four directions, and a 2D skeleton is created using a deep learning network. A 3D skeleton can be obtained by finding a point in space that intersects the skeleton on the map plane located in the four directions of the point cloud. Since the extracted 3D skeleton has low accuracy, post-processing to find a more stable and accurate joint position by analyzing the distribution of the point cloud around the joint is added. Once the high-precision 3D skeleton of all point cloud frames has been extracted, it moves on to the compression stage. In order to perform sequence compression, a keyframe is first selected. The keyframe setting cycle depends on the target compression rate. Depending on the target compression rate, a new key frame is set starting from a frame in which the residual point cloud exceeds a certain number. Since the key frame point cloud is used to convert to the non-key frame point cloud form, it undergoes a rigging process. Then, the skeleton of the key frame that has been rigged is moved to the position of the skeleton of the non-key frame, and the point cloud is transformed into the shape of the non-key frame along with it. Since detailed parts such as hair and fingertips cannot be predicted due to the movement of the skeleton, the original frame and residuals are obtained and sent together. For effective compression of real-world-based point cloud sequences, we propose a motion prediction algorithm using 3D skeletons. For accurate motion prediction, a high-precision skeleton is extracted through a deep learning model and a proposed post-processing algorithm, and a point cloud sequence is compressed through motion prediction and compensation using the skeleton. In addition, in the compression result, the compression rate is improved by about 3 times compared to before the algorithm is applied, and it can be seen that the average of errors in each point cloud frame is less than 1 cm.
In this paper, we propose a point cloud sequence compression method used as a content in the Augmented Reality (AR) and Mixed Reality (MR) industries. For transmission and storage, the complementary relationship between maximizing image quality and minimizing data size was considered. The proposed algorithm is a whole system that acquires and compresses a pointcloud sequence. Since the point cloud captured directly is not aligned, it has a different number of points per frame, and it is difficult to find a corresponding point between frames. Therefore, it is difficult to compress using motion prediction and compensation for sequence compression like a general video compression method. The proposed point cloud sequence compression method uses 3D skeleton information to predict the motion of each frame. The quality of the extracted skeleton has a great influence on compression, so high accuracy is required. In order to extract the 3D skeleton of the point cloud, a map image is first generated in four directions, and a 2D skeleton is created using a deep learning network. A 3D skeleton can be obtained by finding a point in space that intersects the skeleton on the map plane located in the four directions of the point cloud. Since the extracted 3D skeleton has low accuracy, post-processing to find a more stable and accurate joint position by analyzing the distribution of the point cloud around the joint is added. Once the high-precision 3D skeleton of all point cloud frames has been extracted, it moves on to the compression stage. In order to perform sequence compression, a keyframe is first selected. The keyframe setting cycle depends on the target compression rate. Depending on the target compression rate, a new key frame is set starting from a frame in which the residual point cloud exceeds a certain number. Since the key frame point cloud is used to convert to the non-key frame point cloud form, it undergoes a rigging process. Then, the skeleton of the key frame that has been rigged is moved to the position of the skeleton of the non-key frame, and the point cloud is transformed into the shape of the non-key frame along with it. Since detailed parts such as hair and fingertips cannot be predicted due to the movement of the skeleton, the original frame and residuals are obtained and sent together. For effective compression of real-world-based point cloud sequences, we propose a motion prediction algorithm using 3D skeletons. For accurate motion prediction, a high-precision skeleton is extracted through a deep learning model and a proposed post-processing algorithm, and a point cloud sequence is compressed through motion prediction and compensation using the skeleton. In addition, in the compression result, the compression rate is improved by about 3 times compared to before the algorithm is applied, and it can be seen that the average of errors in each point cloud frame is less than 1 cm.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.