본 연구는 몰입형 미디어 서비스를 위해 사용자의 시점 간격 입력에 따라 합성이 가능한 중간 시점 영상 생성 시스템 개발을 목적으로 한다. 이에 기존의 다시점 데이터 셋보다 카메라 간격이 넓고 움직임이 많은 다수의 객체를 대상으로 하는 비선형의 영상 데이터를 획득하였으며 이를 DERS와 VSRS로 합성하기 위한 전처리 과정을 제안하였다. 카메라 간격이 넓기 때문에 이웃하는 영상들 간의 상관도가 낮으며 합성시 품질의 저하가 발생하므로 다시점 영상을 ...
본 연구는 몰입형 미디어 서비스를 위해 사용자의 시점 간격 입력에 따라 합성이 가능한 중간 시점 영상 생성 시스템 개발을 목적으로 한다. 이에 기존의 다시점 데이터 셋보다 카메라 간격이 넓고 움직임이 많은 다수의 객체를 대상으로 하는 비선형의 영상 데이터를 획득하였으며 이를 DERS와 VSRS로 합성하기 위한 전처리 과정을 제안하였다. 카메라 간격이 넓기 때문에 이웃하는 영상들 간의 상관도가 낮으며 합성시 품질의 저하가 발생하므로 다시점 영상을 정규화 및 정렬하는 알고리즘을 설계하였다. 서버와 수신측 간의 양방향 전송을 최소화하기 위해 중간 시점 영상은 서버에서 미리 합성하고 수신측으로 전송된다고 가정하였다. 몰입형 미디어 서비스를 위해 초고해상도 영상 데이터를 사용할 때 제한된 대역폭으로 전송하기 위한 기존 방법은 4분할하고 영상을 정합하게 된다. 중간 시점 영상은 객체의 경계에 대해 미투영된 홀 영역이나 잘못 합성된 오류로 인해 정합이 불가능하므로 주요 객체 영역 기반의 영상 분할 및 정합 알고리즘을 설계하였다. 본 연구에서는 정합도가 높은 중간 시점 영상을 생성하기 위해 깊이 영상을 생성 할 때 필요한 최적의 환경 설정 변수를 찾았고 다시점 영상 정규화와 가상 시점의 매개변수 생성, 주요 객체 영역 검출 및 분할 알고리즘에 대해 구현하였다. 첫 번째로 새로운 콘텐츠의 영상 데이터에 대한 카메라 매개변수를 추정하기 위해 다시점 영상과 매개변수 추정용 영상을 취득하였고, 체커보드의 패턴에 대한 코너점과 에지 기반 특징을 추출하여 전역 세계 좌표계를 기준으로 하는 각 카메라의 위치 정보를 추정하였다. 다시점 영상 정렬을 위해 시점 영상 간의 카메라 매개변수들이 서로 연관성을 가지도록 이상적인 카메라 위치 좌표를 예측하였다. 또한 가상 시점의 매개변수 계산이 용이하도록 원하는 좌표 값으로 변환하였다. 원근 변환을 통해 다시점 영상이 새로 예측된 매개변수를 가지는 시점에 대한 영상으로 서로 정렬되어 높낮이 및 간격이 같도록 구현하였다. 이 때 카메라 간격에 따른 성능 검증을 위해서, 250, 400의 간격을 갖는 다시점 카메라에서 정렬을 수행하여 기준 시점에 대해 나머지 시점 영상의 수직 방향으로 화소 오차 평균을 측정하였다. 또한 이웃하는 카메라 간의 대응점에 대한 변이를 측정하였다. 두 번째로 사용자 중심의 중간 시점 영상 생성 알고리즘에 대해 구현하였다. 1차원 선형으로 정렬된 다시점 영상에 대해 DERS를 이용하여 변이 탐색 범위에 따른 깊이 영상을 생성하였다. 사용자가 시청하길 원하는 시점의 간격을 선택하였을 때 해당되는 가상 시점에 대한 매개변수가 서버에 없으면 가장 가까운 기존 시점에 대한 매개변수를 이용하여 추정이 가능하도록 설계하였다. 또한 합성된 중간 시점 영상들이 초고해상도일 때를 가정해 영상의 내용에 따라 적응 분할 및 전송하고 정합 할 수 있는 방법을 구현하였다. 전체적인 영상에서 중요도가 높은 영역을 검출하기 위해 슈퍼픽셀 기반의 객체 검출 알고리즘을 사용하였으며 검출된 객체 영역의 위치 정보를 바탕으로 하위 영상들로 분할하였다. 이 때 중첩 영역 정보를 기반으로 다시 정합하는 과정을 수행할 것을 고려하여 기본 영역의 크기에서 후보 영역을 추가해 영역이 겹치도록 크게 분할하였다. 하위 영상들은 스티칭 과정을 통해 원본 영상으로 정합되어 사용자에게 제공되도록 구현하였다. 실험 결과, 다시점 영상에 대해 정렬 전에는 좌표 값에 대해 최대 16 이상의 화소 오차 평균을 보였으나 정규화 및 정렬한 후에는 화소에 대한 오차 평균이 2이하로 줄어든 것을 확인하였으며 이웃하는 카메라 간의 변이 차이도 일정한 간격을 가지도록 정렬되는 성능을 보였다. 또한 출력된 새로운 각 시점의 카메라 매개변수들이 서로 일관성이 있게 규칙적인 변화 값들을 갖는 것을 확인하였다. 중간 시점 영상 생성 실험은 기존 영상을 생성하고 원본과 비교하여 시점 합성의 성능에 대해 측정하였다. 먼저 변이 탐색 범위에 따라 깊이 영상을 생성하고 이를 기반으로 합성한 결과 영상에 대한 PSNR과 SSIM을 각각 측정하였다. 또한 가장 높은 합성의 성능을 가지는 탐색 범위에서 대응되는 점에 대해 정밀도를 높이기 위해 정밀도 및 필터 변경에 따른 합성 결과 비교 실험을 진행하였다. 해당 콘텐츠에 대해 정합도가 높은 영상 생성을 위한 입력 데이터는 –44~79의 변이 탐색 범위를 가지며, 1/4의 업 스켈링과 (쌍) 선형의 필터일 때 정합 결과가 가장 좋은 영상을 생성하는 것을 확인할 수 있었다. 사용자가 입력한 원하는 시점의 간격에 따라 카메라 매개변수들이 출력되고 이에 해당하는 가상의 시점들이 합성되는 것을 확인하였다. 합성된 영상을 전송할 때에 영상의 내용에 따라 적응 분할하기 위한 주요 객체 영역 검출은 실측 자료와 비교를 통해 유사하게 검출 되는 것으로 확인하였으며, 검출된 블롭의 좌표 정보를 기반으로 하위 영상으로 분할되고 이를 스티칭함으로써 원본 영상으로 복원 및 표출이 가능함을 확인하였다. 본 연구를 통해 제안한 사용자 중심의 중간 시점 영상 생성 시스템은 실제 콘텐츠를 촬영 및 영상을 합성하여 중간 시점 영상이 생성되는 것이 가능함을 검증하였다. 미리 사용자로부터 원하는 시점 간격을 요청 받아 가상의 시점 위치에 대한 매개변수를 생성하고 합성하므로 사용자가 제어할 때마다 가상 시점을 합성하지 않기 때문에 서버 관리와 합성 시 대기시간을 단축할 수 있다.
본 연구는 몰입형 미디어 서비스를 위해 사용자의 시점 간격 입력에 따라 합성이 가능한 중간 시점 영상 생성 시스템 개발을 목적으로 한다. 이에 기존의 다시점 데이터 셋보다 카메라 간격이 넓고 움직임이 많은 다수의 객체를 대상으로 하는 비선형의 영상 데이터를 획득하였으며 이를 DERS와 VSRS로 합성하기 위한 전처리 과정을 제안하였다. 카메라 간격이 넓기 때문에 이웃하는 영상들 간의 상관도가 낮으며 합성시 품질의 저하가 발생하므로 다시점 영상을 정규화 및 정렬하는 알고리즘을 설계하였다. 서버와 수신측 간의 양방향 전송을 최소화하기 위해 중간 시점 영상은 서버에서 미리 합성하고 수신측으로 전송된다고 가정하였다. 몰입형 미디어 서비스를 위해 초고해상도 영상 데이터를 사용할 때 제한된 대역폭으로 전송하기 위한 기존 방법은 4분할하고 영상을 정합하게 된다. 중간 시점 영상은 객체의 경계에 대해 미투영된 홀 영역이나 잘못 합성된 오류로 인해 정합이 불가능하므로 주요 객체 영역 기반의 영상 분할 및 정합 알고리즘을 설계하였다. 본 연구에서는 정합도가 높은 중간 시점 영상을 생성하기 위해 깊이 영상을 생성 할 때 필요한 최적의 환경 설정 변수를 찾았고 다시점 영상 정규화와 가상 시점의 매개변수 생성, 주요 객체 영역 검출 및 분할 알고리즘에 대해 구현하였다. 첫 번째로 새로운 콘텐츠의 영상 데이터에 대한 카메라 매개변수를 추정하기 위해 다시점 영상과 매개변수 추정용 영상을 취득하였고, 체커보드의 패턴에 대한 코너점과 에지 기반 특징을 추출하여 전역 세계 좌표계를 기준으로 하는 각 카메라의 위치 정보를 추정하였다. 다시점 영상 정렬을 위해 시점 영상 간의 카메라 매개변수들이 서로 연관성을 가지도록 이상적인 카메라 위치 좌표를 예측하였다. 또한 가상 시점의 매개변수 계산이 용이하도록 원하는 좌표 값으로 변환하였다. 원근 변환을 통해 다시점 영상이 새로 예측된 매개변수를 가지는 시점에 대한 영상으로 서로 정렬되어 높낮이 및 간격이 같도록 구현하였다. 이 때 카메라 간격에 따른 성능 검증을 위해서, 250, 400의 간격을 갖는 다시점 카메라에서 정렬을 수행하여 기준 시점에 대해 나머지 시점 영상의 수직 방향으로 화소 오차 평균을 측정하였다. 또한 이웃하는 카메라 간의 대응점에 대한 변이를 측정하였다. 두 번째로 사용자 중심의 중간 시점 영상 생성 알고리즘에 대해 구현하였다. 1차원 선형으로 정렬된 다시점 영상에 대해 DERS를 이용하여 변이 탐색 범위에 따른 깊이 영상을 생성하였다. 사용자가 시청하길 원하는 시점의 간격을 선택하였을 때 해당되는 가상 시점에 대한 매개변수가 서버에 없으면 가장 가까운 기존 시점에 대한 매개변수를 이용하여 추정이 가능하도록 설계하였다. 또한 합성된 중간 시점 영상들이 초고해상도일 때를 가정해 영상의 내용에 따라 적응 분할 및 전송하고 정합 할 수 있는 방법을 구현하였다. 전체적인 영상에서 중요도가 높은 영역을 검출하기 위해 슈퍼픽셀 기반의 객체 검출 알고리즘을 사용하였으며 검출된 객체 영역의 위치 정보를 바탕으로 하위 영상들로 분할하였다. 이 때 중첩 영역 정보를 기반으로 다시 정합하는 과정을 수행할 것을 고려하여 기본 영역의 크기에서 후보 영역을 추가해 영역이 겹치도록 크게 분할하였다. 하위 영상들은 스티칭 과정을 통해 원본 영상으로 정합되어 사용자에게 제공되도록 구현하였다. 실험 결과, 다시점 영상에 대해 정렬 전에는 좌표 값에 대해 최대 16 이상의 화소 오차 평균을 보였으나 정규화 및 정렬한 후에는 화소에 대한 오차 평균이 2이하로 줄어든 것을 확인하였으며 이웃하는 카메라 간의 변이 차이도 일정한 간격을 가지도록 정렬되는 성능을 보였다. 또한 출력된 새로운 각 시점의 카메라 매개변수들이 서로 일관성이 있게 규칙적인 변화 값들을 갖는 것을 확인하였다. 중간 시점 영상 생성 실험은 기존 영상을 생성하고 원본과 비교하여 시점 합성의 성능에 대해 측정하였다. 먼저 변이 탐색 범위에 따라 깊이 영상을 생성하고 이를 기반으로 합성한 결과 영상에 대한 PSNR과 SSIM을 각각 측정하였다. 또한 가장 높은 합성의 성능을 가지는 탐색 범위에서 대응되는 점에 대해 정밀도를 높이기 위해 정밀도 및 필터 변경에 따른 합성 결과 비교 실험을 진행하였다. 해당 콘텐츠에 대해 정합도가 높은 영상 생성을 위한 입력 데이터는 –44~79의 변이 탐색 범위를 가지며, 1/4의 업 스켈링과 (쌍) 선형의 필터일 때 정합 결과가 가장 좋은 영상을 생성하는 것을 확인할 수 있었다. 사용자가 입력한 원하는 시점의 간격에 따라 카메라 매개변수들이 출력되고 이에 해당하는 가상의 시점들이 합성되는 것을 확인하였다. 합성된 영상을 전송할 때에 영상의 내용에 따라 적응 분할하기 위한 주요 객체 영역 검출은 실측 자료와 비교를 통해 유사하게 검출 되는 것으로 확인하였으며, 검출된 블롭의 좌표 정보를 기반으로 하위 영상으로 분할되고 이를 스티칭함으로써 원본 영상으로 복원 및 표출이 가능함을 확인하였다. 본 연구를 통해 제안한 사용자 중심의 중간 시점 영상 생성 시스템은 실제 콘텐츠를 촬영 및 영상을 합성하여 중간 시점 영상이 생성되는 것이 가능함을 검증하였다. 미리 사용자로부터 원하는 시점 간격을 요청 받아 가상의 시점 위치에 대한 매개변수를 생성하고 합성하므로 사용자가 제어할 때마다 가상 시점을 합성하지 않기 때문에 서버 관리와 합성 시 대기시간을 단축할 수 있다.
The purpose of this study is to develop an intermediate viewpoint image generation system that can be synthesized according to the user interface for immersive media service. To this end, non-linear image data are obtained for a large number of moving objects with a wider distance between cameras th...
The purpose of this study is to develop an intermediate viewpoint image generation system that can be synthesized according to the user interface for immersive media service. To this end, non-linear image data are obtained for a large number of moving objects with a wider distance between cameras than the existing multi-view dataset. The pre-processing process is proposed to synthesize them into DERS and VSRS. Since the camera interval is wide, the correlation between neighboring images is low and the quality decreases during synthesis, so a normalization and alignment algorithm is designed for the multi-view image. To minimize bidirectional transmission between the server and receiver, it is assumed that the intermediate viewpoint image is pre-synthesized by the server, sent to the receiver. For immersive media service, a 4-division transmission method is used to transmit ultra-high resolution image data with limited bandwidth. In this method, the original image is generated by stitching the sub-images at the receiver, but the intermediate viewpoint image cannot be matched due to unprojected hole regions or an incorrectly synthesized error with respect to the boundary of the objects. In this study, in order to generate an intermediate viewpoint image with high matching, we found the optimal configuration variables needed to output depth images and implemented multi-view image normalization, virtual viewpoint parameter estimation, major object area detection, and division algorithms. Firstly, multi-view images of the contents and checkerboards were acquired to estimate camera parameters, extracting the corners and edges of patterns based on the global coordinate system. For multi-view image rectification, we predicted ideal camera position coordinates of which camera parameters between images are related to each other. Also, it is easy to calculate the parameter corresponding to the virtual viewpoint by converting it to a desired coordinate value. Through perspective transformation, the multi-view images were aligned with each other as images for viewpoints with newly predicted parameters, so that the height and space are the same. At this time, in order to verify performance according to the camera interval, the rectification was performed on a multi-view camera having an interval of 250 and 400, which measured the pixel error average in the vertical direction of the remaining viewpoint images with respect to the reference viewpoint. Also, we measured the disparity of the corresponding point between neighboring cameras. Second, we implemented an algorithm that can generate an intermediate viewpoint image-oriented on the user. Depth images according to the disparity search range were generated for the rectified multi-view images in one-dimensional linear form using DERS. When the user selected the interval of the viewpoint which wants to watch, it was designed to be able to estimate using the parameters for the nearest existing viewpoint if the parameters for the corresponding virtual viewpoint are not present on the server. In addition, assuming that the synthesized intermediate viewpoint is ultra-high resolution, we were implemented a method for adaptive segmentation, transmission and matching according to the images. In order to detect a region of interest that has objects which is high importance in the overall images, the image is divided into sub-images based on the detected location information of the object region using super-pixel. Considering the process of stitching based on the overlapped region information, the size of the basic region added to the candidate regions which have overlapped sub-images. They were matched to the original images through the stitching process and provided to the user. The results of the experiment showed that the pixel error average was more than 16 but it decreased to less than 2 after normalization and rectification of multi-view images. The difference of disparity between neighboring cameras also showed the performance of being aligned to have a regular interval. Also, it was confirmed that the outputted camera parameters of each new viewpoint had regular change values consistently with each other. In the experiment of generating the images for an intermediate viewpoint, the performance of viewpoint synthesis was measured by generating the existing images and comparing them with the original. First, the depth images were generated according to the disparity search range, measured PSNR and SSIM for the synthesized result images based on them. In addition, in order to increase the precision of the corresponding point in the search range having the highest synthesis performance, the synthesized results were compared according to the change of precision and filter. The input data for high-matching images generation in the content had the –44~79 disparity search range, and it was confirmed that the matching result produces the best images when it is a 1/4 up-scaling and (bi)linear filter. The interval of the desired viewpoint input from the user outputted camera parameters and synthesized virtual viewpoints corresponding thereto. When transmitting the synthesized images, the object areas for adaptive segmentation were similarly detected to the ground truths. Based on the detected coordinate information of the blob, sub-images that divided the result image are restored and displayed as original images through the stitching algorithm. Through this study, we verified the proposed user-oriented intermediate viewpoints image generation system by acquiring and synthesizing image data for the actual content. Since the parameters of the virtual viewpoints are requested from the user, it is possible to shorten the waiting time during server management and synthesis by synthesizing the viewpoint in advance.
The purpose of this study is to develop an intermediate viewpoint image generation system that can be synthesized according to the user interface for immersive media service. To this end, non-linear image data are obtained for a large number of moving objects with a wider distance between cameras than the existing multi-view dataset. The pre-processing process is proposed to synthesize them into DERS and VSRS. Since the camera interval is wide, the correlation between neighboring images is low and the quality decreases during synthesis, so a normalization and alignment algorithm is designed for the multi-view image. To minimize bidirectional transmission between the server and receiver, it is assumed that the intermediate viewpoint image is pre-synthesized by the server, sent to the receiver. For immersive media service, a 4-division transmission method is used to transmit ultra-high resolution image data with limited bandwidth. In this method, the original image is generated by stitching the sub-images at the receiver, but the intermediate viewpoint image cannot be matched due to unprojected hole regions or an incorrectly synthesized error with respect to the boundary of the objects. In this study, in order to generate an intermediate viewpoint image with high matching, we found the optimal configuration variables needed to output depth images and implemented multi-view image normalization, virtual viewpoint parameter estimation, major object area detection, and division algorithms. Firstly, multi-view images of the contents and checkerboards were acquired to estimate camera parameters, extracting the corners and edges of patterns based on the global coordinate system. For multi-view image rectification, we predicted ideal camera position coordinates of which camera parameters between images are related to each other. Also, it is easy to calculate the parameter corresponding to the virtual viewpoint by converting it to a desired coordinate value. Through perspective transformation, the multi-view images were aligned with each other as images for viewpoints with newly predicted parameters, so that the height and space are the same. At this time, in order to verify performance according to the camera interval, the rectification was performed on a multi-view camera having an interval of 250 and 400, which measured the pixel error average in the vertical direction of the remaining viewpoint images with respect to the reference viewpoint. Also, we measured the disparity of the corresponding point between neighboring cameras. Second, we implemented an algorithm that can generate an intermediate viewpoint image-oriented on the user. Depth images according to the disparity search range were generated for the rectified multi-view images in one-dimensional linear form using DERS. When the user selected the interval of the viewpoint which wants to watch, it was designed to be able to estimate using the parameters for the nearest existing viewpoint if the parameters for the corresponding virtual viewpoint are not present on the server. In addition, assuming that the synthesized intermediate viewpoint is ultra-high resolution, we were implemented a method for adaptive segmentation, transmission and matching according to the images. In order to detect a region of interest that has objects which is high importance in the overall images, the image is divided into sub-images based on the detected location information of the object region using super-pixel. Considering the process of stitching based on the overlapped region information, the size of the basic region added to the candidate regions which have overlapped sub-images. They were matched to the original images through the stitching process and provided to the user. The results of the experiment showed that the pixel error average was more than 16 but it decreased to less than 2 after normalization and rectification of multi-view images. The difference of disparity between neighboring cameras also showed the performance of being aligned to have a regular interval. Also, it was confirmed that the outputted camera parameters of each new viewpoint had regular change values consistently with each other. In the experiment of generating the images for an intermediate viewpoint, the performance of viewpoint synthesis was measured by generating the existing images and comparing them with the original. First, the depth images were generated according to the disparity search range, measured PSNR and SSIM for the synthesized result images based on them. In addition, in order to increase the precision of the corresponding point in the search range having the highest synthesis performance, the synthesized results were compared according to the change of precision and filter. The input data for high-matching images generation in the content had the –44~79 disparity search range, and it was confirmed that the matching result produces the best images when it is a 1/4 up-scaling and (bi)linear filter. The interval of the desired viewpoint input from the user outputted camera parameters and synthesized virtual viewpoints corresponding thereto. When transmitting the synthesized images, the object areas for adaptive segmentation were similarly detected to the ground truths. Based on the detected coordinate information of the blob, sub-images that divided the result image are restored and displayed as original images through the stitching algorithm. Through this study, we verified the proposed user-oriented intermediate viewpoints image generation system by acquiring and synthesizing image data for the actual content. Since the parameters of the virtual viewpoints are requested from the user, it is possible to shorten the waiting time during server management and synthesis by synthesizing the viewpoint in advance.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.