깊이 정보는 이미지의 근본적 정보를 이해하는 데 중요한 구성 요소이며 각종 분야에 응용된다. 하지만 딥러닝 기술이 많이 발달하여 모델의 성능이 우수해졌음에도 훈련 데이터에 의존적인 고질적인 문제를 해결하지 못했다. 따라서 본 연구는 다수의 장면에 존재하고 훈련하지 않아도 찾을 수 있는 소실점 검출 모듈을 제안한다. 이 소실점 검출 모듈은 캐니 선분 검출기 알고리즘(Cany edge ...
깊이 정보는 이미지의 근본적 정보를 이해하는 데 중요한 구성 요소이며 각종 분야에 응용된다. 하지만 딥러닝 기술이 많이 발달하여 모델의 성능이 우수해졌음에도 훈련 데이터에 의존적인 고질적인 문제를 해결하지 못했다. 따라서 본 연구는 다수의 장면에 존재하고 훈련하지 않아도 찾을 수 있는 소실점 검출 모듈을 제안한다. 이 소실점 검출 모듈은 캐니 선분 검출기 알고리즘(Cany edge detector)과 허프 변환(Hough transform)으로 객체의 외곽 성분 및 직선 성분을 찾아 직선의 교점들로 소실점을 찾을 수 있도록 한다. 기존의 소실점 연구는 이미지 내부의 한 점으로 가정하였다. 하지만 소실점은 가상의 점이기 때문에 이미지 외부에도 존재할 수도, 여러 점일 수도 있다. 따라서 보강(padding)기법을 통하여 이미지 외부에 있는 소실점까지 찾는다. 데이터 분석을 통하여 소실점의 개수와 위치별 유형을 파악하고 이를 조건화하여 소실점 위치 정보를 만든다. 이 소실점 위치 정보를 Swin transformer 기반의 인코더-디코더 구조를 가진 깊이 추정 모델에 전달하여 소실점의 유형에 따라 SW-MSA 작동방식을 변환한다. 성능을 확인하기 위하여 단안 깊이 추정 모델 벤치마크(benchmark)인 KITTI 데이터 세트와 NYU-depth V2 데이터 세트에서 실험을 진행하였고 비교 모델 대비 향상된 깊이 추정을 제공함을 확인하였다.
깊이 정보는 이미지의 근본적 정보를 이해하는 데 중요한 구성 요소이며 각종 분야에 응용된다. 하지만 딥러닝 기술이 많이 발달하여 모델의 성능이 우수해졌음에도 훈련 데이터에 의존적인 고질적인 문제를 해결하지 못했다. 따라서 본 연구는 다수의 장면에 존재하고 훈련하지 않아도 찾을 수 있는 소실점 검출 모듈을 제안한다. 이 소실점 검출 모듈은 캐니 선분 검출기 알고리즘(Cany edge detector)과 허프 변환(Hough transform)으로 객체의 외곽 성분 및 직선 성분을 찾아 직선의 교점들로 소실점을 찾을 수 있도록 한다. 기존의 소실점 연구는 이미지 내부의 한 점으로 가정하였다. 하지만 소실점은 가상의 점이기 때문에 이미지 외부에도 존재할 수도, 여러 점일 수도 있다. 따라서 보강(padding)기법을 통하여 이미지 외부에 있는 소실점까지 찾는다. 데이터 분석을 통하여 소실점의 개수와 위치별 유형을 파악하고 이를 조건화하여 소실점 위치 정보를 만든다. 이 소실점 위치 정보를 Swin transformer 기반의 인코더-디코더 구조를 가진 깊이 추정 모델에 전달하여 소실점의 유형에 따라 SW-MSA 작동방식을 변환한다. 성능을 확인하기 위하여 단안 깊이 추정 모델 벤치마크(benchmark)인 KITTI 데이터 세트와 NYU-depth V2 데이터 세트에서 실험을 진행하였고 비교 모델 대비 향상된 깊이 추정을 제공함을 확인하였다.
The depth information is a crucial component for understanding the fundamental aspects of an image and finds applications in various fields. However, despite significant advancements in deep learning technology leading to superior model performance, it has not successfully addressed the inherent pro...
The depth information is a crucial component for understanding the fundamental aspects of an image and finds applications in various fields. However, despite significant advancements in deep learning technology leading to superior model performance, it has not successfully addressed the inherent problem of dependency on training data. Therefore, this study proposes a vanishing point(VP) detection module that can be applied to multiple scenes and can find VP without specific training. This VP detection module utilizes the Canny edge detector algorithm and Hough transform to identify the outer components and straight-line components of objects, allowing the determination of VP through the intersections of these lines. Previous vanishing point studies assumed a single point within the image. However, since VP are virtual points, they may exist outside the image or even be multiple points. Hence, the padding is employed to extend the search for vanishing points beyond the image borders. Through data analysis, the number of VP and their types based on location are identified. This information is then used to conditionally generate VP location data. The VP location information is passed to a depth estimation model with a Swin Transformer based encoder-decoder architecture, modifying the operation of SW-MSA based on the type of VP. To assess performance, experiments were conducted on the KITTI dataset and NYU-depth V2 dataset, benchmark datasets for monocular depth estimation. The results confirmed improved depth estimation compared to the baseline models.
The depth information is a crucial component for understanding the fundamental aspects of an image and finds applications in various fields. However, despite significant advancements in deep learning technology leading to superior model performance, it has not successfully addressed the inherent problem of dependency on training data. Therefore, this study proposes a vanishing point(VP) detection module that can be applied to multiple scenes and can find VP without specific training. This VP detection module utilizes the Canny edge detector algorithm and Hough transform to identify the outer components and straight-line components of objects, allowing the determination of VP through the intersections of these lines. Previous vanishing point studies assumed a single point within the image. However, since VP are virtual points, they may exist outside the image or even be multiple points. Hence, the padding is employed to extend the search for vanishing points beyond the image borders. Through data analysis, the number of VP and their types based on location are identified. This information is then used to conditionally generate VP location data. The VP location information is passed to a depth estimation model with a Swin Transformer based encoder-decoder architecture, modifying the operation of SW-MSA based on the type of VP. To assess performance, experiments were conducted on the KITTI dataset and NYU-depth V2 dataset, benchmark datasets for monocular depth estimation. The results confirmed improved depth estimation compared to the baseline models.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.