본 논문은 딥 러닝(deep learning)을 이용하여 입력 영상의 기울어진 정도를 측정하고 수평에 맞게 바로 세우는 방법을 제시한다. 기존 방법들은 일반적으로 영상 내에서 선분, 평면 등 하위 레벨의 특징들을 추출한 후 이를 이용해 영상의 기울어진 정도를 측정한다. 이러한 방법들은 영상 내에 선이나 평면이 존재하지 않는 경우에는 제대로 동작하지 않는다. 본 논문에서는 대규모 데이터 셋을 통해 영상의 다양한 특징들에 대해 학습 가능한 Convolutional Neural Network (CNN)를 이용하여 인물이나 복잡한 배경으로 구성된 기울어진 영상에 대해서도 강인하게 동작하는 프레임워크를 제시한다. 또한, 네트워크에 가변 공간적 (adaptive spatial) pooling 레이어를 추가하여 영상의 다중 스케일 특징을 동시에 고려할 수 있게 하여 영상의 기울어진 정도를 측정하는 성능을 높인다. 실험 결과를 통해 다양한 콘텐츠를 포함한 영상의 기울어짐을 높은 정확도로 바로 세울 수 있음을 확인할 수 있다.
본 논문은 딥 러닝(deep learning)을 이용하여 입력 영상의 기울어진 정도를 측정하고 수평에 맞게 바로 세우는 방법을 제시한다. 기존 방법들은 일반적으로 영상 내에서 선분, 평면 등 하위 레벨의 특징들을 추출한 후 이를 이용해 영상의 기울어진 정도를 측정한다. 이러한 방법들은 영상 내에 선이나 평면이 존재하지 않는 경우에는 제대로 동작하지 않는다. 본 논문에서는 대규모 데이터 셋을 통해 영상의 다양한 특징들에 대해 학습 가능한 Convolutional Neural Network (CNN)를 이용하여 인물이나 복잡한 배경으로 구성된 기울어진 영상에 대해서도 강인하게 동작하는 프레임워크를 제시한다. 또한, 네트워크에 가변 공간적 (adaptive spatial) pooling 레이어를 추가하여 영상의 다중 스케일 특징을 동시에 고려할 수 있게 하여 영상의 기울어진 정도를 측정하는 성능을 높인다. 실험 결과를 통해 다양한 콘텐츠를 포함한 영상의 기울어짐을 높은 정확도로 바로 세울 수 있음을 확인할 수 있다.
Horizon correction is a crucial stage for image composition enhancement. In this paper, we propose a deep learning based method for estimating the slanted angle of a photograph and correcting it. To estimate and correct the horizon direction, existing methods use hand-crafted low-level features such...
Horizon correction is a crucial stage for image composition enhancement. In this paper, we propose a deep learning based method for estimating the slanted angle of a photograph and correcting it. To estimate and correct the horizon direction, existing methods use hand-crafted low-level features such as lines, planes, and gradient distributions. However, these methods may not work well on the images that contain no lines or planes. To tackle this limitation and robustly estimate the slanted angle, we propose a convolutional neural network (CNN) based method to estimate the slanted angle by learning more generic features using a huge dataset. In addition, we utilize multiple adaptive spatial pooling layers to extract multi-scale image features for better performance. In the experimental results, we show our CNN-based approach robustly and accurately estimates the slanted angle of an image regardless of the image content, even if the image contains no lines or planes at all.
Horizon correction is a crucial stage for image composition enhancement. In this paper, we propose a deep learning based method for estimating the slanted angle of a photograph and correcting it. To estimate and correct the horizon direction, existing methods use hand-crafted low-level features such as lines, planes, and gradient distributions. However, these methods may not work well on the images that contain no lines or planes. To tackle this limitation and robustly estimate the slanted angle, we propose a convolutional neural network (CNN) based method to estimate the slanted angle by learning more generic features using a huge dataset. In addition, we utilize multiple adaptive spatial pooling layers to extract multi-scale image features for better performance. In the experimental results, we show our CNN-based approach robustly and accurately estimates the slanted angle of an image regardless of the image content, even if the image contains no lines or planes at all.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 다중 스케 일을 고려한 Convolutional neural network 를 학습하여 일반적인 영 상의 기 울어 진 각도를정확하게 측정하고 측정된 각도에 따라 영상을 바로 세우는방법을 제안한다. 기울임 측정 및 보정에 대한 기존 연구는텍스트나 얼굴 영역과 같이 주로 영상의 특성에 맞는 특징을추출[1, 2, 3] 하거 나 선분과 같은 구조적 특징을 분석해 [4] 기울임을 측정한다.
본 논문에서는 최근 영상 인식 및 분석에 뛰어난 성능을보이는 residual network 구조에 다중 스케일특징을고려할수있게 해주는 가변 공간적 pooling 레이 어를 적용한 네트워크를학습해 영상 기울기를 측정하는 방법을 제시한다. 이를 통해 90。단위가 아닌 미세한 단위의 각도로 기울어진 다양한콘텐츠의 영상을 높은 정확도로 바로세울 수 있다.
본 논문에서는 선분과 같이 기울어짐을 판단하는데 도움이되는 정보가 부족한 영상에 대해서도 강건하게 동작하는기울어짐 보정을 목표로 하였기 때문에 학습 데이터 셋 내에주요 선이 존재하는 영상 (건물, 나무 등) 외에도 주요 선이존재하지 않는 영상 (인물, 자연 풍경 등)도 충분히 포함되도록각그룹의 비율을 조정하였다. 이를위해 영상에서 찾은 선분을클러스터링한 뒤 선분의 길이의 합이 가장 긴 클러스터의중심을 주요 선분으로 검출한 뒤, 만약 검출된 주요 선이영상의 높이, 너비 중 짧은 쪽의 1/3 보다 짧다면 이 영상에서주요 선은 존재하지 않는다고 가정 한다.
수 있다. 본 절에서는 학습 데이터 셋을 세 가지 경우로다르게 구성하여 네트워크를 학습했을 때 검증 데이터 셋에대한 기울임 측정 정확도가 어떻게 차이 나는지 비교한다. 이실험에 사용한 네트워크 구조는 3.
본 논문에서는 딥러닝을 이용하여 영상의 기울어진 각도를측정하는 방법을 제시하였다. 기존 방법들은 영상으로부터추출한 주요 선과 같은 저 수준 특징을 바탕으로 각도를측정하는 반면 제안한 방법은 학습된 하나의 네트워크를 통해다양한 고수준의 특징 정보를 활용한 각도 측정 이 가능하며, 다양한 영상에 대해 높은 정확도를 보인다.
가설 설정
본 논문에서는 이 중 1,000 장은 검증 데이터 셋, 나머지는학습 데 이 터 셋 으로 사용하였다. World Cities Dataset 의 영 상들중에는 기울어져 찍힌 영상들도 소수 포함되어 있으나대부분은 바로 세워져 있기 때문에 학습 시 전체적인 경향에 큰영향이 없을 것이라 가정하였고 실제로 실험결과를 통해동작이 잘 됨을 확인할 수 있었다. 검증 데이터 셋은 직접눈으로 확인하여 기울어져 있는 영상들은 제외시켰다(865 장).
비율을 조정하였다. 이를위해 영상에서 찾은 선분을클러스터링한 뒤 선분의 길이의 합이 가장 긴 클러스터의중심을 주요 선분으로 검출한 뒤, 만약 검출된 주요 선이영상의 높이, 너비 중 짧은 쪽의 1/3 보다 짧다면 이 영상에서주요 선은 존재하지 않는다고 가정 한다. 이를 통해 최종 학습데이터 셋을 주요 선이 존재하는 영상과 주요 선이 존재하지않는 영상 각각 2:1 로 구성하였다 (Figure 3).
제안 방법
본논문에서 제안하는 기울임 보정 방법은최근영상분석 및처리 분야에서 활발하게 활용되고 있는 CNN 을 기반으로영상의 기울임 정도를측정한다. CNN 을 이용한 영상 인식은연구자가 직접 설계한 특징들을 사용하지 않고 입력영상으로부터 해당 문제와 데이터 셋에 적합한 특징을자동으로 추출할 수 있다는 장점이 있으며, 본 논문에서는 CNN 학습을 통해 다양한 각도로 기울어진 사진 데이터 셋으로부터기울임 측정에 최적화된 특징을 학습하여 높은 기울어짐 측정정 확도를 얻을 수 있다.
정확하게 동작하는 것을 확인할 수 있다. 또한 다중스케일 네트워크 구조가 단일 스케일 구조에 비해 영상기울어짐 측정 및 보정에서 더 높은 성능을 얻을 수 있음을수치적 비교를통해 평가한다.
Courieretal. [2]은 영상 내에서색상 정보와 지역적 가우시안 수용 영역 (gaussian receptive field)의 가중치 합을 통해 얼굴을 검출 한 후 얼굴 내의 주요구조들 (e.g. 눈)의 상대적 위치를 기반으로 얼굴의 기울어진각도를 측정하였다. Osadchy et al.
[3]은 CNN 을 활용하여얼굴이 향하고 있는 방향을측정하였다. 얼굴/비-얼굴 변수로구성된 에너지 함수 식을 정의하고 이를 최소화하는 방향으로학습하는 방법을 제안하였다. 그러나 세 방법 모두 일반적 인영상에 대해서는적용할수가없고 기울어진각도측정을위해일 련의 복잡한 과정을 거쳐 야 한다.
하위 레벨 단서는 빛 질감, 선분, 등과 같이 영상 내저수준 정보를 뜻한다. 이러한 인지적 단서들을 조합하여정의한 베이지안 수식을 풀어 영상의 기울어진 각도를측정하였다. 이러한 방법들은 각도 측정을 위해 미리 정의한특징들이 영상 내에 존재하지 않으면 제대로 동작하지 않는다.
구조를 사용하였다. Residual network 구조에서 가장마지막 pooling 레이어는 최종 특징 맵을 1x1 로 만들어 주는역할을 하는데 본 논문에서는 이 레이어를 두 개의 가변 공간적 pooling 레 이 어로 대체하여 특징 맵을 각각 1x1, 2x2 로 만든 후이를 결합한 벡 터를 최 종 결과 예측에 사용한다. (Figure 2).
본 논문에서 사용하는 네트워크 구조 역시 마지막 pooling 레 이 어 를 두 개의 가변 공간적 pooling 레 이 어 로 대 체 하여 다중스케일 특징을 고려할 수 있게 하였다. 두 pooling 레이어는각각 1x1, 2x2 크기의 특징 맵을 출력으로 갖는데, 1x1 특징 맵은영상 전체의 특징을 추출하고 2x2 특징 맵은 각 ceU 이 영상을동일한크기로4등분한 각 영역의 특징을추출한다.
두pooling레이어로부터 얻은 특징 벡터는 그 크기가 서로 다르기 때문에선형 레이어를 통해 256 크기로 통일한뒤, 두 벡터의 평균값을취한다. 마지막으로 선형 레이어를 통해 영상의 최종 기울어짐각도를 예측하도록 한다. 예측 정확도를 측정하는 loss 함수로는 LI loss (absolute d&ence) 를 사용하였다.
이를위해 영상에서 찾은 선분을클러스터링한 뒤 선분의 길이의 합이 가장 긴 클러스터의중심을 주요 선분으로 검출한 뒤, 만약 검출된 주요 선이영상의 높이, 너비 중 짧은 쪽의 1/3 보다 짧다면 이 영상에서주요 선은 존재하지 않는다고 가정 한다. 이를 통해 최종 학습데이터 셋을 주요 선이 존재하는 영상과 주요 선이 존재하지않는 영상 각각 2:1 로 구성하였다 (Figure 3). 최종적으로생성된 학습 데이터 셋은 175, 350 장, 검증 데이터 셋은 6, 880 장이다.
따라서 미세한 기울어짐 정보를 구분할수 있어야 하는 본 알고리즘의 목적과는 반대된다고 할 수 있다. 이를 보완하기 위해 네트워크의 후반부 레이어들 (9 개의 residual block)의 가중치 파라미터들을 초기화 한 후, 위 에서설명한 학습 데이터 셋으로 다시 학습하였다. 이를 통해네트워크의 초반부 레이어들에서는 ImageNet 영상 분류데이터 셋으로부터 학습된 영상의 저수준 특징을 추출하고후반부 레이어들에서는 기울어짐을 측정할 수 있는 구조적정보나 영역 간의 상대적 위치 관계 등이 새롭게 학습되도록유도하였다.
본 장에서는 제안한 알고리즘의 성능을 정량적으로평가하고, 기존 기울임 보정 알고리즘과의 정성적 성능 비교를수행한다. 또한 앞서 서술한 네트워크 구조 및 학습 데이터셋의 구성에 따른 알고리즘의 결과와그 성능 변화에 대한 실험결과를 서술한다.
Figure 4는 다양한 입력 영상을 본논문의 프레임워크에 적용한 결과이다. 기울임 보정 결과영상은 크롭 (crop)을 통해 빈 픽셀이 발생하지 않도록 하였다. 본 논문의 결과는 1~2 행과 같이 영상 내 직선이 많은 경우뿐만아니라 3-5 행처럼 주요 선이 존재하지 않는 복잡한 장면에대해서도 잘동작하는 것을 확인할 수 있다.
기울어짐 측정 네트워크의 정확도를 정량적으로 평가하고, 영상의 기울어진 정도에 따라 측정 정확도가 어떻게 변하는지평가하기 위해 865장의 다양한 영상으로 이루어진 검증데이터셋을 다섯 가지 각도 (3°, 5°, 10°, 15°, 20。) 에 대해 (+, -) 방향으로회전한 후 각 기울어진 각도에 대해 정확도를 측정하였다 (Table 1). Table 1에서의 오차는 본 방법을 통해 측정된 각도와 GT 각도의 차이 값의 평균이다.
이를 확인하기 위해 단일 스케일 특징만을 고려하는네트워크를 동일한 조건에서 학습한 후 다중 스케일네트워크와의 성능 비교를 수행하였다. 단일 스케 일 네트워크구조는 Figure 2에서 보여 지는 다중 스케 일 네트워크 구조에 서가변 공간적 pooling 레 이 어를 일반 pooling 레 이 어 로 대 체하여 512끼 X1의 특징맵을생성한후선형 레이어를통해 512 크기의특징을 거쳐 최종 기울어짐 각도를 측정하도록 구성하였다.
이를 확인하기 위해 단일 스케일 특징만을 고려하는네트워크를 동일한 조건에서 학습한 후 다중 스케일네트워크와의 성능 비교를 수행하였다. 단일 스케 일 네트워크구조는 Figure 2에서 보여 지는 다중 스케 일 네트워크 구조에 서가변 공간적 pooling 레 이 어를 일반 pooling 레 이 어 로 대 체하여 512끼 X1의 특징맵을생성한후선형 레이어를통해 512 크기의특징을 거쳐 최종 기울어짐 각도를 측정하도록 구성하였다. 이를 본 알고리즘과 동일한 데이터 셋으로 동일한epoch 만큼학습하고, 결과를 비교하였다.
단일 스케 일 네트워크구조는 Figure 2에서 보여 지는 다중 스케 일 네트워크 구조에 서가변 공간적 pooling 레 이 어를 일반 pooling 레 이 어 로 대 체하여 512끼 X1의 특징맵을생성한후선형 레이어를통해 512 크기의특징을 거쳐 최종 기울어짐 각도를 측정하도록 구성하였다. 이를 본 알고리즘과 동일한 데이터 셋으로 동일한epoch 만큼학습하고, 결과를 비교하였다.
사용한 검증 데이터 셋은 4.1 절과 동일하며, 전체 검증데이터 셋에 대해 단일 스케일, 다중 스케 일 네트워크를 이용한기울어 짐 각도를 측정한 뒤 GT (ground truth) 각도와의 평균오차를 측정, 학습 epoch가 진행됨 에 따라 두 네트워크의 성능변화를 비교하였다 (Table2).
이역시 주요 선 존재 여부 판별 알고리즘을 사용해 학습 데이터셋 51, 791장, 검증 데이터 셋 2, 040장을 생성하여 네트워크를학습하였는데, 이 데이터 셋은 기존 알고리즘에 대해 잘작동하지 않을 것으로 예상할 수 있다. 마지막으로 3.2 절에서설명 했듯이 주요 선이 존재하는 영상과 주요 선이 존재하지않는 영상을 각각2:1로 구성하여 네트워크를 학습하였다.
이때 회 전시킨 각도 (ground truth)와 세 가지경우의 데이터 셋에 대해 학습한 네트워크로부터 측정된각도와의 평균 오차를 측정 하였다 (Table 3).
대상 데이터
기울어진 영상데이터 셋을 생성하기 위한 원본 영상 데이터셋은 World Cities Dataset [11] 이다. Flic 虹 웹사이트로부터 40 개의 주요 도시들의 지리학적 쿼리 (geographic query)를 이용하여 수집 한 22, 994 장으로 구성되 어있다.
Flic 虹 웹사이트로부터 40 개의 주요 도시들의 지리학적 쿼리 (geographic query)를 이용하여 수집 한 22, 994 장으로 구성되 어있다. 본 논문에서는 이 중 1,000 장은 검증 데이터 셋, 나머지는학습 데 이 터 셋 으로 사용하였다. World Cities Dataset 의 영 상들중에는 기울어져 찍힌 영상들도 소수 포함되어 있으나대부분은 바로 세워져 있기 때문에 학습 시 전체적인 경향에 큰영향이 없을 것이라 가정하였고 실제로 실험결과를 통해동작이 잘 됨을 확인할 수 있었다.
이를 통해 최종 학습데이터 셋을 주요 선이 존재하는 영상과 주요 선이 존재하지않는 영상 각각 2:1 로 구성하였다 (Figure 3). 최종적으로생성된 학습 데이터 셋은 175, 350 장, 검증 데이터 셋은 6, 880 장이다.
네트워크를 학습할 때 미니 배치 크기는 16, 학습율은 0.001 로 지 정 하였고 16 epoch 동안 학습된 모델을 최종 평 가에사용하였다.Torch 라이브러리를 이용해 학습하였다.
001 로 지 정 하였고 16 epoch 동안 학습된 모델을 최종 평 가에사용하였다.Torch 라이브러리를 이용해 학습하였다.
본 절에서는 학습 데이터 셋을 세 가지 경우로다르게 구성하여 네트워크를 학습했을 때 검증 데이터 셋에대한 기울임 측정 정확도가 어떻게 차이 나는지 비교한다. 이실험에 사용한 네트워크 구조는 3.1 절에서 설명한다중 스케일네트워크이다.
경우이다. 학습 데이터 셋 구성 시, 3.2 절에서 설명한 영상 내 주요 선 존재여부 판별 알고리즘을 이용해 학습 데이터 셋 123, 559장, 검증데이터 셋 4, 840장을생성하여 네트워크를학습하였다. 이렇게 생성한 데이터 셋은 선분등 구조적 특징을 바탕으로 하는 기존알고리즘에 대해서도 잘 작동할 것으로 예상할 수 있다.
두번째는 주요 선이 존재하지 않는 영상들 (인물 중심 또는 자연풍경 배경의 영상들) 만으로 데이터 셋을구성한 경우이다. 이역시 주요 선 존재 여부 판별 알고리즘을 사용해 학습 데이터셋 51, 791장, 검증 데이터 셋 2, 040장을 생성하여 네트워크를학습하였는데, 이 데이터 셋은 기존 알고리즘에 대해 잘작동하지 않을 것으로 예상할 수 있다. 마지막으로 3.
테스트 시 사용한 영상 셋은 주요 선이 존재하는 영상과존재하지 않는 영상 255장에 대해 -20° ~ +20° 사이의 각도 7개를 무작위로 선택하여 그 각도만큼 회 전시 키고, 회 전시 키 지않은 원본 영상까지 포함하여 총 4, 840장과 2, 040장으로구성하였다. 이때 회 전시킨 각도 (ground truth)와 세 가지경우의 데이터 셋에 대해 학습한 네트워크로부터 측정된각도와의 평균 오차를 측정 하였다 (Table 3).
데이터처리
마지막으로 본 논문에서 제안한 방법과 기존의 상용 사진기울기 보정 기술의 결과를 비교하였다 (Figure 5). 본알고리즘과 비교한 기존 상용 기술은 Adobe Lightroom CC 2015에 내장된 기능으로 Lee et al.
이론/모형
영상의 기울어진 각도를 측정하는 네트워크 구조는 최근이미지 인식 분야에서 탁월한 분류 성능을 보이는 residual network 구조를 사용하였다. Residual network 구조에서 가장마지막 pooling 레이어는 최종 특징 맵을 1x1 로 만들어 주는역할을 하는데 본 논문에서는 이 레이어를 두 개의 가변 공간적 pooling 레 이 어로 대체하여 특징 맵을 각각 1x1, 2x2 로 만든 후이를 결합한 벡 터를 최 종 결과 예측에 사용한다.
마지막으로 선형 레이어를 통해 영상의 최종 기울어짐각도를 예측하도록 한다. 예측 정확도를 측정하는 loss 함수로는 LI loss (absolute d&ence) 를 사용하였다.
학습 네트워크는ImageNet 영상분류 데이터 셋에 대해 미리학습된 residual network 모델을 사용하였다. ImageNet 분류문제는 대상의 기울어짐에 대해 강건하게 분류할 수 있도록네트워크가 학습된다.
성능/효과
기울임 정도를측정한다. CNN 을 이용한 영상 인식은연구자가 직접 설계한 특징들을 사용하지 않고 입력영상으로부터 해당 문제와 데이터 셋에 적합한 특징을자동으로 추출할 수 있다는 장점이 있으며, 본 논문에서는 CNN 학습을 통해 다양한 각도로 기울어진 사진 데이터 셋으로부터기울임 측정에 최적화된 특징을 학습하여 높은 기울어짐 측정정 확도를 얻을 수 있다.
또한 본 논문에서 제안한 알고리즘은 가변 공간적 pooling 레이어를 이용해 영상의 다양한 스케일 특징을 동시에고려하는 네트워크 구조를 학습해 단일 스케일 특징만을학습한 네트워크 구조에 비해 더 높은 측정 정확도를 얻을 수 있다.
실험결과를 통해 본 논문에서 제안한CNN 기반의 기울어짐보정 기술은 도시, 인물, 풍경 등 다양한 영상의 기울어짐을영상 컨텐츠와관계없이 보정할 수 있으며 어도비 라이트룸과같은 전문 사진 보정 툴로도 보정하기 힘든 다양한 영상에대해서 정확하게 동작하는 것을 확인할 수 있다. 또한 다중스케일 네트워크 구조가 단일 스케일 구조에 비해 영상기울어짐 측정 및 보정에서 더 높은 성능을 얻을 수 있음을수치적 비교를통해 평가한다.
기울임 보정 결과영상은 크롭 (crop)을 통해 빈 픽셀이 발생하지 않도록 하였다. 본 논문의 결과는 1~2 행과 같이 영상 내 직선이 많은 경우뿐만아니라 3-5 행처럼 주요 선이 존재하지 않는 복잡한 장면에대해서도 잘동작하는 것을 확인할 수 있다.
다섯 가지 경우 모두 1° 내외의 오차를 보일 정도로 높은 정확도를 갖는 것을 확인할 수 있다.3。와20。의 경우, 5。, 10°, 15。보다정확도가떨어지는 것을볼 수 있는데 3。는 기울어진 영상과바로 세워진 영상 간의 시 각적 차이가크지 않기 때문에 상대 적으로 각도 측정 이 어 렵고, 20° 는 상대 적 으로 차이가 많이 나기때문에 난이도가높아 정확도가 낮은 것으로 판단된다.
실험 결과 초반 epoch에서 단일 스케 일 네트워크가 더 높은정확도를 보이는 현상이 관찰되었는데, 이는 다중 스케일네트워크의 경우 단일 스케일 네트워크에 비해 학습해야 할특징의 종류, 파라미터의 개수가 더 많기 때문이다. 그러나학습이 계속 진행됨 에 따라 다중 스케 일 네트워크의 파라미터학습이 충분히 이루어지고 결과적으로 더 높은 정확도를보이는 것을확인할 수 있다.
실험 결과 주요 선 이 존재하는 영 상과 존재 하지 않는 영 상을모두 포함시킨 원본 데이터 셋이 가장 정확도가 높은 것으로 나타났다. 이는 영상으로부터 얻을 수 있는 선분 정보만이용하기보다 선분이 없는 일반적인 영상에서 얻을 수 있는다양한 피사체의 특징으로부터 얻는 추가적인 정보를 활용해기울어짐을 측정할 때, 전체 검증 데이터 셋에 대한 정확도가높아진다는 것을 의미한다.
위치하고 있기 때문에 선 검출이 용이하다. 그 결과본논문의 방법뿐만아니라기존 기술의 수행 결과모두 기울기보정이 잘되는 것을 확인할 수 있다. 반면 두 번째 예제 영상은배경의 수평선을중심으로 회전시켜야 할지 주요 물체에 맞춰회전시켜야할지 모호하다.
반면 두 번째 예제 영상은배경의 수평선을중심으로 회전시켜야 할지 주요 물체에 맞춰회전시켜야할지 모호하다. 본논문의 방법은 배경의 수평선을기준으로 보정을 하여 GT 영상과 비슷한 결과를 얻은 반면기존 기술은 결과가 좋지 않음을 알 수 있다. 세 번째, 네 번째, 다섯 번째 예제의 경우 영상 내 주요 선이 존재하지 않거나검출하기 어려운 영상으로, 기존 기술의 경우 제대로 작동하지않는 반면 본논문의 방법은 사진의 피사체인 인물또는동물이똑바로 세워지도록 기울임 보정을 잘 수행하는 것을 확인할 수 있다.
본논문의 방법은 배경의 수평선을기준으로 보정을 하여 GT 영상과 비슷한 결과를 얻은 반면기존 기술은 결과가 좋지 않음을 알 수 있다. 세 번째, 네 번째, 다섯 번째 예제의 경우 영상 내 주요 선이 존재하지 않거나검출하기 어려운 영상으로, 기존 기술의 경우 제대로 작동하지않는 반면 본논문의 방법은 사진의 피사체인 인물또는동물이똑바로 세워지도록 기울임 보정을 잘 수행하는 것을 확인할 수 있다.
방법을 제시하였다. 기존 방법들은 영상으로부터추출한 주요 선과 같은 저 수준 특징을 바탕으로 각도를측정하는 반면 제안한 방법은 학습된 하나의 네트워크를 통해다양한 고수준의 특징 정보를 활용한 각도 측정 이 가능하며, 다양한 영상에 대해 높은 정확도를 보인다. 다중 스케일네트워크 구조를 사용함으로써 단일 스케 일 구조에 비해 높은성능을 얻을 수 있었다.
기존 방법들은 영상으로부터추출한 주요 선과 같은 저 수준 특징을 바탕으로 각도를측정하는 반면 제안한 방법은 학습된 하나의 네트워크를 통해다양한 고수준의 특징 정보를 활용한 각도 측정 이 가능하며, 다양한 영상에 대해 높은 정확도를 보인다. 다중 스케일네트워크 구조를 사용함으로써 단일 스케 일 구조에 비해 높은성능을 얻을 수 있었다. 실험결과를 통해 전문 사진 보정툴로도 보정하기 힘든 복잡한 배경의 영상에 대해서도강인하게 동작하는 것을 확인하였다.
다중 스케일네트워크 구조를 사용함으로써 단일 스케 일 구조에 비해 높은성능을 얻을 수 있었다. 실험결과를 통해 전문 사진 보정툴로도 보정하기 힘든 복잡한 배경의 영상에 대해서도강인하게 동작하는 것을 확인하였다.
[5]는 SOM (supervised self-organizing map) 이 라는 지 도를새롭게 정의하여 이를 이용해 90° 단위의 각도를 측정하였다. 영상을 HSV 색상 공간으로 맵핑 시킨 후 그 때의 첫 번째, 두번째 항을 벡터로 만든 후 이를 지도 학습 시킨 결과 얻어진정보가 SOM 이며 이 방법은 기존의 지도 학습 방법보다정확도를 향상시켰다. Wang et al.
본 논문에서 제안한 기울임 측정 네트워크 구조는 영상의다중 스케일 특징을 동시에 고려하기 때문에 단일 스케일특징만을 고려한 네트워크 구조에 비해 높은 성능을 얻을 수 있다. 이를 확인하기 위해 단일 스케일 특징만을 고려하는네트워크를 동일한 조건에서 학습한 후 다중 스케일네트워크와의 성능 비교를 수행하였다.
참고문헌 (11)
B.T. Avila and R.D. Lins, "A fast orientation and skew detection algorithm for monochromatic document images," in proc. ACM Symposium on Document Engineering, pp. 118-126, 2005.
N. Gourier, D. Hall and J.L. Crowley, "Estimating face orientation from robust detection of salient facial structures," in proc. FG Net Workshop on Visual Observation of Deictic Gestures, vol. 6, 2004.
M. Osadchy, Y.L. Cun and M.L. Miller, "Synergistic face detection and pose estimation with energy-based models," Journal of Machine Learning Research, pp. 1197-1215, 2007.
Y.M. Wang and H. Zhang, "Detecting image orientation based on low-level visual content," Computer Vision and Image Understanding, 93(3), pp. 328-346, 2004.
M. Datar and X. Qi, "Automatic image orientation detection using the supervised self-organizing map," in proc. 8th IASTED International Conference, 2006.
L. Wang, X. Liu, L. Xia, G. Xu and A. Bruckstein, "Image orientation detection with integrated human perception cues (or which way is up)," in proc. International Conference on Image Processing (ICIP), vol.3, 2003.
H. Lee, E. Shechtman, J. Wang and S. Lee, "Automatic upright adjustment of photographs," in proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 877-884, 2012.
K. He, X. Zhang, S. Ren and J. Sun, "Deep residual learning for image recognition," in proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 770-778, 2016.
L. Mai, H. Jin and F. Liu, "Composition-preserving deep photo aesthetics assessment," in proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 497-506, 2016.
U. Joshi and M. Guerzhoy, "Automatic photo orientation detection with convolution neural networks," in proc. Conference on Computer and Robot Vision (CRV), 2017.
G. Tolias and Y. Avrithis "Speeded-up, relaxed spatial matching," in proc. International Conference on Computer Vision(ICCV), 2011.
이 논문을 인용한 문헌
저자의 다른 논문 :
연구과제 타임라인
LOADING...
LOADING...
LOADING...
LOADING...
LOADING...
활용도 분석정보
상세보기
다운로드
내보내기
활용도 Top5 논문
해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다. 더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.