[국내논문] 의미론적 연관성 분석을 위한 영상정합 동향

電子工學會誌 = The journal of Korea Institute of Electronics Engineers, v.44 no.8 = no.399, 2017년, pp.31 - 36  

함범섭 (연세대학교 전기전자공학부)

문제 정의

  • 사람들이 연속된 사진을 카메라로 촬영하면 알고리즘(Algorithm)이 자동으로 파노라마 사진으로 변환해준다. 어떻게 여러 장의 사진을 이용해 파노라마 사진을 만들 수 있을지 생각해보자. 컴퓨터가 아니라 우리가 직접 파노라마 사진을 만드는 과정을 생각해보면 쉽게 답을 찾을 수 있다.
  • 영상정합은 파노라마 사진 이외에도 템플릿 정합, 3차원 모델과의 정합, 물체 추적 등에도 널리 이용되고 있다(<그림 2>). 앞으로 우리는 두 영상사이에 대응점을 찾는 방법과 최근 연구 동향에 대해 살펴볼 것이다.
  • 기존의 정합()과 달리 시멘틱 정합()은 같은 물체 범주(Category)에 속해 있지만 서로 다른 물체에 대한 밀집 정합점을 찾는데 그 목적이 있다.
  • 시멘틱 정합을 이용하면 어떤 것들이 가능한지 살펴보자. 시멘틱 정합을 통해 물체 부분 혹은 물체 전체에 대한 정합을 구할 수 있으며, 나아가 물체간의 연관성을 분석할 수 있다.
  • 스테레오 정합은 스테레오 카메라로 획득된 두 영상간의 정합점을 찾는 과정으로 이를 이용하면 깊이 정보를 획득 할 수 있다(<그림 3>). 본 기고에서는 밀집 정합, 나가아 밀집시멘틱 정합 (Semantic correspondence)의 최근 연구동향에 대해 알아보고자 한다.
  • 시멘틱 정합의 연구 동향을 알아보기에 앞어 먼저 의미론적 정합, 혹은 시멘틱 정합의 정의에 대해 살펴보자. <그림 4>는 시멘틱 정합에서 궁극적으로 해결하고자하는 문제를 보여주고 있다.
  • 시멘틱 정합을 통해 물체 부분 혹은 물체 전체에 대한 정합을 구할 수 있으며, 나아가 물체간의 연관성을 분석할 수 있다. 그렇다면 물체간의 연관성이 의미하는 바는 무엇이며 이를 이용하면 무엇을 할 수 있을까? 사람이 어떤 작업을 할 때 물체 사이에 존재하는 연관성을 이용하는지 생각해보자. 인터넷 공간상에는 수많은 영상들이 존재한다.

가설 설정

  • 이를 이용하면영상 전체에서 SIFT 표현자에서 제공하는 크기 정보를 이용해 정합을 수행할 수 있었다. M. Tau는 컬러 정보가 비슷하면 크기 정보가 비슷할 것이라는 가정을 이용하여 지역적인 방법(Local propagation)을 이용해 크기 정보를 전파했다.
  • 단순히 전경 배경을 분리하는 것이 아니라 여러 영상 내에 공통적으로 존재하는 전경을 분리함으로써 신뢰도를 높였다. T. Taniai는 이를 제귀적인 방법으로 풀어냈는데, 전경/배경 분리는 시멘틱 정합에도움을 주고, 반대로 시멘틱 정합이 전경/배경 분리에 도움을 준다는 가정을 이용했다.
영상 정합이란 무엇인가? 즉, 한 장의 파노라마 사진으로 완성하기 이전에 사진들에 존재하는 동일한 부분을 찾을 것이다. 이처럼 두 영상 혹은 다중 영상 간에 대응되는 영역 혹은 대응점들을 찾는 과정을 영상 정합(Image correspondence)이라 한다(<그림 1>). 영상 정합은 컴퓨터비전 (Computer vision) 및 영상처리 (Image Processing) 분야의 핵심이다.
시멘틱 정합을 통해 할 수있는 것은 무엇인가? 시멘틱 정합을 이용하면 어떤 것들이 가능한지 살펴보자. 시멘틱 정합을 통해 물체 부분 혹은 물체 전체에 대한 정합을 구할 수 있으며, 나아가 물체간의 연관성을 분석할 수 있다. 그렇다면 물체간의 연관성이 의미하는 바는 무엇이며 이를 이용하면 무엇을 할 수 있을까? 사람이 어떤 작업을 할 때 물체 사이에 존재하는 연관성을 이용하는지 생각해보자.
시멘틱 정합에서 다루는 물체의 변형에 사용하는 강인한 표현자로는 무엇이 있는가? 하지만 앞서 살펴봤듯이 시멘틱 정합에서 다루는 물체는 모양, 크기 등이 변할 수 있으므로, 이러한 변형에 강인한 표현자를 사용한다. 대표적인 표현자로는 SIFT[4], HOG[5], DAISY[6] 등이 있으며, 최근에는 딥러닝(Deep learning)[7]을 이용한CNN(Convolutional neural network) 기반의 표현자[8]또한 이용되고 있다. 두 번째 단계는 두 영상에서 추출한 표현자 벡터들 사이의 거리를 측정함으로써 정합점을 구하는 과정이다.
