360 영상은 상하좌우 모든 영역에 대한 정보를 갖고 있기 때문에 종종 지나치게 많은 정보를 포함하게 된다. 또한 360 영상의 내용을 2D 모니터를 이용하여 확인하기 위해서는 마우스를 이용하여 360 영상을 돌려 봐야 하거나, 또는 심하게 왜곡된 2D 영상으로 변환해서 봐야 하는 문제가 있다. 따라서 360 영상에서 사용자가 원하는 물체를 찾는 것은 상당히 까다로운 일이 될 수 있다. 본 논문은 물체나 영역을 묘사하는 문장이 주어졌을 때, 360 영상 내에서 문장과 가장 잘 어울리는 영상을 추출해 내는 방법을 제시한다. 본 논문에서 제시한 방법은 주어진 문장 뿐 아니라 구도 역시 고려하여 구도 면에서도 보기 좋은 결과 영상을 생성한다. 본 논문에서 제시하는 방법은 우선 360 영상을 2D 큐브맵으로 변환한다. 일반적인 큐브맵은 큐브맵의 경계 부분에 걸쳐 있는 물체가 있을 경우, 이를 검출하기 어려운 문제가 있다. 따라서 더 정확한 물체 검출을 위해 본 논문에서는 변형된 큐브맵을 제시한다. 이렇게 변형된 큐브맵에 Long Short Term Memory (LSTM) 네트워크 기반의 자연어 문장을 이용한 물체 검출 방법을 적용한다. 최종적으로 원래의 360영상에서 검출된 영역을 포함하면서도 영상 구도 면에서 보기 좋은 영역을 찾아서 결과 영상을 생성한다.
360 영상은 상하좌우 모든 영역에 대한 정보를 갖고 있기 때문에 종종 지나치게 많은 정보를 포함하게 된다. 또한 360 영상의 내용을 2D 모니터를 이용하여 확인하기 위해서는 마우스를 이용하여 360 영상을 돌려 봐야 하거나, 또는 심하게 왜곡된 2D 영상으로 변환해서 봐야 하는 문제가 있다. 따라서 360 영상에서 사용자가 원하는 물체를 찾는 것은 상당히 까다로운 일이 될 수 있다. 본 논문은 물체나 영역을 묘사하는 문장이 주어졌을 때, 360 영상 내에서 문장과 가장 잘 어울리는 영상을 추출해 내는 방법을 제시한다. 본 논문에서 제시한 방법은 주어진 문장 뿐 아니라 구도 역시 고려하여 구도 면에서도 보기 좋은 결과 영상을 생성한다. 본 논문에서 제시하는 방법은 우선 360 영상을 2D 큐브맵으로 변환한다. 일반적인 큐브맵은 큐브맵의 경계 부분에 걸쳐 있는 물체가 있을 경우, 이를 검출하기 어려운 문제가 있다. 따라서 더 정확한 물체 검출을 위해 본 논문에서는 변형된 큐브맵을 제시한다. 이렇게 변형된 큐브맵에 Long Short Term Memory (LSTM) 네트워크 기반의 자연어 문장을 이용한 물체 검출 방법을 적용한다. 최종적으로 원래의 360영상에서 검출된 영역을 포함하면서도 영상 구도 면에서 보기 좋은 영역을 찾아서 결과 영상을 생성한다.
As a 360-degree image carries information of all directions, it often has too much information. Moreover, in order to investigate a 360-degree image on a 2D display, a user has to either click and drag the image with a mouse, or project it to a 2D panorama image, which inevitably introduces severe d...
As a 360-degree image carries information of all directions, it often has too much information. Moreover, in order to investigate a 360-degree image on a 2D display, a user has to either click and drag the image with a mouse, or project it to a 2D panorama image, which inevitably introduces severe distortions. In consequence, investigating a 360-degree image and finding an object of interest in such a 360-degree image could be a tedious task. To resolve this issue, this paper proposes a method to find a region of interest and produces a 2D naturally looking image from a given 360-degree image that best matches a description given by a user in a natural language sentence. Our method also considers photo composition so that the resulting image is aesthetically pleasing. Our method first converts a 360-degree image to a 2D cubemap. As objects in a 360-degree image may appear distorted or split into multiple pieces in a typical cubemap, leading to failure of detection of such objects, we introduce a modified cubemap. Then our method applies a Long Short Term Memory (LSTM) network based object detection method to find a region of interest with a given natural language sentence. Finally, our method produces an image that contains the detected region, and also has aesthetically pleasing composition.
As a 360-degree image carries information of all directions, it often has too much information. Moreover, in order to investigate a 360-degree image on a 2D display, a user has to either click and drag the image with a mouse, or project it to a 2D panorama image, which inevitably introduces severe distortions. In consequence, investigating a 360-degree image and finding an object of interest in such a 360-degree image could be a tedious task. To resolve this issue, this paper proposes a method to find a region of interest and produces a 2D naturally looking image from a given 360-degree image that best matches a description given by a user in a natural language sentence. Our method also considers photo composition so that the resulting image is aesthetically pleasing. Our method first converts a 360-degree image to a 2D cubemap. As objects in a 360-degree image may appear distorted or split into multiple pieces in a typical cubemap, leading to failure of detection of such objects, we introduce a modified cubemap. Then our method applies a Long Short Term Memory (LSTM) network based object detection method to find a region of interest with a given natural language sentence. Finally, our method produces an image that contains the detected region, and also has aesthetically pleasing composition.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 단순한 단어나 클래스 라벨이 아닌 구체적인 문장을 이용하여 360 영상 내에서 문장과 어울리는 사진을 생성하는 방법을 제시한다. 문장과 360 입력 영상이 주어지면 문장과 가장 어울리는 영역을 추출하고, 추출된 영역 주변 사진들로부터 구도 평가 시스템을 통해 자연스러운 사진을 생성한다.
또한 본 논문은 사용자가 원하는 사진을 만들 뿐만 아니라 텍스트를 이용하여 360 영상과 사용자간의 인터랙션 (interaction) 을 통해 더 깊은 몰입감을 줄 수 있는 가능성을 제시한다. 예를 들어 가상 현실에서 넓은 범위의 영상으로부터 사용자가 원하는 부분을 텍스트 입력을 통해 찾거나 가까운 미래에 도래할 자율 주행 자동차에서 주행 중 사용자가 찾고 싶은 물체나 영역을 텍스트를 통해 제시할 수 있다.
그러나 일반적인 큐브맵은 물체가 서로 다른 영역 의 경계에 있을 때, 한 물체가 여러 조각으로 나뉘어 지기 때문에 물체 검출이 어려워 지는 문제가 있다. 이를 해결하기 위해 본 논문에서는 360 영상의 수평 방향을 중복시켜 샘플링하는 변형된 큐브 맵을 제시한다. 이를통해 360 영상 내의 개체가 효과적으로 검출될 수 있도록 해 준다.
본 논문은 물체 검출, 영상 캡션 달기 (image captioning), 영상검색 (image retrieval)과 관련이 깊다. 물체 검출이란 영상 내에 무슨 물체들이 있는지 찾아내는 것을 의미한다.
이러한 왜곡은 물체 검출이나 CNN과 같이 2D 영상에 적합한 컴퓨터 비전 알고리즘을 360 영상에 바로 적용시키는 것을 어렵게 만든다. 따라서 본 논문에서는 등장방형 도법 (equirectangular projection)으로 표현된 입력 360 영상의 왜곡을 줄이고 몇몇 알고리즘을 적용시 키기 위해 360 영상을 여러 개의 2D 영상으로 구성된 변형된 큐브맵으로 재 생성한다.
일이 아니다. 따라서 본 논문에서는 입력 문장과 비교할 여러 개의 후보 영역을 추출하였다. 후보 영역들은 입력 문장들이 묘사하는 내용을 포함하고 있어 야하고 사진으로 활용되기 에 좋은 영 역 이 여 야 한다.
물체는 사진의 핵심 내용을 나타내는 요소로써, 대부분의 사진은 주요 물체를 잘 표현하기 위해 만들어진다. 이러한 관점에서 본 논문은 물체가 있을 법한 영역으로 후보 영역들을 추출한다.
본 논문에서는 문장을 LSTM 네트워크를 통해 분석하여, 360 영상으로부터 문장과 어울리는 자연스러운 사진을 만드는 방법을 제안하였다. 360 영상에서 자연어를 이용하여 사용자에게 사진을 제공해주는 연구는 없지만
가설 설정
MSCOCO 데이터셋은 영상 마다 내용을 묘사하는 여러 개의 문장들이 지정되어 Figure 7: An example of our method. While the best candidate region (b) detected by our scoring network contains the object of interest, a “man wearing pink shirt", the image looks unnatural. On the other hand, our final result (c) looks aesthetically more pleasing thanks to the final step of our method that considers image composition.
제안 방법
있을 법한 후보 영역을 모두 추출한다. 셋째, 추출된 후보영역들은 본 논문에서 제시하는 네트워크를 통과시켜 문장과 유사도 점수가 측정된다. 우리의 네트워크의 기본 구조는 두 계층 LSTM (two-layers LSTM)을 사용한 [4]< 따른다.
. 360 영상에서 자연어를 이용하여 문장과 가장 잘 어울리는 사진을 제시하는 시스템을 처음으로 제안하였다.
. 본 논문이 제안하는 시스템은 문장뿐만 아니라 사진의 구도평가를 통해 사용자에게 만족스러운사진을 제시한다.
2D 영상에 대한 방법들이다. 본 논문에서는 2D 영상에만 적용되는 방법들을 우리의 목적에 맞게 적절히 변경 및 조합하여 360 영상에 적용시켰다.
R-CNN [1]은 기존 물체 후보 검출 알고리즘 [6] [8]과 깊은 신경망을 결합하여 그 효과를 처음으로 입증하였다. 영상으로부터 물체가 있을 법한 후보 영역을 모두 추출하고 그 영 역들의 CNN 피처 (feature)를 계산하여 물체를 분류하였다. Fast R-CNN [2]은 R-CNN의 다음 네트워크로써, 속도가 느린 후보 영역 추출 과정 대신 ROI pooling layer를 사용하여 속도를 높였다.
본 논문에서도 기본적인 접근 방법은 2 단계의 물체 검출에 착안하여 후보 영 역들을 추출하고 분석하는 방법을 사용한다.
본 논문에서는 [5]의 방법을 활용하여 문장과 영상 간의 유사도를 계산하였으며 360 영상에 잘 적용시키기 위해 입력 피처를 변형하였다.
다음으로 분할된 각 영상에 대해 입력 문장과 어울릴 만한 후보 영역 영상들을 추출한다. 결과물로 만들 사진에서 물체는 매우 중요한 요소이고 입력 문장에는 물체가 핵심 단어로 포함된다.
결과물로 만들 사진에서 물체는 매우 중요한 요소이고 입력 문장에는 물체가 핵심 단어로 포함된다. 따라서 본 논문에서는 물체 후보 (object proposal) 검출 알고리즘을 통해 여러 개의 후보 영역 영상들을 추출한다. 여러 알고리즘들 중 정확도가 높은 Selective Search [6]를 이용하였다.
마지막으로 구도 평가 시스템을 통해 자연스러운 사진을 생성하였다. 앞의 네트워크를 통과해서 점수가 가장 높은 후보 영역 주변 몇 가지 사진을 생성한다.
큐브맵을 이용하면 360 영상의 모든 영역을 포함은 하지만, 경계 부근의 물체를 정확히 검출하기 어려운 문제점을 가진다. 이에 본 논문은 360 영상을 나눌 때 단순한 큐브 맵이 아닌 변형 된 큐브맵을 사용한다.
물체마다 다른 영상 비율을 가지는데, 예를 들어 사람의 경우 세로로 긴 영상 비율을 가지고 자동차의 경우 가로로긴 영상 비율을 가진다. 따라서 본 논문에서는 360 영상에서 높은 정확성을 위해 위치 정보 대신 물체의 형태를 대략적으로 알려줄 수 있는 후보 영상의 영상 비율을 사용하였다.
본 논문에서 제시하는 네트워크의 전체적인 학습과정은 [5]와 동일하며, (4) 에서 MSCOCO 데이터 셋을활용하여 미리 학습된 LSTM을 사용하였다. 그리고 Referit 데이터 셋으로 역전파 (backpropagation) 를 이용하여 파인튜닝 (finetuning)하였다.
따라서 후보 영역 자체는 자연스러운 사진이 될 수가 없다. 본 논문에서는 가장 높은 점수를 가진 후보 영역을 이용하여 360 영상으로부터 사진 재추출 (re-sampling)과 구도 평가 시스템을 통해 자연스러운 사진을 생성하였다.
영상 구도 평가 시스템은 Liu et al. [7] 이 제안한 방법을 재구현하여 사용하였다. Liu et al.
입력 360 영상의 크기는 9104x4552이며, 결과 사진은 가로 세로 영상 비율 4:3인 800x600의 크기를 가진다. 입력 문장과 어울리는 사진을 360 영상으로부터 재생성 할뿐 아니라, 구도 평가 시스템을 통해 자연스러운 사진을 생성하였다.
본 논문의 알고리즘은 입력 영상과 문장에 상관없이 무조건 하나의 사진을 제시하여 몇몇 경우 한계점을 나타낸다. 예를 들어 360 영상내에서 문장과비슷한부분이 여러 개일 경우, 여러 개의 사진이 아니라 가장 잘 어울리는 하나의 사진만 생성한다.
대상 데이터
따라서 360 입력 영상을 영상의 모든 영역을 포함하는 여러 개의 일반 2D 영상으로 분할한다. 총 8개의 분할된 영상이 생성되며 각각은 가로, 세로 100도의 화각을 가지는 2D 영상이다.
총 6개의 영상을 가지 며 각 영상은 가로, 세로 90도의 화각의 영상으로 구성된다. 큐브맵을 이용하면 360 영상의 모든 영역을 포함은 하지만, 경계 부근의 물체를 정확히 검출하기 어려운 문제점을 가진다.
입력 문장과 유사도 점수가 측정된다. 우리의 네트워크는 긴 문장 분석에 유리한 LSTM을 활용하였으며, 총 두 개의 두 계층 LSTM 네트워크로 구성된다. 기본적인 구조는 최근 영상 캡션달기와 영상 검색에서 좋은 결과를 가지는 [4]와 [5]를 따른다.
네트워크구조본 논문에서 제시하는 네트워크는4개의 LSTM 네트워크, 2개의 CNN, 1 개의 단어 임베딩 레이어 (word embedding layer), 1 개의 단어 예측 레이어 (word prediction layer)를 가진다. 4개의 LSTMe 2개씩 묶여서 두 계층 LSTMconduee, 두 계층 LSTMc。泌로 구성된다.
학습 데이터 셋은 영상 캡션 달기를 위한MSCOCO 데이터 셋 [1 기과 Referit 데이터 셋 [18]을 사용하였다. MSCOCO 데이터셋은 영상 마다 내용을 묘사하는 여러 개의 문장들이 지정되어 Figure 7: An example of our method.
Referit 데이터 셋은 영상마다 여러 개의 물체가 표시되어있고 물체 마다 여러 개의 문장이 지정되어 있다. 본 논문에서 제시하는 네트워크의 전체적인 학습과정은 [5]와 동일하며, (4) 에서 MSCOCO 데이터 셋을활용하여 미리 학습된 LSTM을 사용하였다. 그리고 Referit 데이터 셋으로 역전파 (backpropagation) 를 이용하여 파인튜닝 (finetuning)하였다.
하지만 후보 영역의 중심 좌표로부터 사진은 구도가 안 좋을 수 있다. 중심 좌표 부근 8장의 사진을 더 생성하여 구도평가 시스템을 통해 구도가 좋고 자연스러운 사진을 생성한다. 사진의 형태.
광각 사진은 넓은 화각으로 많은 정보를 포함하지만 원근 왜곡이 심한 단점이 있어 부자연스러운 사진이 나타날 수 있다. 따라서 자연스러운사진을 위해 사람이 보기에 원근 왜곡이 적은 28mm 초점 거 리를 사용하였으며, 화각은 가로 59.5도 세로 46.3 도이다. 영상 비율은 표준 규격인 4:3을 따른다.
이론/모형
하지만, 영상 검색에서는 거꾸로 문장의 단어들이 LSTM을 통과할 때 마다 영상과 유사도가 확률로 나타나게 된다. 단어 마다 LSTM을 통과할 때 나오는 확률, 즉 유사도 점수를 모두 곱하여 최종 점수를 측정하는 방식을 [5]에서 사용한다.
따라서 본 논문에서는 물체 후보 (object proposal) 검출 알고리즘을 통해 여러 개의 후보 영역 영상들을 추출한다. 여러 알고리즘들 중 정확도가 높은 Selective Search [6]를 이용하였다.
물체 후보 영역 추출 알고리즘인 Selective Search [6]를 이용하여 후보 영 역들을 추출한다. 왜곡이 많은 360 영상에는 Selective Search를 직접 적용시 키기 어렵기 때문에 변형된 큐브맵의 각 영상에서 후보 영 역들을 추출한다.
사진 재추출. 문장과 가장잘어울리는후보 영역으로부터 사진 재추출할 때 정확성을 위해 룩업 테이블 (Look-up Table)을 이용한다. 변형 된 큐브맵을 만들 때 360 영상 픽셀 좌표와 변형 된 2D 영상 픽셀 좌표를룩업 테이블을 저장해놓고, 역변환할때 참조하여 사용한다.
성능/효과
긴 문장 분석에 유리한 LSTM을 사용하였기 때문에 물체를의 미하는 단순한 단어들 뿐 만아니라 물체의 색깔이나 주변 물체와의 관계를 표현하는 문장에 대해서도 좋은 결과가 나오는 것을 확인 할 수 있다.
후속연구
될 것이다. 본 논문의 방법은 사용자가 좋아할만한 사진을 만들 뿐만 아니라, 360 카메라를 가진 자율 운전 자동차에서 사용자가 원하는 특정 물체나 영역을 찾는다거 나 가상 현실에서 사용자와 인터 랙 션을 하는 등 다양한 어플리 케 이 션에 적용 될 수 있을 것이라 생각한다.
향후에는 후보 영역 검출하는 부분의 속도 및 정확성을 높여 비디오에 확장 적용시킬 계획이다. 문장 정보를 이용하여 긴 시간의 360 영상 비디오를 짧은 2D 비디오로 요약을하거나, 실시간으로 사용자와 인터 랙션을 가능하게 할 것이다.
확장 적용시킬 계획이다. 문장 정보를 이용하여 긴 시간의 360 영상 비디오를 짧은 2D 비디오로 요약을하거나, 실시간으로 사용자와 인터 랙션을 가능하게 할 것이다.
참고문헌 (19)
R. Girshick, J. Donahue, T. Darrell, and J. Malik, "Rich feature hierarchies for accurate object detection and semantic segmentation," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014, pp. 580-587.
R. Girshick, "Fast r-cnn," in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 1440-1448.
J. Dai, "R-FCN: Object detection via region-based fully convolutional networks," arXiv preprint arXiv:1605.06409, 2016.
J. Donahue, L. Anne Hendricks, S. Guadarrama, M. Rohrbach, S. Venugopalan, K. Saenko, and T. Darrell, "Long-term recurrent convolutional networks for visual recognition and description," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 2625-2634.
R. Hu, H. Xu, M. Rohrbach, J. Feng, K. Saenko, and T. Darrell, "Natural language object retrieval," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 4555-4564.
J. R. Uijlings, K. E. Van De Sande, T. Gevers, and A. W. Smeulders, "Selective search for object recognition," International Journal of Computer Vision, vol. 104, no. 2, pp. 154-171, 2013.
L. Liu, R. Chen, L. Wolf, and D. Cohen-Or, "Optimizing photo composition," in Computer Graphics Forum, vol. 29, no. 2. Wiley Online Library, 2010, pp. 469-478.
C. L. Zitnick and P. Dollar, "Edge boxes: Locating object proposals from edges," in European Conference on Computer Vision. Springer, 2014, pp. 391-405.
S. Ren, K. He, R. Girshick, and J. Sun, "Faster r-cnn: Towards real-time object detection with region proposal networks," in Advances in Neural Information Processing Systems, 2015, pp. 91-99.
O. Vinyals, A. Toshev, S. Bengio, and D. Erhan, "Show and tell: A neural image caption generator," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 3156-3164.
K. Xu, J. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhudinov, R. Zemel, and Y. Bengio, "Show, attend and tell: Neural image caption generation with visual attention," in International Conference on Machine Learning, 2015, pp. 2048-2057.
J. Mao, W. Xu, Y. Yang, J. Wang, Z. Huang, and A. Yuille, "Deep captioning with multimodal recurrent neural networks (m-rnn)," arXiv preprint arXiv:1412.6632, 2014.
S. Li, T. Xiao, H. Li, B. Zhou, D. Yue, and X. Wang, "Person search with natural language description," arXiv preprint arXiv:1702.05729, 2017.
M.-M. Cheng, Z. Zhang, W.-Y. Lin, and P. Torr, "Bing: Binarized normed gradients for objectness estimation at 300fps," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014, pp. 3286-3293.
O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, et al., "Imagenet large scale visual recognition challenge," International Journal of Computer Vision, vol. 115, no. 3, pp. 211-252, 2015.
K. Simonyan and A. Zisserman, "Very deep convolutional networks for large-scale image recognition," arXiv preprint arXiv:1409.1556, 2014.
T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollar, and C. L. Zitnick, "Microsoft coco: Common objects in context," in European Conference on Computer Vision. Springer, 2014, pp. 740-755.
S. Kazemzadeh, V. Ordonez, M. Matten, and T. L. Berg, "Referitgame: Referring to objects in photographs of natural scenes." in EMNLP, 2014, pp. 787-798.
J. Xiao, K. A. Ehinger, A. Oliva, and A. Torralba, "Recognizing scene viewpoint using panoramic place representation," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2012, pp. 2695-2702.
이 논문을 인용한 문헌
저자의 다른 논문 :
연구과제 타임라인
LOADING...
LOADING...
LOADING...
LOADING...
LOADING...
활용도 분석정보
상세보기
다운로드
내보내기
활용도 Top5 논문
해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다. 더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.