$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] 360 영상으로부터 텍스트 정보를 이용한 자연스러운 사진 생성
Natural Photography Generation with Text Guidance from Spherical Panorama Image 원문보기

컴퓨터그래픽스학회논문지 = Journal of the Korea Computer Graphics Society, v.23 no.3, 2017년, pp.65 - 75  

김범석 (포항공과대학교) ,  정진웅 (포항공과대학교) ,  홍은빈 (포항공과대학교) ,  조성현 (대구경북과학기술원) ,  이승용 (포항공과대학교)

초록
AI-Helper 아이콘AI-Helper

360 영상은 상하좌우 모든 영역에 대한 정보를 갖고 있기 때문에 종종 지나치게 많은 정보를 포함하게 된다. 또한 360 영상의 내용을 2D 모니터를 이용하여 확인하기 위해서는 마우스를 이용하여 360 영상을 돌려 봐야 하거나, 또는 심하게 왜곡된 2D 영상으로 변환해서 봐야 하는 문제가 있다. 따라서 360 영상에서 사용자가 원하는 물체를 찾는 것은 상당히 까다로운 일이 될 수 있다. 본 논문은 물체나 영역을 묘사하는 문장이 주어졌을 때, 360 영상 내에서 문장과 가장 잘 어울리는 영상을 추출해 내는 방법을 제시한다. 본 논문에서 제시한 방법은 주어진 문장 뿐 아니라 구도 역시 고려하여 구도 면에서도 보기 좋은 결과 영상을 생성한다. 본 논문에서 제시하는 방법은 우선 360 영상을 2D 큐브맵으로 변환한다. 일반적인 큐브맵은 큐브맵의 경계 부분에 걸쳐 있는 물체가 있을 경우, 이를 검출하기 어려운 문제가 있다. 따라서 더 정확한 물체 검출을 위해 본 논문에서는 변형된 큐브맵을 제시한다. 이렇게 변형된 큐브맵에 Long Short Term Memory (LSTM) 네트워크 기반의 자연어 문장을 이용한 물체 검출 방법을 적용한다. 최종적으로 원래의 360영상에서 검출된 영역을 포함하면서도 영상 구도 면에서 보기 좋은 영역을 찾아서 결과 영상을 생성한다.

Abstract AI-Helper 아이콘AI-Helper

As a 360-degree image carries information of all directions, it often has too much information. Moreover, in order to investigate a 360-degree image on a 2D display, a user has to either click and drag the image with a mouse, or project it to a 2D panorama image, which inevitably introduces severe d...

Keyword

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 단순한 단어나 클래스 라벨이 아닌 구체적인 문장을 이용하여 360 영상 내에서 문장과 어울리는 사진을 생성하는 방법을 제시한다. 문장과 360 입력 영상이 주어지면 문장과 가장 어울리는 영역을 추출하고, 추출된 영역 주변 사진들로부터 구도 평가 시스템을 통해 자연스러운 사진을 생성한다.
  • 또한 본 논문은 사용자가 원하는 사진을 만들 뿐만 아니라 텍스트를 이용하여 360 영상과 사용자간의 인터랙션 (interaction) 을 통해 더 깊은 몰입감을 줄 수 있는 가능성을 제시한다. 예를 들어 가상 현실에서 넓은 범위의 영상으로부터 사용자가 원하는 부분을 텍스트 입력을 통해 찾거나 가까운 미래에 도래할 자율 주행 자동차에서 주행 중 사용자가 찾고 싶은 물체나 영역을 텍스트를 통해 제시할 수 있다.
  • 그러나 일반적인 큐브맵은 물체가 서로 다른 영역 의 경계에 있을 때, 한 물체가 여러 조각으로 나뉘어 지기 때문에 물체 검출이 어려워 지는 문제가 있다. 이를 해결하기 위해 본 논문에서는 360 영상의 수평 방향을 중복시켜 샘플링하는 변형된 큐브 맵을 제시한다. 이를통해 360 영상 내의 개체가 효과적으로 검출될 수 있도록 해 준다.
  • 본 논문은 물체 검출, 영상 캡션 달기 (image captioning), 영상검색 (image retrieval)과 관련이 깊다. 물체 검출이란 영상 내에 무슨 물체들이 있는지 찾아내는 것을 의미한다.
  • 이러한 왜곡은 물체 검출이나 CNN과 같이 2D 영상에 적합한 컴퓨터 비전 알고리즘을 360 영상에 바로 적용시키는 것을 어렵게 만든다. 따라서 본 논문에서는 등장방형 도법 (equirectangular projection)으로 표현된 입력 360 영상의 왜곡을 줄이고 몇몇 알고리즘을 적용시 키기 위해 360 영상을 여러 개의 2D 영상으로 구성된 변형된 큐브맵으로 재 생성한다.
  • 일이 아니다. 따라서 본 논문에서는 입력 문장과 비교할 여러 개의 후보 영역을 추출하였다. 후보 영역들은 입력 문장들이 묘사하는 내용을 포함하고 있어 야하고 사진으로 활용되기 에 좋은 영 역 이 여 야 한다.
  • 물체는 사진의 핵심 내용을 나타내는 요소로써, 대부분의 사진은 주요 물체를 잘 표현하기 위해 만들어진다. 이러한 관점에서 본 논문은 물체가 있을 법한 영역으로 후보 영역들을 추출한다.
  • 본 논문에서는 문장을 LSTM 네트워크를 통해 분석하여, 360 영상으로부터 문장과 어울리는 자연스러운 사진을 만드는 방법을 제안하였다. 360 영상에서 자연어를 이용하여 사용자에게 사진을 제공해주는 연구는 없지만

가설 설정

  • MSCOCO 데이터셋은 영상 마다 내용을 묘사하는 여러 개의 문장들이 지정되어 Figure 7: An example of our method. While the best candidate region (b) detected by our scoring network contains the object of interest, a “man wearing pink shirt", the image looks unnatural. On the other hand, our final result (c) looks aesthetically more pleasing thanks to the final step of our method that considers image composition.
본문요약 정보가 도움이 되었나요?

참고문헌 (19)

  1. R. Girshick, J. Donahue, T. Darrell, and J. Malik, "Rich feature hierarchies for accurate object detection and semantic segmentation," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014, pp. 580-587. 

  2. R. Girshick, "Fast r-cnn," in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 1440-1448. 

  3. J. Dai, "R-FCN: Object detection via region-based fully convolutional networks," arXiv preprint arXiv:1605.06409, 2016. 

  4. J. Donahue, L. Anne Hendricks, S. Guadarrama, M. Rohrbach, S. Venugopalan, K. Saenko, and T. Darrell, "Long-term recurrent convolutional networks for visual recognition and description," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 2625-2634. 

  5. R. Hu, H. Xu, M. Rohrbach, J. Feng, K. Saenko, and T. Darrell, "Natural language object retrieval," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 4555-4564. 

  6. J. R. Uijlings, K. E. Van De Sande, T. Gevers, and A. W. Smeulders, "Selective search for object recognition," International Journal of Computer Vision, vol. 104, no. 2, pp. 154-171, 2013. 

  7. L. Liu, R. Chen, L. Wolf, and D. Cohen-Or, "Optimizing photo composition," in Computer Graphics Forum, vol. 29, no. 2. Wiley Online Library, 2010, pp. 469-478. 

  8. C. L. Zitnick and P. Dollar, "Edge boxes: Locating object proposals from edges," in European Conference on Computer Vision. Springer, 2014, pp. 391-405. 

  9. S. Ren, K. He, R. Girshick, and J. Sun, "Faster r-cnn: Towards real-time object detection with region proposal networks," in Advances in Neural Information Processing Systems, 2015, pp. 91-99. 

  10. O. Vinyals, A. Toshev, S. Bengio, and D. Erhan, "Show and tell: A neural image caption generator," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 3156-3164. 

  11. K. Xu, J. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhudinov, R. Zemel, and Y. Bengio, "Show, attend and tell: Neural image caption generation with visual attention," in International Conference on Machine Learning, 2015, pp. 2048-2057. 

  12. J. Mao, W. Xu, Y. Yang, J. Wang, Z. Huang, and A. Yuille, "Deep captioning with multimodal recurrent neural networks (m-rnn)," arXiv preprint arXiv:1412.6632, 2014. 

  13. S. Li, T. Xiao, H. Li, B. Zhou, D. Yue, and X. Wang, "Person search with natural language description," arXiv preprint arXiv:1702.05729, 2017. 

  14. M.-M. Cheng, Z. Zhang, W.-Y. Lin, and P. Torr, "Bing: Binarized normed gradients for objectness estimation at 300fps," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014, pp. 3286-3293. 

  15. O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, et al., "Imagenet large scale visual recognition challenge," International Journal of Computer Vision, vol. 115, no. 3, pp. 211-252, 2015. 

  16. K. Simonyan and A. Zisserman, "Very deep convolutional networks for large-scale image recognition," arXiv preprint arXiv:1409.1556, 2014. 

  17. T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollar, and C. L. Zitnick, "Microsoft coco: Common objects in context," in European Conference on Computer Vision. Springer, 2014, pp. 740-755. 

  18. S. Kazemzadeh, V. Ordonez, M. Matten, and T. L. Berg, "Referitgame: Referring to objects in photographs of natural scenes." in EMNLP, 2014, pp. 787-798. 

  19. J. Xiao, K. A. Ehinger, A. Oliva, and A. Torralba, "Recognizing scene viewpoint using panoramic place representation," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2012, pp. 2695-2702. 

저자의 다른 논문 :

LOADING...

활용도 분석정보

상세보기
다운로드
내보내기

활용도 Top5 논문

해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다.
더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

유발과제정보 저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로