$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

딥러닝 기반 동영상 객체 분할 기술 동향 원문보기

방송과 미디어 = Broadcasting and media magazine, v.25 no.2, 2020년, pp.44 - 51  

고영준 (충남대학교)

초록
AI-Helper 아이콘AI-Helper

동영상 프레임 내 객체 영역들을 배경으로부터 분할하는 기술인 동영상 객체 분할(video object segmentation)은 다양한 컴퓨터 비전 분야에 활용 가능한 연구 분야이다. 최근, 동영상 객체 분할과 관련된 연구 내용으로 CVPR, ICCV, ECCV의 컴퓨터 비전 최우수 학회에 매년 20편 가까이 발표될 정도로 많은 관심을 받고 있다. 동영상 객체 분할은 사용자가 제공하는 정보에 따라 비지도(unsupervised) 동영상 객체 분할, 준지도(semi-supervised) 동영상 객체 분할, 인터렉티브(interactive) 동영상 객체 분할의 세 카테고리로 분류할 수 있다. 본 고에서는 최근 연구가 활발하게 수행되고 있는 비지도 동영상 객체 분할과 준지도 동영상 객체 분할 연구의 최신 동향에 대해 소개하고자 한다.

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 고에서는 심층신경망을 이용한 비지도 동영상 객체 분할 기술과 준지도 동영상 객체 분할의 최신 동향에 대해 살펴보았다. 비지도 동영상 객체 분할의 경우, 어떠한 사용자 정보 없이 동영상 내 주요 객체를 분할하기 위해, 움직임 정보를 활용한 심층 신경망 기술이 개발되었고, 최근에는 프레임간 정합을 통해 반복적으로 출현하는 주요 객체 영역을 분할하려는 시도가 활발히 수행되고 있다.
  • 본 고에서는 최근 활발히 연구되고 있는 비지도 방식과 준지도 방식의 최신 기술 동향을 살펴보고자 한다. II장에서는 비지도 동영상 객체 분할과 준지도 동영상 객체 분할의 최신 연구를 순차적으로 소개한다.
  • 동영상 객체 분할은 사용자의 관여정도에 따라 크게 비지도 동영상 객체 분할, 준지도 동영상 객체 분할, 인터렉티브 동영상 객체 분할 세 카테고리로 분류할 수 있다. 비지도 동영상 객체 분할은 객체에 대한 어떠한 사용자 주석(user annotation) 정보 없이 배경으로부터 객체를 분할하는 것을 목표로 한다. 준지도 동영상 객체 분할은 첫 프레임에서 사용자가 제공한 타겟 객체에 대한 정확한 분할 영역을 이용하여 이 후 프레임에서의 타겟 객체 분할을 수행한다.
  • 이번 장에서는 다양한 동영상 객체 분할 기법들에 대한 성능을 분석하고자 한다. 동영상 객체 분할에 널리 사용되는 데이터셋으로 DAVIS[22] 데이터셋이 있다.
  • 심층신경망을 fine-tuning한 후, 이 후 프레임에서 finetuning한 심층신경망을 이용하여 타겟 객체에 대한 확률 맵을 출력하는 방법이다. 첫 프레임에서 주어지는 단 한 장의 타겟 객체 분할 정보로는 심층신경망을 학습하기에 부족하기 때문에 데이터 증강을 통해 데이터 부족 문제를 해결하려고 하였다. 그러나, 이러한 fine-tuning 방식은 데이터 부족과 첫 번째 프레임과 멀어질수록 변형되는 타겟 객체에 대응하지 못하는 문제가 있어 성능의 한계를 보인다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
동영상 객체 분할은 무엇인가? 동영상 객체 분할은 동영상 프레임 내 객체 영역들을 배경으로부터 분할하는 기술을 의미한다. 동영상 객체 분할 기술은 동영상 요약, 동영상 검색, 행위 인식, 객체 클래스 학습, 3차원 객체 모델링 등의 많은 컴퓨터 비전 분야에 적용 가능한 중요한 연구 분야이다.
동영상 객체 분할 기술은 어떠한 분야에 적용 가능한가? 동영상 객체 분할은 동영상 프레임 내 객체 영역들을 배경으로부터 분할하는 기술을 의미한다. 동영상 객체 분할 기술은 동영상 요약, 동영상 검색, 행위 인식, 객체 클래스 학습, 3차원 객체 모델링 등의 많은 컴퓨터 비전 분야에 적용 가능한 중요한 연구 분야이다. 동영상 객체 분할은 사용자의 관여정도에 따라 크게 비지도 동영상 객체 분할, 준지도 동영상 객체 분할, 인터렉티브 동영상 객체 분할 세 카테고리로 분류할 수 있다.
비지도 동영상 객체 분할, 준지도 동영상 객체 분할, 인터렉티브 동영상 객체 분할의 특징은 무엇인가? 동영상 객체 분할은 사용자의 관여정도에 따라 크게 비지도 동영상 객체 분할, 준지도 동영상 객체 분할, 인터렉티브 동영상 객체 분할 세 카테고리로 분류할 수 있다. 비지도 동영상 객체 분할은 객체에 대한 어떠한 사용자 주석(user annotation) 정보 없이 배경으로부터 객체를 분할하는 것을 목표로 한다. 준지도 동영상 객체 분할은 첫 프레임에서 사용자가 제공한 타겟 객체에 대한 정확한 분할 영역을 이용하여 이 후 프레임에서의 타겟 객체 분할을 수행한다. 인터렉티브 동영상 객체 분할은 사용자와의 상호작용을 통해 객체 분할 결과를 개선한다. 사용자가 개선 영역에 대한 정보를 반복적으로 제공해야 되기 때문에, 인터렉티브 동영상 객체 분할에서는 빠르게 제공 가능한 점(point click)이나 scribble 등의 형태를 갖는 사용자 주석 정보를 이용하여 동영상 객체 분할을 수행한다. <그림 1>은 지도(supervision) 수준에 따라 분류된 동영상 객체 분할 방식을 도시한다.
질의응답 정보가 도움이 되었나요?

참고문헌 (22)

  1. A. papazoglou and V. Ferrari, "Fast Object Segmentation in Unconstrained Video," ICCV, 2013. 

  2. Y. J. Koh and C.-S. Kim, "Primary Object Segmentation in Videos Based on Region Augmentation and Reduction," CVPR, 2017. 

  3. A. Faktor and M. Irani, "Video Segmentation by Non-Local Consensus voting," BMVC, 2014. 

  4. S. Jain, B. Xiong, and K. Grauman, "FusionSeg: Learning to combine motion and appearance for fully automatic segmentation of generic objects in videos," CVPR, 2017 

  5. H. Li, G. Chen, G. Li, and Y. Yu, "Motion Guided Attention for Video Salient Object Detection," ICCV, 2019. 

  6. X. Lu, W. Wang, C. Ma, J. Shen, L. Shao, and F. Porikli, "See More, Know More: Unsupervised Video Object Segmentation with Co-Attention Siamese Networks," CVPR, 2019. 

  7. Z. Yang, Q. Wang, L. Bertinetto, W. Hu, S. Bai, and P. H.S. Torr, "Anchor Diffusion for Unsupervised Video Object Segmentation," ICCV, 2019. 

  8. W. Wang, H. Song, S. Zhao, J. Shen, S. Zhao, S. C. H. Hoi, and H. Ling, "Learning Unsupervised Video Object Segmentation through Visual Attention," CVPR, 2019. 

  9. S. Caelles, K.K. Maninis, J. Pont-Tuset, L. Leal-Taixe, D. Cremers, and L. Van Gool, "One-Shot Video Object Segmentation," CVPR, 2017. 

  10. W.-D. Jang and C.-S Kim, "Online Video Object Segmentation via Convolutional Trident Network," CVPR, 2017. 

  11. P. Hu, G. Wang, X. Kong, J. Kuen, and T.-P. Tan "Motion-Guided Cascaded Refinement Network for Video Object Segmentation," CVPR, 2018. 

  12. S. W. Oh, J.-Y. Lee, K. Sunkavalli, S. J. Kim, "RGMP: Fast video object segmentation by reference-guided mask propagation," CVPR, 2018. 

  13. H. Lin, X. Qi, and J. Jia, "AGSS-VOS: Attention Guided Single-Shot Video Object Segmentation," ICCV, 2019. 

  14. Y. Chen, J. Pong-Tuset, A. Montes, and L. Van Gool, "PML: Blazingly Fast Video Object Segmentation with Pixel-Wise Metric Learning," CVPR, 2018. 

  15. P. Voigtlaender, Y. Chai, F. Schroff, H. Adam, B. Leibe, and L.-C. Chen, "FEELVOS: Fast End-To-End Embedding Learning for Video Object Segmentation," CVPR, 2019. 

  16. S. W. Oh, J.-Y. Lee, N. Xu, S. J. Lim, "Video Object Segmentation using Space-Time Memory Networks," ICCV, 2019. 

  17. X. Wang, R. Girshick, A. Gupta, and K. He, "Non-local Neural Networks", CVPR, 2018. 

  18. J. Luiten, P. Voigtlaender, and B. Leibe, "PReMVOS: Proposal-generation, Refinement and Merging for Video Object Segmentation," ACCV, 2018. 

  19. S. Xu, D. Liu, L. Bao, W. Liu, and P. Zhou, "MHP-VOS: Multiple Hypotheses Propagation for Video Object Segmentation," CVPR, 2019. 

  20. N. Xu, L. Yang, Y. Fan, J. Yang, D. Yue, Y. Liang, B. Price, S. Cohen, and T. Huang, "YouTube-VOS: Sequence-to-Sequence Video Object Segmentation," ECCV, 2018. 

  21. C. Ventura, M. Bellver, A. Girbau, A. Salvador, "RVOS: End-to-End Recurrent Network for Video Object Segmentation," CVPR, 2019. 

  22. T. Zhou, S. Wang, Y. Zhou, Y. Yao, J. Li, L. Shao, "Motion-Attentive Transition for Zero-Shot Video Object Segmentation, AAAI 2020," AAAI, 2020. 

관련 콘텐츠

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로