[논문]동영상 분할 및 분석 기술을 통한 딥 러닝 기반의 동영상 이해

김규경; 임희석

문제 정의

또한 향후 연구로써는 현 상태에서는 오로지 미리 기록되어 있는 동영상만 이해 할 수 있는 이 모델을 더 심화시켜서 실시간으로 시각 데이터와 음성 데이터를 받아들여 이해하는 모델을 개발할 것이다. 또한 이를 바탕으로 동영상을 통해 스스로 학습이 가능한 새로운 모델을 만드는 것 또한 궁극적인 목표로 하고 있다.
이 3 가지 가정에 맞춰서 각 모션 데이터 및 오디오 데이터의 변폭에 맞춰 씬을 조립하는 것 및 오브젝트의 감지에 각각 다른 임계치를 줘서 동영상 내의 중점이 되는 오브젝트에 대한 집중도를 변화시키는 것이다. 이후 해당 임계치에 맞춰서 키프레임 이미지에서 감지된 중심 오브젝트 이미지를 번역하여 묘사한 텍스트, 각 연속되는 키프레임 간의 색 히스토그램 간의 유사도를 계산하고 오디오 데이터로부터 얻은 대화를 참고하여 동영상 내의 분할된 샷들을 씬으로 조립하여 동영상을 의미적으로 분할하는 작업을 완료하는 것이다.
이 논문에서는 딥 러닝을 이용하여 동영상에 대하여 의미적인 분할 방법에 대한 소개 및 분석을 통해 동영상의 이해를 가능하게 해주는 모델을 제안하였다. 그러나 이 논문에서 소개한 모델은 현 상태에서는 아직 오디오 디텍션 및 동영상 내의 씬에서 얻은 모든 정보를 종합적으로 파악 및 정리하여 이해하는 부분이 완성되지 못하여 성능평가를 하지 못하였다.
이 논문에서는 모션 디텍션(Motion Detection), 오디오 디텍션(Audio Detection)에 더불어 최근 주목 받고있는 딥 러닝 기술을 응용하여 가능해진 이미지를 텍스트로 묘사하는 기술을 접목시킴으로써 동영상의 분할 및 분석에 활용하여 동영상 이해 기술을 가능하게 하여 활용하는 방법을 제안하는 논문이다
LSTM은 은닉층에 의해 정의 된 모든 선행 단어와 이미지를 본 후에 얻은 단어들을 모아 문장을 생성할 때 문장에서 배치될 각각의 단어 순서를 예측하여 출력하도록 훈련된다[4]. 이와 함께 키프레임의 주요 오브젝트에 해당할 중앙 오브젝트를 감지하도록 하여 중앙 오브젝트가 어떤 것인지 감지하도록 하여 이미지에 대한 이해도를 높이도록 한다.

가설 설정

“모션 데이터의 변폭 및 오디오 데이터의 음량 변폭에 따라 중심이 되는 오브젝트의 화면 중앙에서의 부동적인 노출 시간이 반비례할 것이다.
그럼으로써 이제 키프레임 이미지를 번역하여 묘사한 텍스트와 각 연속되는 키프레임 간의 색 히스토그램을 이용하여 키프레임 간의 유사도를 계산하여 샷들을 씬으로 조립하는 것을 시작한다. 여기서 이전에 추출하였던 모션 데이터와 오디오 데이터를 활용하게 하는데, 이 모델에서는 씬을 조립하는데 아래의 3가지 가정을 기반으로 두고 조립한다.
이후 마지막으로 추출된 씬과 함께 추출된 음성 데이터로부터 오디오 디텍션과 보이스 디텍션(Voice Detection)을 같이 사용하여 시각 데이터와 음성 데이터로부터 얻은 정보로 각 씬을 묘사하는 내용의 텍스트를 출력하도록 하는 것이다. 이 논문에서는 제안하는 모델의 기술 구조와 원리에 대하여 간략하게 다룰 것이다. 아래의 [그림 1]은 제안하는 모델의 전체 구조도를 간단하게 표기한 것이다.

제안 방법

이때 LSTM 모델은 여러 개의 게이트가 붙어 있는 셀로 이루어져 있으며 셀은 셀에 연결된 게이트의 값에 따라 각자 작동을 하도록 한다. 각 게이트가 갖는 무게 값은 은닉층(hidden layer)의 값을 구하는 것과 같은 원리로 출력의 오차를 이용한 경사 하강법을 이용하여 학습하도록 한다. LSTM은 은닉층에 의해 정의 된 모든 선행 단어와 이미지를 본 후에 얻은 단어들을 모아 문장을 생성할 때 문장에서 배치될 각각의 단어 순서를 예측하여 출력하도록 훈련된다[4].
그럼으로써 이제 키프레임 이미지를 번역하여 묘사한 텍스트와 각 연속되는 키프레임 간의 색 히스토그램을 이용하여 키프레임 간의 유사도를 계산하여 샷들을 씬으로 조립하는 것을 시작한다. 여기서 이전에 추출하였던 모션 데이터와 오디오 데이터를 활용하게 하는데, 이 모델에서는 씬을 조립하는데 아래의 3가지 가정을 기반으로 두고 조립한다.
마지막으로 이 씬을 조립하면서 얻은 각 키프레임을 표현하는 텍스트, 중심 오브젝트 그리고 대화들을 종합하여 해당 씬을 나타내는 키워드 태그, 중심 오브젝트의 이미지, 그리고 해당 씬 전체를 설명하는 장문의 텍스트를 RNN을 사용하는 딥 러닝 기반의 문장 출력기를 사용하여 출력함으로써 동영상의 이해 및 분석을 마치게 되는 것이다.
첫 번째로는 동영상을 받아와서 동영상 전체의 움직임과 음량을 추출 및 분석하는 동시에 샷(Shot)을 검출한다. 여기서 얻은 동영상 내의 움직임과 음량의 변화에 따라 동영상 구간마다 다른 임계치를 설정하여 차후 동영상을 분석할 때에는 이 임계치에 따라 동영상을 분석하도록 하여 제안하는 모델의 집중력을 조정하도록 한다. 두 번째로는 동영상으로부터 각 구간의 임계치에 맞춰 키프레임(Keyframe) 추출을 통하여 검출된 샷에서 각 샷을 대표하는 키프레임을 생성한다.
이 후 4번째 단계로 각각의 씬(Scene)의 조립을 시작한다. 이 때 씬을 조립할 때에는 의미적인 분석이 가능하도록 자주 사용되는 색 히스토그램의 비교 및 분석 외에도 각 키프레임을 묘사하는 텍스트를 사용하여 키프레임 간의 의미적인 비교를 통해 씬을 조립하고 두 가지 자료를 통하여 동영상의 의미적인 분석과 분할을 진행한다. 이후 마지막으로 추출된 씬과 함께 추출된 음성 데이터로부터 오디오 디텍션과 보이스 디텍션(Voice Detection)을 같이 사용하여 시각 데이터와 음성 데이터로부터 얻은 정보로 각 씬을 묘사하는 내용의 텍스트를 출력하도록 하는 것이다.
이것을 가능하게 하기 위해서 동영상에서 각 샷을 대표하는 키프레임들을 묘사하는 텍스트를 생성하도록 하였는데, 이 기술은 딥 러닝을 응용하여 이미지를 분석하는 기술[4]과 함께 다양한 이미지를 분석하여 그에 대한 태그를 생성하는 기술들을 사용한 것이다. 이는 CNN(Convolutional Neural Network)을 사용한 것이다.
이는 CNN(Convolutional Neural Network)을 사용한 것이다. 이미지 키프레임이 CNN을 거쳐서 나온 결과를 특정 언어로 취급하여 LSTM(Long Short Term Memory) 모델을 훈련시켜서 해당 결과물을 하나의 번역해야 할 외국어로써 다루게 하여 결과물을 특정 언어로 번역하게 하는 것이다. 이때 LSTM 모델은 여러 개의 게이트가 붙어 있는 셀로 이루어져 있으며 셀은 셀에 연결된 게이트의 값에 따라 각자 작동을 하도록 한다.
이 때 씬을 조립할 때에는 의미적인 분석이 가능하도록 자주 사용되는 색 히스토그램의 비교 및 분석 외에도 각 키프레임을 묘사하는 텍스트를 사용하여 키프레임 간의 의미적인 비교를 통해 씬을 조립하고 두 가지 자료를 통하여 동영상의 의미적인 분석과 분할을 진행한다. 이후 마지막으로 추출된 씬과 함께 추출된 음성 데이터로부터 오디오 디텍션과 보이스 디텍션(Voice Detection)을 같이 사용하여 시각 데이터와 음성 데이터로부터 얻은 정보로 각 씬을 묘사하는 내용의 텍스트를 출력하도록 하는 것이다. 이 논문에서는 제안하는 모델의 기술 구조와 원리에 대하여 간략하게 다룰 것이다.
이후 바로 다음 단계로 샷 검출을 통하여 각 샷을 대표하는 키프레임을 생성하여 동영상의 의미적인 분석을 시작한다. 동영상의 의미적인 분석을 가능하게 하기 위해서는 먼저 동영상을 제대로 분할해야 한다.
이 3 가지 가정에 맞춰서 각 모션 데이터 및 오디오 데이터의 변폭에 맞춰 씬을 조립하는 것 및 오브젝트의 감지에 각각 다른 임계치를 줘서 동영상 내의 중점이 되는 오브젝트에 대한 집중도를 변화시키는 것이다. 이후 해당 임계치에 맞춰서 키프레임 이미지에서 감지된 중심 오브젝트 이미지를 번역하여 묘사한 텍스트, 각 연속되는 키프레임 간의 색 히스토그램 간의 유사도를 계산하고 오디오 데이터로부터 얻은 대화를 참고하여 동영상 내의 분할된 샷들을 씬으로 조립하여 동영상을 의미적으로 분할하는 작업을 완료하는 것이다. 색 히스토그램의 경우에는 각 키프레임 간의 색 분포도를 비교하고, 텍스트의 경우에는 문장의 유사도를 비교하여 나온 두 값 모두 일정한 임계치를 넘으면 같은 씬의 연속으로 판단하여 씬을 조립하는 것이다.
이 논문에서 주로 다룰 동영상의 이해를 위한 분석기술은 다음과 같이 구성되어져 있다. 첫 번째로는 동영상을 받아와서 동영상 전체의 움직임과 음량을 추출 및 분석하는 동시에 샷(Shot)을 검출한다. 여기서 얻은 동영상 내의 움직임과 음량의 변화에 따라 동영상 구간마다 다른 임계치를 설정하여 차후 동영상을 분석할 때에는 이 임계치에 따라 동영상을 분석하도록 하여 제안하는 모델의 집중력을 조정하도록 한다.

후속연구

2장 ‘동영상의 분석 및 이해’에서는 동영상의 분석, 분할, 이해에 대한 기술의 구조와 원리에 대한 소개를 할 것이며 3장 ‘동영상의 분석 및 이해에 대한 활용’에서는 이러한 동영상 분석 및 이해 기술에서 얻은 자료를 활용할 방법들을 제안할 것이다.
이 논문에서는 딥 러닝을 이용하여 동영상에 대하여 의미적인 분할 방법에 대한 소개 및 분석을 통해 동영상의 이해를 가능하게 해주는 모델을 제안하였다. 그러나 이 논문에서 소개한 모델은 현 상태에서는 아직 오디오 디텍션 및 동영상 내의 씬에서 얻은 모든 정보를 종합적으로 파악 및 정리하여 이해하는 부분이 완성되지 못하여 성능평가를 하지 못하였다. 차후 미래에는 이러한 완성되지 못한 부분을 마저 완성시켜서 Trecvid 2016, Mscoco 등의 대회에서 쓰이는 비디오 자료를 바탕으로 트레이닝 및 성능평가를 하여 동영상 이해가 가능한 모델을 완성 시킬 계획이다.
또한 향후 연구로써는 현 상태에서는 오로지 미리 기록되어 있는 동영상만 이해 할 수 있는 이 모델을 더 심화시켜서 실시간으로 시각 데이터와 음성 데이터를 받아들여 이해하는 모델을 개발할 것이다. 또한 이를 바탕으로 동영상을 통해 스스로 학습이 가능한 새로운 모델을 만드는 것 또한 궁극적인 목표로 하고 있다.
마지막으로 4장 ‘결론 및 향후연구’에서는 향후연구와 함께 이 논문의 결론으로 마무리 지을 것이다.
마지막으로는 이 논문에서 차후 궁극적으로 노리는 동영상을 통한 데이터의 학습의 가장 기본적인 발판이 된다는 점이다. 이러한 동영상의 이해는 여러 종류의 많은 동영상 데이터를 짧은 시간 안에 자동적으로 분석할 수 있도록 도와주어 차후 동영상 관련 연구에도 큰 도움이 될 것으로 기대할 수 있다.
그러나 이 논문에서 소개한 모델은 현 상태에서는 아직 오디오 디텍션 및 동영상 내의 씬에서 얻은 모든 정보를 종합적으로 파악 및 정리하여 이해하는 부분이 완성되지 못하여 성능평가를 하지 못하였다. 차후 미래에는 이러한 완성되지 못한 부분을 마저 완성시켜서 Trecvid 2016, Mscoco 등의 대회에서 쓰이는 비디오 자료를 바탕으로 트레이닝 및 성능평가를 하여 동영상 이해가 가능한 모델을 완성 시킬 계획이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

동영상 분할 및 분석 기술을 통한 딥 러닝 기반의 동영상 이해
Video Understanding through Video Analysis based on Deep Learning 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

동영상 분할 및 분석 기술을 통한 딥 러닝 기반의 동영상 이해 Video Understanding through Video Analysis based on Deep Learning 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

동영상 분할 및 분석 기술을 통한 딥 러닝 기반의 동영상 이해
Video Understanding through Video Analysis based on Deep Learning 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper