[논문]자연어 처리와 영상 처리를 이용한 조인트임베딩 기반 영상 검색 기술

함경준

문제 정의

이를 위해 기존의 키워드 기반 영상 검색 접근방법에 대해서도 가볍게 다루었으며, 장면-문장 조인트 임 베딩을 하기 위해 필요한 문장 임베딩 기술과 영상임 베딩 기술에 대해서도 소개하였다. 또한, 최신의 관련 연구 소개 및 저자가 속한 기관에서 개발한 영상 검색 엔진을 소개하고 검색 결과의 예제를 살펴 보았다.
본 고에서는 영상 검색 서비스를 위해 필요한 기술을 소개하고자 한다. 특히 기존의 키워드 기반 검색 기술을 영상 검색에 활용하였을 때 겪게 되는 문제점과 이를 해결하기 위해 몇 년 전부터 두각을 나타내고 있는 심층학습 기반의 영상 검색 기술을 살펴보기로 한다.
보여주는 것이다. 본 고에서는 영상 검색 서비스의 내부 과정에서 사용되는 기술, 특히 키워드기반의 영상 검색과 심층학습을 이용한 영상 검색기술에 대하여 좀 더 자세히 알아보려고 한다.
본 고에서는 영상에 대한 메타데이터 수동 태깅 입력이 없어도 온전히 영상을 이해하고 질의문을 분석하여 영상 검색을 수행하는 조인트 임베딩 기반 영상 검색 기술에 대하여 소개하였다. 이를 위해 기존의 키워드 기반 영상 검색 접근방법에 대해서도 가볍게 다루었으며, 장면-문장 조인트 임 베딩을 하기 위해 필요한 문장 임베딩 기술과 영상임 베딩 기술에 대해서도 소개하였다.
영상 검색기능을 제공하는 기술이다. 본 고에서는 해당 기술에 대한 상세한 기술적 명세보다는 비전문가도 이해할 수 있는 기술의 개념적 설명과 기능 위주로 다루고자 한다. 영상에 대한 심층 학습기반 영상 검색 기술을 소개하기 전에 이해를 돕기 위하여 <그림 2>를 이용하여 어떤 부분이 주요 이슈인지 파악해 보기로 한다.
영상에 대한 심층 학습기반 영상 검색 기술을 소개하기 전에 이해를 돕기 위하여 를 이용하여 어떤 부분이 주요 이슈인지 파악해 보기로 한다.
소개하고자 한다. 특히 기존의 키워드 기반 검색 기술을 영상 검색에 활용하였을 때 겪게 되는 문제점과 이를 해결하기 위해 몇 년 전부터 두각을 나타내고 있는 심층학습 기반의 영상 검색 기술을 살펴보기로 한다.

가설 설정

벡터를 얻을 수 있음을 알아보았다. 사람이 이해할 수 없는 숫자로만 구성된 각각의 벡터에는 문장과 영상에 대한 이해 정보가 압축되어 포함되어있을 것으로 가정을 하고, 동일한 벡터 공간에 두 개의 벡터를 놓고 의미적으로 연관된 벡터 간에는 코사인 유사도 값이 높게 계산되도록 신경망을 학습하는 조인트 임베딩 모델을 구축하여야 한다.<그림 3>의 개념도에서 문장과 영상이 각각임베딩되어 만나는 지점이라고 할 수 있다.

제안 방법

공개되는 대부분의 연구는 MSR-VTT, LSMDC와 같은 공개학습 데이터셋을 이용하여 성능을 검증하는데, 이러한 공개 데이터셋은 영어로 되어있기 때문에 한글 기반의 영상 검색 엔진을 구축하기에는 한계가 있다. 따라서 한글 영상 검색이 가능하도록 250편의 한국영화를 20초 길이로 분할하고 각 클립에 대한 명세문을 수동으로 작성하여 영상-문장 8만여 개 쌍을 학습 데이터로 구축하여 장면-문장 조인트임 베딩 연구를 수행하였다. 또한 영상과 문장에 대한 보다 정확한 이해가 가능하도록 영상의 멀티모달 추출 정보를 입체적으로 재구성 및 어텐션 기법으로 선별하여 영상의 전반적인 의미를 파악할 수 있는 네트워크 구조를 도입하였으며, 한글 Bert 사전학습 모델을 전이 학습시켜 문장에 대한 정확한 임 베딩이 수행되도록 하였다.
따라서 한글 영상 검색이 가능하도록 250편의 한국영화를 20초 길이로 분할하고 각 클립에 대한 명세문을 수동으로 작성하여 영상-문장 8만여 개 쌍을 학습 데이터로 구축하여 장면-문장 조인트임 베딩 연구를 수행하였다. 또한 영상과 문장에 대한 보다 정확한 이해가 가능하도록 영상의 멀티모달 추출 정보를 입체적으로 재구성 및 어텐션 기법으로 선별하여 영상의 전반적인 의미를 파악할 수 있는 네트워크 구조를 도입하였으며, 한글 Bert 사전학습 모델을 전이 학습시켜 문장에 대한 정확한 임 베딩이 수행되도록 하였다. <그림 11>은 ETRI에서 제시한 조인트 임베딩 학습 모델의 개념도이다.
영상 검색 기술에 대하여 소개하였다. 이를 위해 기존의 키워드 기반 영상 검색 접근방법에 대해서도 가볍게 다루었으며, 장면-문장 조인트 임 베딩을 하기 위해 필요한 문장 임베딩 기술과 영상임 베딩 기술에 대해서도 소개하였다. 또한, 최신의 관련 연구 소개 및 저자가 속한 기관에서 개발한 영상 검색 엔진을 소개하고 검색 결과의 예제를 살펴 보았다.
질의문 임베딩과 영상 임베딩 과정을 통해 고차원의 벡터를 얻을 수 있음을 알아보았다. 사람이 이해할 수 없는 숫자로만 구성된 각각의 벡터에는 문장과 영상에 대한 이해 정보가 압축되어 포함되어있을 것으로 가정을 하고, 동일한 벡터 공간에 두 개의 벡터를 놓고 의미적으로 연관된 벡터 간에는 코사인 유사도 값이 높게 계산되도록 신경망을 학습하는 조인트 임베딩 모델을 구축하여야 한다.
키워드 기반의 영상 검색은 웹 문서나 뉴스 기사처럼 기존의 텍스트 문서를 대상으로 검색하기 위해 고안한 기술을 이용하여 영상 검색 기능을 제공한다. 다만, 영상 자체에는 텍스트 정보가 없으므로영상에 대한 메타데이터, 즉 영상의 주제나 주요 사건 등의 정보를 텍스트 형태로 구축하고 검색을 수행하게 된다.

성능/효과

<그림 12>는 ETRI에서 개발한 영상검색 엔진을 사용하여 검색을 수행해 본 예제 케이스이다. 전반적인 검색결과에서 주어진 질의문에 적합한 영상이 상위에 랭크되어 있음을 확인할 수 있었으며, 정량적 수치로 10개의 검색 결과 안에서 정답 영상이 포함되어 있을 확률(Recall@10)은 평균 50.8%로 영상에 대한 수동 태깅이 없더라도 상당히 높은 정확도의 검색 성능을 제공함을 확인할 수 있었다.

후속연구

보인다. 고화질 영상이 넘쳐나고 360도 영상과 같은 VR 미디어도 활발하게 공유될 것으로 보이기 때문에 새로운 유형의 미디어를 적정시간 내에 분석하는 모델 최적화 연구가 필요하며, 영상검색학습 모델을 경량화하여 스마트폰에서도 자체적인 리소스만으로도 영상 검색을 수행할 수 있는 연구도 본격적으로 이루어질 것으로 보인다.
심층 학습 기반의 영상 검색 기술은 앞으로 더욱 발전하여 보다 높은 검색 정확도를 제공할 것으로 예상되며 다양한 상용 영상 검색엔진이 출시될 것으로 보인다. 고화질 영상이 넘쳐나고 360도 영상과 같은 VR 미디어도 활발하게 공유될 것으로 보이기 때문에 새로운 유형의 미디어를 적정시간 내에 분석하는 모델 최적화 연구가 필요하며, 영상검색학습 모델을 경량화하여 스마트폰에서도 자체적인 리소스만으로도 영상 검색을 수행할 수 있는 연구도 본격적으로 이루어질 것으로 보인다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

자연어 처리와 영상 처리를 이용한 조인트임베딩 기반 영상 검색 기술 원문보기

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

성능/효과

후속연구

참고문헌 (10)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

자연어 처리와 영상 처리를 이용한 조인트임베딩 기반 영상 검색 기술 원문보기

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

성능/효과

후속연구

참고문헌 (10)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

AI 본문요약
AI-Helper