[논문]영화 비디오 자막 추출 및 추출된 자막 이미지 향상 방법

김소명; 곽상신; 최영우; 정규식

문제 정의

동일 자막 프레임들을 판단하는 것은 비디오의 자막을 추출하는 많은 연구들이 효과적인 정보 검색을 수행하기 위해서 반드시 필요한 과정이다. 따라서, 본 연구에서는 동일 자막 프레임들을 판단하는 방법을 제안하는 것에 중점을 두었다.
또한, 비디오 영상에 포함되어 있는 한글 이미지와 같이 획이 쉽게 뭉쳐지는 것을 방지할 수 있는 이미지 개선 방법들도 제안하고자 한다.
향후 연구 과제로는 실시간 처리가 가능하도록 이미지 처리 시간을 단축시키는 것과 인식 모듈을 자막 폰트의 종류, 스타일 등에 맞추어 최적화시키는 것이다. 또한, 이미지 및 동영상에 자연스럽게 포함되어 있는 장면 텍스트 정보를 추출하는 방법을 개발하는 것이다.
이 방법을 사용하면 문자 획의 경계가 보다 선명하게 나타나지만, 이미지의 크기에 따라 처리 시간이 급격히 증가하는 단점이 있다. 본 논문에서는 비교적 처리 과정이 간단하고 처리시간이 빠른 선형 보간법을 이용하여 해상도를 증대시키며, 이 방법의 단점은 뒤에 적용되는 이미지 향상 과정들을 사용하여 보완하고자 한다.
본 논문에서는 비디오 영상의 자막 이미지를 정확하게 인식하고 내용에 따른 인덱싱을 하기 위해서 동일한 내용의 자막을 갖는 프레임의 위치를 자동으로 찾는 방법을 제안하였다. 또한, 이 결과에 따라 다중 결합과 해상도 증대, 히스토그램 평활화, 획 기반 이진화 및 스무딩 방법을 각각 제안하여 이미지의 수준을 향상시켰다.
본 논문에서는 위에서 지적한 문제점들을 개선하기 위해서 우선 동일한 내용의 자막 프레임들의 위치를 자동으로 판단하는 방법을 제안하고, 이 방법에 따라 프레임들을 그룹화 시킨 후 같은 그룹 내의 프레임들을 다중결합하여 그룹 단위로 배경 잡영이 제거된 자막 이미지를 만든다. 또한 한글의 복잡한 자소에서 쉽게 발생하는 획의 뭉침을 개선하기 위한 이미지 향상 방법들도 제안한다.
본 연구에서는 위에서 살펴본 것과 같이 기존의 연구들에서 언급하지 않은 동일한 자막 프레임의 위치를 자동으로 판단하는 방법을 제안하여 내용 기반 비디오 색인과 잡영 제거를 위한 다중 결합에 도움을 주고자 한다. 또한, 비디오 영상에 포함되어 있는 한글 이미지와 같이 획이 쉽게 뭉쳐지는 것을 방지할 수 있는 이미지 개선 방법들도 제안하고자 한다.
본 절에서는 자막 영역을 추출하는 방법과 동일한 자막 프레임들을 판단하는 방법을 기술한다.
본 연구에서는 이미지질의 향상에 초점을 맞추었으며, 이 과정에서 소요되는 처리 시간은 현재 고려하지 않았다. 비디오 영상의 종류 및 특성에 따라 이미지 향상 방법들을 선택적으로 적용함으로서 처리 시간 문제를 추후에 해결하고자 한다.
이 실험에 사용된 인식 모듈은 모두 자막 인식에 최적화되어 있지 않기 때문에 추후 인식 모듈의 개선으로 더욱 정확한 인식결과를 기대할 수 있다. 이 실험 결과는 단지 이미지 향상 과정의 필요성을 확인하기 위한 것이다.
그러나 서로 다른 자막프레임에 동일한 라벨이 부여된 경우는 그림 7(b)와 같이 서로 다른 자막들이 겹쳐져서 문자의 획이 훼손되어 인식이 더욱 어려워진다. 이러한 문제점을 해결하기 위해서 본 논문에서는 서로 다른 내용의 자막이 결합되면 밝은 화소의 개수가 급격히 감소한다는 특징을 이용하여 다음과 같은 과정을 수행한다. 다중 결합된 자막 이미지에서 밝은 화소의 개수를 검사하여 그 값이 급격하게 감소되었다고 판단되면, 결합된 프레임들을 다시 한 프레임씩 결합하면서 설정된 자막 영역의 밝은 화소의 개수를 계속 검사한다.

제안 방법

4절에서 제안한 이미지 향상 방법들이 적용된 결과이미지를 이진화 시킨 후 인식하였다. 인식은 추출된 자막 이미지의 문자를 먼저 분리한 후 낱자 단위로 인식하였다.
Pentium Ⅲ 600MHz PC에서 Visual C++ 6.0을 사용하여 제안한 방법들을 구현하였으며, 한글 비디오 영상 두 개와 영어 비디오 영상 한 개를 사용하여 제안한 방법을 검증하였다. 각 비디오 영상의 프레임은 640x 480 해상도의 AVI 포맷이며, 데이타의 크기를 줄이기 위해서 1초에 8 프레임만을 샘플링하여 약 2, 800개의 프레임으로 구성된 데이타를 사용하였다.
에지 이미지의 자막 영역을 강조하기 위해서 수평 및 수직 방향으로 RLS(Run-length SmearingX 적용한다. RLS가 적용된 에지 이미지로부터 수직 및 수평 방향의 히스토그램을 분석하여, 에지 분포가 조밀한 영역을 자막이 존재할 수 있는 후보 영역으로 설정한다. 비디오 영상의 자막에 관련된 사전 정보인 자막의 위치와 자막의 에지 밀도를 이용하여 자막 후보 영역을 검증한다.
그리고 개별적인 프레임에서 찾지 못한 자막영역이나 문자 부분을 찾아내기 위해서 인접한 다섯 개의 프레임들과 추출 영역을 비교한다. 위의 방법은 인접한 프레임들의 추출 영역까지 고려함으로써 자막 영역을 보다 정확하게 찾지만, 인접한 프레임들이 서로 다른 자막을 포함하고 있는 경우에는 정확하게 추출하는 것이 어려운 단점도 있다.
다음으로 처리중인 화소의 명도 값과 일정한 거리만큼 떨어져 있는 4개의 지역 영역을 결정하고 각 영역에서 얻어진 평균 명도 값과 동시에 비교한다. 4개 영역의 선정은 현재 화소로부터 2W+1 만큼의 거리에 위치한 8방향의 지역 영역에서 선택한다.
이러한 문제점을 해결하기 위해서 본 논문에서는 서로 다른 내용의 자막이 결합되면 밝은 화소의 개수가 급격히 감소한다는 특징을 이용하여 다음과 같은 과정을 수행한다. 다중 결합된 자막 이미지에서 밝은 화소의 개수를 검사하여 그 값이 급격하게 감소되었다고 판단되면, 결합된 프레임들을 다시 한 프레임씩 결합하면서 설정된 자막 영역의 밝은 화소의 개수를 계속 검사한다. 결합 도중에 밝은 화소의 개수가 급격히 변하게 되는 프레임을 새로운 자막의 시작 프레임으로 다시 분류한다.
사용하여 배경을 제거할 수 없다. 따라서 히스토그램 평활화 과정을 적용하여 배경을 추가로 제거시키고자 한다. 우선 자막 이미지를 일정한 간격의 작은 영역으로 나누고 각 영역의 명도 값의 분포를 파악하여 상, 하 임계값을 각각 결정한다.
제안하였다. 또한, 이 결과에 따라 다중 결합과 해상도 증대, 히스토그램 평활화, 획 기반 이진화 및 스무딩 방법을 각각 제안하여 이미지의 수준을 향상시켰다. 영어 및 한글 비디오 자막에 제안된 방법을 적용하여 인식 성능이 향상된 것을 확인하였다.
일반적으로 비디오 자막은 밝은 명도 값과 배경과의 높은 대비를 가지며 배경과 뚜렷이 구분되는 외곽선을 갖기도 한다. 본 논문에서도 이러한 일반적인 특징들을 활용하여 자막이 포함되어있는 프레임을 결정하고 자막 후보 영역을 찾는다. Sobel 연산자[17] 를 사용하여 에지 이미지를 생성하며, 수평 및 수직 방향의 RLS를 적용하여 자막 영역을 강조시킨다.
특히 복잡한 자소의 조합으로 구성된 한글 자막을 정확하게 인식하기 위해서는 더욱 정교한 이미지 향상 방법들이 요구된다. 본 연구에서는 우선 앞 절에서 판정한 동일 자막 프레임들간의 다중 결합을 수행하여 배경에 포함된 잡영의 밀부또는 전부를 제거한 후, 해상도 증대, 히스토그램 평활화, 획 기반 이진화, 스무딩 과정을 순차적으로 적용하여 이미지의 질을 더욱 개선한다. 본 연구에서는 이미지질의 향상에 초점을 맞추었으며, 이 과정에서 소요되는 처리 시간은 현재 고려하지 않았다.
본 논문에서 사용한 검증 특징은 비디오 영상에 존재하는 자막의 사전 위치정보와 자막 영역의 에지 밀도 값이다. 본 연구의 처리대상이 영화 비디오이기 때문에 전체 프레임 높이의 1/3 이하인 위치에서 추출된 자막 후보 영역만을 고려하였으며, 후보 영역의 에지 밀도 값이 일정한 값 이상인 경우만을 자막 후보 영역으로 판정한다. 자막 영역이 추출되는 과정에서 하나의 자막이 두 영역으로 분할되어 추출되는 경우도 발생하기 때문에 같은 높이에 위치하며 좌우로 인접한 후보 영역들은 결합시킨다.
RLS가 적용된 에지 이미지로부터 수직 및 수평 방향의 히스토그램을 분석하여, 에지 분포가 조밀한 영역을 자막이 존재할 수 있는 후보 영역으로 설정한다. 비디오 영상의 자막에 관련된 사전 정보인 자막의 위치와 자막의 에지 밀도를 이용하여 자막 후보 영역을 검증한다. 추출된 자막 영역의 위치, 크기, 에지 밀도, 프레임 내의 자막 개수에 관한 정보를 저장한다.
자막 추출에 관련된 연구를 살펴보면 압축 영상에서 압축을 풀지 않고 처리를 하는 연구와[1-3] 비압축 영상 또는 압축 영상에서 압축을 풀어서 처리를 하는 연구로 [4-8] 나누어 생각할 수 있다. 압축 영상에서 압축을 풀지 않은 상태에서 자막 영역을 추출하는 경우에는 주로 I(Intracoded) 프레임의 AC 계수를 이용했으며, 비압축 영상 및 압축을 푼 영상에 대해서는 연결 요소나 명암도의 차이, 그리고 각 실험 영상의 사전 지식정보 등을 이용하였다.
인식은 추출된 자막 이미지의 문자를 먼저 분리한 후 낱자 단위로 인식하였다. 영어 자막 인식은 상용 OCR 아르미4.0을 사용하였으며, 한글 자막 인식은 본 연구팀이 개발한 인식기를 사용하였다.
자막 영역을 추출하기 위해서 칼라 이미지를 먼저 명도 이미지로 변환한 후 에지 이미지를 구한다. 에지 이미지의 자막 영역을 강조하기 위해서 수평 및 수직 방향으로 RLS(Run-length SmearingX 적용한다.
제안한 방법들은 실험 영상의 종류 및 특성에 따라 선택적으로 적용하여 처리 시간을 단축시킬 수 있다. 제안하는 방법은 그림 2와 같이 자막 추출, 동일 자막 프레임 판별 및 자막 이미지 향상의 세 단계로 진행된다.
동일한 내용의 자막 프레임의 시작 및 끝 위치를 정확하게 파악하는 것은 내용 기반 색인에 도움을 줄 수 있다. 제안한 방법들은 실험 영상의 종류 및 특성에 따라 선택적으로 적용하여 처리 시간을 단축시킬 수 있다. 제안하는 방법은 그림 2와 같이 자막 추출, 동일 자막 프레임 판별 및 자막 이미지 향상의 세 단계로 진행된다.
자막 영역이 추출되는 과정에서 하나의 자막이 두 영역으로 분할되어 추출되는 경우도 발생하기 때문에 같은 높이에 위치하며 좌우로 인접한 후보 영역들은 결합시킨다. 최종 결정된 자막 후보 영역의 위치, 크기, 에지 밀도, 자막 개수에 관한 정보를 저장한다.
비디오 영상의 자막에 관련된 사전 정보인 자막의 위치와 자막의 에지 밀도를 이용하여 자막 후보 영역을 검증한다. 추출된 자막 영역의 위치, 크기, 에지 밀도, 프레임 내의 자막 개수에 관한 정보를 저장한다.
]. 필터를 적용한 후에 원래 이미지의 각 화소들을 특징벡터로 표현하고, 적절한 클러스터링 방법을 이용하여 자막에 해당하는 영역을 추출하였다. 이와 같이 필터를 적용하는 방법은 다양한 폰트 종류와 크기에 대해서도 적용할 수 있지만 시간이 오래 걸리는 단점이 있다.

대상 데이터

다음으로 처리중인 화소의 명도 값과 일정한 거리만큼 떨어져 있는 4개의 지역 영역을 결정하고 각 영역에서 얻어진 평균 명도 값과 동시에 비교한다. 4개 영역의 선정은 현재 화소로부터 2W+1 만큼의 거리에 위치한 8방향의 지역 영역에서 선택한다. 각 지역 영역의 크기는 실험에 의하여 결정하며, 선택된 4개의 영역은 하나의 방향성 그룹을 표현한다.
0을 사용하여 제안한 방법들을 구현하였으며, 한글 비디오 영상 두 개와 영어 비디오 영상 한 개를 사용하여 제안한 방법을 검증하였다. 각 비디오 영상의 프레임은 640x 480 해상도의 AVI 포맷이며, 데이타의 크기를 줄이기 위해서 1초에 8 프레임만을 샘플링하여 약 2, 800개의 프레임으로 구성된 데이타를 사용하였다. 비디오 영상에서 하나의 동일한 자막은 최소한 8 프레임 이상, 즉 1초 이상 지속되었다.
따라서 추출된 자막 후보 영역에 대한 검증이 필요하다. 본 논문에서 사용한 검증 특징은 비디오 영상에 존재하는 자막의 사전 위치정보와 자막 영역의 에지 밀도 값이다. 본 연구의 처리대상이 영화 비디오이기 때문에 전체 프레임 높이의 1/3 이하인 위치에서 추출된 자막 후보 영역만을 고려하였으며, 후보 영역의 에지 밀도 값이 일정한 값 이상인 경우만을 자막 후보 영역으로 판정한다.

이론/모형

본 논문에서는 Zhao 등에 [18] 의해 제안된 이진화방법을 히스토그램 평활화가 적용된 결과 이미지에 적용한다. 이 방법은 저 해상도의 이미지에서도 “를', , , 율, , , , , 都 등과 같이 복잡한 유형의 종성을 포함한 한글 자막 이미지에서도 좋은 결과를 보여준다.

성능/효과

림 12와 같다. 실험 데이타 중에서 한글비디오1과 영어비디오는 유형 (IV)와 (V)에 해당하는 자막들 모두가 그림 12와 같이 성공적으로 재분류되어 각각 다중 결합되었다.
또한, 이 결과에 따라 다중 결합과 해상도 증대, 히스토그램 평활화, 획 기반 이진화 및 스무딩 방법을 각각 제안하여 이미지의 수준을 향상시켰다. 영어 및 한글 비디오 자막에 제안된 방법을 적용하여 인식 성능이 향상된 것을 확인하였다. 이러한 연구 결과는 비디오 영상의 효율적인 색인에 활용될 수 있다.
해상도 증대와 다중 결합을 수행하여 문자 외곽선 부분의 배경 잡영을 어느 정도 제거시킬 수 있음을 확인하였다.

후속연구

만든다. 또한 한글의 복잡한 자소에서 쉽게 발생하는 획의 뭉침을 개선하기 위한 이미지 향상 방법들도 제안한다. 동일한 내용의 자막 프레임의 시작 및 끝 위치를 정확하게 파악하는 것은 내용 기반 색인에 도움을 줄 수 있다.
비디오 영상에서 하나의 동일한 자막은 최소한 8 프레임 이상, 즉 1초 이상 지속되었다. 실험은 동일 자막 판단의 정확성, 이미지의 향상 정도 및 문자 인식 결과에 초점을 두었으며, 처리 시간을 단축시키는 문제는 향후 연구에서 고려할 예정이다.
대부분의 오류는 복잡한 배경으로부터 발생되었으며, 이 경우 배경 화소는 아주밝은 명도 값을 갖고 거의 움직이지 않아서 다중 결합으로 제거시키지 못했기 때문이었다. 이 실험에 사용된 인식 모듈은 모두 자막 인식에 최적화되어 있지 않기 때문에 추후 인식 모듈의 개선으로 더욱 정확한 인식결과를 기대할 수 있다. 이 실험 결과는 단지 이미지 향상 과정의 필요성을 확인하기 위한 것이다.
영어 및 한글 비디오 자막에 제안된 방법을 적용하여 인식 성능이 향상된 것을 확인하였다. 이러한 연구 결과는 비디오 영상의 효율적인 색인에 활용될 수 있다. 향후 연구 과제로는 실시간 처리가 가능하도록 이미지 처리 시간을 단축시키는 것과 인식 모듈을 자막 폰트의 종류, 스타일 등에 맞추어 최적화시키는 것이다.
장면 텍스트추출의 연구 결과는 로봇 자동 주행시스템, 시각장애인보행 안내시스템, 공장 자동화, 이미지/비디오 색인 및 검색 등에 활용될 수 있다. 추후 연구에서 고려할 예정이다.
이러한 연구 결과는 비디오 영상의 효율적인 색인에 활용될 수 있다. 향후 연구 과제로는 실시간 처리가 가능하도록 이미지 처리 시간을 단축시키는 것과 인식 모듈을 자막 폰트의 종류, 스타일 등에 맞추어 최적화시키는 것이다. 또한, 이미지 및 동영상에 자연스럽게 포함되어 있는 장면 텍스트 정보를 추출하는 방법을 개발하는 것이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

영화 비디오 자막 추출 및 추출된 자막 이미지 향상 방법
Methods for Video Caption Extraction and Extracted Caption Image Enhancement 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (19)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

영화 비디오 자막 추출 및 추출된 자막 이미지 향상 방법 Methods for Video Caption Extraction and Extracted Caption Image Enhancement 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (19)

이 논문을 인용한 문헌

저자의 다른 논문 :

최영우 (18) 정규식 (40)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

영화 비디오 자막 추출 및 추출된 자막 이미지 향상 방법
Methods for Video Caption Extraction and Extracted Caption Image Enhancement 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper