디지털 비디오 영상을 효과적으로 색인하고 검색하기 위해서 비디오의 내용을 함축적으로 표현하고 있는 비디오 자막을 추출하여 인식하는 연구가 필요하다. 본 논문에서는 압축되지 않은 비디오 영화 영상에 인위적으로 삽입한 한글 및 영어 자막을 대상으로 자막 영역을 추출하고, 추출된 자막 이미지를 향상시키는 방법을 제안한다. 제안한 방법의 특징은 동일한 내용의 자막을 갖는 프레임들의 위치를 자동으로 찾아서 동일 자막 프레임들을 다중 결합하여 배경에 포함되어 있는 잡영의 일부 또는 전부를 우선 제거한다. 또한, 이 결과 이미지에 해상도 중대, 히스토그램 평활화, 획 기반 이진화, 스무딩의 이미지 향상 방법을 단계적으로 적용하여 인식 가능한 수준의 이미지로 향상시킨다. 제안한 방법을 비디오 영상에 적용하여 동일한 내용의 자막 그룹 단위로 자막 이미지를 추출하는 것이 가능해졌으며, 잡영이 제거되고 복잡한 자소의 획이 보존된 자막 이미지를 추출할 수 있었다. 동일한 내용의 자막 프레임의 시작 및 글위치를 파악하는 것은 비디오 영상의 색인과 검색에 유용하게 활용될 수 있다. 한글 및 영어 비디오 영화 자막에 제안한 방법을 적용하여 향상된 문자 인식 결과를 얻었다.
디지털 비디오 영상을 효과적으로 색인하고 검색하기 위해서 비디오의 내용을 함축적으로 표현하고 있는 비디오 자막을 추출하여 인식하는 연구가 필요하다. 본 논문에서는 압축되지 않은 비디오 영화 영상에 인위적으로 삽입한 한글 및 영어 자막을 대상으로 자막 영역을 추출하고, 추출된 자막 이미지를 향상시키는 방법을 제안한다. 제안한 방법의 특징은 동일한 내용의 자막을 갖는 프레임들의 위치를 자동으로 찾아서 동일 자막 프레임들을 다중 결합하여 배경에 포함되어 있는 잡영의 일부 또는 전부를 우선 제거한다. 또한, 이 결과 이미지에 해상도 중대, 히스토그램 평활화, 획 기반 이진화, 스무딩의 이미지 향상 방법을 단계적으로 적용하여 인식 가능한 수준의 이미지로 향상시킨다. 제안한 방법을 비디오 영상에 적용하여 동일한 내용의 자막 그룹 단위로 자막 이미지를 추출하는 것이 가능해졌으며, 잡영이 제거되고 복잡한 자소의 획이 보존된 자막 이미지를 추출할 수 있었다. 동일한 내용의 자막 프레임의 시작 및 글위치를 파악하는 것은 비디오 영상의 색인과 검색에 유용하게 활용될 수 있다. 한글 및 영어 비디오 영화 자막에 제안한 방법을 적용하여 향상된 문자 인식 결과를 얻었다.
For an efficient indexing and retrieval of digital video data, research on video caption extraction and recognition is required. This paper proposes methods for extracting artificial captions from video data and enhancing their image quality for an accurate Hangul and English character recognition. ...
For an efficient indexing and retrieval of digital video data, research on video caption extraction and recognition is required. This paper proposes methods for extracting artificial captions from video data and enhancing their image quality for an accurate Hangul and English character recognition. In the proposed methods, we first find locations of beginning and ending frames of the same caption contents and combine those multiple frames in each group by logical operation to remove background noises. During this process an evaluation is performed for detecting the integrated results with different caption images. After the multiple video frames are integrated, four different image enhancement techniques are applied to the image: resolution enhancement, contrast enhancement, stroke-based binarization, and morphological smoothing operations. By applying these operations to the video frames we can even improve the image quality of phonemes with complex strokes. Finding the beginning and ending locations of the frames with the same caption contents can be effectively used for the digital video indexing and browsing. We have tested the proposed methods with the video caption images containing both Hangul and English characters from cinema, and obtained the improved results of the character recognition.
For an efficient indexing and retrieval of digital video data, research on video caption extraction and recognition is required. This paper proposes methods for extracting artificial captions from video data and enhancing their image quality for an accurate Hangul and English character recognition. In the proposed methods, we first find locations of beginning and ending frames of the same caption contents and combine those multiple frames in each group by logical operation to remove background noises. During this process an evaluation is performed for detecting the integrated results with different caption images. After the multiple video frames are integrated, four different image enhancement techniques are applied to the image: resolution enhancement, contrast enhancement, stroke-based binarization, and morphological smoothing operations. By applying these operations to the video frames we can even improve the image quality of phonemes with complex strokes. Finding the beginning and ending locations of the frames with the same caption contents can be effectively used for the digital video indexing and browsing. We have tested the proposed methods with the video caption images containing both Hangul and English characters from cinema, and obtained the improved results of the character recognition.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
동일 자막 프레임들을 판단하는 것은 비디오의 자막을 추출하는 많은 연구들이 효과적인 정보 검색을 수행하기 위해서 반드시 필요한 과정이다. 따라서, 본 연구에서는 동일 자막 프레임들을 판단하는 방법을 제안하는 것에 중점을 두었다.
또한, 비디오 영상에 포함되어 있는 한글 이미지와 같이 획이 쉽게 뭉쳐지는 것을 방지할 수 있는 이미지 개선 방법들도 제안하고자 한다.
향후 연구 과제로는 실시간 처리가 가능하도록 이미지 처리 시간을 단축시키는 것과 인식 모듈을 자막 폰트의 종류, 스타일 등에 맞추어 최적화시키는 것이다. 또한, 이미지 및 동영상에 자연스럽게 포함되어 있는 장면 텍스트 정보를 추출하는 방법을 개발하는 것이다.
이 방법을 사용하면 문자 획의 경계가 보다 선명하게 나타나지만, 이미지의 크기에 따라 처리 시간이 급격히 증가하는 단점이 있다. 본 논문에서는 비교적 처리 과정이 간단하고 처리시간이 빠른 선형 보간법을 이용하여 해상도를 증대시키며, 이 방법의 단점은 뒤에 적용되는 이미지 향상 과정들을 사용하여 보완하고자 한다.
본 논문에서는 비디오 영상의 자막 이미지를 정확하게 인식하고 내용에 따른 인덱싱을 하기 위해서 동일한 내용의 자막을 갖는 프레임의 위치를 자동으로 찾는 방법을 제안하였다. 또한, 이 결과에 따라 다중 결합과 해상도 증대, 히스토그램 평활화, 획 기반 이진화 및 스무딩 방법을 각각 제안하여 이미지의 수준을 향상시켰다.
본 논문에서는 위에서 지적한 문제점들을 개선하기 위해서 우선 동일한 내용의 자막 프레임들의 위치를 자동으로 판단하는 방법을 제안하고, 이 방법에 따라 프레임들을 그룹화 시킨 후 같은 그룹 내의 프레임들을 다중결합하여 그룹 단위로 배경 잡영이 제거된 자막 이미지를 만든다. 또한 한글의 복잡한 자소에서 쉽게 발생하는 획의 뭉침을 개선하기 위한 이미지 향상 방법들도 제안한다.
본 연구에서는 위에서 살펴본 것과 같이 기존의 연구들에서 언급하지 않은 동일한 자막 프레임의 위치를 자동으로 판단하는 방법을 제안하여 내용 기반 비디오 색인과 잡영 제거를 위한 다중 결합에 도움을 주고자 한다. 또한, 비디오 영상에 포함되어 있는 한글 이미지와 같이 획이 쉽게 뭉쳐지는 것을 방지할 수 있는 이미지 개선 방법들도 제안하고자 한다.
본 절에서는 자막 영역을 추출하는 방법과 동일한 자막 프레임들을 판단하는 방법을 기술한다.
본 연구에서는 이미지질의 향상에 초점을 맞추었으며, 이 과정에서 소요되는 처리 시간은 현재 고려하지 않았다. 비디오 영상의 종류 및 특성에 따라 이미지 향상 방법들을 선택적으로 적용함으로서 처리 시간 문제를 추후에 해결하고자 한다.
이 실험에 사용된 인식 모듈은 모두 자막 인식에 최적화되어 있지 않기 때문에 추후 인식 모듈의 개선으로 더욱 정확한 인식결과를 기대할 수 있다. 이 실험 결과는 단지 이미지 향상 과정의 필요성을 확인하기 위한 것이다.
그러나 서로 다른 자막프레임에 동일한 라벨이 부여된 경우는 그림 7(b)와 같이 서로 다른 자막들이 겹쳐져서 문자의 획이 훼손되어 인식이 더욱 어려워진다. 이러한 문제점을 해결하기 위해서 본 논문에서는 서로 다른 내용의 자막이 결합되면 밝은 화소의 개수가 급격히 감소한다는 특징을 이용하여 다음과 같은 과정을 수행한다. 다중 결합된 자막 이미지에서 밝은 화소의 개수를 검사하여 그 값이 급격하게 감소되었다고 판단되면, 결합된 프레임들을 다시 한 프레임씩 결합하면서 설정된 자막 영역의 밝은 화소의 개수를 계속 검사한다.
제안 방법
4절에서 제안한 이미지 향상 방법들이 적용된 결과이미지를 이진화 시킨 후 인식하였다. 인식은 추출된 자막 이미지의 문자를 먼저 분리한 후 낱자 단위로 인식하였다.
Pentium Ⅲ 600MHz PC에서 Visual C++ 6.0을 사용하여 제안한 방법들을 구현하였으며, 한글 비디오 영상 두 개와 영어 비디오 영상 한 개를 사용하여 제안한 방법을 검증하였다. 각 비디오 영상의 프레임은 640x 480 해상도의 AVI 포맷이며, 데이타의 크기를 줄이기 위해서 1초에 8 프레임만을 샘플링하여 약 2, 800개의 프레임으로 구성된 데이타를 사용하였다.
에지 이미지의 자막 영역을 강조하기 위해서 수평 및 수직 방향으로 RLS(Run-length SmearingX 적용한다. RLS가 적용된 에지 이미지로부터 수직 및 수평 방향의 히스토그램을 분석하여, 에지 분포가 조밀한 영역을 자막이 존재할 수 있는 후보 영역으로 설정한다. 비디오 영상의 자막에 관련된 사전 정보인 자막의 위치와 자막의 에지 밀도를 이용하여 자막 후보 영역을 검증한다.
그리고 개별적인 프레임에서 찾지 못한 자막영역이나 문자 부분을 찾아내기 위해서 인접한 다섯 개의 프레임들과 추출 영역을 비교한다. 위의 방법은 인접한 프레임들의 추출 영역까지 고려함으로써 자막 영역을 보다 정확하게 찾지만, 인접한 프레임들이 서로 다른 자막을 포함하고 있는 경우에는 정확하게 추출하는 것이 어려운 단점도 있다.
다음으로 처리중인 화소의 명도 값과 일정한 거리만큼 떨어져 있는 4개의 지역 영역을 결정하고 각 영역에서 얻어진 평균 명도 값과 동시에 비교한다. 4개 영역의 선정은 현재 화소로부터 2W+1 만큼의 거리에 위치한 8방향의 지역 영역에서 선택한다.
이러한 문제점을 해결하기 위해서 본 논문에서는 서로 다른 내용의 자막이 결합되면 밝은 화소의 개수가 급격히 감소한다는 특징을 이용하여 다음과 같은 과정을 수행한다. 다중 결합된 자막 이미지에서 밝은 화소의 개수를 검사하여 그 값이 급격하게 감소되었다고 판단되면, 결합된 프레임들을 다시 한 프레임씩 결합하면서 설정된 자막 영역의 밝은 화소의 개수를 계속 검사한다. 결합 도중에 밝은 화소의 개수가 급격히 변하게 되는 프레임을 새로운 자막의 시작 프레임으로 다시 분류한다.
사용하여 배경을 제거할 수 없다. 따라서 히스토그램 평활화 과정을 적용하여 배경을 추가로 제거시키고자 한다. 우선 자막 이미지를 일정한 간격의 작은 영역으로 나누고 각 영역의 명도 값의 분포를 파악하여 상, 하 임계값을 각각 결정한다.
제안하였다. 또한, 이 결과에 따라 다중 결합과 해상도 증대, 히스토그램 평활화, 획 기반 이진화 및 스무딩 방법을 각각 제안하여 이미지의 수준을 향상시켰다. 영어 및 한글 비디오 자막에 제안된 방법을 적용하여 인식 성능이 향상된 것을 확인하였다.
일반적으로 비디오 자막은 밝은 명도 값과 배경과의 높은 대비를 가지며 배경과 뚜렷이 구분되는 외곽선을 갖기도 한다. 본 논문에서도 이러한 일반적인 특징들을 활용하여 자막이 포함되어있는 프레임을 결정하고 자막 후보 영역을 찾는다. Sobel 연산자[17] 를 사용하여 에지 이미지를 생성하며, 수평 및 수직 방향의 RLS를 적용하여 자막 영역을 강조시킨다.
특히 복잡한 자소의 조합으로 구성된 한글 자막을 정확하게 인식하기 위해서는 더욱 정교한 이미지 향상 방법들이 요구된다. 본 연구에서는 우선 앞 절에서 판정한 동일 자막 프레임들간의 다중 결합을 수행하여 배경에 포함된 잡영의 밀부또는 전부를 제거한 후, 해상도 증대, 히스토그램 평활화, 획 기반 이진화, 스무딩 과정을 순차적으로 적용하여 이미지의 질을 더욱 개선한다. 본 연구에서는 이미지질의 향상에 초점을 맞추었으며, 이 과정에서 소요되는 처리 시간은 현재 고려하지 않았다.
본 논문에서 사용한 검증 특징은 비디오 영상에 존재하는 자막의 사전 위치정보와 자막 영역의 에지 밀도 값이다. 본 연구의 처리대상이 영화 비디오이기 때문에 전체 프레임 높이의 1/3 이하인 위치에서 추출된 자막 후보 영역만을 고려하였으며, 후보 영역의 에지 밀도 값이 일정한 값 이상인 경우만을 자막 후보 영역으로 판정한다. 자막 영역이 추출되는 과정에서 하나의 자막이 두 영역으로 분할되어 추출되는 경우도 발생하기 때문에 같은 높이에 위치하며 좌우로 인접한 후보 영역들은 결합시킨다.
RLS가 적용된 에지 이미지로부터 수직 및 수평 방향의 히스토그램을 분석하여, 에지 분포가 조밀한 영역을 자막이 존재할 수 있는 후보 영역으로 설정한다. 비디오 영상의 자막에 관련된 사전 정보인 자막의 위치와 자막의 에지 밀도를 이용하여 자막 후보 영역을 검증한다. 추출된 자막 영역의 위치, 크기, 에지 밀도, 프레임 내의 자막 개수에 관한 정보를 저장한다.
자막 추출에 관련된 연구를 살펴보면 압축 영상에서 압축을 풀지 않고 처리를 하는 연구와[1-3] 비압축 영상 또는 압축 영상에서 압축을 풀어서 처리를 하는 연구로 [4-8] 나누어 생각할 수 있다. 압축 영상에서 압축을 풀지 않은 상태에서 자막 영역을 추출하는 경우에는 주로 I(Intracoded) 프레임의 AC 계수를 이용했으며, 비압축 영상 및 압축을 푼 영상에 대해서는 연결 요소나 명암도의 차이, 그리고 각 실험 영상의 사전 지식정보 등을 이용하였다.
인식은 추출된 자막 이미지의 문자를 먼저 분리한 후 낱자 단위로 인식하였다. 영어 자막 인식은 상용 OCR 아르미4.0을 사용하였으며, 한글 자막 인식은 본 연구팀이 개발한 인식기를 사용하였다.
자막 영역을 추출하기 위해서 칼라 이미지를 먼저 명도 이미지로 변환한 후 에지 이미지를 구한다. 에지 이미지의 자막 영역을 강조하기 위해서 수평 및 수직 방향으로 RLS(Run-length SmearingX 적용한다.
제안한 방법들은 실험 영상의 종류 및 특성에 따라 선택적으로 적용하여 처리 시간을 단축시킬 수 있다. 제안하는 방법은 그림 2와 같이 자막 추출, 동일 자막 프레임 판별 및 자막 이미지 향상의 세 단계로 진행된다.
동일한 내용의 자막 프레임의 시작 및 끝 위치를 정확하게 파악하는 것은 내용 기반 색인에 도움을 줄 수 있다. 제안한 방법들은 실험 영상의 종류 및 특성에 따라 선택적으로 적용하여 처리 시간을 단축시킬 수 있다. 제안하는 방법은 그림 2와 같이 자막 추출, 동일 자막 프레임 판별 및 자막 이미지 향상의 세 단계로 진행된다.
자막 영역이 추출되는 과정에서 하나의 자막이 두 영역으로 분할되어 추출되는 경우도 발생하기 때문에 같은 높이에 위치하며 좌우로 인접한 후보 영역들은 결합시킨다. 최종 결정된 자막 후보 영역의 위치, 크기, 에지 밀도, 자막 개수에 관한 정보를 저장한다.
비디오 영상의 자막에 관련된 사전 정보인 자막의 위치와 자막의 에지 밀도를 이용하여 자막 후보 영역을 검증한다. 추출된 자막 영역의 위치, 크기, 에지 밀도, 프레임 내의 자막 개수에 관한 정보를 저장한다.
]. 필터를 적용한 후에 원래 이미지의 각 화소들을 특징벡터로 표현하고, 적절한 클러스터링 방법을 이용하여 자막에 해당하는 영역을 추출하였다. 이와 같이 필터를 적용하는 방법은 다양한 폰트 종류와 크기에 대해서도 적용할 수 있지만 시간이 오래 걸리는 단점이 있다.
대상 데이터
다음으로 처리중인 화소의 명도 값과 일정한 거리만큼 떨어져 있는 4개의 지역 영역을 결정하고 각 영역에서 얻어진 평균 명도 값과 동시에 비교한다. 4개 영역의 선정은 현재 화소로부터 2W+1 만큼의 거리에 위치한 8방향의 지역 영역에서 선택한다. 각 지역 영역의 크기는 실험에 의하여 결정하며, 선택된 4개의 영역은 하나의 방향성 그룹을 표현한다.
0을 사용하여 제안한 방법들을 구현하였으며, 한글 비디오 영상 두 개와 영어 비디오 영상 한 개를 사용하여 제안한 방법을 검증하였다. 각 비디오 영상의 프레임은 640x 480 해상도의 AVI 포맷이며, 데이타의 크기를 줄이기 위해서 1초에 8 프레임만을 샘플링하여 약 2, 800개의 프레임으로 구성된 데이타를 사용하였다. 비디오 영상에서 하나의 동일한 자막은 최소한 8 프레임 이상, 즉 1초 이상 지속되었다.
따라서 추출된 자막 후보 영역에 대한 검증이 필요하다. 본 논문에서 사용한 검증 특징은 비디오 영상에 존재하는 자막의 사전 위치정보와 자막 영역의 에지 밀도 값이다. 본 연구의 처리대상이 영화 비디오이기 때문에 전체 프레임 높이의 1/3 이하인 위치에서 추출된 자막 후보 영역만을 고려하였으며, 후보 영역의 에지 밀도 값이 일정한 값 이상인 경우만을 자막 후보 영역으로 판정한다.
이론/모형
본 논문에서는 Zhao 등에 [18] 의해 제안된 이진화방법을 히스토그램 평활화가 적용된 결과 이미지에 적용한다. 이 방법은 저 해상도의 이미지에서도 “를', , , 율, , , , , 都 등과 같이 복잡한 유형의 종성을 포함한 한글 자막 이미지에서도 좋은 결과를 보여준다.
성능/효과
림 12와 같다. 실험 데이타 중에서 한글비디오1과 영어비디오는 유형 (IV)와 (V)에 해당하는 자막들 모두가 그림 12와 같이 성공적으로 재분류되어 각각 다중 결합되었다.
또한, 이 결과에 따라 다중 결합과 해상도 증대, 히스토그램 평활화, 획 기반 이진화 및 스무딩 방법을 각각 제안하여 이미지의 수준을 향상시켰다. 영어 및 한글 비디오 자막에 제안된 방법을 적용하여 인식 성능이 향상된 것을 확인하였다. 이러한 연구 결과는 비디오 영상의 효율적인 색인에 활용될 수 있다.
해상도 증대와 다중 결합을 수행하여 문자 외곽선 부분의 배경 잡영을 어느 정도 제거시킬 수 있음을 확인하였다.
후속연구
만든다. 또한 한글의 복잡한 자소에서 쉽게 발생하는 획의 뭉침을 개선하기 위한 이미지 향상 방법들도 제안한다. 동일한 내용의 자막 프레임의 시작 및 끝 위치를 정확하게 파악하는 것은 내용 기반 색인에 도움을 줄 수 있다.
비디오 영상에서 하나의 동일한 자막은 최소한 8 프레임 이상, 즉 1초 이상 지속되었다. 실험은 동일 자막 판단의 정확성, 이미지의 향상 정도 및 문자 인식 결과에 초점을 두었으며, 처리 시간을 단축시키는 문제는 향후 연구에서 고려할 예정이다.
대부분의 오류는 복잡한 배경으로부터 발생되었으며, 이 경우 배경 화소는 아주밝은 명도 값을 갖고 거의 움직이지 않아서 다중 결합으로 제거시키지 못했기 때문이었다. 이 실험에 사용된 인식 모듈은 모두 자막 인식에 최적화되어 있지 않기 때문에 추후 인식 모듈의 개선으로 더욱 정확한 인식결과를 기대할 수 있다. 이 실험 결과는 단지 이미지 향상 과정의 필요성을 확인하기 위한 것이다.
영어 및 한글 비디오 자막에 제안된 방법을 적용하여 인식 성능이 향상된 것을 확인하였다. 이러한 연구 결과는 비디오 영상의 효율적인 색인에 활용될 수 있다. 향후 연구 과제로는 실시간 처리가 가능하도록 이미지 처리 시간을 단축시키는 것과 인식 모듈을 자막 폰트의 종류, 스타일 등에 맞추어 최적화시키는 것이다.
장면 텍스트추출의 연구 결과는 로봇 자동 주행시스템, 시각장애인보행 안내시스템, 공장 자동화, 이미지/비디오 색인 및 검색 등에 활용될 수 있다. 추후 연구에서 고려할 예정이다.
이러한 연구 결과는 비디오 영상의 효율적인 색인에 활용될 수 있다. 향후 연구 과제로는 실시간 처리가 가능하도록 이미지 처리 시간을 단축시키는 것과 인식 모듈을 자막 폰트의 종류, 스타일 등에 맞추어 최적화시키는 것이다. 또한, 이미지 및 동영상에 자연스럽게 포함되어 있는 장면 텍스트 정보를 추출하는 방법을 개발하는 것이다.
참고문헌 (19)
Y. Shong, H. Shang, A. K. Jain, 'Automatic Caption Localization in Compressed Video,' IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 22, No. 4, pp. 385-392, 2000
Y. K. Lim, S. H. Choi and S. W. Lee, 'Text Extraction in MPEG Compressed Video for Content-based Indexing', Proceedings of 15th International Conference of Pattern Recognition, Vol. 3, pp. 409-412, Spain, 2000
곽상신, 김소명, 최영우, 정규식, '효율적인 비디오 자막 인식을 위한 영상 향상 방법', 제12회 영상처리 및 이해에 관한 워크샵 발표논문집, pp. 342-346, 2000
J.-C. Shim, C. Dorai and R. Bolle, 'Automatic Text Extraction from Video for Content-Based Annotation and Retrieval', Proceedings of 14th International Conference of Pattern Recognition, Vol. 1, pp. 618-620, Brisbane, 1998
H. Li and D. Doermann, 'Automatic Identification of Text in Digital Video Key Frames', Proceedings of 14th International Conference of Pattern Recognition, Vol. 1, pp. 129-132, Brisbane, 1998
Hae-Kwang Kim, 'Efficient Automatic Text Location Method and Content-Based Indexing and Structuring of Video Database', Journal of Visual Communication and Image Representation, Vol. 7, No. 1-4, pp.336-344, 1996
이미숙, 방건, 임영규, 홍영기, 김두식, 이성환, '내용 기반 색인 및 검색을 위한 실시간 뉴스 비디오 파서의 설계 및 구현', 한국정보과학회 가을 학술발표논문집, Vol. 24, No.1, pp. 268-365, 1997
T. Sato,T. Kanade, E. K. Hughes and M. A. Smith, 'Video OCR for Digital News Archives,' IEEE Workshop on Content-Based Access of Image and Video Databases, pp. 52-60, India, 1998
H. Li, O. Kia and D. Doermann, 'Text Enhancement in Digital Video', Proceedings of SPIE Conference on Document Recognition and Retrieval VI, Vol. 3651, pp. 2-9, 1999
V. Wu, R. Manmatha and E. M. Riseman, 'Finding text in images', 2nd ACM International Conference on Digital Libraries, Philadelphia, pp. 3-12, 1997
전병태, 배영래, 양영규, '다단계 특징 추출에 의한 일반화된 자막 영역 추출 방법', 제12회 영상처리 및 이해에 관한 워크샵 발표논문집, pp. 429-434, 2000
전병태, 정세윤, 이재연, 배영래, '뉴스 아이콘 자막 및 내용 자막 추출', 한국정보과학회 가을 학술발표 논문집, Vol. 24, No.2, pp.127-130, 1997
Pyeong-Kee Kim, 'Automatic text location in complex color images using local color quantization,' Proceedings of the IEEE Region10 Conference, Vol. 1, pp. 625-632, 1999
이성환, 시각장애인을 위한 착용형 컴퓨터 시각 기술의 현황 및 전망', 제13회 영상처리 및 이해에 관한 워크샵 발표논문집, pp. 3-8, 2001
Yu Zhong, Kalle Karu, Anil K. Jain, 'Locating text in complex color image,' Pattern Recognition, Vol. 28, No. 10, pp. 1523-1535, 1995
R. Gonzalez and R. Woods, Digital Image Processing, Addison-Wesley, 1992
M. Kamel and A Zhao, 'Extraction of Binary Character/Graphics Images from Grayscale Document Images', Graphical Models and Image Processing, Vol. 55, No. 3, pp. 203-217, 1993
※ AI-Helper는 부적절한 답변을 할 수 있습니다.