[논문]카메라 획득 영상에서의 색 분산 및 개선된 K-means 색 병합을 이용한 텍스트 영역 추출 및 이진화

송영자; 최영우

doi:10.3745/kipstb.2006.13b.3.205

문제 정의

본 논문에서는 색 분산을 이용하여 텍스트 영역을 추출하는 방법과 추출된 텍스트 영역에서 텍스트를 이진화 시키는 방법을 새롭게 제안하였다. 제안한 분리 방법은 초기 시드와 K를 자동으로 결정하는 장점이 있으며, 적용한 결과 향상된 분리 결과를 확인할 수 있었다, 다양한 종류의 자연 이미지에 제안한 방법을 적용한 결과 높은 재현율을 얻어서 응용시스템에 적용할 수 있는 가능성을 확인하였다.
이미지 배경이 다양한 색으로 구성되거나 배경과 전경의 명도 차이가 작은 경우에는 기존의 이진화 방법으로 인식할만한 결과를 얻기가 어렵다. 본 논문에서는 이러한 문제점을 해결하기 위해서 색 병합을 이용한 이진화 방법을 제안한다. 제안하는 방법은 K-means 병합을 개선한 것이다.
그러나 실내외에서 취득한 자연이미지는 빛과 조명 등의 영향으로 텍스트와 배경의 구분이 명확하지 않은 경우가 자주 발생한다. 본 논문에서는 이러한 이미지에서의 텍스트 추출의 정확성을 향상시키기 위해서 색 분산을 특징으로 제안한다. RGB 색 공간에서의 각 화소는 3차원으로 표현되어 3차원 공간에서의 분산을 측정하지만, 명도이미지에서의 분산은 1차원으로 표현되어 밝기 차이가 작은 이미지에서는 분산이 작게 표현된다.
본 논문에서는 텍스트 추출 특징으로서 RGB (red green blue) 색 공간에서의 색 분산을 텍스트 추출 특징으로 새롭게 제안한다. 제안한 특징은 배경과 문자영역의 색 차이가 작아서 명도이미지에서 구별하기 어려운 텍스트 영역들도 찾아내는 장점을 갖고 있다.
이는 공개된 학습 이미지와 공개되지 않은 테스트 이미지의 수준을 추측할 수 있는 수치로 판단되며, 본 논문에서 제안한 방법의 정확한 평가를 위해서는 2007년 ICDAR 콘테스트에 참가하여 확인하는 것이다.

제안 방법

Wang 등은 색 이미지에서 텍스트를 이진화하기 위해서 색 줄임, 색 병합 및 문자 분리 과정을 수행했다[12]. RGB 색 공간에서 각 색 요소를 4비트로 줄인 후 그래프 이론 병합[13]을 이용해서 색 병합을 수행하였다.
160x120 해상도에서는 1x15 크기의 수평방향 분산 윈도우와 11x1 크기의 수직방향윈도우를 사용한다. 낮은 해상도의 이미지에서 두 분산 이미지를 AND연산한 후 3x3 크기의 구조연산자를 이용한 모폴로지 닫힘 연산을 수행하고, 검증 및 결합으로 텍스트 영역을 검출한다.'160x120의 낮은 해상도에서 구해진 외곽사각형 정보는 다시 320x240 해상도의 외곽사각형 크기로 환원 시켜 두 해상도 모두에서 얻어진 외곽사각형의 포함, 겹침 정도, 최단 거리를 이용하여 최종 후보 영역을 결정한다.
AND 연산을 수행한 결과 이미지에는 분산은 크지만 텍스트가 아닌 영역들도 포함된다. 다음으로 분산 결과를 단순하게 만들고 잡영의 일부를 제거하기 위해서 모폴로지 연산을 적용한다. 모폴로지 연산은 수평 방향의 텍스트를 주로 강조하기 위해서 (그림 3)과 같은 2乂5 크기의 불림 (dilation) 연산자와 3x3 크기의 침식 (erosion) 연산자를 구성하여 닫힘 (closing)과 열림 (opening) 연산을 반복 적용하였다.
실험 이미지는 카메라로 취득한 문서 유형 이미지와 실내외 자연이미지로 나누었으며, 문서 유형 이미지에는 동화책, 명함, 발표 자료 이미지를 포함하고, 실내외에서 취득한 이미지에는 간판, 표시판, 광고, 건물 내의 표지판 등을 포함한다. 또한, ICDAR(Intemational Conference on Document Analysis and Recognition) 콘테스트에서 공개한 학습용 자연이미지의 일부도 포함하여 실험하였다.
제안한 특징은 배경과 문자영역의 색 차이가 작아서 명도이미지에서 구별하기 어려운 텍스트 영역들도 찾아내는 장점을 갖고 있다. 또한, 추출된 텍스트 영역으로부터 문자를 분리하기 위해서 RGB 색 공간에서의 색 병합을 제안하며, 이 방법은 초기 시드들과 K가 자동으로 선택되도록 K-means 병합을 개선한 것이다.
모폴로지 결과로부터 연결요소 외곽사각형의 위치, 크기, 종횡비(aspect ratio)와 연결요소의 크기를 후보영역 검증에 사용한다. 연결요소의 화소수가 아주 큰 경우는 에지 밀도가 조밀한 배경에서 발생된 경우가 대부분이며, 연결요소의 화소 수가 아주 작은 경우는 비록 텍스트 영역이라 하더라도 사람의 눈으로 구분하기 어렵기 때문에 제외시킨다.
다음으로 분산 결과를 단순하게 만들고 잡영의 일부를 제거하기 위해서 모폴로지 연산을 적용한다. 모폴로지 연산은 수평 방향의 텍스트를 주로 강조하기 위해서 (그림 3)과 같은 2乂5 크기의 불림 (dilation) 연산자와 3x3 크기의 침식 (erosion) 연산자를 구성하여 닫힘 (closing)과 열림 (opening) 연산을 반복 적용하였다. (그림 4) (a)는 수평, 수직 분산 이미지를 이진화한 후 논리적 AND 연산을 수행한 결과로서 이진화의 임계값은 분산이 미지의 평균을 사용하였다.
제안한 색 병합 방법을 적용하면 대부분 2개에서 5개 이내의 색으로 줄어든다. 병합된 색들은 각각의 색 면으로 분리한 후, 각 색 면들의 수직 방향 히스토그램 프로파일을 분석한다. 색 면들은 텍스트, 배경, 잡영 및 텍스트 테두리로 분류한다.
본 연구에서 제안한 방법을 윈도우즈 XP에서 Visual C++ 6.0을 이용하여 펜티엄 IV 1.8GHz 하드웨어에서 구현하였다. 제안한 텍스트 영역 검출 방법을 평가하기 위해서두 종류의 디지털 카메라와 한 종류의 핸드폰 카메라로 취득한 이미지를 사용하였다.
색 병합의 정확성을 향상시키기 위해서 320x240 크기의 축소된 이미지에서 검출한 텍스트 영역의 좌표를 축소하기 전의 원 이미지 좌표로 환원하여 원 이미지에서 텍스트 영역을 추출한다. 추출한 텍스트 영역은 다양한 크기를 가지며 각 화소는 24비트로 표현된 색 이미지이며, 여기에 개선된 K-means 병합을 수행한다.
제안한 텍스트 영역 검출 방법을 평가하기 위해서두 종류의 디지털 카메라와 한 종류의 핸드폰 카메라로 취득한 이미지를 사용하였다. 실험 이미지는 카메라로 취득한 문서 유형 이미지와 실내외 자연이미지로 나누었으며, 문서 유형 이미지에는 동화책, 명함, 발표 자료 이미지를 포함하고, 실내외에서 취득한 이미지에는 간판, 표시판, 광고, 건물 내의 표지판 등을 포함한다. 또한, ICDAR(Intemational Conference on Document Analysis and Recognition) 콘테스트에서 공개한 학습용 자연이미지의 일부도 포함하여 실험하였다.
색을 이용한 텍스트 영역 추출 연구로서 Wange 먼저 색 정보를 얻기 위해 다그룹분해 (multi-group decomposition) 방식을 제안하였으며, 명도를 이용한 처리를 병행하였다[6]. 연결 요소와 잡영 제거, RLS(run length smearing) 과정을 거쳐 BAG(block adjacency graph) 알고리즘을 이용하였지만, 실험은 텍스트 색은 동일하며 텍스트 영역에는 어떤 그래픽도 포함하지 않는다는 전제를 두었다.
분산이 낮게 구해지는 경우가 발생한다. 이러한 오류를 줄이기 위해서 320x240 크기의 이미지와 반으로 줄인 160x120 크기의 이미지를 동시에 사용하여 수평 및 수직 분산을 구한다. 이는 글자의 크기가 큰 경우 축소된 이미지에서.
, 기존의 연구로서 Jain 등은 이진, 웹, 색 이미지 및 비디오 프레임에서 텍스트를 추출하는 방법을 제안하였다[2]. 이진 및 웹 이미지에 대해서는 텍스트의 밝기 값이 균일하다는 특징을 사용하였고, 색 이미지 및 비디오 프레임에 대해서는 색 연속성을 특징으로 사용하였다. 제안한 방법은 서로 다른 종류의 이미지에 대해서 서로 다른 특징과 임계 값을 적용해야하는 수동적인 실험을 수행하였으며, 이진 이미지, 웹 이미지 및 비디오 프레임에서는 높은 추출률을 보였지만, 색 이미지에 대해서는 낮은 추출률을 보였다.
입력 영상의 각 픽셀과 초기 평균과의 거리를 측정한 후 거리가 가까운 시드 영역으로 배정한 후 각 클러스터에서 새로운 평균을 구하는 과정을 반복하여 더 이상 평균의 변화가 없을 때 색 병합을 종료한다. (그림 7)은 K가 3인 경우로서 초기 시드 값과 K-means 병합 과정을 2차원 RG 평면으로 보인 것이며, 실제의 색 값들은 RGB 3차원 공간에서 결정된다.
본 논문에서는 이러한 문제점을 해결하기 위해서 색 병합을 이용한 이진화 방법을 제안한다. 제안하는 방법은 K-means 병합을 개선한 것이다.
위와 같이 인위적인 제약조건을 갖는 텍스트 이미지와는 달리 다양한 배경과 크기의 텍스트를 갖는 자연 이미지에서의 텍스트 추출 연구로서 Ohya 등은 대부분의 텍스트들이 명도 값이 일정하다는 특징을 이용하였다[4]. 지역적 이진화 방법을 적용한 후 텍스트 영역 요소들의 유사성을 계산한 후 완화(relaxation) 방법을 적용하여 텍스트 영역 요소들을 서로 병합하였다. 텍스트 영역의 기울어짐이 없고 배경과 뚜렷하게 구분되는 단순한 이미지에서는 좋은 결과를 얻었지만, 복잡하거나 조명 변화가 있는 이미지에서는 오류가 많이 발생하였다.
추출한다. 추출한 텍스트 영역은 다양한 크기를 가지며 각 화소는 24비트로 표현된 색 이미지이며, 여기에 개선된 K-means 병합을 수행한다. 개선된 K-means 방법은 K-means를 수행하기 전에 초기 평균(seed)과 클러스터 (cluster)의 개수인 K■가 자동으로 설정되도록 하였다.
텍스트 분리 방법은 검출된 텍스트 영역을 기본 단위로 하여 인식할 수 있는 수준으로 문자가 이진화 되었는지를 사용자가 정성적으로 판단하였다. (그림 11)은 색 병합 결과에 따른 색 면 분리 과정으로서 각 색 면에 대하여 히스토그램 프로파일을 구한 후 배경과 텍스트를 분류하였다.

대상 데이터

8GHz 하드웨어에서 구현하였다. 제안한 텍스트 영역 검출 방법을 평가하기 위해서두 종류의 디지털 카메라와 한 종류의 핸드폰 카메라로 취득한 이미지를 사용하였다. 실험 이미지는 카메라로 취득한 문서 유형 이미지와 실내외 자연이미지로 나누었으며, 문서 유형 이미지에는 동화책, 명함, 발표 자료 이미지를 포함하고, 실내외에서 취득한 이미지에는 간판, 표시판, 광고, 건물 내의 표지판 등을 포함한다.

성능/효과

Kim 등은 비디오 프레임으로부터 텍스트 영역을 자동으로 추출하기 위해서 문자들이 수평 방향으로 위치하며 동일한 색과 일정한 크기를 갖는다는 가정을 기반으로 색 연속성 특징을 이용하였다[3]. 50개의 비디오 프레임에 제안한 알고리즘을 적용한 결과 86%의 추출률을 보였으나, 색 대비가 크지 않은 텍스트와 크기가 작은 텍스트에 대해서는 오류가 발생하였다. 위와 같이 인위적인 제약조건을 갖는 텍스트 이미지와는 달리 다양한 배경과 크기의 텍스트를 갖는 자연 이미지에서의 텍스트 추출 연구로서 Ohya 등은 대부분의 텍스트들이 명도 값이 일정하다는 특징을 이용하였다[4].
나머지두 개의 색 면은 위의 텍스트 영역 특징을 만족하기 때문에 텍스트 영역으로 판단한다. 명도이미지에서의 이진화 결과와 비교하면 텍스트를 정확하게 분리한 것을 보여준다.
따라서 응용에 따라 정확률 또는 재현율에 우선권을 둘 수 있다. 본 논문에서는 제안한 방법은 높은 재현율을 보여주는데, 이는 텍스트 영역을 찾지 못하는 경우는 거의 발생하지 않음을 보여준다. 정확률(precision) = (정확히 검출한 텍스트 개수) /
그림 13)은 (그림 16의 일부 이미지에 대한 이진화 결과로서 명함이미지의 개인적인 정보 일부는 가렸다. 실험 이미지에 대한 처리 시간은 텍스트 영역 추출과 추출된 영역의 이진화 시간의 합으로서, 보통 단순한 배경을 갖는 이미지에 대해서는 평균 0.98초, 복잡한 배경을 갖는 이미지에 대해서는 평균 1.87초가 소요되었다.
문서유형 이미지는 비교적 배경이 단순하며 글자의 크기나 폰트가 일정하지만, 일반적인 자연이미지는 복잡한 배경을 갖거나 동일한 이미지 내에서도 텍스트의 크기 차이가 심한 경우가 많다. 전체적으로 색 분산을 특징으로 사용하여 텍스트 영역 검출의재현률이 95% 이상으로 대부분의 영역을 검출된 것을 확인할 수 있었다. (그림 10)은 각 실험 이미지의 유형별 검출 결과를 보여주며 카메라의 종류나 입력된 이미지의 해상도에 별다른 영향을 받지 않고 검출된 것을 확인할 수 있다.
이진 및 웹 이미지에 대해서는 텍스트의 밝기 값이 균일하다는 특징을 사용하였고, 색 이미지 및 비디오 프레임에 대해서는 색 연속성을 특징으로 사용하였다. 제안한 방법은 서로 다른 종류의 이미지에 대해서 서로 다른 특징과 임계 값을 적용해야하는 수동적인 실험을 수행하였으며, 이진 이미지, 웹 이미지 및 비디오 프레임에서는 높은 추출률을 보였지만, 색 이미지에 대해서는 낮은 추출률을 보였다. Kim 등은 비디오 프레임으로부터 텍스트 영역을 자동으로 추출하기 위해서 문자들이 수평 방향으로 위치하며 동일한 색과 일정한 크기를 갖는다는 가정을 기반으로 색 연속성 특징을 이용하였다[3].
비교한 것이다. 제안한 방법의 향상된 결과를 확인할 수 있다. 그림 13)은 (그림 16의 일부 이미지에 대한 이진화 결과로서 명함이미지의 개인적인 정보 일부는 가렸다.
새롭게 제안하였다. 제안한 분리 방법은 초기 시드와 K를 자동으로 결정하는 장점이 있으며, 적용한 결과 향상된 분리 결과를 확인할 수 있었다, 다양한 종류의 자연 이미지에 제안한 방법을 적용한 결과 높은 재현율을 얻어서 응용시스템에 적용할 수 있는 가능성을 확인하였다. 향후 연구로는 텍스트 영역 추출의 정확성을 향상시키기 위해서 각 과정별로 개선하는 것과 추출된 영역에서의 이진화 결과를 상용 OCR로 인식률을 측정해서 다른 방법들과의 비교를 객관적으로 수행하는 것이다.
제안한 색 병합 방법을 적용하면 대부분 2개에서 5개 이내의 색으로 줄어든다. 병합된 색들은 각각의 색 면으로 분리한 후, 각 색 면들의 수직 방향 히스토그램 프로파일을 분석한다.
제안한다. 제안한 특징은 배경과 문자영역의 색 차이가 작아서 명도이미지에서 구별하기 어려운 텍스트 영역들도 찾아내는 장점을 갖고 있다. 또한, 추출된 텍스트 영역으로부터 문자를 분리하기 위해서 RGB 색 공간에서의 색 병합을 제안하며, 이 방법은 초기 시드들과 K가 자동으로 선택되도록 K-means 병합을 개선한 것이다.

후속연구

제안한 분리 방법은 초기 시드와 K를 자동으로 결정하는 장점이 있으며, 적용한 결과 향상된 분리 결과를 확인할 수 있었다, 다양한 종류의 자연 이미지에 제안한 방법을 적용한 결과 높은 재현율을 얻어서 응용시스템에 적용할 수 있는 가능성을 확인하였다. 향후 연구로는 텍스트 영역 추출의 정확성을 향상시키기 위해서 각 과정별로 개선하는 것과 추출된 영역에서의 이진화 결과를 상용 OCR로 인식률을 측정해서 다른 방법들과의 비교를 객관적으로 수행하는 것이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

카메라 획득 영상에서의 색 분산 및 개선된 K-means 색 병합을 이용한 텍스트 영역 추출 및 이진화
Text Detection and Binarization using Color Variance and an Improved K-means Color Clustering in Camera-captured Images 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

카메라 획득 영상에서의 색 분산 및 개선된 K-means 색 병합을 이용한 텍스트 영역 추출 및 이진화 Text Detection and Binarization using Color Variance and an Improved K-means Color Clustering in Camera-captured Images 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

송영자 (1) 최영우 (18)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

카메라 획득 영상에서의 색 분산 및 개선된 K-means 색 병합을 이용한 텍스트 영역 추출 및 이진화
Text Detection and Binarization using Color Variance and an Improved K-means Color Clustering in Camera-captured Images 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper