[논문]카메라기반의 왜곡이 보정된 흑백 문서 영상 생성

김진호

doi:10.5392/jkca.2015.15.11.018

문제 정의

본 논문에서는 스마트폰 카메라로 촬영한 문서의 사본 영상으로부터 기하학적 왜곡을 보정하고 그림자 영향을 제거함으로써 문자 영역이 강조된 흑백 문서 영상을 생성하는 알고리즘을 제안하였다. 문서 영역과 배경 영역의 명도 차이가 낮아도 정확하게 외곽 테두리를 검출하여 문서의 꼭지점을 찾을 수 있도록 2차 미분 필터를 사용한 왜곡 보정 알고리즘을 마련하였다.
본 논문에서는 카메라로 촬영한 문서 영상에서 발생되는 기하학적 왜곡을 보정하고 그림자를 제거한 후 흑백 문서 영상을 생성하는 알고리즘을 제안하였다. 문서 영역과 배경 영역의 명도 차이가 낮을 경우에도 문서의 테두리를 정확하게 찾기 위해 2차 미분 필터를 사용해서 에지를 검출하였고 그림자 영향을 제거하고 문자 정보들이 강조된 흑백 문서 영상을 생성하기 위해 고속 적응적 이진화 방법을 사용하였다.

제안 방법

허프 변환(Hough Transform)을 적용하여 테두리의 직선 성분을 추출하고 직선이 만나는 교차점들을 찾는다. 교차점들의 위치를 바탕으로 문서의 꼭지점들을 정확하게 검출하는 과정을 거친 다음 투영 변환을 이용해서 기하학적 왜곡이 보정된 문서 영상을 생성한다. 왜곡이 보정된 문서 영상을 대상으로 문자 획이 잘 보전된 흑백 영상을 생성하는 과정을 수행한다.
문서 영역과 배경 영역의 명도 차이가 낮아도 정확하게 외곽 테두리를 검출하여 문서의 꼭지점을 찾을 수 있도록 2차 미분 필터를 사용한 왜곡 보정 알고리즘을 마련하였다. 그림자 영향을 제거하고 문자 정보들만 강조된 흑백 문서 영상을 생성하기 위해 Gato의 이진화 알고리즘을 안드로이드용 인텔 OpenCL(Open Computer Language)[7]기반의 코드로 구현하여 고속처리가 가능하도록 하였다.
첫째 문서 영상의 외곽선 테두리 에지를 추출하기 위해서 기존의 이진 영상 변환에 많이 사용되고 있는 적응적이진화 방법을 사용하지 않고 DoG(Difference of Gaussian) 필터를 사용함으로써 문서 영상과 문서 테두리 외부 바탕 영상과의 명도 차이가 낮아도 연결된 수평 및 수직 에지 성분을 추출할 수 있도록 하였다. 둘째 문서의 가로 및 세로 테두리 직선들의 교차점을 기준으로 사각형 꼭지점들을 더욱 정확하게 찾기 위해 별도의 꼭지점 탐색 알고리즘도 마련하였다. 마지막으로 보정된 컬러 문서 영상으로부터 그림자 영향을 제거하기 위해 Gato의 적응적 이진화 알고리즘을 인텔 OpenCl 코드로 구현하여 고속 처리가 가능하도록 하였다.
둘째 문서의 가로 및 세로 테두리 직선들의 교차점을 기준으로 사각형 꼭지점들을 더욱 정확하게 찾기 위해 별도의 꼭지점 탐색 알고리즘도 마련하였다. 마지막으로 보정된 컬러 문서 영상으로부터 그림자 영향을 제거하기 위해 Gato의 적응적 이진화 알고리즘을 인텔 OpenCl 코드로 구현하여 고속 처리가 가능하도록 하였다.
명도 영상의 잡음을 제거하고 배경 표면을 평활하 하기 위해 명도 영상 I_g(x,y) 에 다음과 같이 3x3 크기의 국소 영역 Wiener 필터링 I_w(x,y)을 수행하였다.
본 논문에서는 스마트폰 카메라로 촬영한 문서의 사본 영상으로부터 기하학적 왜곡을 보정하고 그림자 영향을 제거함으로써 문자 영역이 강조된 흑백 문서 영상을 생성하는 알고리즘을 제안하였다. 문서 영역과 배경 영역의 명도 차이가 낮아도 정확하게 외곽 테두리를 검출하여 문서의 꼭지점을 찾을 수 있도록 2차 미분 필터를 사용한 왜곡 보정 알고리즘을 마련하였다. 그림자 영향을 제거하고 문자 정보들만 강조된 흑백 문서 영상을 생성하기 위해 Gato의 이진화 알고리즘을 안드로이드용 인텔 OpenCL(Open Computer Language)[7]기반의 코드로 구현하여 고속처리가 가능하도록 하였다.
본 논문에서는 카메라로 촬영한 문서 영상에서 발생되는 기하학적 왜곡을 보정하고 그림자를 제거한 후 흑백 문서 영상을 생성하는 알고리즘을 제안하였다. 문서 영역과 배경 영역의 명도 차이가 낮을 경우에도 문서의 테두리를 정확하게 찾기 위해 2차 미분 필터를 사용해서 에지를 검출하였고 그림자 영향을 제거하고 문자 정보들이 강조된 흑백 문서 영상을 생성하기 위해 고속 적응적 이진화 방법을 사용하였다.
상용 ABBY OCR[8]을 이용하여 문서 영상의 왜곡 보정 및 그림자 제거에 따른 문자 인식 성능을 실험해 보고 그 결과를 [표 2]에 도시하였다.
제안한 모바일 폰 카메라 기반의 왜곡이 보정된 흑백 문서 영상 생성 알고리즘을 안드로이드 Eclipse 개발 환경에서 구현하고 그 결과를 분석하였다. 안드로이드 인터페이스는 Java 언어로 코딩하였으며 영상 처리부분은 인텔 OpenCL 언어 및 NDK(Native Development Kit)기반의 C/C++ 언어로 코딩하고 [그림 9]와 같이 갤럭시 노트3에 구현하였다 .
안드로이드기반 갤럭시 노트3 카메라를 이용하여 A4규격의 문서를 다양한 각도에서 24비트 규격의 800만화소급으로 촬영한 46장의 문서 영상 데이터베이스를 대상으로 제안한 기하학적 왜곡 보정 및 흑백 영상 생성 알고리즘을 시뮬레이션 하였다. 알고리즘의 각 처리 단계별 소요 시간을 [표 1]에 도시하였다.
컬러 문서 영상의 기하학적 왜곡을 보정하기 위해 먼저 외곽 테두리 직선을 추출하고 이들의 교차점을 기준으로 정확한 꼭지점들을 찾았다. 왜곡이 보정된 직사각형 형태의 문서 영상을 생성하기 위해 꼭지점들을 이용한 투영 변환을 수행하였다.
제안된 알고리즘을 이용하여 스마트 폰 카메라로 획득한 문서 영상들에 대해서 왜곡 보정 및 흑백 영상 생성 실험을 해보고 그 결과를 분석하였다.
제안한 알고리즘을 갤럭시 노트3 안드로이드 스마트폰에 구현한 다음 A4규격의 문서를 다양하게 촬영하여 기하학적 왜곡 보정 및 그림자가 제거된 흑백 영상 생성 실험을 수행하였다. 800만 화소급으로 촬영된 A4 규격의 문서를 평균 1.
ABBY OCR의 경우 기하학적 왜곡이 많이 발생한 8장의 문서 영상에서 문자 영역 분할에 실패하였으나 기하학적 왜곡 보정 후 생성된 46장의 흑백 문서 영상에 대해서는 문자 영역을 모두 분할할 수 있었다. 제안한 알고리즘을 이용하여 생성한 흑백 문서 영상들을 대상으로 도표나 그림부분을 제외한 순수한 문자열의 인식률을 실험하였다. 기하학적 왜곡 보정과 그림자 제거 결과로 인해 문자 인식률도 0.
제안한 왜곡이 보정된 흑백 문서 영상 생성 알고리즘에서는 크게 세 가지의 개선된 방법을 사용하였다. 첫째 문서 영상의 외곽선 테두리 에지를 추출하기 위해서 기존의 이진 영상 변환에 많이 사용되고 있는 적응적이진화 방법을 사용하지 않고 DoG(Difference of Gaussian) 필터를 사용함으로써 문서 영상과 문서 테두리 외부 바탕 영상과의 명도 차이가 낮아도 연결된 수평 및 수직 에지 성분을 추출할 수 있도록 하였다.
제안한 왜곡이 보정된 흑백 문서 영상 생성 알고리즘에서는 크게 세 가지의 개선된 방법을 사용하였다. 첫째 문서 영상의 외곽선 테두리 에지를 추출하기 위해서 기존의 이진 영상 변환에 많이 사용되고 있는 적응적이진화 방법을 사용하지 않고 DoG(Difference of Gaussian) 필터를 사용함으로써 문서 영상과 문서 테두리 외부 바탕 영상과의 명도 차이가 낮아도 연결된 수평 및 수직 에지 성분을 추출할 수 있도록 하였다. 둘째 문서의 가로 및 세로 테두리 직선들의 교차점을 기준으로 사각형 꼭지점들을 더욱 정확하게 찾기 위해 별도의 꼭지점 탐색 알고리즘도 마련하였다.
카메라로 촬영된 컬러 문서 영상을 명도 영상(gray image)으로 변환하고 이를 바탕으로 DoG 필터링을 수행한 다음 그 결과 영교차점(zero crossing points)들을 이용해서 문서의 테두리 에지 정보를 추출하였다. 번호판 문자 획 에지 정보를 추출하는데 사용되는 DoG 필터는 다음과 같이 정의된다.
카메라로 촬영한 문서 영상으로부터 왜곡 보정을 위한 사각형 꼭지점들을 검출하기 위해서 문서 영상의 에지를 추출하고 이를 바탕으로 문서의 테두리를 찾는 과정을 거친다. 허프 변환(Hough Transform)을 적용하여 테두리의 직선 성분을 추출하고 직선이 만나는 교차점들을 찾는다.
카메라로 촬영한 문서 영상으로부터 테두리를 추출하고 꼭지점을 검출한 다음 기하학적 왜곡을 보정하고 흑백 문서 영상을 생성하는 예를 [그림 1]에 도시하였다.
왜곡이 보정된 문서 영상을 대상으로 문자 획이 잘 보전된 흑백 영상을 생성하는 과정을 수행한다. 카메라로 촬영한 컬러 문서 영상으로부터 왜곡이 보정된 컬러 영상을 생성하고 이로부터 흑백 문서 영상을 생성하는 각 단계별 적용 알고리즘을 [그림 2]에 도시 하였다.
컬러 문서 영상의 기하학적 왜곡을 보정하기 위해 먼저 외곽 테두리 직선을 추출하고 이들의 교차점을 기준으로 정확한 꼭지점들을 찾았다. 왜곡이 보정된 직사각형 형태의 문서 영상을 생성하기 위해 꼭지점들을 이용한 투영 변환을 수행하였다.
식 (4) 및 (5)에서 라디안, rad 값은 원주상의 점들의 개수, res를 이용해서 구할 수 있다. 탐색 원의 중심인 교차점을 기준으로 반지름, r 을 최대 탐색거리, d_max까지 증가시키면서 원주상의 탐색점 개수, res 만큼 탐색점을 계산하고 직선상의 근접점이 존재하는지 여부를 찾게 된다. [그림 5]에 보인 것과 같이 테두리의 근접 점을 찾은 다음 문서의 꼭지점 위치에 따라 상단 또는 하단 방향 그리고 좌측 또는 우측 방향의 끝을 탐색하면 정확한 꼭지점을 검출할 수 있다.
카메라로 촬영한 문서 영상으로부터 왜곡 보정을 위한 사각형 꼭지점들을 검출하기 위해서 문서 영상의 에지를 추출하고 이를 바탕으로 문서의 테두리를 찾는 과정을 거친다. 허프 변환(Hough Transform)을 적용하여 테두리의 직선 성분을 추출하고 직선이 만나는 교차점들을 찾는다. 교차점들의 위치를 바탕으로 문서의 꼭지점들을 정확하게 검출하는 과정을 거친 다음 투영 변환을 이용해서 기하학적 왜곡이 보정된 문서 영상을 생성한다.

데이터처리

제안한 모바일 폰 카메라 기반의 왜곡이 보정된 흑백 문서 영상 생성 알고리즘을 안드로이드 Eclipse 개발 환경에서 구현하고 그 결과를 분석하였다. 안드로이드 인터페이스는 Java 언어로 코딩하였으며 영상 처리부분은 인텔 OpenCL 언어 및 NDK(Native Development Kit)기반의 C/C++ 언어로 코딩하고 [그림 9]와 같이 갤럭시 노트3에 구현하였다 .

이론/모형

따라서 컬러 문서 영상을 흑백 문서 영상으로 변환할 때 그림자를 제거해야 한다. 본 연구에서는 Gato[4]가 제안한 그림자 제거 알고리즘을 Intel Open CL[7] 기반의 고속처리 코드로 구현하였다.
은 각 화소들의 분산 값들의 전체 평균이다. 필터링 결과 영상으로부터 Sauvola[5]의 적응적이진화 알고리즘을 이용하여 문자 1, 배경 0으로 하는 개략적인 전경 이진 영상 S(x,y)을 추출하였다. 배경 명도 영상 B(x,y)는 입력 영상 I_w(x,y) 및 이진 영상 S(x,y)를 이용하여 다음과 같이 구한다.
이렇게 구한 상수 값들을 이용하여 목표 영상의 모든 위치의 화소가 입력 영상의 어느 위치에 해당되는 가를 계산할수 있다. 해당 위치의 화소 값은 양선형 보간법(bilinear interpolation)[6]을 이용해서 구함으로써 화질이 우수한 목표 영상을 생성할 수 있다.

성능/효과

제안한 알고리즘을 갤럭시 노트3 안드로이드 스마트폰에 구현한 다음 A4규격의 문서를 다양하게 촬영하여 기하학적 왜곡 보정 및 그림자가 제거된 흑백 영상 생성 실험을 수행하였다. 800만 화소급으로 촬영된 A4 규격의 문서를 평균 1.41초에 처리할 수 있었고 알고리즘 적용 전에 비해 OCR 문자 영역 분할 및 문자 인식 성능이 개선된 것을 확인할 수 있었다. 문서를 촬영할 때 문서의 테두리가 모두 포함되지 않은 경우에도 원본 문서 영상의 형태로 정확하게 보정할 수 있는 부분은 추가로 연구되어야 할 것으로 보인다.
제안한 알고리즘을 이용하여 생성한 흑백 문서 영상들을 대상으로 도표나 그림부분을 제외한 순수한 문자열의 인식률을 실험하였다. 기하학적 왜곡 보정과 그림자 제거 결과로 인해 문자 인식률도 0.9% 증가함을 확인 할 수 있었다.
카메라로 촬영한 문서 영상에서 외곽 테두리 직선들의 교차점을 찾고 이를 바탕으로 꼭지점을 정밀하게 탐색하여 검출한 예를 [그림 6]에 도시하였다. 모바일 카메라로 촬영한 문서 영상에서 가장자리 외곽 테두리가 왜곡되어 일직선이 아닌 경우에 직선의 교차점이 꼭지점의 실제 위치와는 다르지만 추가로 탐색한 결과 문서 영상의 꼭지점들을 정확하게 찾았음을 알 수 있다.
[그림 11]에 카메라로 촬영한 컬러 문서 영상을 대상으로 왜곡을 보정하고 그림자가 제거된 흑백영상을 생성한 예를 보였다. 사본 문서 영상 전체의 기하학적 왜곡을 보정하고 그림자를 제거하면서 판독이 용이한 흑백 문서 영상을 생성할 수 있음을 확인하였다.
실험 결과 문서의 테두리가 포함되도록 촬영한 46장의 문서 영상에 대해서 모두 사각형 꼭지 점들을 찾을수 있었고 기하학적 왜곡을 보정한 흑백 문서 영상을 생성할 수 있음을 확인하였다. 단 문서 촬영 때 문서의 테두리가 화면 내부에 모두 포함되지 않았을 경우 A4 문서 영상으로 변환한 결과에서는 목표 문서의 가로 세로 비율이 정확하지 않은 경우가 발생하였다.
제안한 2차 미분 필터를 이용한 이진화 방법이 다른 방법들에 비해 문서의 테두리 직선을 더욱 정교하게 검출할 수 있어서 사각형 꼭지점의 위치를 보다 정확하게 추정할 수 있음을 확인하였다.
인텔에서는 다중 코어 CPU를 대상으로 병렬처리용 코드를 작성할 수 있도록 OpenCL 프로그래밍 언어[7]를 제공하고 있다. 흑백 영상 생성을 위한 각 화소 별 임계값 계산의 경우 각 화소별 독립적인 처리가 가능하기 때문에 인텔 OpenCl 코드로 구현하여 고속 처리한 경우가 NDK 기반의 JNI(Java Native Interface)만으로 구현 경우에 비해 동일한 연산량을 갖지만 더 빠르게 실행되는 것을 확인할 수 있었다.

후속연구

41초에 처리할 수 있었고 알고리즘 적용 전에 비해 OCR 문자 영역 분할 및 문자 인식 성능이 개선된 것을 확인할 수 있었다. 문서를 촬영할 때 문서의 테두리가 모두 포함되지 않은 경우에도 원본 문서 영상의 형태로 정확하게 보정할 수 있는 부분은 추가로 연구되어야 할 것으로 보인다.

핵심어	질문	논문에서 추출한 답변
	Gato 등이 제안한 그림자가 제거된 흑백 문서 영상을 생성하는 알고리즘의 단점은?	Gato 등[4]은 문서 영상에서 Sauvola 방법을 적용해서 개략적인 배경 영역을 분리한 다음 적응적 임계치를 이용해서 그림자가 제거된 흑백 문서 영상을 생성하는 알고리즘을 제안하였다. 이 방법에서는 그림자의 영향이 다양하게 존재하는 문서 영상들에 대해서 비교적 우수한 흑백 문서 영상을 생성할 수 있다는 장점이 있으나 계산량이 많아서 처리 시간이 길다는 단점이 있다. 하지만 Gato의 알고리즘을 스마트 폰 기반에서 병렬 처리 코드로 구현한 다면 빠른 처리가 가능해 질 수 있다.
	DoG 필터의 기능은?	DoG 필터는 스케일이 다른 두 가우시안 함수의 차로 구현할 수 있으며 추출할 에지의 폭은 가우시안 필터의 스케일로 조정할 수 있다. 문서 영상을 DoG 필터링하면 문서 외부의 어두운 바탕과 밝은 색 문서 영역의 경계인 문서의 테두리 부분에서 필터링 결과 값의 부호가 변하는 영교차점들이 발생하게 된다.
	카메라로 문서 촬영시 발생되는 문제점은?	스마트 폰에 고해상도의 카메라가 탑재되면서 스캐너를 대신해서 카메라로 문서 영상을 촬영하고 이를 업무에 활용하기 위한 시도들이 많이 이루어지고 있다. 카메라로 문서를 촬영하면 카메라 렌즈의 방사 왜곡으로 인해 테두리 직선이 휘어지거나 촬영 각도에 따라 문서 테두리 밖의 여백이 유입되는 기하학적 왜곡이 발생할 수 있으며 카메라의 위치에 따라 문서 영상에 그림자가 드리워지는 경우가 생기게 된다. 카메라로 촬영한 문서 영상을 대상으로 원본 문서의 사각형 형태와 동일하게 보정된 사본 영상을 생성하기 위해 필요한 투영 변환(Perspective Transform)을 위해서는 문서의 테두리 직선을 정확하게 추출할 수 있어야 한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

카메라기반의 왜곡이 보정된 흑백 문서 영상 생성
Distortion Corrected Black and White Document Image Generation Based on Camera 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (8)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

카메라기반의 왜곡이 보정된 흑백 문서 영상 생성 Distortion Corrected Black and White Document Image Generation Based on Camera 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (8)

이 논문을 인용한 문헌

저자의 다른 논문 :

김진호 (8)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

카메라기반의 왜곡이 보정된 흑백 문서 영상 생성
Distortion Corrected Black and White Document Image Generation Based on Camera 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper