본 논문에서는 한글 문서 영상에서의 문자 분할을 위한 2가지 알고리즘을 제안한다. 첫째는 투영 프로파일 기반 개선된 문자 분할 알고리즘이다. 이 알고리즘은 크게 문자수 추정, 분할 점 획득 및 문자 경계 탐색, 그리고 최적의 문자 분할 결과 선택으로 구성된다. 두 번째는 근접한 문자들이 서로 연결된 저 품질 문서 영상에 적합한 분할 알고리즘이다. 이 경우 연결요소를 제거하기 위해 투영 프로파일의 일부를 잘랐는데, 이를 ${\alpha}$-cut이라 한다. 그 후 전자의 방법을 변형하여 문자 분할을 수행한다. 다양한 폰트 속성을 갖고 품질이 낮은 43,572개의 한글 단어 영상을 대상으로 실험한 결과, 투영 프로파일 기반 개선된 문자 분할 알고리즘이 91.81%, 투영 프로파일에 ${\alpha}$-cut을 적용한 알고리즘이 99.57% 의 문자 분할 성공률을 나타내어 저 품질 한글 문서 영상에서 ${\alpha}$-cut을 이용한 문자 분할 알고리즘이 효과적임을 입증하였다.
본 논문에서는 한글 문서 영상에서의 문자 분할을 위한 2가지 알고리즘을 제안한다. 첫째는 투영 프로파일 기반 개선된 문자 분할 알고리즘이다. 이 알고리즘은 크게 문자수 추정, 분할 점 획득 및 문자 경계 탐색, 그리고 최적의 문자 분할 결과 선택으로 구성된다. 두 번째는 근접한 문자들이 서로 연결된 저 품질 문서 영상에 적합한 분할 알고리즘이다. 이 경우 연결요소를 제거하기 위해 투영 프로파일의 일부를 잘랐는데, 이를 ${\alpha}$-cut이라 한다. 그 후 전자의 방법을 변형하여 문자 분할을 수행한다. 다양한 폰트 속성을 갖고 품질이 낮은 43,572개의 한글 단어 영상을 대상으로 실험한 결과, 투영 프로파일 기반 개선된 문자 분할 알고리즘이 91.81%, 투영 프로파일에 ${\alpha}$-cut을 적용한 알고리즘이 99.57% 의 문자 분할 성공률을 나타내어 저 품질 한글 문서 영상에서 ${\alpha}$-cut을 이용한 문자 분할 알고리즘이 효과적임을 입증하였다.
In this paper, we propose two approaches for the character segmentation on Korean document images. One is an improved version of a projection profile-based algorithm. It involves estimating the number of characters, obtaining the split points and then searching for each character's boundary, and sel...
In this paper, we propose two approaches for the character segmentation on Korean document images. One is an improved version of a projection profile-based algorithm. It involves estimating the number of characters, obtaining the split points and then searching for each character's boundary, and selecting the best segmentation result. The other is developed for low quality document images where adjacent characters are connected. In this case, parts of the projection profile are cut to resolve the connection between the characters. This is called ${\alpha}$-cut. Afterwards, the revised former segmentation procedure is conducted. The two approaches have been tested with 43,572 low-quality Korean word images punted in various font styles. The segmentation accuracies of the former and the latter are 91.81% and 99.57%, respectively. This result shows that the proposed algorithm using a ${\alpha}$-cut is effective for low-quality Korean document images.
In this paper, we propose two approaches for the character segmentation on Korean document images. One is an improved version of a projection profile-based algorithm. It involves estimating the number of characters, obtaining the split points and then searching for each character's boundary, and selecting the best segmentation result. The other is developed for low quality document images where adjacent characters are connected. In this case, parts of the projection profile are cut to resolve the connection between the characters. This is called ${\alpha}$-cut. Afterwards, the revised former segmentation procedure is conducted. The two approaches have been tested with 43,572 low-quality Korean word images punted in various font styles. The segmentation accuracies of the former and the latter are 91.81% and 99.57%, respectively. This result shows that the proposed algorithm using a ${\alpha}$-cut is effective for low-quality Korean document images.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
또한 문자와 문자 사이의 공백으로 문자를 구분하여 가독성을 높이고 있다. 본 논문에서는 위 사실에 근거하여 투영 프로파일 기반 개선된 문자 분할 알고리즘을 제안한다.
본 논문에서는 한글 문서 영상에서의 문자 분할을 위한 2가지 알고리즘을 제안하였다. 첫째는 투영 프로파일 기반개선된 문자 분할 알고리즘이고, 둘째는 전자의 알고리즘이 저해상도 영상에 강인하도록 투영 프로파일에 α - cut 을 적용한 분할 알고리즘이다.
본 논문에서는 한글 문서 영상에서의 문자 분할을 위한 2가지 알고리즘을 제안한다. 첫째로 투영 프로파일 기반 개선된 문자 분할 알고리즘을 제안한다.
가설 설정
(그림 1)은 투영 프로파일에 α - cut을 적용한 문자 분할 알고리즘의 블록 다이어그램이다. 입력 단어 영상은 정창부 등 [22]의 시스템을 이용하여 문서 영상으로부터 이미 분할되었다고 가정한다.
제안 방법
"백범일지" 일부를 마이크로소프트 워드를 이용하여 A4 10쪽, 4, 252단어 분량의 문서 파일로 만들었다. 이를 서로 다른 12가지 폰트 속성-2가지 종류의 서체(바탕체, 굴림체), 3가지 종류의 문자 크기(8, 10, 12) 및 2가지 종류의 두께(bold, regular)]의 조합-으로 편집하였다.
첫째로 투영 프로파일 기반 개선된 문자 분할 알고리즘을 제안한다. 기존의 투영 프로파일 기반 문자 분할 방법들이 기준이 되는 하나의 문자 너비를 이용한 반면, 이 방법에서는 단어 영상의 문자 개수를 3가지로 추정하여 에러를 최소화하고, 최적의 분할 결과를 선택하기위해 분할된 문자 너비의 분산이 최소가 되는 분할 결과를 선택한다. 이 알고리즘은 크게 문자수 추정, 분할 점 획득 및 문자 경계 탐색, 그리고 최적의 문자 분할 결과 선택으로 구성된다.
문자의 바운드 박스가 일정한 크기라고 가정하면, 추정 문자수에 따라 문자 분할이 올바르게 수행될 경우 문자 너비의 분산은 그렇지 않은 경우보다 적은 값을 갖는다. 따라서 3가지 추정 문자수로 문자 분할을 수행한 후, 그들의 문자 너비 값 분산이 최소가 되는 분할 결과를 선택한다.
본 논문에서 제안한 투영 프로파일에 α - cut을 적용한 문자 분할 알고리즘에 의해 발생하는 문자 오류는 크게 두가지로 분류된다. (그림 10)은 이 두 가지 분할 오류를 예시하고 있다.
앞서 언급한 한글 문자의 형태적인 특성을 이용하여 추정된 문자수로 단어 영상을 균등하게 나누어 분할 점을 획득하고 각 문자의 경계를 탐색한다. (그림 4)에서 ①, ②, ③을 추정 문자수 #으로 단어 영상을 균등하게 나누어 얻은 분할 점이라고 가정하자.
이를 서로 다른 12가지 폰트 속성-2가지 종류의 서체(바탕체, 굴림체), 3가지 종류의 문자 크기(8, 10, 12) 및 2가지 종류의 두께(bold, regular)]의 조합-으로 편집하였다. 이 문서 파일을 삼성 ML-8065 프린터로 출력한 후, 제록스 Document Centre 285 PLUS G 복사기로 복사하되, 복사 결과물을 다시 복사하는 방식으로 8회 복사하였고, EPSON GT-30000 스캐너를 사용하여 200DPI로 스캔하여 저장하였다. 이 문서영상을 [21]의 시스템을 이용하여 단어 단위 영상으로 분할하여 총 51, 024개의 단어 영상을 획득하였다.
4, 252단어 분량의 문서 파일로 만들었다. 이를 서로 다른 12가지 폰트 속성-2가지 종류의 서체(바탕체, 굴림체), 3가지 종류의 문자 크기(8, 10, 12) 및 2가지 종류의 두께(bold, regular)]의 조합-으로 편집하였다. 이 문서 파일을 삼성 ML-8065 프린터로 출력한 후, 제록스 Document Centre 285 PLUS G 복사기로 복사하되, 복사 결과물을 다시 복사하는 방식으로 8회 복사하였고, EPSON GT-30000 스캐너를 사용하여 200DPI로 스캔하여 저장하였다.
하지만 저해상도 단어영상에서는 잡음으로 인해 문자와 문자 사이의 분할 점을 잃어버려 분할에 실패하였다. 이에 두 문자간 연결 성분을 제거하기 위해 투영 프로파일에 α - cut을 적용하였다. 그러나 α - cut은 두 문자간 연결 성분을 제거하는데 효율적이기도 하지만 하나의 문자를 둘로 분리하는 경향이 있기때문에, 한글 특성에 근거하여 한 문자가 둘로 분리되는 오류를 방지하였다.
알고리즘을 제안한다. 첫째로 투영 프로파일 기반 개선된 문자 분할 알고리즘을 제안한다. 기존의 투영 프로파일 기반 문자 분할 방법들이 기준이 되는 하나의 문자 너비를 이용한 반면, 이 방법에서는 단어 영상의 문자 개수를 3가지로 추정하여 에러를 최소화하고, 최적의 분할 결과를 선택하기위해 분할된 문자 너비의 분산이 최소가 되는 분할 결과를 선택한다.
분할된 초기 문자 중 너비가 가장 큰 두개를 선택, 평균하여 평균 문자 너비로 삼았다. 한글 문자중에서 왼쪽 자음이 오른쪽 모음의 중간 정도에 존재 한다는 특성과 표준 문자 너비는 합성된 문자의 높이와 비율이 거의 1에 가깝다는 특성을 이용하여 문자를 합성하였다. 이 방법은 바탕체 계열의 폰트에 적합하도록 설계되었으며, 수직 획의 변형이 있을 때 합성 원칙에 적용할 수 없어 분할이 어렵다.
대상 데이터
이 문서영상을 [21]의 시스템을 이용하여 단어 단위 영상으로 분할하여 총 51, 024개의 단어 영상을 획득하였다. 실험에 사용된 기자재는 Pentium-4 CPU 2.80GHz와 1GB RAM 자원을 갖는 개인용 PC이다. 표 1은 실험 데이터에 출현한 단어 영상이 포함하고 있는 문자의 개수에 따라 단어의 세로대가로비의 분포를 나타낸다.
이 문서 파일을 삼성 ML-8065 프린터로 출력한 후, 제록스 Document Centre 285 PLUS G 복사기로 복사하되, 복사 결과물을 다시 복사하는 방식으로 8회 복사하였고, EPSON GT-30000 스캐너를 사용하여 200DPI로 스캔하여 저장하였다. 이 문서영상을 [21]의 시스템을 이용하여 단어 단위 영상으로 분할하여 총 51, 024개의 단어 영상을 획득하였다. 실험에 사용된 기자재는 Pentium-4 CPU 2.
성능/효과
반면 투영 프로파일에 α - cut 을 적용한 문자 분할 알고리즘은 두 문자의 연결 요소를 효과적으로 제거하기 때문에 어느 폰트에서라도 일정한 문자 분할 성공률을 보인다. 결과적으로 투영 프로파일에 α - cut을 적용하면 저 품질의 한글 문서 영상의 문자분할에 큰 효과가 있다. (그림 10)은 실험 영상에서 일부 발췌된 부분 영상으로써 문자 분할을 위한 입력 영상이며, (그림 11)은 문자 분할 후 그 결과를 표시한 그림이다.
다양한 폰트 속성을 갖고 품질이 낮은 43,572개의 한글단어 영상을 대상으로 실험 비교한 결과, 투영 프로파일에 α - cut을 적용한 알고리즘이 99.57%, 투영 프로파일 기반개선된 문자 분할 알고리즘이 91.81%의 문자 분할 성공률을 나타내어 저해상도 한글 단어 영상에서 제안된 문자 분할 알고리즘의 우수함을 입증하였다. 따라서 제안된 문자 분할 알고리즘은 저해상도 한글 문서 영상에서 키워드 검출 시스템 구현 및 OCR 시스템의 성능 개선 등에 기여할 것으로 사료된다.
본 논문에서는 실험 데이터 51,024개의 단어 영상에서 출현 빈도가 높은 2문자, 3문자 그리고 4문자로 이루어진 43,572개의 단어 영상을 대상으로 실험한 결과, 투영 프로파일 기반 개선된 문자 분할 알고리즘이 91.81%, 투영 프로파일에 α - cut을 적용한 알고리즘이 99.57%의 문자 분할 성공률을 나타내었다. <표 2>는 문자 분할 결과를 12가지 폰트 및 단어 내 구성 문자수로 구분하여 나타낸다.
첫째는 투영 프로파일 기반개선된 문자 분할 알고리즘이고, 둘째는 전자의 알고리즘이 저해상도 영상에 강인하도록 투영 프로파일에 α - cut 을 적용한 분할 알고리즘이다. 실험결과 전자는 고해상도 한글단어 영상에 대해서는 효과적이었다. 하지만 저해상도 단어영상에서는 잡음으로 인해 문자와 문자 사이의 분할 점을 잃어버려 분할에 실패하였다.
첫 번째로 제안된 문자 분할 알고리즘은 상태가 양호한 한글 단어 영상에 대해서는 효과적이다. 하지만 저 품질 단어 영상에서는 문자와 문자 사이의 공백이 훼손되어 분할의 신뢰성이 매우 낮아진다.
투영 프로파일 기반 개선된 문자 분할 알고리즘을 분석해보면, 두 문자의 위·아래 겹침이 상대적으로 많은 바탕체에서 분할 성공률이 저조하고(바탕체: 85.56%, 굴림체: 98.05%), 문자의 획이 굵은 영상에서도 그렇지 않은 경우보다 분할의 성능이 낮다(굵게: 86.20%, 보통: 97.42%). 또한 문자의 크기 속성이 작을수록 상대적으로 낮은 문자 분할 결과를 보인다(8: 85.
후속연구
81%의 문자 분할 성공률을 나타내어 저해상도 한글 단어 영상에서 제안된 문자 분할 알고리즘의 우수함을 입증하였다. 따라서 제안된 문자 분할 알고리즘은 저해상도 한글 문서 영상에서 키워드 검출 시스템 구현 및 OCR 시스템의 성능 개선 등에 기여할 것으로 사료된다. 향후에는 문자 획의 두께에 따라 α값이 자동으로 선택되도록 하는 a값 추정에 대한 연구와 한글이 영문 및 숫자 등과 혼용되어 있는 경우와 같이 문자의 세로대가로비가 일정하지 않은 문자열을 처리하기 위한 연구를 수행할 예정이다.
따라서 제안된 문자 분할 알고리즘은 저해상도 한글 문서 영상에서 키워드 검출 시스템 구현 및 OCR 시스템의 성능 개선 등에 기여할 것으로 사료된다. 향후에는 문자 획의 두께에 따라 α값이 자동으로 선택되도록 하는 a값 추정에 대한 연구와 한글이 영문 및 숫자 등과 혼용되어 있는 경우와 같이 문자의 세로대가로비가 일정하지 않은 문자열을 처리하기 위한 연구를 수행할 예정이다.
참고문헌 (22)
R. G. Casey and G. Nagy, 'Recursive segmentation and classification of composite character patterns,' 6th International Joint Conference on Pattern Recognition, pp. 1023-1026, 1982
D. Doermann, 'The retrieval of document images: a brief survey,' Proc, ICDAR 97, Ulm, pp.945-949, 1997
Y. Lu, and C. L. Tan, 'Word searching in document images using word portion matching,' 5th IAPR International Workshop on Document Analysis Systems, USA, pp. 319-328, 2002
Y. Lu, L. Zhang, and C. L. Tan, 'A search engine for imaged documents in PDF files,' 27th Annual International ACM SIGIR Conference, UK, pp.536-537, 2004
J. DeCurtins and E. Chen, 'Keyword spotting via word shape recognition,' Proc. SPIE Document Recognition II, pp. 270-277, 1995
J. DeCurtins and E. Chen, 'Keyword spotting via word shape recognition,' Proc. SPIE Document Recognition II, pp. 270-277, 1995
C. L. Tan, W. Huang, Z. Yu, and Y. Xu, 'Image document text retrieval without OCR,' IEEE Transaction on Pattern Analysis and Machine Intelligence, Vol.24, No.6, pp.838-844, July, 2002
Y. Lu and C.L. Tan, 'Chinese word searching in imaged documents,' International Journal of Pattern Recognition and Artificial Intelligence, Vol.18, No.2, pp.229- 246, 2004
I. S. Oh, Y. S. Choi, J. H. Yang, and S. H. Kim, 'A keyword spotting system of Korean document images,' Proc. 5th International Conference on Asian Digital Libraries, Singapore, p.530, Dec., 2002
Y. Lu, 'Machine printed character segmentation-An overview,' Pattern Recognition, Vol.28, No.1, pp.67-80, 1995
R. G. Casey and E. Lecolinet, 'A survey of methods and strategies in character segmentation,' IEEE Transaction on Pattern Analysis and Machine Intelligence, Vo1.18, No.7, pp. 690-706, July, 1996
김우성, 이기돈, 문승원, 유신재, 최명구, 김민수, '오프라인 인쇄체 문자 인식기 개발' 한국과학기술정보연구원, 1997년 12월
Y. Lu, B. Haist, L. Harmon, J. Trenkle, and R. Vogt, 'An accurate and efficient system for segmenting machineprinted text,' Postal Service 5th Advanced Technology Conference, Washington D. C, Nov., Vo1.3, pp.A-93 to A -105, 1992
S. Liang, M. Ahmadi, and M. Shridhard, 'Segmentation of touching characters in printed document recognition,' Proc. 2nd International Conference on Document Analysis and Recognition, pp.569-572, Oct., 1993
이근수, '퍼지 추론을 이용한 인쇄체 한글 인식' 숭실대학교 전자계산학과 박사학위논문, 1993
구건서, '비디오 영상 정보 검색을 위한 문자 추출 및 인식' 컴퓨터산업교육기술학회논문지, Vol.3, No.7, pp.901-914, 2002
H. H. Kuo and J. F. Wang, 'A new method for the segmentation of mixed handprinted Chinese/English characters,' Proc. 2nd International Conference on Document Analysis and Recognition, pp.810-813, Oct., 1993
김광백, 김영주, '다해상도 영상과 개선된 RBF 네트워크를 이용한 계층적 영문 명함 인식' 정보처리학회논문지B, Vol. 10, No.4, pp.443-450, 2003
N. W. Strathy, C. Y. Suen, and A. Krzyzak, 'Segmentation of handwritten digits using contour features,' Proc. 2nd International Conference on Document Analysis and Recognition, pp.577-580, Oct., 1993
M. C. Jung, Y. C. Shin, and S. N. Srihari, 'Machine printed character segmentation method using side profiles,' Proc. IEEE International Conference on Systems, Man, Cybernetics, Vol.6, pp.863-867, 1999
C. B. Jeong and S. H. Kim, 'A document image preprocessing system for keyword spotting,' Proc. International Conference on Asian Digital Libraries, China, pp.440-443, Dec., 2004
※ AI-Helper는 부적절한 답변을 할 수 있습니다.