각종 문서를 디지털 영상의 형태로 관리하는 시스템에서는 문서의 가공, 변환, 검색, 재생산 등을 위해 문서 영상의 내용을 다양한 형태로 처리할 수 있어야 한다. 본 논문에서는 문서 영상을 단어 단위로 분할하고, 각 단어 영상의 속성을 추출하는 시스템을 제안한다. 지금까지 대부분의 문서 분할 시스템들은 광파일 시스템과 문자인식 소프트웨어 패키지들에 적용하기 위한 문서 영상의 시각적 개선과 전처리 목적으로 개발되었는데, 제안하는 시스템은 주제어 검색을 기반으로 하는 대용량 문서 영상 검색 시스템에 활용할 수 있는 영상 처리 기법들로 구성한다. 제안한 시스템은 영상 전처리, 문서 ...
각종 문서를 디지털 영상의 형태로 관리하는 시스템에서는 문서의 가공, 변환, 검색, 재생산 등을 위해 문서 영상의 내용을 다양한 형태로 처리할 수 있어야 한다. 본 논문에서는 문서 영상을 단어 단위로 분할하고, 각 단어 영상의 속성을 추출하는 시스템을 제안한다. 지금까지 대부분의 문서 분할 시스템들은 광파일 시스템과 문자인식 소프트웨어 패키지들에 적용하기 위한 문서 영상의 시각적 개선과 전처리 목적으로 개발되었는데, 제안하는 시스템은 주제어 검색을 기반으로 하는 대용량 문서 영상 검색 시스템에 활용할 수 있는 영상 처리 기법들로 구성한다. 제안한 시스템은 영상 전처리, 문서 구조 분석, 단어 영상 분할, 단어 영상 속성 추출의 네 가지 모듈로 구성된다. 먼저, 영상 전처리 모듈에서 문서를 스캐닝 할 때 흔히 발생하는 영상의 기울어짐을 해결한다. 문서 구조 분석 모듈에서는 문서의 기하학적인 구조를 분석하여 기울어짐 교정된 영상을 영역들로 분할하고, 텍스트 또는 비텍스트(non-text) 영역으로 분류한다. 단어 영상 분할 모듈은 각 텍스트 영역을 단어 단위로 분할한다. 단어 영상 속성 추출에서는 분할된 단어 영상들이 가지는 언어의 종류, 스타일, 문자 크기, 문자 개수, 서체 등의 속성들을 추출한다. 시스템을 구성하는 영상 처리 기법들은 기존의 문서 영상 처리 기법들에 비해 정확도와 처리 속도를 개선하도록 설계되었다. 문서 영상의 기울어짐 추정 및 교정 방법은 개별적인 화소 정보를 사용하지 않고, 연결된 화소들의 사각형 영역인 블록 정보를 사용한다. 개략적(coarse) 추정과 상세(refined) 추정의 2단계 전략을 사용하는 허프 변환(Hough transform)을 기울어짐 추정에 적용하고, 블록 단위의 회전 변환을 교정 단계에서 수행한다. 그리고 기존 연구 중에서 잘 알려진 방법들과 정량적인 성능 비교를 수행하여 제안 방법의 우수성을 입증하였다. 문서 구조 분석 방법은 연결요소 분석과 투영 프로파일 방법을 결합하여 사용하였다. 분할에 따른 처리 시간을 줄이기 위해 다양한 해상도를 가지는 다단계 영상을 생성하여, 개략적 영역 분할에는 저해상도 영상을 사용하고 상세 영역 분할에는 고해상도 영상을 사용하였다. 단어 영상 분할에서는 수평 투영 프로파일을 이용하여 텍스트 영역을 텍스트 라인으로 분리하고, 연결요소 분석을 수행하여 텍스트 라인을 단어 단위로 분할하였다. 또한, 특수기호를 검출하여 단어 분리의 정확도를 개선하였다. 단어 영상 속성 추출에서는 다섯 가지 속성이 조합된 264 클래스를 고려하였고, 다층 퍼셉트론, 2차형 판별함수, 선형 판별함수를 이용한 계층적 분류기 모델을 구축하였다. 속성 분류를 위한 특징은 한글 단어 영상의 경우 8가지, 영문 단어 영상의 경우 9가지를 추출하였다. 제안 알고리즘들의 성능 평가를 위해 다양한 문서 영상과 단어 영상을 사용하였다. 영상 전처리와 문서 구조 분석에서 사용되는 문서 영상은 300dpi로 스캐닝하였고, 2,016개와 238개 영상으로 각각 구성되어 있다. 단어 영상 분할에서는 문서 영상으로부터 추출한 50개 텍스트 블록들을 사용하였다. 단어 영상 속성 추출에서는 다섯 가지 속성이 조합된 26,400개 단어 영상을 사용하여 실험을 수행하였다. 제안 시스템은 문서 영상의 단어 단위 분할에 대한 실제적인 연구의 결과로서, 단어 영상의 속성 정보는 문서 인식 및 검색 단계의 복잡도를 절감할 수 있고 OCR 성능을 개선할 수 있다. 따라서 제안 시스템과 단어 인식 시스템과의 결합은 고성능, 고속의 효과를 낼 수 있다. 그러므로 사용자가 지정한 주제어를 포함하는 문서 영상을 대용량 데이터베이스에서 찾아야 하는 전자도서관, 광파일 시스템 등의 영상 검색 시스템에 본 연구의 결과가 효과적으로 응용될 수 있을 것으로 기대한다.
각종 문서를 디지털 영상의 형태로 관리하는 시스템에서는 문서의 가공, 변환, 검색, 재생산 등을 위해 문서 영상의 내용을 다양한 형태로 처리할 수 있어야 한다. 본 논문에서는 문서 영상을 단어 단위로 분할하고, 각 단어 영상의 속성을 추출하는 시스템을 제안한다. 지금까지 대부분의 문서 분할 시스템들은 광파일 시스템과 문자인식 소프트웨어 패키지들에 적용하기 위한 문서 영상의 시각적 개선과 전처리 목적으로 개발되었는데, 제안하는 시스템은 주제어 검색을 기반으로 하는 대용량 문서 영상 검색 시스템에 활용할 수 있는 영상 처리 기법들로 구성한다. 제안한 시스템은 영상 전처리, 문서 구조 분석, 단어 영상 분할, 단어 영상 속성 추출의 네 가지 모듈로 구성된다. 먼저, 영상 전처리 모듈에서 문서를 스캐닝 할 때 흔히 발생하는 영상의 기울어짐을 해결한다. 문서 구조 분석 모듈에서는 문서의 기하학적인 구조를 분석하여 기울어짐 교정된 영상을 영역들로 분할하고, 텍스트 또는 비텍스트(non-text) 영역으로 분류한다. 단어 영상 분할 모듈은 각 텍스트 영역을 단어 단위로 분할한다. 단어 영상 속성 추출에서는 분할된 단어 영상들이 가지는 언어의 종류, 스타일, 문자 크기, 문자 개수, 서체 등의 속성들을 추출한다. 시스템을 구성하는 영상 처리 기법들은 기존의 문서 영상 처리 기법들에 비해 정확도와 처리 속도를 개선하도록 설계되었다. 문서 영상의 기울어짐 추정 및 교정 방법은 개별적인 화소 정보를 사용하지 않고, 연결된 화소들의 사각형 영역인 블록 정보를 사용한다. 개략적(coarse) 추정과 상세(refined) 추정의 2단계 전략을 사용하는 허프 변환(Hough transform)을 기울어짐 추정에 적용하고, 블록 단위의 회전 변환을 교정 단계에서 수행한다. 그리고 기존 연구 중에서 잘 알려진 방법들과 정량적인 성능 비교를 수행하여 제안 방법의 우수성을 입증하였다. 문서 구조 분석 방법은 연결요소 분석과 투영 프로파일 방법을 결합하여 사용하였다. 분할에 따른 처리 시간을 줄이기 위해 다양한 해상도를 가지는 다단계 영상을 생성하여, 개략적 영역 분할에는 저해상도 영상을 사용하고 상세 영역 분할에는 고해상도 영상을 사용하였다. 단어 영상 분할에서는 수평 투영 프로파일을 이용하여 텍스트 영역을 텍스트 라인으로 분리하고, 연결요소 분석을 수행하여 텍스트 라인을 단어 단위로 분할하였다. 또한, 특수기호를 검출하여 단어 분리의 정확도를 개선하였다. 단어 영상 속성 추출에서는 다섯 가지 속성이 조합된 264 클래스를 고려하였고, 다층 퍼셉트론, 2차형 판별함수, 선형 판별함수를 이용한 계층적 분류기 모델을 구축하였다. 속성 분류를 위한 특징은 한글 단어 영상의 경우 8가지, 영문 단어 영상의 경우 9가지를 추출하였다. 제안 알고리즘들의 성능 평가를 위해 다양한 문서 영상과 단어 영상을 사용하였다. 영상 전처리와 문서 구조 분석에서 사용되는 문서 영상은 300dpi로 스캐닝하였고, 2,016개와 238개 영상으로 각각 구성되어 있다. 단어 영상 분할에서는 문서 영상으로부터 추출한 50개 텍스트 블록들을 사용하였다. 단어 영상 속성 추출에서는 다섯 가지 속성이 조합된 26,400개 단어 영상을 사용하여 실험을 수행하였다. 제안 시스템은 문서 영상의 단어 단위 분할에 대한 실제적인 연구의 결과로서, 단어 영상의 속성 정보는 문서 인식 및 검색 단계의 복잡도를 절감할 수 있고 OCR 성능을 개선할 수 있다. 따라서 제안 시스템과 단어 인식 시스템과의 결합은 고성능, 고속의 효과를 낼 수 있다. 그러므로 사용자가 지정한 주제어를 포함하는 문서 영상을 대용량 데이터베이스에서 찾아야 하는 전자도서관, 광파일 시스템 등의 영상 검색 시스템에 본 연구의 결과가 효과적으로 응용될 수 있을 것으로 기대한다.
To manage a large volume of paper documents for storage, processing, retrieval, and reproduction, it is necessary to convert them into the form of digital images so that we could manipulate such images in various ways. In this dissertation, we propose a system of decomposing document image into word...
To manage a large volume of paper documents for storage, processing, retrieval, and reproduction, it is necessary to convert them into the form of digital images so that we could manipulate such images in various ways. In this dissertation, we propose a system of decomposing document image into words and extracting their attributes. Most document segmentation systems have been so far developed to preprocess and visually enhance a document image for both optical filing systems and OCR packages. However, the proposed system will consist of the image processing techniques which can be used effectively for document image retrieval system based on the keyword spotting. The system is composed of four image manipulation modules - image preprocessing, document layout analysis, word segmentation, and word attributes extraction. First, a document skew normally created during the scanning is estimated and corrected in the image preprocessing module. In the next document layout analysis, the skew-corrected document is segmented into various regions by analyzing the geometrical layout, and the regions are classified into either text or non-text. The word segmentation module is to decompose each text region into words. The word attributes extraction is to detect typographical attributes for each word, such as language, style, size, the number of characters, and typefaces. Our image processing techniques in the proposed system are developed to improve the performance of the conventional ones in terms of accuracy and speed. The document skew estimation and correction methods use a block which is a rectangle surrounding connected pixels instead of individual pixels. The Hough transform is applied in the skew estimation by using two phase strategies, coarse and refined, and rotational transformation of the block is performed in the skew correction. We have proven the superiority of our algorithms by comparing the performance with that of other well-known methods in the literature. In the document layout analysis, the connected component analysis and projection profile methods are combined. Also, multi-level images with various resolutions are created to reduce the physical segmenting time. and two low resolution images are used in the coarse segmenting step and a high resolution image is used in the refined one. The word segmentation module separates the text region into text lines by the horizontal projection profile and then decomposes each text line into words by the connected component analysis. Also, we have improved the decomposing accuracy by detecting various special symbols. In the last word attributes extraction, we have considered 264 classes mixed the five attributes and built a hierarchical classifier model using the neural network, quadratic discriminant function and linear discriminant function. Eight features for Korean words and nine features for English ones are extracted to recognize their attributes. We have used a large number of document and word images to measure the performance of each proposed algorithm. The document images scanned at 300dpi have been used in the preprocessing and layout analysis module, and the number of them is 2,016 and 238 images, respectively. In the word segmentation module, we have extracted 50 text blocks from the document images. An experiment using 26,400 word images has been performed in the word attributes extraction module, where each word image combines the five attributes. The proposed system is a result of the practical study for decomposing the document image into words, and also the extraction of the word attributes can drastically reduce the search space for retrieval and recognition of the document and improve the OCR performance. As a result, the combination of the proposed and word recognition system can produce high-speed and high-powered effect. Therefore, we expect that our study can be applied efficiently to the image retrieval system finding the corresponding document containing the keywords from a large scale database on digital library, optical filing system, and so on.
To manage a large volume of paper documents for storage, processing, retrieval, and reproduction, it is necessary to convert them into the form of digital images so that we could manipulate such images in various ways. In this dissertation, we propose a system of decomposing document image into words and extracting their attributes. Most document segmentation systems have been so far developed to preprocess and visually enhance a document image for both optical filing systems and OCR packages. However, the proposed system will consist of the image processing techniques which can be used effectively for document image retrieval system based on the keyword spotting. The system is composed of four image manipulation modules - image preprocessing, document layout analysis, word segmentation, and word attributes extraction. First, a document skew normally created during the scanning is estimated and corrected in the image preprocessing module. In the next document layout analysis, the skew-corrected document is segmented into various regions by analyzing the geometrical layout, and the regions are classified into either text or non-text. The word segmentation module is to decompose each text region into words. The word attributes extraction is to detect typographical attributes for each word, such as language, style, size, the number of characters, and typefaces. Our image processing techniques in the proposed system are developed to improve the performance of the conventional ones in terms of accuracy and speed. The document skew estimation and correction methods use a block which is a rectangle surrounding connected pixels instead of individual pixels. The Hough transform is applied in the skew estimation by using two phase strategies, coarse and refined, and rotational transformation of the block is performed in the skew correction. We have proven the superiority of our algorithms by comparing the performance with that of other well-known methods in the literature. In the document layout analysis, the connected component analysis and projection profile methods are combined. Also, multi-level images with various resolutions are created to reduce the physical segmenting time. and two low resolution images are used in the coarse segmenting step and a high resolution image is used in the refined one. The word segmentation module separates the text region into text lines by the horizontal projection profile and then decomposes each text line into words by the connected component analysis. Also, we have improved the decomposing accuracy by detecting various special symbols. In the last word attributes extraction, we have considered 264 classes mixed the five attributes and built a hierarchical classifier model using the neural network, quadratic discriminant function and linear discriminant function. Eight features for Korean words and nine features for English ones are extracted to recognize their attributes. We have used a large number of document and word images to measure the performance of each proposed algorithm. The document images scanned at 300dpi have been used in the preprocessing and layout analysis module, and the number of them is 2,016 and 238 images, respectively. In the word segmentation module, we have extracted 50 text blocks from the document images. An experiment using 26,400 word images has been performed in the word attributes extraction module, where each word image combines the five attributes. The proposed system is a result of the practical study for decomposing the document image into words, and also the extraction of the word attributes can drastically reduce the search space for retrieval and recognition of the document and improve the OCR performance. As a result, the combination of the proposed and word recognition system can produce high-speed and high-powered effect. Therefore, we expect that our study can be applied efficiently to the image retrieval system finding the corresponding document containing the keywords from a large scale database on digital library, optical filing system, and so on.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.