[논문]영상 대 영상 매칭을 이용한 한글 문서 영상에서의 단어 검색

박상철; 손화정; 김수형

doi:10.3745/kipstb.2005.12b.3.357

영상 대 영상 매칭을 이용한 한글 문서 영상에서의 단어 검색
Keyword Spotting on Hangul Document Images Using Image-to-Image Matching 원문보기

정보처리학회논문지. The KIPS transactions. Part B. Part B, v.12B no.3 = no.99, 2005년, pp.357 - 364

박상철 (전남대학교 자연과학대학전산학과) , 손화정 (전남대학교 자연과학대학전산학과) , 김수형 (전남대학교 자연과학대학전산학과)

초록
AI-Helper

본 논문에서는 두 단계 이미지 매칭을 이용하여 한글 문서영상에서 사용자 검색어를 빠르고 정확하게 검색할 수 있는 시스템을 제안한다. 본 시스템은 문자 분리, 검색어 영상 생성, 특징 추출 그리고 이미지 매칭 과정으로 구성된다. 매칭 과정에서 차원이 다른 두 가지 특징 벡터를 이용한다. 8쪽 분량의 문서 영상을 한국정보과학회 웹사이트에서 다운로드하였고, 그 문서로부터 1600개의 한글단어 영상을 획득하여 실험데이터로 사용하였다 그 결과 제안한 시스템은 기존에 제안된 영상-기반 한글 단어 검색 시스템보다 성능이 크게 향상되었음을 알 수 있었다.

Abstract ▼ AI-Helper

In this paper, we propose an accurate and fast keyword spotting system for searching user-specified keyword in Hangul document images by using two-level image-to-image matching. The system is composed of character segmentation, creating a query image, feature extraction, and matching procedure. Two different feature vectors are used in the matching procedure. An experiment using 1600 Hangul word images from 8 document images, downloaded from the website of Korea Information Science Society, demonstrates that the proposed system is superior to conventional image-based document retrieval systems.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이러한 방식은 한글과 같이 많은 문자가 존재할 경우 데이터베이스를 생성하는 과정에서 많은 시간이 필요하다. 따라서 본 논문에서는 이러한 번거로운 문제를 해결하고 다양한 문자와 다양한 언어의 단어 영상을 쉽게 획득하기 위해 사용자가 검색어를 입력하면 시스템에서 제공하는 폰트를 사용하여 문자 영상을 직접 생성한다. 생성된 문자 영상은 32x32 크기로 정규화되고 특징 벡터가 추출된다.
본 논문에서는 두 단계 이미지 매칭을 이용하여 한글 문 서영상에서 사용자 검색어를 빠르고 정확하게 검색할 수 있는 시스템을 제안하였다. 이를 위해 문서 영상에서 추출된 단어 영상을 문자 단위로 분리하는 알고리즘을 제안하여 98.

가설 설정

(그림 1)은 두 단계 영상 매칭을 이용한 한글 문서 영상에서의 단어 검색 시스템의 블록 다이어그램이다. 단어 영상은 정 창부 등의 시스템[15]을 이용하여 문서 영상에서 분리되어 데이터베이스에 미리 저장되었다고 가정한다. 단어 영상은 문자 영상으로 분리되고 두 가지 특징 벡터가 추출되어 문서 영상과 함께 데이터베이스에 저장된다.

제안 방법

각 매칭 단계의 특징 벡터를 선택하기 위해 다양한 특징 벡터를 추출하여 각각의 성능을 분석하였다.[표 3]은 다양한 차원의 격자, 프로파일 그리고 웨이블릿 특징의 성능을 분석한 결과이다.
56%의 높은 분리 성공률을 획득하였다. 격자와 프로파일 그리고 웨이블릿을 이용하여 4, 8, 16 그리고 30차원의 특징 벡터를 추출하여 저차원 특징 벡터 중에서 처리 시간이 빠르고 재쉄율을 높일 수 있는 4차원 프로파일 특징 벡터를 1단계 매칭에 이용하고 재현율과 정확율을 높일 수 있는 30차원 격자 특징 벡터를 2단계 매칭에 이용하였다. 그 결과 89.
문자의 바운드 박스가 일정한 크기의 정사각형의 형태라 것은 주정 문자 수에 따라 문자 분리가 올바르게 수행될 경우 문자 넓이의 분산은 그렇지 않은 경우보다 적은 값을 갖는다. 따라서 두 가지 추정 문자 수로 문자 분할을 수행한 후, 그들의 문자 넓이의 분산이 더 적은 경우의 문자 수를 선택한다.
그러나 속도를 고려하여 저차원의 특징 벡터를 사용하면 재현율과 정확율이 낮아진다. 따라서 본 논문에서는 두 단계 매칭 방법을 도입하여 1단계 매칭은 속도와 재현율을 높일 수 있도록 저차원 특징 벡터를 이용하고, 2단계 매칭은 1단계 매칭보다는 느리지만 재현율과 정 확율을 높일 수 있도록 고차원의 특징 벡터를 적용한다.
본 논문에서는 기존 방법과는 달리 문자 분리가 빠르게 수행될 수 있도록 문자 수를 추정하여 문자 폭의 분산이 최소가 되는 분할 방법을 선택하였고, 검색어 영상을 시스템 인터페이스를 이용하여 자동으로 생성하도록 하였다. 문자 영상의 특징 벡터는 오일석 등의 연구에서 사용된 특징 벡터와 격자 방법을 이용하여 우수한 특징 벡터를 선택하였다.
단어 영상은 문자 영상으로 분리되고 두 가지 특징 벡터가 추출되어 문서 영상과 함께 데이터베이스에 저장된다. 사용자가 검색 시스템 인터페이스에서 검색어를 입력하면, 시스템이 지원하는 폰트를 이용하여 검색어 영상을 문자 단위로 생성하고, 검색어 영상에 대한 두 단계 특징 벡터를 추출한다. 첫 번째 매칭에서는 검색어와 데이터베이스 내의 단어와 비교하여 1단계 매칭의 임계 값을 만족시키는 단어를 다음 단계의 후보로 선택한다.
단어 영상은 문자 단위로 분리되고 32潟2의 크기로 정규화된다. 정규화된 문자 영상에서 2.3에서 서술한 특징 추출 방법으로 4, 8, 16 그리고 30차원의 특징을 각각 추출하였다. 다만 프로파일 특징의 경우 특징 추출의 특성 때문에 30차원에 가장 근사한 32차원 특징을 사용한다.
정규화된 문자 영상에서 격자(Mesh)와 프로파일[12], 웨 이블릿(Wavelet)[13, 16] 의 특징 추출 방법으로 해당 문자를 대표할 수 있는 특징 벡터를 추출한다.
단어 영상은 문자 단위로 분할하였다. 처리 시간을 최소화하기 위해 두 단계 매칭 방법을 사용하였다. 1단계에서는 프로파일 특징을 이용하였고, 두 번째 단계에서는 Harr 웨이블릿 계수 중 가장 큰 값을 갖는 30개를 선택하여 사용하였다.

대상 데이터

처리 시간을 최소화하기 위해 두 단계 매칭 방법을 사용하였다. 1단계에서는 프로파일 특징을 이용하였고, 두 번째 단계에서는 Harr 웨이블릿 계수 중 가장 큰 값을 갖는 30개를 선택하여 사용하였다.
다만 프로파일 특징의 경우 특징 추출의 특성 때문에 30차원에 가장 근사한 32차원 특징을 사용한다. 시스템 인터페이스를 이용하여 2문자 단어 영상 15개, 3문자 단어 영상 10개 그리고 4문자 단어 영상 5개, 총 30개의 검색어 영상을 생성하였다. 163개 실험 영상에서 30개 검색 영상의 출현 횟수는 621회이다.
163개 실험 영상에서 30개 검색 영상의 출현 횟수는 621회이다. 실험에 사용된 기자재는 Pentium-4 CPU 2.80GHz와 1GB RAM 자원을 갖는 개인용 PC이다.

이론/모형

문자 영상의 특징 벡터는 오일석 등의 연구에서 사용된 특징 벡터와 격자 방법을 이용하여 우수한 특징 벡터를 선택하였다. 매칭 방법은 여러 문헌에서 널리 사용된 2단계 매칭 방법[1, 13]을 이용하였다.
본 논문에서는 기존 방법과는 달리 문자 분리가 빠르게 수행될 수 있도록 문자 수를 추정하여 문자 폭의 분산이 최소가 되는 분할 방법을 선택하였고, 검색어 영상을 시스템 인터페이스를 이용하여 자동으로 생성하도록 하였다. 문자 영상의 특징 벡터는 오일석 등의 연구에서 사용된 특징 벡터와 격자 방법을 이용하여 우수한 특징 벡터를 선택하였다. 매칭 방법은 여러 문헌에서 널리 사용된 2단계 매칭 방법[1, 13]을 이용하였다.

성능/효과

격자와 프로파일 그리고 웨이블릿을 이용하여 4, 8, 16 그리고 30차원의 특징 벡터를 추출하여 저차원 특징 벡터 중에서 처리 시간이 빠르고 재쉄율을 높일 수 있는 4차원 프로파일 특징 벡터를 1단계 매칭에 이용하고 재현율과 정확율을 높일 수 있는 30차원 격자 특징 벡터를 2단계 매칭에 이용하였다. 그 결과 89.69% 재현율과 89.84%의 정확율을 보였고, 초당 처리 단어는 519, 951개를 나타냈다. 이 결과는 기존에 제안된 영상- 기반 한글 검색 시스템보다 재현율과 정확율이 더 높고, 초 당 처리할 수 있는 단어량도 더 많다.
본 논문에서 제안한 문자 분리 방법은 1600개 단어 영상에서 1577개를 정확하게 분리하여 98.56%의 문자 분리 성공률을 보였다.[표 2]에 나타난 영상은 문자 분리 오류의 예이다.
84%의 정확율을 보였고, 초당 처리 단어는 519, 951개를 나타냈다. 이 결과는 기존에 제안된 영상- 기반 한글 검색 시스템보다 재현율과 정확율이 더 높고, 초 당 처리할 수 있는 단어량도 더 많다. 제안된 시스템은 전 자 도서관 구축에 있어 과도한 수작업이 요구되는 OCR의 최대 문제점을 해결하는 대안이 된다.
세 가지 조합에 의한 시스템의 성능은 재현율과 정확율에 있어 서로 유사하지만, 4차 원 프로파일 특징과 30차원 격자 특징의 조합이 처리 시간에 있어 매우 우수하므로, 이들을 각 단계의 특징으로 최종 결정한다. 이 결합은 기존의 4차원 프로파일 특징과 30차원 웨이블릿 특징을 결합한 방식의 재현율 82.77%, 정확율 82.24% 그리고 초당 처리 단어 186, 327개의 성능보다 우수하다.
본 논문에서는 두 단계 이미지 매칭을 이용하여 한글 문 서영상에서 사용자 검색어를 빠르고 정확하게 검색할 수 있는 시스템을 제안하였다. 이를 위해 문서 영상에서 추출된 단어 영상을 문자 단위로 분리하는 알고리즘을 제안하여 98.56%의 높은 분리 성공률을 획득하였다. 격자와 프로파일 그리고 웨이블릿을 이용하여 4, 8, 16 그리고 30차원의 특징 벡터를 추출하여 저차원 특징 벡터 중에서 처리 시간이 빠르고 재쉄율을 높일 수 있는 4차원 프로파일 특징 벡터를 1단계 매칭에 이용하고 재현율과 정확율을 높일 수 있는 30차원 격자 특징 벡터를 2단계 매칭에 이용하였다.

후속연구

이 결과는 기존에 제안된 영상- 기반 한글 검색 시스템보다 재현율과 정확율이 더 높고, 초 당 처리할 수 있는 단어량도 더 많다. 제안된 시스템은 전 자 도서관 구축에 있어 과도한 수작업이 요구되는 OCR의 최대 문제점을 해결하는 대안이 된다.
향후 연구는 노이즈가 있거나 정보 손실이 있더라도 올바르게 문자를 분할할 수 있는 새로운 한글 문자 분할 알고리즘 연구가 필요하며, 검색 대상이 되는 영상의 폰트 정보를 추출하여 검색어 생성에 적용하고, 재현율과 정확율을 동시에 향상시키는 새로운 특징 추출 방법의 연구가 필요하다. 또한 문자를 분할하지 않고 단어 영상만을 이용한 검색의 연구가 필요하다.

참고문헌 (17)

Y. Lu and C.L. Tan, 'Chinese word searching in imaged documents,' International Journal of Pattern Recognition and Artificial Intelligence, Vol.18, No.2, pp.229-246, 2004

상세보기
D. Doermann, 'The retrieval of document images: a brief survey,' Proc. ICDAR97, Ulm, pp.945-949, 1997
F. Chen, L. Wilcox and D. Bloomberg, 'Word spotting in scanned images using hidden markov models,' Proc. IEEE International Conference on Acoustics, Speech and Signal Processing, pp.1-4, 1993
Y. Lu, L. Zhang and C.L. Tan, 'Retrieving Imaged Documents in Digital Libraries Based on Word Image Coding,' International Workshop on Document Image Analysis for Libraries, USA, pp.174-187, 2004
Y. Lu, L. Zhang and C.L. Tan, 'A search engine for imaged documents in PDF files,' 27th Annual International ACM SIGIR Conference, UK, 2004
J. DeCurtins and E. Chen, 'Keyword spotting via word shape recognition,' Proc. SPIE Document Recognition II, pp.270-277, 1995
A. Kolcz, J. Alspector, M. Augusteijn, R. Carlson and GV Popescu, 'A line-oriented approach to word spotting in handwritten documents,' Pattern Analysis and Applications, Vol.3, No.2, pp.153-168, 2000

상세보기
R. Manmatha, Chengfeng Han, and E. M. Riseman, 'Word spotting: A new approach to indexing handwriting,' Proc. Computer Vision and Pattern Recognition Conference, pp.631-637, 1996
T. Syeda-Mahmood, 'Indexing of handwritten document images,' Proc. Workshop on Document Image Analysis, Puerto Rico, pp.66-73, 1997
F.R. Chen, L.D. Wilcox, D.S. Bloomberg, 'A comparison of discrete and continuous hidden Markov models for phrase spotting in text images,' Proc. Document Analysis and Recognition, Vol.1, pp.398-402, 1995
F.R. Chen, L.D. Wilcox and D.S. Bloomberg, 'Detecting and locating partially specified keywords in scanned images using hidden Markov models,' Proc. Document Analysis and Recognition, pp.133-138, Oct., 1993
김혜금, 양진호, 이진선, 오일석 '웨이브렛을 이용한 영상기반 인쇄 한글 단어 검색,' 한국정보과학회 논문지, 제28권 제2호, pp.91-103, 2001

원문보기 상세보기
I.S. Oh, Y.S. Choi, J.H. Yang, S.H. Kim, 'A Keyword Spotting System of Korean Document Images,' Proc. 5th International Conference on Asian Digital Libraries, Singapore, p.530, Dec., 2002

상세보기
곽희규, '문서 영상의 단어 단위 분할 및 단어 영상의 속성 추출에 관한 연구,' 전남대학교 전산통계학과 박사학위논문, 2001
C.B. Jeong, S.H. Kim, 'A Document Image Pre- processing System for Keyword Spotting,' Proc. International Conference on Asian Digital Libraries, China, pp.440-443, Dec., 2004
C.E. Jacobs, A. Finkelstein, and D.H. Salesin, 'Fast multiresolution image querying,' Proc. 22nd annual conference on Computer graphics and interactive techniques, pp.277-286, Sep., 1995
http://www.kiss.or.kr/

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증