[논문]문자 별 특징 모델을 이용한 한글 문서 영상에서 키워드 검색

박상철; 김수형; 최덕재

doi:10.3745/kipstb.2005.12b.5.521

문자 별 특징 모델을 이용한 한글 문서 영상에서 키워드 검색
Keyword Spotting on Hangul Document Images Using Character Feature Models 원문보기

정보처리학회논문지. The KIPS transactions. Part B. Part B, v.12B no.5 = no.101, 2005년, pp.521 - 526

박상철 (전남대학교 자연과학대학 전산학과) , 김수형 (전남대학교 자연과학대학 전산학과) , 최덕재 (전남대학교 자연과학대학 전산학과)

초록
AI-Helper

본 논문에서는 저 품질의 한글 문서 영상에서 OCR 기반 검색 시스템의 대안으로 키워드 검출 시스템(Keyword Spotting)을 제안하고 OCR 기반 문서 검색 시스템과 비교한다. 제안 시스템은 문자 분할, 키워드 특징 추출 그리고 단어 매칭으로 구성된다. 문자 분할 단계에서는 인접한 두 문자간의 연결을 효과적으로 분리하면서 문자 넓이 값의 분산이 최소가 되도록 하는 문자 분할 방법을 제안한다. 키워드 특징은 서체별 문자 모델의 결합으로 구성한다. 단어 매칭 단계에서는 문자 매칭에 기반한 단어 대 단어 매칭 방법을 적용한다. 본 논문에서 제안한 키워드 검출 시스템의 성능을 평가하기 위해 한글 문서 영상을 대상으로 OCR 기반 문서 검색 시스템과 비교하였다. 그 결과 한글 글자 크기가 작고 문서의 상태가 좋지 않은 경우 제안한 키워드 검출 시스템에 의한 검색 성능이 OCR 기반 검색 시스템 보다 우수함을 입증하였다.

Abstract ▼ AI-Helper

In this Paper, we propose a keyword spotting system as an alternative to searching system for poor quality Korean document images and compare the Proposed system with an OCR-based document retrieval system. The system is composed of character segmentation, feature extraction for the query keyword, and word-to-word matching. In the character segmentation step, we propose an effective method to remove the connectivity between adjacent characters and a character segmentation method by making the variance of character widths minimum. In the query creation step, feature vector for the query is constructed by a combination of a character model by typeface. In the matching step, word-to-word matching is applied base on a character-to-character matching. We demonstrated that the proposed keyword spotting system is more efficient than the OCR-based one to search a keyword on the Korean document images, especially when the quality of documents is quite poor and point size is small.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

그리고 문자의 넓이가 거의 일정하고 넓이와 높이의 크기가 같다. 본 논문에서는 위 사실에 근거하여 문자 분할 알고리즘을 제안한다. 처리 과정은 다음과 같이 네 단계로 구성된다.
본 논문에서는 한글 문서 영상을 위한 키워드 검출 시스템을 제안하고 OCR 기반 문서 검색 시스템과 비교하였다. 단어 검출 시스템은 문자 분할, 키워드 특징 추출 그리고 단어 대 단어 매칭으로 구성된다.

가설 설정

따라서 검색 효율을 높이기 위해 서체를 분류한 후 검색하는 방법이 유용하다. 본 논문에서는 데이터가 미리 서체에 따라 분류 되었다고 가정한다. (그림 6)의 (a)는 바탕체로 작성된 문서 영상의 일부이다.
시스템의 블록 다이어그램이다. 본 논문에서는 정창부 등 [14]의 시스템을 이용하여 문서 영상으로부터 개별단어 영상을 분할한 후, 이들 단어 영상을 데이터베이스에 미리 저장해 두었다고 가정한다. 단어 영상은 문자 영상으로 분할되고 일정한 크기로 정규화 된다.

제안 방법

"백범일지, , 일부를 마이크로소프트 워드를 이용하여 A4 용지 20쪽 분량의 문서 파일로 만들었다. 이를 서로 다른 폰트 속성(서체: 바탕礼 굴림체; 크기: 8, 10, 12; 두께: bold, unbold)으로 편집하였다.
문자 "각”의 6가지 폰트 속성에 해당하는 훈련데이터들을 ixj 크기로 정규화한다. 정규화된 영상에서 m][n 메쉬 특징을 추출한 후 이들 메쉬 특징을 평균하여 바탕체 "각”을 표현하는 모델로 사용한다. 우리는 실험에서 i와 j를 각각 36으로 하였으며, m과 〃을 6으로 하였다.
이 문서 영상을[14]의 시스템을 이용하여 단어 단위 영상으로 분할하였다. 2절에서 제안된 문자 분할 방법으로 단어 영상을 문자 단위로 분할하고 36x36의 크기로 정규화하였다. 정규화된 문자 영상은 36 차원 메쉬 특징으로 표현된다.
이 문서 파일을 삼성 ML-8065 프린터로 출력한 후, 제록스 Document Centre 285 PLUS G 복사기로 복사하되, 복사 결과물을 다시 복사하는 방식으로 8회 복사하였다. EPSON GT-30000 스캐너를 사용하여 200DPI로 스캔하여 저장하였다. 이 문서 영상을[14]의 시스템을 이용하여 단어 단위 영상으로 분할하였다.
따라서 두 문자 단어와 세 문자 단어로 30개 키워드를 구성하였다. 먼저 훈련 데이터에서 두 문자 단어와 세 문자 단어를 출현빈도에 따라 정렬하고, 두 문자 단어 중 출현빈도 상위 20개를 선정한다. 세 문자 단어도 같은 방법으로 10개를 선택한다.
단어 검출 시스템은 문자 분할, 키워드 특징 추출 그리고 단어 대 단어 매칭으로 구성된다. 문자 분할 단계에서는 인접한 두 문자간의 연결을 효과적으로 분할하면서 문자 넓이값의 분산이 최소가 되도록 하는 문자 분할 방법을 제안하였다. 키워드 특징은 서체별 문자 모델의 결합으로 구성하였다.
따라서 이러한 잡음의 영향을 최소화 하고 원래의 정보를 획득하는 방법이 필요하다. 본 연구에서는 각 서체별로 6가지 폰트 속성(2가지 두께 및 3가지 크기의 조합) 각각에 해당하는 문자 영상들을 수집하여 이들의 36차원 메쉬 특징을 평균하고, 이를 서체별 해당 문자 모델로 사용한다. 4절의 매칭 단계에서 사용되는 키워드 특징은 서체별 문자 모델의 결합으로 구성된다.
이를 서로 다른 폰트 속성(서체: 바탕礼 굴림체; 크기: 8, 10, 12; 두께: bold, unbold)으로 편집하였다. 이 문서 파일을 삼성 ML-8065 프린터로 출력한 후, 제록스 Document Centre 285 PLUS G 복사기로 복사하되, 복사 결과물을 다시 복사하는 방식으로 8회 복사하였다. EPSON GT-30000 스캐너를 사용하여 200DPI로 스캔하여 저장하였다.
20쪽 분량의 문서 파일로 만들었다. 이를 서로 다른 폰트 속성(서체: 바탕礼 굴림체; 크기: 8, 10, 12; 두께: bold, unbold)으로 편집하였다. 이 문서 파일을 삼성 ML-8065 프린터로 출력한 후, 제록스 Document Centre 285 PLUS G 복사기로 복사하되, 복사 결과물을 다시 복사하는 방식으로 8회 복사하였다.
제안 시스템의 성능은 재현율과 정확율이 같은 값을 갖도록 하면서 측정하였다. 키워드 검출 시스템에서 재현율과 정확율은 반비례 관계에 있다.
문서 영상에 사용된 동일한 폰트를 참고하여 문서 편집기로 문자 집합을 생성하였고, 이를 인쇄한 후 스캔하여 질의 영상으로 사용하였다. 처리시간을 최소화하기 위해 두 단계 매칭 방법을 사용하였는데, 1단계에서는 프로파일 특징을 이용하였고, 2단계에서는 Harr 웨이블릿 계수 중 가장 큰 값을 갖는 30개의 특징을 선택하여 사용한다.
문자 분할 단계에서는 인접한 두 문자간의 연결을 효과적으로 분할하면서 문자 넓이값의 분산이 최소가 되도록 하는 문자 분할 방법을 제안하였다. 키워드 특징은 서체별 문자 모델의 결합으로 구성하였다. 단어 매칭 단계에서는 문자 매칭에 기반한 단어 대단어 매칭 방법을 적용한다.

대상 데이터

출현 빈도가 가장 높다. 따라서 두 문자 단어와 세 문자 단어로 30개 키워드를 구성하였다. 먼저 훈련 데이터에서 두 문자 단어와 세 문자 단어를 출현빈도에 따라 정렬하고, 두 문자 단어 중 출현빈도 상위 20개를 선정한다.
오일석 등은 한글 단어를 검색하기 위해 곽희규 등[13]의 시스템을 이용하여 문서 영상으로부터 단어 영상을 추출한 후, 단어 영상 데이터베이스를 구성하였으며, 단어 영상은 다시 문자 단위로 분할된다. 문서 영상에 사용된 동일한 폰트를 참고하여 문서 편집기로 문자 집합을 생성하였고, 이를 인쇄한 후 스캔하여 질의 영상으로 사용하였다. 처리시간을 최소화하기 위해 두 단계 매칭 방법을 사용하였는데, 1단계에서는 프로파일 특징을 이용하였고, 2단계에서는 Harr 웨이블릿 계수 중 가장 큰 값을 갖는 30개의 특징을 선택하여 사용한다.
전체 데이터에서 절반은 훈련데이터, 나머지는 테스트 데이터로 사용하였다. 실험에 사용된 기자재는 Pentium-4 CPU 2.80GHz와 1GB RAM 자원을 갖는 개인용 PC 이다.
정규화된 문자 영상은 36 차원 메쉬 특징으로 표현된다. 전체 데이터에서 절반은 훈련데이터, 나머지는 테스트 데이터로 사용하였다. 실험에 사용된 기자재는 Pentium-4 CPU 2.

데이터처리

단어 매칭 단계에서는 문자 매칭에 기반한 단어 대단어 매칭 방법을 적용한다. 본 논문에서 제안한 단어 검출시스템의 성능을 평가하기 위해 한글 문서 영상을 대상으로 OCR 기반 문서 검색 시스템과 비교하였다. 그 결과 한글 문서 영상에서 굴림체이거나 글자 크기가 작고 문서의 상태가 좋지 않은 경우 OCR을 이용한 검색 보다 키워드 검출에 의한 검색이 더 유리함을 입증하였다.

성능/효과

또한 문자 크기가 작을 경우 OCR을 이용한 방법에 비해 월등히 우수하다. 결론적으로 한글 문서 영상에서 굴림체이거나 글자 크기가 작고 문서의 상태가 좋지 않은 경우 OCR을 이용한 검색 보다 단어 검출에 의한 검색이 훨씬 더 유리하다. (그림 9)는 실험데이터에서 "선생”을 검색한 결과이다.
본 논문에서 제안한 단어 검출시스템의 성능을 평가하기 위해 한글 문서 영상을 대상으로 OCR 기반 문서 검색 시스템과 비교하였다. 그 결과 한글 문서 영상에서 굴림체이거나 글자 크기가 작고 문서의 상태가 좋지 않은 경우 OCR을 이용한 검색 보다 키워드 검출에 의한 검색이 더 유리함을 입증하였다.
작을수록 현저하게 낮다. 그 반면에 본 논문에서 제안한 키워드 검출 시스템은 바탕체 보다 굴림체에서 높은 성능을 보여준다. 또한 문자 크기가 작을 경우 OCR을 이용한 방법에 비해 월등히 우수하다.

후속연구

이러한 저 품질의 문서 영상은 OCR의 에러를 유발한다. 제안된 시스템은 이러한 저 품질 문서 영상의 내용기반 전문 검색을 위한 도구로써 활용 가능하다. 향후 연구 내용으로 키워드 검색 시스템에 적합한 분류기를 연구하고자 한다.
제안된 시스템은 이러한 저 품질 문서 영상의 내용기반 전문 검색을 위한 도구로써 활용 가능하다. 향후 연구 내용으로 키워드 검색 시스템에 적합한 분류기를 연구하고자 한다.

참고문헌 (16)

오일석, 김수형, 유태웅, 곽희규, '문서 영상 처리 기술과 디지털 도서과', 정보과학회지, 제20권, 제2호, pp.24-34, 2002
M. Ohta, A. Takasu, and J. Adachi, 'Retrieval methods for English-text width missrecognized OCR characters,' Proceedings of 4th International Conference on Document Analysis and Recognition, Vol.2, pp.950-955, 1997
K. Marukawa, T. Hu, H. Fujisawa, and Y. Shima, 'Document retrieval tolerating character recognition errorsevaluation and application,' Pattern Recognition, Vol.30, No.8, pp.1361-1371, 1997

상세보기
D. Doermann, 'The retrieval of document images: a brief survey,' Proc. ICDAR97, Ulm, pp. 945-949, 1997
F. Chen, L. Wilcox, and D. Bloomberg, 'Word spotting in scanned images using hidden markov models,' Proc. IEEE International Coriference on Acoustics, Speech and Signal Processing, pp.1-4, 1993
Y. Lu and C. L. Tan, 'Word searching in document images using word portion matching,' Fifth IAPR International Workshop on Document Analysis Systems, USA, pp.319-328, 2002

상세보기
Y. Lu, L. Zhang, and C. L. Tan, 'A search engine for imaged documents in PDF files,' 27th Annual International ACM SIGIR Conference, UK, 2004
J. DeCurtins and E. Chen, 'Keyword spotting via word shape recognition,' Proc. SPIE Document Recognition II, pp.270-277, 1995
F. R. Chen, L.D. Wilcox, and D.S. Bloomberg, 'A comparison of discrete and continuous hidden Markov models for phrase spotting in text images,' Proc. Document Analysis and Recognition, Vol. 1, pp.398-402, 1995
C. L. Tan, W. Huang, Z. Yu, and Y. Xu, 'Image document text retrieval without OCR,' IEEE Transaction on Pattern Analysis and Machine Intelligence, Vol.24, No.7, pp.838-844, July, 2002

상세보기
김혜금, 양진호, 이진선, 오일석, '웨이브렛을 이용한 영상기반 인쇄 한글 단어 검색', 한국정보과학회 논문지, 제28권 제2호, pp.91-103, 2001
I. S. Oh, Y. S. Choi, J H. Yang, S. H. Kim, 'A Keyword Spotting System of Korean Document Images,' Proc. 5th International Conference on Asian Digital Libraries, Singapore, p.530, Dec., 2002

상세보기
곽희규, '문서 영상의 단어 단위 분할 및 단어 영상의 속성 추출에 관한 연구,' 전남대학교 전산통계학과 박사학위논문, 2001
C. B. Jeong and S. H. Kim, 'A Document Image Preprocessing System for Keyword Spotting,' Proc. International Conference on Asian Digital Libraries, China, pp.440-443, Dec., 2004
http://www.perceptcom.com/
R. B. Yates and B. R. Neto, 'Modern Information Retrieval,' ACM press, pp.75-82, 1999

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증