[보고서]소장기록물 특성을 고려한 OCR 인식 성능 개선방안 연구

강지홍

소장기록물 특성을 고려한 OCR 인식 성능 개선방안 연구
Study on Approaches to Improve the Accuracy of OCR(Optical Character Recognition) focusing on Korean Archival Documents 원문보기

보고서 정보
주관연구기관	로민
연구책임자	강지홍
참여연구자	유승운 , 임비 , 강상권 , 이승희 , 정성균 , 손동희 , 김정진
보고서유형	최종보고서
발행국가	대한민국
언어	한국어
발행년월	2020-11
과제시작연도	2020
주관부처	행정안전부 Ministry of the Interior and Safety
등록번호	TRKO202100008611
과제고유번호	1315001499
사업명	국가기록관리활용기술연구개발(R&D)
DB 구축일자	2021-08-14
키워드	소장기록물.비전자기록물.OCR 성능평가.문자 인식.문서 인식.딥러닝.OCR 디지털화 프로세스 연계.Archive.Optical Character Recognition.OCR Accuracy.OCR Evaluation.Deep Learning.Digitization Process Using OCR.OCR.

초록 ▼

본 과제는 비전자기록물 중 타자기록물에 대하여 OCR 성능을 평가하고, OCR 성능을 개선하는 방안을 연구한다. 이를 위해서, 테스트베드에 3가지 OCR 모델(Lomin OCR, Tesseract,ABBYY)을 개발 및 구축하였다. 그리고, 타자기록물 1970장에 대한 이미지 파일과 Ground Truth 데이터를 가공하여 데이터셋화하였다. 이 중 394장을 임의 추출하여 평가데이터셋으로 지정하였다. 테스트베드에서는 GUI 툴을 활용해 본 데이터셋을 열람/수정/가감을 할 수 있다.
최근 OCR 모델을 딥러닝 기반으로 만드는 것이 인식 정확도 측면에서 유리하므로, Lomin OCR 모델은 딥러닝 모델 기반으로 타자기록물 학습데이터셋 1576장을 학습시켜 개발되었다.
결과적인 모델 성능은 Lomin OCR 이 E2E F1 score 기준으로 98.3%로 높은 정확도를 나타냈다. 타자기록물과 같이 일반적이지 않은 글자 형태에 대해서, 딥러닝 기반으로 특정 데이터셋에 대해 학습된 모델이 상용 솔루션 대비 더 우수한 성능을 보이는 것을 확인하였다. 위 성능은 공인시험 기관을 통해 확인되었다.
디지털화 프로세스 연구로, CAMS 내 비전자기록물 등록 시 OCR 적용 방안을 제시하였고, OCR 결과를 XML, PDF 파일 형태로 저장하고 수정할 수 있는 시스템을 제안하였다. OCR 결과로 생성된 PDF 파일을 검색 엔진에 제공하여 전문 검색, 키워드 추출, 색인 등록에 활용이 가능함을 확인하였다. 이를 위한 CAMS 내 시스템 기능 명세를 정의하여 시스템 개발에 필요한 구체적인 요건을 도출하였다.
OCR 데이터셋 구축 효율화를 위한 특허를 출원하여 대규모 전사(Transcription) 작업 효율을 향상시킬 수 있는 방안을 제시하였다. OCR 결과를 활용한 딥러닝 기반의 문서 분류기와 단어간 관계 추출 방법을 제시하여, 소장기록물에 적용 시 기록물에 대한 정보 접근성을 제고할수 있음을 확인하였다.

(출처 : 요약문 5p)

Abstract ▼

This study focuses on evaluating accuracy of OCR models on typed archival documents and improving this accuracy by developing a deep-learning-based OCR model. On a testbed, three OCR models are installed; Lomin OCR, Tesseract, and ABBYY. The test set for evaluation is 394 images, which are randomly picked out of 1,970 typed archival documents. Ground truth word boxes are annotated on these images for training and evaluation. Testbed also supports adding/removing images and revising word boxes on the datasets through GUI.
We applied deep learning techniques into Lomin OCR, which is trained against 1,576 images, and some other OCR datasets. Lomin OCR demonstrated high accuracy of F1 score 98.3%. We conclude that, for characters of atypical shape as in typed archival documents, target-trained model shows higher performance than general models. The official benchmark test was executed by a certified test agency.
This study suggests how to integrate OCR engines into CAMS, and the desirable formats for archiving the OCR results. The PDF files produced by the OCR process can be input to the search engine, in order for full text search, keyword extraction, and indexing. We developed System Functional Requirement for suggested OCR capabilities.
Regarding academic achievements, we published a patent application for boosting OCR dataset building processes. In addition, we suggested few-shot-based document classifier and word relation extraction based on OCR results, which can be applied to archival documents.

(출처 : SUMMARY 6p)

목차 Contents

표지 ... 1
용역연구과제 최종보고서 ... 2
제 출 문 ... 3
목차 ... 4
Ⅰ. 연구개발결과 요약문 ... 5
요약문 ... 5
Summary ... 6
Ⅱ. 총괄연구개발과제 연구결과 ... 7
제1장 총괄연구개발과제의 최종 연구개발 목표 ... 7
1.1 총괄연구개발과제의 목표 ... 7
1.2 총괄연구개발과제의 목표달성도 ... 8
1.3 국내·외 기술개발 현황 ... 8
제2장 총괄연구개발과제의 최종 연구개발 내용 및 방법 ... 12
2.1 OCR 모델 개발 프로세스 ... 12
2.2 데이터셋 구축 ... 12
2.3 OCR 모델 연구 개발 ... 18
2.4 테스트베드 개발 ... 23
제3장 총괄연구개발과제의 최종 연구개발 결과 ... 25
3.1 데이터셋 구축 결과 ... 25
3.2 OCR 모델 개발 결과 ... 25
3.3 OCR 성능 평가 ... 28
3.4 디지털화 프로세스 연구 결과 : 소장기록물 OCR 활용 및 관리 방안 ... 39
3.5 학술 연구 결과 ... 47
제4장 총괄연구개발과제의 연구결과 고찰 및 결론 ... 52
4.1 OCR 성능 평가 ... 52
4.2 디지털화 프로세스 연구 ... 53
4.3 학술 연구 ... 53
제5장 총괄연구개발과제의 연구성과 ... 54
5.1 활용성과 ... 54
5.2 활용계획 ... 55
제6장 참고문헌 ... 56
제7장 첨부서류 ... 57
7.1 타자기록물 데이터셋 라벨링 가이드 ... 57
7.2 Lomin OCR 모델 학습 가이드 ... 59
7.3 테스트베드 OCR 사용법 및 공인 시험 절차 ... 61
7.4 테스트베드 PDF 파일 변환 코드 활용 가이드 ... 67
7.5 Transkribus 사용 방법 및 분석 ... 68
7.6 특허 - 출원번호통지서 ... 72
7.7 비전자기록물 OCR 적용을 위한 CAMS 시스템 기능 명세 ... 76
7.8 Lomin OCR 수행 결과 샘플 ... 77
7.9 학술 발표 논문 및 연구 논문(투고본) ... 83
총괄 연구과제 요약 ... 93
끝페이지 ... 97

표/그림 (56)

표 전통적인 OCR의 처리 단계
표 OCR 모델 1-stage (좌), OCR 모델 2-stage (우)
표 OCR 모델 개발 흐름도
표 타자기록물 데이터셋 내 생산기관, 생산연대별 면수
표 타자기록물 데이터셋 생산기관 분포(좌), 생산연대 분포(우)
표 타자기록물 데이터셋 내 문서 형태별 비중
표 타자기록물 데이터셋 내 언어 요소 빈도
표 타자기록물 데이터셋 내 비언어 요소 빈도
표 타자기록물 데이터셋 내 수기, 세로쓰기, 취소선 예시
표 타자기록물 데이터셋 내 탈색, 번짐 예시
표 Wordbox Semi-auto Labeling 활용 프로세스
표 작업자에 의한 Wordbox Semi-auto Labeling 결과 보정
표 Wordbox Semi-auto Labeling에 의한 작업시간 단축 (wordbox 120개 기준)
표 타자기록물 데이터셋 구조
표 AI Hub 글자체 구성 및 이미지 (출처: AI Hub 사이트)
표 Lomin DocuSet 이미지 예시 (책, 잡지, 신문 등)
표 Region Proposal Network11의 anchor box
표 2D-Attention을 사용하는 transformer 모델에서의 attention map
표 Transformer 모델 아키텍처
표 IoU를 활용한 문자 영역 탐지 성공 판정
표 OCR 모델 별 평가 지표
표 테스트베드 환경
표 테스트베드 기능 명세
표 테스트베드 UI
표 OCR 결과 시각화 화면
표 테스트베드 Lomin OCR 모델 코드 도식
표 학습데이터셋 선택에 따른 문자 탐지(Detection), 문자 탐지 및 인식(End-to-end) 정확도
표 문자 탐지(Detection) 모델 학습 Loss Graph
표 문자 인식(Recognition) 모델 학습 Loss Graph
표 평가 제외 wordbox유형
표 테스트셋에 대한 OCR 모델 별 수행시간 및 정확도
표 xml 파일 예시
표 PDF 파일 구조
표 PDF 파일에서 단어 검색 및 텍스트 복사 기능 예시
표 OCR 산출물 저장 및 검수를 위한 OCR DB 내 테이블
표 테이블 필드
표 OCR 산출물 저장 프로세스
표 테이블 필드
표 OCR 산출물 수정 프로세스
표 OCR 수정 UI (예시: VGG Image Annotator)
표 CAMS에 저장되어 있는 비전자기록물에 대한 OCR 적용 프로세스
표 비전자기록물 등록 시 OCR 적용 프로세스
표 OCR 결과 활용을 위한 시스템 구성
표 [문서 분류기]와 [문서 종류에 특화된 OCR 인식기]를 활용한 주요 정보 추출 프로세스
표 소장기록물 문서분류 적용 예시
표 발명한 텍스트전사장치의
표 발명된 텍스트전사장치의 프로세스
표 OCR부의 출력이 맞춤법검사부에 입력되어 처리되는 결과
표 맞춤법검사부에서 제안한 대체 단어를 작업자가 선택하여 수정
표 로컬 이미지 파일 서버 업로드 방법
표 업로드된 이미지 파일 확인
표 업로드한 이미지에 대한 텍스트 전사 작업 과정
표 HTR 모델 수행 예시
표 HTR 모델 수행 결과
표 OCR 모델 수행 결과
표 선택가능한 HTR 언어 모델(좌) 및 OCR 언어 옵션(우)

과제명(ProjectTitle) :	-
연구책임자(Manager) :	-
과제기간(DetailSeriesProject) :	-
총연구비 (DetailSeriesProject) :	-
키워드(keyword) :	-
과제수행기간(LeadAgency) :	-
연구목표(Goal) :	-
연구내용(Abstract) :	-
기대효과(Effect) :	-

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 제목(한글), 저자명(한글), 발행일자, 전자원문, 초록(한글), 초록(영문) 관리번호, 제목(한글), 제목(영문), 저자명(한글), 저자명(영문), 주관연구기관(한글), 주관연구기관(영문), 발행일자, 총페이지수, 주관부처명, 과제시작일, 보고서번호, 과제종료일, 주제분류, 키워드(한글), 전자원문, 키워드(영문), 입수제어번호, 초록(한글), 초록(영문), 목차
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

소장기록물 특성을 고려한 OCR 인식 성능 개선방안 연구
Study on Approaches to Improve the Accuracy of OCR(Optical Character Recognition) focusing on Korean Archival Documents 원문보기