보고서 정보
주관연구기관 |
로민 |
연구책임자 |
강지홍
|
참여연구자 |
유승운
,
임비
,
강상권
,
이승희
,
정성균
,
손동희
,
김정진
|
보고서유형 | 최종보고서 |
발행국가 | 대한민국 |
언어 |
한국어
|
발행년월 | 2020-11 |
과제시작연도 |
2020 |
주관부처 |
행정안전부 Ministry of the Interior and Safety |
등록번호 |
TRKO202100008611 |
과제고유번호 |
1315001499 |
사업명 |
국가기록관리활용기술연구개발(R&D) |
DB 구축일자 |
2021-08-14
|
키워드 |
소장기록물.비전자기록물.OCR 성능평가.문자 인식.문서 인식.딥러닝.OCR 디지털화 프로세스 연계.Archive.Optical Character Recognition.OCR Accuracy.OCR Evaluation.Deep Learning.Digitization Process Using OCR.OCR.
|
초록
▼
본 과제는 비전자기록물 중 타자기록물에 대하여 OCR 성능을 평가하고, OCR 성능을 개선하는 방안을 연구한다. 이를 위해서, 테스트베드에 3가지 OCR 모델(Lomin OCR, Tesseract,ABBYY)을 개발 및 구축하였다. 그리고, 타자기록물 1970장에 대한 이미지 파일과 Ground Truth 데이터를 가공하여 데이터셋화하였다. 이 중 394장을 임의 추출하여 평가데이터셋으로 지정하였다. 테스트베드에서는 GUI 툴을 활용해 본 데이터셋을 열람/수정/가감을 할 수 있다.
최근 OCR 모델을 딥러닝 기반으로 만드는 것
본 과제는 비전자기록물 중 타자기록물에 대하여 OCR 성능을 평가하고, OCR 성능을 개선하는 방안을 연구한다. 이를 위해서, 테스트베드에 3가지 OCR 모델(Lomin OCR, Tesseract,ABBYY)을 개발 및 구축하였다. 그리고, 타자기록물 1970장에 대한 이미지 파일과 Ground Truth 데이터를 가공하여 데이터셋화하였다. 이 중 394장을 임의 추출하여 평가데이터셋으로 지정하였다. 테스트베드에서는 GUI 툴을 활용해 본 데이터셋을 열람/수정/가감을 할 수 있다.
최근 OCR 모델을 딥러닝 기반으로 만드는 것이 인식 정확도 측면에서 유리하므로, Lomin OCR 모델은 딥러닝 모델 기반으로 타자기록물 학습데이터셋 1576장을 학습시켜 개발되었다.
결과적인 모델 성능은 Lomin OCR 이 E2E F1 score 기준으로 98.3%로 높은 정확도를 나타냈다. 타자기록물과 같이 일반적이지 않은 글자 형태에 대해서, 딥러닝 기반으로 특정 데이터셋에 대해 학습된 모델이 상용 솔루션 대비 더 우수한 성능을 보이는 것을 확인하였다. 위 성능은 공인시험 기관을 통해 확인되었다.
디지털화 프로세스 연구로, CAMS 내 비전자기록물 등록 시 OCR 적용 방안을 제시하였고, OCR 결과를 XML, PDF 파일 형태로 저장하고 수정할 수 있는 시스템을 제안하였다. OCR 결과로 생성된 PDF 파일을 검색 엔진에 제공하여 전문 검색, 키워드 추출, 색인 등록에 활용이 가능함을 확인하였다. 이를 위한 CAMS 내 시스템 기능 명세를 정의하여 시스템 개발에 필요한 구체적인 요건을 도출하였다.
OCR 데이터셋 구축 효율화를 위한 특허를 출원하여 대규모 전사(Transcription) 작업 효율을 향상시킬 수 있는 방안을 제시하였다. OCR 결과를 활용한 딥러닝 기반의 문서 분류기와 단어간 관계 추출 방법을 제시하여, 소장기록물에 적용 시 기록물에 대한 정보 접근성을 제고할수 있음을 확인하였다.
(출처 : 요약문 5p)
Abstract
▼
This study focuses on evaluating accuracy of OCR models on typed archival documents and improving this accuracy by developing a deep-learning-based OCR model. On a testbed, three OCR models are installed; Lomin OCR, Tesseract, and ABBYY. The test set for evaluation is 394 images, which are randomly
This study focuses on evaluating accuracy of OCR models on typed archival documents and improving this accuracy by developing a deep-learning-based OCR model. On a testbed, three OCR models are installed; Lomin OCR, Tesseract, and ABBYY. The test set for evaluation is 394 images, which are randomly picked out of 1,970 typed archival documents. Ground truth word boxes are annotated on these images for training and evaluation. Testbed also supports adding/removing images and revising word boxes on the datasets through GUI.
We applied deep learning techniques into Lomin OCR, which is trained against 1,576 images, and some other OCR datasets. Lomin OCR demonstrated high accuracy of F1 score 98.3%. We conclude that, for characters of atypical shape as in typed archival documents, target-trained model shows higher performance than general models. The official benchmark test was executed by a certified test agency.
This study suggests how to integrate OCR engines into CAMS, and the desirable formats for archiving the OCR results. The PDF files produced by the OCR process can be input to the search engine, in order for full text search, keyword extraction, and indexing. We developed System Functional Requirement for suggested OCR capabilities.
Regarding academic achievements, we published a patent application for boosting OCR dataset building processes. In addition, we suggested few-shot-based document classifier and word relation extraction based on OCR results, which can be applied to archival documents.
(출처 : SUMMARY 6p)
목차 Contents
- 표지 ... 1
- 용역연구과제 최종보고서 ... 2
- 제 출 문 ... 3
- 목차 ... 4
- Ⅰ. 연구개발결과 요약문 ... 5
- 요약문 ... 5
- Summary ... 6
- Ⅱ. 총괄연구개발과제 연구결과 ... 7
- 제1장 총괄연구개발과제의 최종 연구개발 목표 ... 7
- 1.1 총괄연구개발과제의 목표 ... 7
- 1.2 총괄연구개발과제의 목표달성도 ... 8
- 1.3 국내·외 기술개발 현황 ... 8
- 제2장 총괄연구개발과제의 최종 연구개발 내용 및 방법 ... 12
- 2.1 OCR 모델 개발 프로세스 ... 12
- 2.2 데이터셋 구축 ... 12
- 2.3 OCR 모델 연구 개발 ... 18
- 2.4 테스트베드 개발 ... 23
- 제3장 총괄연구개발과제의 최종 연구개발 결과 ... 25
- 3.1 데이터셋 구축 결과 ... 25
- 3.2 OCR 모델 개발 결과 ... 25
- 3.3 OCR 성능 평가 ... 28
- 3.4 디지털화 프로세스 연구 결과 : 소장기록물 OCR 활용 및 관리 방안 ... 39
- 3.5 학술 연구 결과 ... 47
- 제4장 총괄연구개발과제의 연구결과 고찰 및 결론 ... 52
- 4.1 OCR 성능 평가 ... 52
- 4.2 디지털화 프로세스 연구 ... 53
- 4.3 학술 연구 ... 53
- 제5장 총괄연구개발과제의 연구성과 ... 54
- 5.1 활용성과 ... 54
- 5.2 활용계획 ... 55
- 제6장 참고문헌 ... 56
- 제7장 첨부서류 ... 57
- 7.1 타자기록물 데이터셋 라벨링 가이드 ... 57
- 7.2 Lomin OCR 모델 학습 가이드 ... 59
- 7.3 테스트베드 OCR 사용법 및 공인 시험 절차 ... 61
- 7.4 테스트베드 PDF 파일 변환 코드 활용 가이드 ... 67
- 7.5 Transkribus 사용 방법 및 분석 ... 68
- 7.6 특허 - 출원번호통지서 ... 72
- 7.7 비전자기록물 OCR 적용을 위한 CAMS 시스템 기능 명세 ... 76
- 7.8 Lomin OCR 수행 결과 샘플 ... 77
- 7.9 학술 발표 논문 및 연구 논문(투고본) ... 83
- 총괄 연구과제 요약 ... 93
- 끝페이지 ... 97
※ AI-Helper는 부적절한 답변을 할 수 있습니다.