OCR(Optical Character Recognition)은 아날로그 문서의 글자를 인식하여 디지털화하는 기술로써 정형화된 문서의 경우에는 높은 인식 정확도를 보인다. 그러나, 문서의 복잡한 구조, 이미지 해상도, 서체 등 다양한 원인에 의해 여전히 OCR 오류가 빈번히 발생하고 있다. 이러한 OCR 인식의 완성도를 높이기 위해서는 OCR 오류를 올바르게 교정하는 과정이 필요하다. OCR 오류는 동일한 문자에 대해 반복적으로 발생하는 경우가 대부분임에 따라 OCR 오류 수정 작업에서 OCR 오류 정보의 활용은 중요한 의미를 가진다. 그러나, 오류 정보를 활용한 OCR 오류 수정 연구는 많지 않다. 따라서 본 연구는 OCR 오류 정보를 분석하여 자주 발생하는 오류의 패턴을 도출하고 이를 학습한 신경망 기계 번역기(...
OCR(Optical Character Recognition)은 아날로그 문서의 글자를 인식하여 디지털화하는 기술로써 정형화된 문서의 경우에는 높은 인식 정확도를 보인다. 그러나, 문서의 복잡한 구조, 이미지 해상도, 서체 등 다양한 원인에 의해 여전히 OCR 오류가 빈번히 발생하고 있다. 이러한 OCR 인식의 완성도를 높이기 위해서는 OCR 오류를 올바르게 교정하는 과정이 필요하다. OCR 오류는 동일한 문자에 대해 반복적으로 발생하는 경우가 대부분임에 따라 OCR 오류 수정 작업에서 OCR 오류 정보의 활용은 중요한 의미를 가진다. 그러나, 오류 정보를 활용한 OCR 오류 수정 연구는 많지 않다. 따라서 본 연구는 OCR 오류 정보를 분석하여 자주 발생하는 오류의 패턴을 도출하고 이를 학습한 신경망 기계 번역기(Neural Machine Translator) 기반의 OCR 오류 수정 방법을 제안한다. 모델이 오류 정보를 효과적으로 학습할 수 있도록 분석한 오류 패턴을 활용하여 데이터를 증강한다. 이후, 10-token 및 n-gram 문장 분할 형식을 이용하여 OCR 오류 수정 모델의 성능을 개선한다. 제안된 방법의 실험과 검증을 위하여 2017년도와 2019년도에 개최된 ICDAR Post-OCR 텍스트 수정 경진대회의 영어 데이터세트를 사용하였다. 실험 결과, OCR 오류 정보를 사용한 모델이 OCR 오류 정보를 사용하지 않은 모델보다 높은 개선율을 나타내며 기존 모델보다 향상된 성능을 보이는 것을 확인할 수 있었다.
OCR(Optical Character Recognition)은 아날로그 문서의 글자를 인식하여 디지털화하는 기술로써 정형화된 문서의 경우에는 높은 인식 정확도를 보인다. 그러나, 문서의 복잡한 구조, 이미지 해상도, 서체 등 다양한 원인에 의해 여전히 OCR 오류가 빈번히 발생하고 있다. 이러한 OCR 인식의 완성도를 높이기 위해서는 OCR 오류를 올바르게 교정하는 과정이 필요하다. OCR 오류는 동일한 문자에 대해 반복적으로 발생하는 경우가 대부분임에 따라 OCR 오류 수정 작업에서 OCR 오류 정보의 활용은 중요한 의미를 가진다. 그러나, 오류 정보를 활용한 OCR 오류 수정 연구는 많지 않다. 따라서 본 연구는 OCR 오류 정보를 분석하여 자주 발생하는 오류의 패턴을 도출하고 이를 학습한 신경망 기계 번역기(Neural Machine Translator) 기반의 OCR 오류 수정 방법을 제안한다. 모델이 오류 정보를 효과적으로 학습할 수 있도록 분석한 오류 패턴을 활용하여 데이터를 증강한다. 이후, 10-token 및 n-gram 문장 분할 형식을 이용하여 OCR 오류 수정 모델의 성능을 개선한다. 제안된 방법의 실험과 검증을 위하여 2017년도와 2019년도에 개최된 ICDAR Post-OCR 텍스트 수정 경진대회의 영어 데이터세트를 사용하였다. 실험 결과, OCR 오류 정보를 사용한 모델이 OCR 오류 정보를 사용하지 않은 모델보다 높은 개선율을 나타내며 기존 모델보다 향상된 성능을 보이는 것을 확인할 수 있었다.
The development of OCR (Optical Character Recognition) has made it possible to digitize analog documents. It shows very high recognition accuracy for standardized documents. However, OCR errors still occur frequently due to the complex structure of the document, image resolution, and font. A process...
The development of OCR (Optical Character Recognition) has made it possible to digitize analog documents. It shows very high recognition accuracy for standardized documents. However, OCR errors still occur frequently due to the complex structure of the document, image resolution, and font. A process of correcting OCR errors is necessary to solve these problems. OCR errors most often occur repeatedly for the same characters. Accordingly, OCR error information has an important meaning in OCR error correction work. However, there are few studies utilizing OCR error information. This study analyzes OCR error information to derive patterns and proposes an OCR error correction method based on Neural Machine Translator that learned OCR error information. Augment the data using the analyzed error patterns so that the model effectively learns OCR error information. Afterwards, 10-token and 5-gram text split formats are used to improve the performance of the error correction model. To validate the proposed method, experiments were conducted using the English dataset from the ICDAR 2017/2019 Post-OCR text correction competition. The experimental results show that the model using OCR error information demonstrates a higher improvement rate than the model without OCR error information. It also has improved performance compared to the existing state of the art.
The development of OCR (Optical Character Recognition) has made it possible to digitize analog documents. It shows very high recognition accuracy for standardized documents. However, OCR errors still occur frequently due to the complex structure of the document, image resolution, and font. A process of correcting OCR errors is necessary to solve these problems. OCR errors most often occur repeatedly for the same characters. Accordingly, OCR error information has an important meaning in OCR error correction work. However, there are few studies utilizing OCR error information. This study analyzes OCR error information to derive patterns and proposes an OCR error correction method based on Neural Machine Translator that learned OCR error information. Augment the data using the analyzed error patterns so that the model effectively learns OCR error information. Afterwards, 10-token and 5-gram text split formats are used to improve the performance of the error correction model. To validate the proposed method, experiments were conducted using the English dataset from the ICDAR 2017/2019 Post-OCR text correction competition. The experimental results show that the model using OCR error information demonstrates a higher improvement rate than the model without OCR error information. It also has improved performance compared to the existing state of the art.
Keyword
#OCR OCR 후처리 OCR 오류 수정 OCR 오류 분석 철자 수정 OCR Post-Processing OCR Error Correction OCR Error Analysis Spell Correction
학위논문 정보
저자
김나라
학위수여기관
중앙대학교 대학원
학위구분
국내석사
학과
전자전기공학과 전자전기공학전공
지도교수
박호현
발행연도
2024
총페이지
iii, 32장
키워드
OCR OCR 후처리 OCR 오류 수정 OCR 오류 분석 철자 수정 OCR Post-Processing OCR Error Correction OCR Error Analysis Spell Correction
※ AI-Helper는 부적절한 답변을 할 수 있습니다.