스캔된 문서의 OCR 정확도 개선을 위한 인공지능 기반의 문서 이미지 전처리 기법에 대한 연구 Artificial Intelligence-based document image preprocessing method for improving OCR accuracy on scanned documents원문보기
기업의 업무 자동화 구축 프로세스에 포함되곤 하는 종이 문서 데이터의 전자화 업무는, 들어오는 입력 이미지의 퀄리티에 따라 크게 효율과 정확도가 달라지곤 한다. 이 입력 이미지들의 초기 스캔 퀄리티를 올리는 것이 불가능할 경우, 노이즈가 심한 상태인 이미지의 퀄리티를 조금이라도 개선하여 정보 추출이 정확하게 될 수 있도록 하는 것이 중요하다. 이러한 이미지 퀄리티의 개선은 기존의 알고리즘 기반 접근으로도 해결하는 것이 가능하기도 하나, 알고리즘으로는 해결하기 힘든 노이즈가 들어오는 경우에 대한 해결 방법이 필요하다. 본 논문은 종이 문서 인식 자동화 업무 측면에서 원본 화질을 유지할 수 있으면서 ...
기업의 업무 자동화 구축 프로세스에 포함되곤 하는 종이 문서 데이터의 전자화 업무는, 들어오는 입력 이미지의 퀄리티에 따라 크게 효율과 정확도가 달라지곤 한다. 이 입력 이미지들의 초기 스캔 퀄리티를 올리는 것이 불가능할 경우, 노이즈가 심한 상태인 이미지의 퀄리티를 조금이라도 개선하여 정보 추출이 정확하게 될 수 있도록 하는 것이 중요하다. 이러한 이미지 퀄리티의 개선은 기존의 알고리즘 기반 접근으로도 해결하는 것이 가능하기도 하나, 알고리즘으로는 해결하기 힘든 노이즈가 들어오는 경우에 대한 해결 방법이 필요하다. 본 논문은 종이 문서 인식 자동화 업무 측면에서 원본 화질을 유지할 수 있으면서 학습 데이터 준비 비용의 효율을 위해, 세부 노이즈 종류 라벨링이 필요 없는 비지도 학습 인공지능 기반의 방법론을 제안한다.
기업의 업무 자동화 구축 프로세스에 포함되곤 하는 종이 문서 데이터의 전자화 업무는, 들어오는 입력 이미지의 퀄리티에 따라 크게 효율과 정확도가 달라지곤 한다. 이 입력 이미지들의 초기 스캔 퀄리티를 올리는 것이 불가능할 경우, 노이즈가 심한 상태인 이미지의 퀄리티를 조금이라도 개선하여 정보 추출이 정확하게 될 수 있도록 하는 것이 중요하다. 이러한 이미지 퀄리티의 개선은 기존의 알고리즘 기반 접근으로도 해결하는 것이 가능하기도 하나, 알고리즘으로는 해결하기 힘든 노이즈가 들어오는 경우에 대한 해결 방법이 필요하다. 본 논문은 종이 문서 인식 자동화 업무 측면에서 원본 화질을 유지할 수 있으면서 학습 데이터 준비 비용의 효율을 위해, 세부 노이즈 종류 라벨링이 필요 없는 비지도 학습 인공지능 기반의 방법론을 제안한다.
One of the processes that are included in the process automation task of an enterprise is the digitalization of the scanned document using optical character recognition (OCR), and the initial scan quality can affect the accuracy and performance of the OCR. However, in many cases, improvement of the ...
One of the processes that are included in the process automation task of an enterprise is the digitalization of the scanned document using optical character recognition (OCR), and the initial scan quality can affect the accuracy and performance of the OCR. However, in many cases, improvement of the initial scanning quality is not possible, and removing the noise of these noisy documents is required. This noise removal can be done with the traditional algorithms, but some severely degraded documents don't denoise well with the algorithmic way. In this paper, we propose a methodology for denoising documents using an unsupervised deep learning model, without labeling each noise type.
One of the processes that are included in the process automation task of an enterprise is the digitalization of the scanned document using optical character recognition (OCR), and the initial scan quality can affect the accuracy and performance of the OCR. However, in many cases, improvement of the initial scanning quality is not possible, and removing the noise of these noisy documents is required. This noise removal can be done with the traditional algorithms, but some severely degraded documents don't denoise well with the algorithmic way. In this paper, we propose a methodology for denoising documents using an unsupervised deep learning model, without labeling each noise type.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.