[논문]나이브 베이즈 분류기와 혼동 행렬을 이용한 OCR에서의 철자 교정

노경목; 김창현; 천민아; 김재훈

[국내논문] 나이브 베이즈 분류기와 혼동 행렬을 이용한 OCR에서의 철자 교정
Using Naïve Bayes Classifier and Confusion Matrix Spelling Correction in OCR 원문보기

노경목 (한국해양대학교 컴퓨터공학과) , 김창현 (한국전자통신연구원) , 천민아 (한국해양대학교 컴퓨터공학과) , 김재훈 (한국해양대학교 컴퓨터공학과)

OCR(Optical Character Recognition)의 오류를 줄이기 위해 본 논문에서는 교정 어휘 쌍의 혼동 행렬(confusion matrix)과 나이브 베이즈 분류기($na{\ddot{i}}ve$ Bayes classifier)를 이용한 철자 교정 시스템을 제안한다. 본 시스템에서는 철자 오류 중 한글에 대한 철자 오류만을 교정하였다. 실험에 사용된 말뭉치는 한국어 원시 말뭉치와 OCR 출력 말뭉치, OCR 정답 말뭉치이다. 한국어 원시 말뭉치로부터 자소 단위의 언어 모델(language model)과 교정 후보 검색을 위한 접두사 말뭉치를 구축했고, OCR 출력 말뭉치와 OCR 정답 말뭉치로부터 교정 어휘 쌍을 추출하고, 자소 단위로 분해하여 혼동 행렬을 만들고, 이를 이용하여 오류 모델(error model)을 구축했다. 접두사 말뭉치를 이용해서 교정 후보를 찾고 나이브 베이즈 분류기를 통해 확률이 높은 교정 후보 n개를 제시하였다. 후보 n개 내에 정답 어절이 있다면 교정을 성공하였다고 판단했고, 그 결과 약 97.73%의 인식률을 가지는 OCR에서, 3개의 교정 후보를 제시하였을 때, 약 0.28% 향상된 98.01%의 인식률을 보였다. 이는 한글에 대한 오류를 교정했을 때이며, 향후 특수 문자와 숫자 등을 복합적으로 처리하여 교정을 시도한다면 더 나은 결과를 보여줄 것이라 기대한다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 OCR의 인식률을 향상시키기 위한 철자 교정 시스템을 제안한다. 제안된 교정 알고리즘은 [3]의 철자 교정 알고리즘을 기반으로 구성하였으며, 특수 문자, 알파벳, 한자 등의 철자 오류는 제외하고 한글 오류에 대해서만 교정하였다.

제안 방법

제안된 철자 교정 시스템에 사용된 말뭉치는 약 530만 개의 어절로 구성된 한국어 원시 말뭉치와 약 7만 6천개의 어절로 구성된 OCR 정답 말뭉치, 오류가 있는 약 8만 1천 개의 어절로 구성된 OCR 출력 말뭉치를 이용하여 접두사 말뭉치와 혼동 행렬(confusion matrix)을 구축하고 나이브 베이즈 분류기(naïve Bayes classifier)를 통해 오류 어절에 대한 교정 후보를 제시하였다[3].
본 논문에서는 OCR의 인식률을 향상시키기 위한 철자 교정 시스템을 제안한다. 제안된 교정 알고리즘은 [3]의 철자 교정 알고리즘을 기반으로 구성하였으며, 특수 문자, 알파벳, 한자 등의 철자 오류는 제외하고 한글 오류에 대해서만 교정하였다.
학습 단계에서는 약 530만 개의 어절로 이루어진 한국어 원시 말뭉치에서 어절 단위로 한글을 추출한 뒤, 초성, 중성, 종성으로 분해하고, 분해된 어절의 빈도수를 측정한 후 확률을 계산하여 언어 모델(language model)을 구축하였다. 구축된 언어 모델을 기반으로 접두사 말뭉치를 구축하였는데 접두사 말뭉치는 교정단계에서 교정 후보를 검색하기 위해 사용된다.
약 8만 1천 개의 어절로 이루어진 OCR 출력 말뭉치는 띄어쓰기 오류와 철자 오류, 띄어쓰기와 철자의 복합 오류가 포함된 말뭉치이며, 약 7만 6천 개의 어절로 이루어진 OCR 정답 말뭉치는 OCR 출력 말뭉치를 사용자가 수동으로 오류를 교정한 말뭉치이다. 두 말뭉치를 비교하여 교정 어휘 쌍을 추출한 뒤, 자소 분해하여 혼동 행렬을 구축하였다. 표 1는 혼동 행렬의 일부이다.
이러한 혼동 행렬을 이용하여 언어 모델과 같은 방법으로 오류 모델을 구축하였다.
제안된 철자 교정 시스템의 성능을 평가하기 위해서 기존의 한국어 원시 말뭉치를 확장하였다. OCR 정답 말뭉치에서 80%를 한국어 원시 말뭉치에 추가하여 언어 모델과 접두사 말뭉치를 구축했다.
제안된 철자 교정 시스템의 성능을 평가하기 위해서 기존의 한국어 원시 말뭉치를 확장하였다. OCR 정답 말뭉치에서 80%를 한국어 원시 말뭉치에 추가하여 언어 모델과 접두사 말뭉치를 구축했다. 그리고 말뭉치 확장에 사용된 OCR 정답 말뭉치 80%와 OCR 출력 말뭉치 80%를 이용하여 혼동행렬을 만들고, 오류 모델을 구축했다.
OCR 정답 말뭉치에서 80%를 한국어 원시 말뭉치에 추가하여 언어 모델과 접두사 말뭉치를 구축했다. 그리고 말뭉치 확장에 사용된 OCR 정답 말뭉치 80%와 OCR 출력 말뭉치 80%를 이용하여 혼동행렬을 만들고, 오류 모델을 구축했다. 성능 평가에는 OCR 출력 말뭉치의 나머지 20%를 사용하였다.
성능 평가에는 OCR 출력 말뭉치의 나머지 20%를 사용하였다. 철자 교정 오류만을 평가하기 위해서 OCR 출력 말뭉치의 20%에서 띄어쓰기 오류만 수동으로 교정했다.
OCR에서 발생한 오류 어절에 대해서 띄어쓰기 오류를 제외하고 철자 오류만을 교정하는 시스템을 구현하였다. 그 중에서도 알파벳과 숫자, 특수 문자를 제외한 한글에 대해서만 교정을 시도하였으며, 3개의 교정 후보 수를 기준으로 약 0.

성능/효과

철자 오류만 있는 OCR 출력 말뭉치의 20%는 약 1만 5천 개의 어절을 가지며, 인식률은 약 97.73%였다. 철자오류 어절은 345개가 있었다.
그 중에서도 알파벳과 숫자, 특수 문자를 제외한 한글에 대해서만 교정을 시도하였으며, 3개의 교정 후보 수를 기준으로 약 0.28%의 성능 향상을 보였다.

후속연구

28%의 성능 향상을 보였다. 이는 한글만 처리하였을 때의 결과이며, 오류 유형에 따라 원시 말뭉치의 확장, 문서 내에서만 발생하는 어절, 특수 문자와 숫자 등을 복합적으로 처리한다면 좀 더 나은 성능이 나오리라 기대한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국내논문] 나이브 베이즈 분류기와 혼동 행렬을 이용한 OCR에서의 철자 교정
Using Naïve Bayes Classifier and Confusion Matrix Spelling Correction in OCR 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국내논문] 나이브 베이즈 분류기와 혼동 행렬을 이용한 OCR에서의 철자 교정 Using Naïve Bayes Classifier and Confusion Matrix Spelling Correction in OCR 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[국내논문] 나이브 베이즈 분류기와 혼동 행렬을 이용한 OCR에서의 철자 교정
Using Naïve Bayes Classifier and Confusion Matrix Spelling Correction in OCR 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper