[논문]딥러닝을 이용한 대규모 한글 폰트 인식

양진혁; 곽효빈; 김인중

문제 정의

두 가지 다른 구조의 CNN을 이용해 폰트인식기를 구성하고, 실험을 통해 이들을 비교 평가하였다. 특히, 본 연구에서는 폰트 인식에 필요한 지역적 세부 특징을 효과적으로 추출하면서도 학습 시간과 파라미터의 수를 줄이는 방향으로 모델을 개선하였다. 제안하는 모델은 3300종의 한글 폰트에 대하여 상위 1위인식률 94.

제안 방법

1997년도에 진행된 연구에서는 한글 문서의 폰트를 MLP(Multi-layer Perceptron)를 이용해 학습하였다[2]. MLP를 학습시키기 위해서 몇 가지 특징을 사용했는데, 문서에서 일정한 크기의 블록을 추출해서 수직방향과 수평방향으로 FFT(Fast Fourier Transform)를 수행한 후, 각 방향에 대해서 평균을 취하고, 그 결과 중에서 64개의 특징 값을 추출했다. 이와 같이 추출한 특징을 이용해 명조체, 신명조체, 견명조체, 고딕체, 중고딕체, 견고딕체, 궁서체, 샘물체, 필기체, 그래픽체라는 한글 문서의 기본이 되는 10가지 폰트를 인식하여 평균 95.
ImageNet 데이터 등 복잡한 영상에 사용되는 VGG, GoogLeNet 등의 CNN들이 매우 많은 수의 계층으로 구성된다[5][6]. 그러나, 본 연구에서는 지역적 세부 형태를 잘 추출하기 위해 비교적 적은 수의 계층으로 이루어진 [3]의 모델을 기본 모델로 택하였다. 적은 수의 계층을 사용할 경우 폰트 인식에 필요한 저수준 특징을 잘 반영할 수 있을 뿐 아니라 학습 시간과 파라미터의 수를 줄이는 데에도 바람직하다.
본 연구에서는 최근 영상인식 분야에서 좋은 성능을 보이고 있는 CNN을 이용해 3300종에 이르는 다양한 한글 폰트를 인식하였다. 두 가지 다른 구조의 CNN을 이용해 폰트인식기를 구성하고, 실험을 통해 이들을 비교 평가하였다. 특히, 본 연구에서는 폰트 인식에 필요한 지역적 세부 특징을 효과적으로 추출하면서도 학습 시간과 파라미터의 수를 줄이는 방향으로 모델을 개선하였다.
또한, Xavier 초기화와 배치정규화를 함께 사용함으로써 학습 속도를 개선하였다. 최근에는 많은 수의 계층으로 구성된 CNN에서는 He 초기화를 Xavier 초기화 알고리즘보다 더 많이 사용하는 추세이다[10][11].
학습 데이터로는 기본 폰트 영상에 다양한 변형을 적용함으로써 더 많은 영상을 추가해 사용하였다. 또한, 원활한 학습을 위해 SCAE (Stacked Convolutional Auto-Encoder)를 이용해 사전 학습을 수행한 후, 폰트 인식을 위한 교사 학습을 진행하였다.
지역적인 세부 특징을 효과적으로 추출하기 위해 비교적 적은 수의 계층을 사용하였으며, 최상단 계층 외에는 모두 컨볼루션 계층으로만 구성된 CNN을 사용하였다. 또한, 저수준 특징이 최상단까지 잘 전달되도록 하기 위해 잔류 연결을 적용하였다. 그 결과 3300종의 폰트 전체에 대하여 1위 인식률 94.
또한, 학습에 사용되는 배치정규화(batch normalization) 알고리즘은 각 배치별로 특징들의 분포를 추정하기 때문에, 모든 폰트 3300종에 대해 한글 조합 2350자가 고르게 섞이도록 하는 것이 중요하다. 본 연구에서는 많은 수의 문자 영상들을 고르게 분포하도록 하기 위해 모든 폰트-한글 조합에 대한 인덱스를 만들고, 매 반복마다 고르게 섞은 후 각 인덱스가 가리키는 폰트-문자 영상을 읽어와 학습에 사용하였다.
맥스풀링계층은 차원 축소 및 추상화 과정에서 특징의 위치 변이를 흡수하는데, 그 결과 폰트 인식에 필요한 지역적 세부 형태 정보가 소실된다. 본 연구에서는 이러한 문제점을 극복하기 위해 [7]과 같이 맥스풀링계층을 모두 동일한 크기의 커널과 보폭을 갖는 컨볼루션계층으로 대체했다.
본 연구에서는 최근 영상인식 분야에서 좋은 성능을 보이고 있는 CNN을 이용해 3300종에 이르는 다양한 한글 폰트를 인식하였다. 두 가지 다른 구조의 CNN을 이용해 폰트인식기를 구성하고, 실험을 통해 이들을 비교 평가하였다.
따라서, 폰트를 효과적으로 인식하기 위해서는 추상화 수준이 높은 고수준 특징뿐 아니라 세부 형태를 반영하는 저수준 특징들도 요구된다. 이를 위해 본 연구에서는 저수준 특징들이 정보를 보존한 상태로 상위 계층까지 전달되기 위해 잔류 연결 (residual connection)을 적용했다. 심층신경망이 잔류 연결을 포함할 경우 얕은 네트워크를 병렬적으로 연결한 것과 유사한 효과를 얻을 수 있는데[8], 그로 인해 하위 계층들이 추출한 저수준 특징들을 상위 계층까지 잘 전달할 수 있다.
본 논문에서는 CNN을 이용해 3300종의 한글 폰트를 인식하였다. 지역적인 세부 특징을 효과적으로 추출하기 위해 비교적 적은 수의 계층을 사용하였으며, 최상단 계층 외에는 모두 컨볼루션 계층으로만 구성된 CNN을 사용하였다. 또한, 저수준 특징이 최상단까지 잘 전달되도록 하기 위해 잔류 연결을 적용하였다.
CNN의 학습과 평가에는 48x48 크기의 문자 영상들을 사용하였다. 총 7,755,000개의 문자 영상들을 학습 데이터, 검증 데이터, 평가 데이터로 나누었으며, 각각의 데이터 셋은 전체 데이터의 80%, 10%, 10%의 비율로 랜덤 분할하였다.
[1]에서는 영상인식에 성능이 우수한 딥러닝 모델인 CNN(Convolutional Neural Network)을 이용해 2383종의 폰트를 인식하였다. 학습 데이터로는 기본 폰트 영상에 다양한 변형을 적용함으로써 더 많은 영상을 추가해 사용하였다. 또한, 원활한 학습을 위해 SCAE (Stacked Convolutional Auto-Encoder)를 이용해 사전 학습을 수행한 후, 폰트 인식을 위한 교사 학습을 진행하였다.

대상 데이터

파란색 글자는 정답 폰트와 일치하는 예측 폰트. 3300가지의 폰트에 대한 예측 시각화 중 12가지의 샘플 예시.
각 폰트는 한글 2350자를 포함하고 있으므로 총 7,755,000(3300x2350)가지 폰트-문자 조합이 존재한다. CNN의 학습과 평가에는 48x48 크기의 문자 영상들을 사용하였다. 총 7,755,000개의 문자 영상들을 학습 데이터, 검증 데이터, 평가 데이터로 나누었으며, 각각의 데이터 셋은 전체 데이터의 80%, 10%, 10%의 비율로 랜덤 분할하였다.
본 논문에서는 CNN을 이용해 3300종의 한글 폰트를 인식하였다. 지역적인 세부 특징을 효과적으로 추출하기 위해 비교적 적은 수의 계층을 사용하였으며, 최상단 계층 외에는 모두 컨볼루션 계층으로만 구성된 CNN을 사용하였다.
본 연구는 한글 폰트 3300종을 인식 대상으로 한다. 각 폰트는 한글 2350자를 포함하고 있으므로 총 7,755,000(3300x2350)가지 폰트-문자 조합이 존재한다.
본 연구에서는 두 가지 모델을 사용하였는데, 각 모델의 구성은 그림 1과 같다. 폰트를 효과적으로 인식하기 위해서는 문자 영상의 지역적인 세부 특징을 추출해야 한다.
학습을 위한 실험 환경으로 Intel i7-6700K 4.00GHz CPU, GeForce GTX-1080 GPU 2개, SSD, 32GB Ram를 사용하여 실험을 진행했다. 두 가지 모델에 대해 학습을 위한 배치의 크기는 256, 학습의 횟수는 10만 번으로 동일 하게 실험했다.

이론/모형

CNN의 학습 알고리즘으로는 RMSProp(Root Mean Square Propagation) 최적화 알고리즘과 모멘텀 (momentum) 최적화 방법을 결합한 ADAM 최적화(ADAptive Momentum estimation optimizer) 알고리즘 [12]을 사용하였다. ADAM 최적화는 최근 많은 연구에서 좋은 성능을 보이고 있다.
각 상자 안의 이름은 계층의 종류, 그 옆의 숫자는 커널의 크기, 괄호안의 숫자는 차례대로 이미지의 높이, 넓이, 채널(혹은 노드)의 개수이다. 모든 은닉계층의 활성화 함수는 ReLU를사용했다.
CNN의 완전연결계층은 파라미터의 수가 매우 많아 과적합(over-fitting)이 많이 발생하는 것으로 알려져 있다. 이를 완화하기 위해 본 연구에서는 [9]과 같이 완전연결계층 대신 CCCP(Cascaded Cross Channel Pooling) 계층과 전역평균풀링(global average pooling)을 사용하였다.

성능/효과

또한, 저수준 특징이 최상단까지 잘 전달되도록 하기 위해 잔류 연결을 적용하였다. 그 결과 3300종의 폰트 전체에 대하여 1위 인식률 94.55%, 5위 인식률 99.91%의 높은 정확도를 보였다.
최근에는 많은 수의 계층으로 구성된 CNN에서는 He 초기화를 Xavier 초기화 알고리즘보다 더 많이 사용하는 추세이다[10][11]. 그러나, 본 연구에서 두 알고리즘을 적용해 본 결과 Xavier 초기화 알고리즘이 근소하게 좋은 성능을 보였다. 이는 본 연구에서 사용한 CNN이 비교적 적은 수의 계층으로 구성되었기 때문으로 추정된다.
88%였다. 그러나, 상대적 오차 감소율은 1위 인식률이 53.46%와 5위 인식률이 90.72%로 나타나 3장에서 기술한 방법들이 폰트 인식 성능 개선에 효과적이었음을 확인할 수 있었다.
[3]에서는 CNN을 이용해 필기 한글을 인식하였는데, 4개의 컨볼루션계층과 4개의 맥스풀링(max-pooling) 계층, 그리고 2개의 완전연결계층(fully-connected)으로 구성된 CNN을 이용하였다. 이 연구에서는 520자의 조합에 대한 성능은 97.67%, 2350자의 조합에 대한 성능은 96.34%의 정확도를 보였다.
MLP를 학습시키기 위해서 몇 가지 특징을 사용했는데, 문서에서 일정한 크기의 블록을 추출해서 수직방향과 수평방향으로 FFT(Fast Fourier Transform)를 수행한 후, 각 방향에 대해서 평균을 취하고, 그 결과 중에서 64개의 특징 값을 추출했다. 이와 같이 추출한 특징을 이용해 명조체, 신명조체, 견명조체, 고딕체, 중고딕체, 견고딕체, 궁서체, 샘물체, 필기체, 그래픽체라는 한글 문서의 기본이 되는 10가지 폰트를 인식하여 평균 95.19%의 인식률을 얻었다.
특히, 본 연구에서는 폰트 인식에 필요한 지역적 세부 특징을 효과적으로 추출하면서도 학습 시간과 파라미터의 수를 줄이는 방향으로 모델을 개선하였다. 제안하는 모델은 3300종의 한글 폰트에 대하여 상위 1위인식률 94.55%, 상위 5위 인식률 99.91%의 성능을 보였다.

핵심어	질문	논문에서 추출한 답변
	폰트를 구분하기 위해서는 무엇을 구분해야 하나?	한글 폰트 인식은 우리의 문자인 한글의 아름다움과 중요성을 보존하고 홍보하기 위해 유용한 기술이다. 폰트를 구분하기 위해서는 문자 영상에 존재하는 지역적인 세부 형태를 효과적으로 구분해야 한다. 폰트 인식 연구는 해외에서 영어권 언어나 중국어를 중심으로 진행되었다.
	한글 폰트 인식이 영어권 폰트 인식보다 어려운 이유는?	폰트는 디자인 분야에 있어서 필수적인 요소이며 문화적으로도 중요하다. 한글은 영어권 언어에 비해 훨씬 많은 문자를 포함하고 있기 때문에 한글 폰트 인식은 영어권 폰트 인식보다 어렵다. 본 연구에서는 최근 다양한 영상 인식 분야에서 좋은 성능을 보이고 있는 CNN을 이용해 한글 폰트 인식을 수행하였다.
	CNN의 완전연결계층은 파라미터수의 수가 매우 많아 과적합이 많이 발생하는데 이를 완하하기 위해 본 연구에서는 무엇을 사용했나?	CNN의 완전연결계층은 파라미터의 수가 매우 많아 과적합(over-fitting)이 많이 발생하는 것으로 알려져 있다. 이를 완화하기 위해 본 연구에서는 [9]과 같이 완전연결계층 대신 CCCP(Cascaded Cross Channel Pooling) 계층과 전역평균풀링(global average pooling)을 사용하였다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

딥러닝을 이용한 대규모 한글 폰트 인식
Large-Scale Hangul Font Recognition Using Deep Learning 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

딥러닝을 이용한 대규모 한글 폰트 인식 Large-Scale Hangul Font Recognition Using Deep Learning 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

딥러닝을 이용한 대규모 한글 폰트 인식
Large-Scale Hangul Font Recognition Using Deep Learning 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper