본 연구에서는 컴퓨터 비전의 분야 중 하나인 문자 인식에 관한 연구를 수행했다. 대표적인 문자인식 기법 중 하나인 광학식 문자 판독 기법의 경우 일정한 규격과 서식에서 벗어나게 되면 인식률이 떨어진다는 한계점이 있다. 따라서 본 연구에서는 딥 러닝 기법을 적용해 이러한 문제점을 해결하고자 한다. 또한 기존의 문자 인식 연구의 경우 대부분 영어 및 숫자 인식에 국한되어 있다. 따라서 본 연구는 한글 인식을 위한 딥 러닝 기반 문자 인식 알고리즘을 제시한다. 알고리즘은 1-NED 평가 방법에서 0.841의 점수를 얻었으며, 이는 영어 인식 결과와 비슷한 수치이다. 본 연구를 통해 딥 러닝 기반 한글 인식 알고리즘의 성능을 확인할 수 있으며, 이를 통해 향후 연구방향에 대해 제시한다.
본 연구에서는 컴퓨터 비전의 분야 중 하나인 문자 인식에 관한 연구를 수행했다. 대표적인 문자인식 기법 중 하나인 광학식 문자 판독 기법의 경우 일정한 규격과 서식에서 벗어나게 되면 인식률이 떨어진다는 한계점이 있다. 따라서 본 연구에서는 딥 러닝 기법을 적용해 이러한 문제점을 해결하고자 한다. 또한 기존의 문자 인식 연구의 경우 대부분 영어 및 숫자 인식에 국한되어 있다. 따라서 본 연구는 한글 인식을 위한 딥 러닝 기반 문자 인식 알고리즘을 제시한다. 알고리즘은 1-NED 평가 방법에서 0.841의 점수를 얻었으며, 이는 영어 인식 결과와 비슷한 수치이다. 본 연구를 통해 딥 러닝 기반 한글 인식 알고리즘의 성능을 확인할 수 있으며, 이를 통해 향후 연구방향에 대해 제시한다.
In this study, research on character recognition, which is one of the fields of computer vision, was conducted. Optical character recognition, which is one of the most widely used character recognition techniques, suffers from decreasing recognition rate if the recognition target deviates from a cer...
In this study, research on character recognition, which is one of the fields of computer vision, was conducted. Optical character recognition, which is one of the most widely used character recognition techniques, suffers from decreasing recognition rate if the recognition target deviates from a certain standard and format. Hence, this study aimed to address this limitation by applying deep learning techniques to character recognition. In addition, as most character recognition studies have been limited to English or number recognition, the recognition range has been expanded through additional data training on Korean text. As a result, this study derived a deep learning-based character recognition algorithm for Korean text recognition. The algorithm obtained a score of 0.841 on the 1-NED evaluation method, which is a similar result to that of English recognition. Further, based on the analysis of the results, major issues with Korean text recognition and possible future study tasks are introduced.
In this study, research on character recognition, which is one of the fields of computer vision, was conducted. Optical character recognition, which is one of the most widely used character recognition techniques, suffers from decreasing recognition rate if the recognition target deviates from a certain standard and format. Hence, this study aimed to address this limitation by applying deep learning techniques to character recognition. In addition, as most character recognition studies have been limited to English or number recognition, the recognition range has been expanded through additional data training on Korean text. As a result, this study derived a deep learning-based character recognition algorithm for Korean text recognition. The algorithm obtained a score of 0.841 on the 1-NED evaluation method, which is a similar result to that of English recognition. Further, based on the analysis of the results, major issues with Korean text recognition and possible future study tasks are introduced.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이에 따라 한 글 인식에 대한 추가적인 연구가 필요하다고 판단되었다. 따라서 본 연구는 기존의 이미지 인식 기법의 한계점을 개선하기 위해 딥 러닝 기법을 적용한 이미지 내 텍스트인식 알고리즘을 제시하고, 한글 데이터 학습을 통해 본 알고리즘이 한글 인식에 활용될 수 있는지에 대한 검토하고자 한다.
딥 러닝 기법을 활용한 이미지 인식의 경우 다양한 형태의 데이터를 학습에 활용하기 때문에 기존에 비해 규격 및 변화에 능동적으로 대처할 수 있다[3, 4]. 따라서 본 연구는 딥 러닝 기법을 이미지 인식 문제에 적용하여 이미지 내 텍스트 검출 알고리즘을 제시한다.대부분의 선행연구에서 제안된 알고리즘의 경우 텍스트 인식 범위가 영어와 숫자, 특수문자로 제한되어 있다.
과거에 활용된 이미지 인식 기법의 경우 다양한 변수가 발생할 수 있는 현실적인 문제에 적용하기 어렵다. 따라서 본 연구에서는 기존 이미지 인식 기법의 한계점을 보완하는 방안으로 인공지능 기법 중 하나인 딥 러닝 기법을 제안했다.
따라서 본 연구에서는 선행연구에서 제기된 한글 텍스트 인식의 한계점을 해결하고자 한다. 선행연구에서 제안된 알고리즘을 활용해 텍스트 인식 범위를 한글까지 확장한 뒤, 해당 알고리즘의 성능 검증을 통해 한글 데이터를 학습한 새로운 알고리즘이 한글 텍스트 인식 문제에 적합한지에 대해 측정한다.
본 연구는 기존 텍스트 인식 알고리즘의 문제점을 개선하기 위해 딥 러닝 기법을 제안했다. 딥 러닝 기법 중 하나인 CRNN을 활용하여 다양한 길이의 텍스트를 인식을 시도했다.
또한 기존 선행연구에서 영어와 숫자에 국한되어있던 텍스트 인식 범위를 한 글 텍스트 데이터까지 확장시켰다. 본 연구에서는 한글데이터 학습을 통해 딥 러닝 기반 한글 인식이 가능함을 확인하였으며, 그 결과를 실험을 통해 제시했다. 실험 결과, 영어 텍스트 데이터와 한글 텍스트 데이터 모두 전체적인 단어의 형태는 잘 파악하는 것으로 결과가 나타났다.
제안 방법
이후 Convolution Layer와 Pooling Layer를 활용하여 이미지의 특성을 추출한다. CRNN에서는 7개의 Convolution Layer가 활용되었으며, 4개의 Max Pooling Layer를 구성하여 Sub-Sampling을 진행했다. 이를 통해 이미지의 특징을 효율적으로 추출했다.
하지만 WRA에 비해 평가 결과가 직관적이지 못한 단점이 있다. 따라서 본 연구에서는 두 가지 평가 지표를 동시에 사용하여 보다 공정하면서도 직관적인 결과를 제시한다.
하지만 해당알고리즘을 활용한 한글 인식 연구는 미비한 실정이다. 따라서 본 연구에서는 수집한 한글 데이터를 CRNN에 학습시켜 한글 인식 알고리즘을 구성했다.
본 연구에서는 이미지 내 한글 텍스트 인식을 위해 영어, 숫자 및 한글 데이터를 알고리즘에 학습시켰다. 이미지 데이터의 학습 효율성을 위해 입력 이미지 사이즈는 256 x 32 사이즈로 고정했다.
따라서 본 연구에서는 선행연구에서 제기된 한글 텍스트 인식의 한계점을 해결하고자 한다. 선행연구에서 제안된 알고리즘을 활용해 텍스트 인식 범위를 한글까지 확장한 뒤, 해당 알고리즘의 성능 검증을 통해 한글 데이터를 학습한 새로운 알고리즘이 한글 텍스트 인식 문제에 적합한지에 대해 측정한다.
CRNN은 다양한 크기의 이미지를 처리할 수 있다. 앞서 언급한 바와 같이 CNN을 통해 이미지 내의 텍스트 특징을 추출하고 RNN을 활용하여 추출된 특징을 문자로 반환한다. 하지만 해당 알고리즘을 활용한 한글 인식 연구는 미비한 실정이다.
CRNN은 우선 CNN층에서 256 x 32 사이즈의 이미지를 입력받는다. 이후 Convolution Layer와 Pooling Layer를 활용하여 이미지의 특성을 추출한다. CRNN에서는 7개의 Convolution Layer가 활용되었으며, 4개의 Max Pooling Layer를 구성하여 Sub-Sampling을 진행했다.
대상 데이터
숫자와 영어를 인식하기 위해 선행연구에서 사용된 데이터 셋을 학습했다. Oxford SynthText 데이터와 ICDAR-2015 FST 데이터를 활용했다. 한글 인식을 위한 데이터는 KAIST(Korea Advanced Institute of Science and Technology)에서 제공한 KAIST To IST 데이터를 활용했다.
본 연구에서는 이미지 내 텍스트를 인식하기 위해 다양한 데이터 셋을 활용했다. 숫자와 영어를 인식하기 위해 선행연구에서 사용된 데이터 셋을 학습했다.
본 연구에서는 이미지 내 텍스트를 인식하기 위해 다양한 데이터 셋을 활용했다. 숫자와 영어를 인식하기 위해 선행연구에서 사용된 데이터 셋을 학습했다. Oxford SynthText 데이터와 ICDAR-2015 FST 데이터를 활용했다.
또한 컬러 이미지를 흑백으로 전환해주는 Grayscale 기법을 적용해 학습 시간을 효과적으로 단축시켰다. 전체 데이터 중 80%를 학습과학습검증 데이터로 사용했으며, 나머지 20%의 데이터를 활용하여 성능을 평가했다.
Table 3은 CRNN의 영어 및 한글 인식 성능을 나타내고 있다. 학습에 활용하지 않은 ICDAR-2015 FST 데 이터 셋과 KAIST To IST 데이터 셋을 활용하여 알고리 즘을 평가했다.
Oxford SynthText 데이터와 ICDAR-2015 FST 데이터를 활용했다. 한글 인식을 위한 데이터는 KAIST(Korea Advanced Institute of Science and Technology)에서 제공한 KAIST To IST 데이터를 활용했다. 이 데이터 셋의 경우 간판, 상표 등의 이미지로 이루어져 있으며 2,000개 이상의 텍스트 데이터를 포함하고 있다.
본 연구에서는 딥 러닝 기법 중 합성곱 신경망(Convolution Neural Network; CNN)과 재귀 신경망(Recurrent Neural Networks; RNN)을 함께 고려한 알고리즘을 활용했다.한글 인식을 위해 다양한 한글 데이터를 활용하였으며, 영어와 숫자 데이터의 경우 기존 선행연구에서 사용한 데이터를 참고했다. 알고리즘 평가를 위한 방법으로는 WRA(Word Recognition Accuracy) 평가 방법과 1-NED(1-Normalized Edit Distance) 평가 방법을 사용했다.
이론/모형
또한 컬러 이미지를 흑백으로 전환해주는 Grayscale 기법을 적용해 학습 시간을 효과적으로 단축시켰다.
본 연구는 기존 텍스트 인식 알고리즘의 문제점을 개선하기 위해 딥 러닝 기법을 제안했다. 딥 러닝 기법 중 하나인 CRNN을 활용하여 다양한 길이의 텍스트를 인식을 시도했다. 영어 텍스트 데이터 및 한글 텍스트 데이터를 대상으로 해당 알고리즘을 검증하였고, 다양한 길이의 텍스트 인식이 가능함을 확인했다.
이를 통해 이미지의 특징을 효율적으로 추출했다. 또한 학습의 효율을 높이기 위해 정규화 기법 중 하나인 Batch Normalization Layer를 활용하여 과적합의 위험을 줄일 수 있었다.
본 연구에서는 딥 러닝 기법 중 합성곱 신경망(Convolution Neural Network; CNN)과 재귀 신경망(Recurrent Neural Networks; RNN)을 함께 고려한 알고리즘을 활용했다.한글 인식을 위해 다양한 한글 데이터를 활용하였으며, 영어와 숫자 데이터의 경우 기존 선행연구에서 사용한 데이터를 참고했다.
본 연구에서는 텍스트 인식 알고리즘의 성능을 측정하기 위해 WRA(Word Recognition Accuracy) 평가 방법과 1-NED(1-Normalized Edit Distance) 평가 방법을 활용했다.
한글 인식을 위해 다양한 한글 데이터를 활용하였으며, 영어와 숫자 데이터의 경우 기존 선행연구에서 사용한 데이터를 참고했다. 알고리즘 평가를 위한 방법으로는 WRA(Word Recognition Accuracy) 평가 방법과 1-NED(1-Normalized Edit Distance) 평가 방법을 사용했다.
CNN층에서 처리된 데이터는 RNN층으로 넘어온다. 추출된 이미지의 특징을 시계열적 데이터로 활용하기 위해 Bi-LSTM(Bi-directional Long Shot-Term Memory) Layer를 활용했다. Bi-LSTM Layer를 활용해 이미지로부터 글자를 읽은 뒤, CTC Layer를 활용해 정렬된 형태로 출력하는 역할을 한다.
성능/효과
본 연구에서는 한글데이터 학습을 통해 딥 러닝 기반 한글 인식이 가능함을 확인하였으며, 그 결과를 실험을 통해 제시했다. 실험 결과, 영어 텍스트 데이터와 한글 텍스트 데이터 모두 전체적인 단어의 형태는 잘 파악하는 것으로 결과가 나타났다. 본 연구를 통해 기존의 한글 텍스트 인식 기법을 딥러닝이 적용된 새로운 기법으로 대체할 수 있을 것으로 기대된다.
딥 러닝 기법 중 하나인 CRNN을 활용하여 다양한 길이의 텍스트를 인식을 시도했다. 영어 텍스트 데이터 및 한글 텍스트 데이터를 대상으로 해당 알고리즘을 검증하였고, 다양한 길이의 텍스트 인식이 가능함을 확인했다. 또한 기존 선행연구에서 영어와 숫자에 국한되어있던 텍스트 인식 범위를 한 글 텍스트 데이터까지 확장시켰다.
하지만 영어 및 숫자 데이터와 달리 한글 텍스트 인식 성능은 다소 떨어지는 결과를 확인할 수 있었다. 이는 충분한 데이터 셋을 학습에 활용하지 못해 발생한 문제라고 판단된다.
후속연구
그 이유는 영어 텍스트 인식 알고리즘에 비해 학습된 한 글 데이터가 충분하지 않기 때문이라고 할 수 있다. 만약 추가적인 한글 데이터 셋이 확보된다면 영어 텍스트 데이터 인식률과 유사한 정확도를 보일 수 있을 것이라 기대된다.또한 1-NED 평가 방법을 기준으로 평가했을 때, 약 0.
실험 결과, 영어 텍스트 데이터와 한글 텍스트 데이터 모두 전체적인 단어의 형태는 잘 파악하는 것으로 결과가 나타났다. 본 연구를 통해 기존의 한글 텍스트 인식 기법을 딥러닝이 적용된 새로운 기법으로 대체할 수 있을 것으로 기대된다.
영어 및 숫자 데이터 셋의 경우 텍스트 인식 문제를 해결하기 위해 다양한 데이터 셋을 활용할 수 있지만 한글 데이터의 경우 굉장히 제한적이라고 할 수 있다. 이러한 문제점은 향후 연구에서 추가적인 데이터확보와 알고리즘 개선을 통해 해결될 수 있는 문제일 것으로 판단되며, 충분한 데이터가 확보된다면 현재보다 훨씬 좋은 알고리즘을 제안할 수 있을 것으로 기대된다.
질의응답
핵심어
질문
논문에서 추출한 답변
기존의 문자 인식 연구의 한계는 무엇인가?
따라서 본 연구에서는 딥 러닝 기법을 적용해 이러한 문제점을 해결하고자 한다. 또한 기존의 문자 인식 연구의 경우 대부분 영어 및 숫자 인식에 국한되어 있다. 따라서 본 연구는 한글 인식을 위한 딥 러닝 기반 문자 인식 알고리즘을 제시한다.
광학식 문자 판독 기법의 특징은 무엇인가?
본 연구에서는 컴퓨터 비전의 분야 중 하나인 문자 인식에 관한 연구를 수행했다. 대표적인 문자인식 기법 중 하나인 광학식 문자 판독 기법의 경우 일정한 규격과 서식에서 벗어나게 되면 인식률이 떨어진다는 한계점이 있다. 따라서 본 연구에서는 딥 러닝 기법을 적용해 이러한 문제점을 해결하고자 한다.
광학식 문자 판독 기법의 한계점을 해결하기 위한 방법은 무엇인가?
또한 기존의 문자 인식 연구의 경우 대부분 영어 및 숫자 인식에 국한되어 있다. 따라서 본 연구는 한글 인식을 위한 딥 러닝 기반 문자 인식 알고리즘을 제시한다. 알고리즘은 1-NED 평가 방법에서 0.
참고문헌 (17)
H. J. Son & S. H. Kim. (2007). Machine Learning in Character Pattern Recognition. Communications of the Korean Institute of Information Scientists and Engineers, 25(3), 12-20. pISSN : 1229-6821
K. S. Son, J. W. Kim & J. H. Lim. (2019). Convergence CCTV camera embedded with Deep Learning SW technology. Journal of the Korea Convergence Society, 10(1), 103-113. DOI : 10.15207/JKCS.2019.10.1.103
Q. Ye & D. Doermann. (2014). Text Detection and Recognition in Imagery: A Survey. IEEE Transactions On Patern Analysis And Machine Inteligence, 37(7), 1480-1500. DOI : 10.1109/TPAMI.2014.2366765
K. K. Kim, Y. Hur, G. M. Kim, W. H. Yu & H. S. Lim. (2017). Detail Focused Image Classifier Model for Traditional Images. Journal of the Korea Convergence Society, 8(12), 85-92. DOI : 10.15207/JKCS.2017.8.12.085
J. S. Hwang, H. H. Jeon, S. H. Kim, & K. K. Kwon. (2017). OCR image recognition rate digital solution for prescription scanning. Proceedings of Korean Institute of Information Technology Conference. (pp. 379-381).
S. H. Lee, J. H. Jeon, H. S. Hong, D. H. Kang & M. H. Park. (2017). Korean Prescription Character Recognition System Using OCR Technology. Proceedings of The Korean Institute of Information Scientists and Engineers Conference. (pp. 362-364).
C. Y. Suen, S. Mori, H. C. Rim & P. S. P. Wang. (1998). Intriguing Aspects of Oriental Languages. International Journal of Pattern Recognition and Artificial Intelligence, 12(1), 5-29. DOI : 10.1142/S0218001498000038
M. K. Kim & K. H. Lee. (1999). Design of Receipt Automation System Using OCR. Proceedings of The Korean Institute of Information Scientists and Engineers Conference. (pp. 531-533).
S. W. Lee. (2002). Study on the selecting optimal artificial neural networks model prior to forecasting stock. master thesis, Inje University, Gyeongsangnam-do.
K. D. Kim & Y. H. Kim. (2017). A Survey on Oil Spill and Weather Forecast Using Machine Learning Based on Neural Networks and Statistical Methods. Journal of the Korea Convergence Society, 8(10), 1-8. DOI : 10.15207/JKCS.2017.8.10.001
Q. Li, W. Cai, X. Wang, Y. Zhou, D. D. Feng & M. Chen. (2014). Medical image classification with convolutional neural network. International Conference on Control Automation Robotics & Vision. (pp. 844-848). DOI : 10.1109/ICARCV.2014.7064414
O. Janssens et al. (2016). Convolutional Neural Network Based Fault Detection for Rotating Machinery. Journal of Sound and Vibration, 377, 331-345. DOI : 10.1016/J.JSV.2016.05.027
Y. Lecun, L. Bottou, Y. Bengio & P. Haffner. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), 2278-2324. DOI : 10.1109/5.726791
P. Liu, X. Qiu & X. Huang. (2016). Recurrent Neural Network for Text Classification with Multi-Task Learning. Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence.
B. Shi, X. Bai & C. Yao. (2017). An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(11), 2297-2304. DOI : 10.1109/TPAMI.2016.2646371
Y. G. Kim & E. Y. Cha. (2016). Streamlined GoogLeNet Algorithm Based on CNN for Korean Character Recognition. Journal of the Korea Institute of Information and Communication Engineering, 20(9), 1657-1685. DOI : 10.6109/jkiice.2016.20.9.1657
B. Shi, M. Yang, X. Wang. P. Lyu, C. Yao & X. Bai (2019). ASTER: An Attentional Scene Text Recognizer with Flexible Rectification. IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(9), 2035-2048. DOI : 10.1109/TPAMI.2018.2848939
※ AI-Helper는 부적절한 답변을 할 수 있습니다.