CNN기반 딥러닝을 이용한 Kuzushiji-MNIST/49 분류의 정확도 향상을 위한 학습 방안 Training Method for Enhancing Classification Accuracy of Kuzushiji-MNIST/49 using Deep Learning based on CNN원문보기
본 논문에서는 고대 및 중세 시대의 일본 문자에 대한 데이터세트인 Kuzushiji-MNIST와 Kuzushiji-49를 정확하게 분류하기 위한 딥러닝 학습 방법에 대해서 제안한다. 최신의 합성곱 신경망 네트워크들을 분석하여 가장 적합한 네트워크를 선별하고, 이 네트워크를 이용하여 Kuzushiji-MNIST와 Kuzushiji-49 데이터세트를 분류하기 위한 학습 횟수를 선정한다. 또한 Mixup과 Random Erase 등의 학습 방법을 적용하여 높은 정확도를 갖도록 학습을 진행한다. 학습 결과를 살펴보면 MNIST에 대해서는 99.75%, K-MNIST에 대해서는 99.07%, 그리고 K-49에 대해서는 97.56%의 정확도를 보임으로써 제안한 학습 방법이 높은 성능을 보일 수 있음을 증명하였다. 이와 같은 딥러닝 기반의 기술을 통해 동아시아와 서양의 역사, 문학, 그리고 문화를 연구하는 다양한 연구자들에게 좋은 연구 기반을 제공할 것으로 사료된다.
본 논문에서는 고대 및 중세 시대의 일본 문자에 대한 데이터세트인 Kuzushiji-MNIST와 Kuzushiji-49를 정확하게 분류하기 위한 딥러닝 학습 방법에 대해서 제안한다. 최신의 합성곱 신경망 네트워크들을 분석하여 가장 적합한 네트워크를 선별하고, 이 네트워크를 이용하여 Kuzushiji-MNIST와 Kuzushiji-49 데이터세트를 분류하기 위한 학습 횟수를 선정한다. 또한 Mixup과 Random Erase 등의 학습 방법을 적용하여 높은 정확도를 갖도록 학습을 진행한다. 학습 결과를 살펴보면 MNIST에 대해서는 99.75%, K-MNIST에 대해서는 99.07%, 그리고 K-49에 대해서는 97.56%의 정확도를 보임으로써 제안한 학습 방법이 높은 성능을 보일 수 있음을 증명하였다. 이와 같은 딥러닝 기반의 기술을 통해 동아시아와 서양의 역사, 문학, 그리고 문화를 연구하는 다양한 연구자들에게 좋은 연구 기반을 제공할 것으로 사료된다.
In this paper, we propose a deep learning training method for accurately classifying Kuzushiji-MNIST and Kuzushiji-49 datasets for ancient and medieval Japanese characters. We analyze the latest convolutional neural network networks through experiments to select the most suitable network, and then u...
In this paper, we propose a deep learning training method for accurately classifying Kuzushiji-MNIST and Kuzushiji-49 datasets for ancient and medieval Japanese characters. We analyze the latest convolutional neural network networks through experiments to select the most suitable network, and then use the networks to select the number of training to classify Kuzushiji-MNIST and Kuzushiji-49 datasets. In addition, the training is conducted with high accuracy by applying learning methods such as Mixup and Random Erase. As a result of the training, the accuracy of the proposed method can be shown to be high by 99.75% for MNIST, 99.07% for Kuzushiji-MNIST, and 97.56% for Kuzushiji-49. Through this deep learning-based technology, it is thought to provide a good research base for various researchers who study East Asian and Western history, literature, and culture.
In this paper, we propose a deep learning training method for accurately classifying Kuzushiji-MNIST and Kuzushiji-49 datasets for ancient and medieval Japanese characters. We analyze the latest convolutional neural network networks through experiments to select the most suitable network, and then use the networks to select the number of training to classify Kuzushiji-MNIST and Kuzushiji-49 datasets. In addition, the training is conducted with high accuracy by applying learning methods such as Mixup and Random Erase. As a result of the training, the accuracy of the proposed method can be shown to be high by 99.75% for MNIST, 99.07% for Kuzushiji-MNIST, and 97.56% for Kuzushiji-49. Through this deep learning-based technology, it is thought to provide a good research base for various researchers who study East Asian and Western history, literature, and culture.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서 우리는 이러한 주요 CNN 구조를 이용하여 K-MNIST를 분류하기 위한 학습을 수행할 것이고, K-MNIST에 가장 적합한 모델을 선정하고 실험을 수행할 것이다.
그 이후로 VGG[5], NiN[6], Inception[7][8], ResNet[9], DenseNet[10] 및 NASNet[11]을 포함하여 다양한 새로운 네트워크가 제안되었고 이와 함께 정확도도 꾸준한 개선 추세를 보였다. 본 논문에서는 K-MNIST에 적합한 다양한 학습 방법을 적용함으로써 모델 정확도는 향상시키지만 계산복잡도는 거의 변경하지 않는 학습 방법에 대해 제안하고자 한다. 이러한 방법들은 대체로 모델의 선택을 포함하여 학습률을 조정하거나, 전처리 기법을 적용하는 것과 같은 일종의 “트릭”에 해당한다.
본 논문에서는 Kuzushiji-MNIST와 Kuzushiji-49 데이터 세트의 분류를 위한 학습 방법을 제안하였다. 실험을 통해서 CNN으로는 DenseNet이 가장 좋은 성능을 보였고, 300회 이상의 학습을 진행할 경우에 높은 정확도를 보였다.
제안 방법
가지고 있다. K-MNIST의 MNIST를 기반으로 하는 데이터 세트의 구성은 Fashion-MNIST[15]로부터영감을 얻어 개발되었다.
가중치에만 decay를 주는 것이 과학습을 방지하는데 효과적이라는 연구 결과에 따라서 본 논문에서는 다소 경험적으로 적용하였다. KMINST에 가장 적합한 CNN 모델을 선정하기 위해서 기본적인 기법들을 적용하고, 학습횟수에 따른 정확도를 측정하였다. CNN 모델에는 MobileNet[16], ShuffleNet[17], ShuffleNet-V2[17], Resnet-50[18], Inception-V3[8], 그리고 DenseNet[10] 등을 이용하였다.
MNIST는 10개의 클래스로 제한되며 Kuzushiji 히라가나를 완전히 표현하는데 필요한 클래스 49개 보다 클래스의 수가 훨씬 적기 때문에 Kuzushiji-MNIST를 만들 때 히라가나의 10행 각각을 나타내는 하나의 문자를 선택하였다. 표 1 과 같이 K-49에는 49개의 클래스 (266, 407개 이미지)가 있다.
가장 먼저 학습의 길이, 즉 몇 번 학습할 것인지 epoch 수를 결정하기 위한 실험을 진행한다. 이때 기본 CNN 에 두 가지 기법을 적용하였다.
두 번째는 No bias decay 기법으로 L2 정규화와 가중치 및 편차의 정규화에 모두 적용한다. 가중치에만 decay를 주는 것이 과학습을 방지하는데 효과적이라는 연구 결과에 따라서 본 논문에서는 다소 경험적으로 적용하였다. KMINST에 가장 적합한 CNN 모델을 선정하기 위해서 기본적인 기법들을 적용하고, 학습횟수에 따른 정확도를 측정하였다.
ResNet의 핵심알고리즘은 그림 2의 잔차블록(residual block)이다. 또한 기울기 값이 잘 전파될 수 있도록 일종의 지름길 (shortcut, skip connection)을 만들었다. ResNet의 성능이 좋은 이유는 기울기 문제 외에 잔차블록이 앙상블 (ensemble) 모델을 구축한 것과 비슷한 효과를 내기 때문이다.
본 논문에서는 몇 가지 기법을 활용하여 학습 효과의 상승을 시도하였다. 학습 효율을 높이는 방법은 다양하다.
최근 아마존에서 발표한 CNN 학습 방법에 대한 논문[12]에서는 Cosine Learning Rate Decay, Label Smoothing, Knowledge Distillation, 그리고 Mixup Training 기법들이 최근 CNN 모델들에 가장 적합한 학습 방법이며, 그 효과의 우수성을 주장하였다. 본 연구팀은 이러한 기법들 중 Mixup 훈련 방법[19]과 Random Erase 기법[20]을 적용하여 K-MNIST데이터 세트의 학습에 성능 향상을 확인하였다.
실험을 통해서 CNN으로는 DenseNet이 가장 좋은 성능을 보였고, 300회 이상의 학습을 진행할 경우에 높은 정확도를 보였다. 여러 학습 기법들 중에서 Mixup과 Random Erase 조합이 좋은 학습 결과를 보인다는 것을 실험적으로 도출하여 Kuzushiji-MNIST와 Kuzushiji-49를 위한 학습 방법을 제안하였다. 이와 같은 딥러닝 기반의 기술을 통해 동아시아와 서양의 역사, 문학, 그리고 문화를 연구하는 다양한 연구자들에게 좋은 연구 기반을 제공할 것으로 사료된다.
VGGNet 의 개념을 발전시켜 합성곱 커널에 인수분해 개념을 포함시켜 은닉층을 더욱 깊게 만들었다[8]. 인셉션의 첫 번째 버전에서 사용되었던 배치 정규화를 기본적으로 사용하면서 인수분해와 라벨 스무딩, 그리고 보조 분류기(Auxiliary classifier)를 포함시켜 Inception-V3를 제안하였다. 그림 3에 인셉션의 은닉층의 노드를 나타내었다.
학습 기법들에 대한 분석 및 적용을 통해서 본 논문에서는 K-MNIST 데이터세트를 분류하는 문제를 해결하는 데에 DenseNet이 가장 적합하다는 것을 확인하였기 때문에 DenseNet을 이용하여 주로 실험을 수행하였다. 그림 8은 K-MNIST 데이터베이스를 이용한 분류 결과를 예시하였고, 그림 9는 K-49 데이터베이스를 이용한 분류 결과를 예시하였다.
대상 데이터
이 데이터세트는 머신러닝과 고대 및 중세 일본어의 해석이 쉽게 가능하도록 만들어진 것으로 18세기에 인쇄된 35권의 고전 서적에서 스캔한 문자를 사전 처리하여 3개의 데이터 세트로 구성되었다. 첫 번째는 MNIST[14] 데이터 세트를 대체하는 K-MNIST, 두 번째는 48개의 히라가나 문자와 하나의 히라가나 반복 마크를 포함하는 훨씬 크지만 불균형한 K-49이다.
일례로 최근 2018년에 일본, 캐나다 및 미국의 연구자들은 공동연구로 그림 1과 같은 Kuzushiji-MNIST(K-MNIST) 및 Kuzushiji-49(K-49)라는 데이터베이스를 구축하였다. Kuzushiji 문자는 약 1,000여 년 동안 사용해 왔음에도 불구하고 현대 일본에서는 독해의 곤란과 관련 전문가의 부재 등으로 가르치고 있지 않다.
3개의 데이터 세트로 구성되었다. 첫 번째는 MNIST[14] 데이터 세트를 대체하는 K-MNIST, 두 번째는 48개의 히라가나 문자와 하나의 히라가나 반복 마크를 포함하는 훨씬 크지만 불균형한 K-49이다. 마지막으로 표본이 거의 없는 희귀 문자를 포함하여 3, 832개의 한자 문자로 구성된 Kuzushiji-Kanji이다.
데이터처리
표 5에서는 본 논문에서 제안한 방법에 의한 결과와 기존의 논문에서 나타낸 결과를 비교하였다. 기존 방법에 의한 결과는 [1]번 논문의 연구팀이 추가 연구를 수행하여 웹 상에 결과를 게시한 것으로부터 가져왔다.
이론/모형
KMINST에 가장 적합한 CNN 모델을 선정하기 위해서 기본적인 기법들을 적용하고, 학습횟수에 따른 정확도를 측정하였다. CNN 모델에는 MobileNet[16], ShuffleNet[17], ShuffleNet-V2[17], Resnet-50[18], Inception-V3[8], 그리고 DenseNet[10] 등을 이용하였다. 표 2에 다양한 CNN을 이용한 epoch에 따른 학습 결과를 정리하였다.
첫 번째는 학습률 Warmup인데 이 방식은 초기에 학습률을 0으로 설정하고 이를 일정 기간동안 선형적으로 증가시키는 방식이다. 두 번째는 No bias decay 기법으로 L2 정규화와 가중치 및 편차의 정규화에 모두 적용한다. 가중치에만 decay를 주는 것이 과학습을 방지하는데 효과적이라는 연구 결과에 따라서 본 논문에서는 다소 경험적으로 적용하였다.
그러나 실제로 정규화와 데이터 확대(Augmentation)이 사용상에 있어서 큰 차이를 보이지는 않는다. 본 논문에서는 K-MNIST 에 더욱 좋은 성능을 높이는 무작위 지우기(Random Erase) 방식을 채택하였다. Mixup과 Random Erase를 K-MNIST에 적용한 결과를 그림 7에 나타냈다.
이 경우, 본 연구에서는 합성곱 심층 신경망 (convolutional neural network, CNN) 형태의 딥러닝 기법을 이용하고자 한다.
대용량의 데이터베이스가 확보되면 딥러닝을 이용하여 인공지능을 학습시킬 수 있다. 인공지능을 학습시키는 방법은 다양한데, 본 논문에서는 가장 널리 사용되는 지도학습법을 사용한다. 지도학습은인공지능에게 문제와 정답(데이터세트)을 알려주어 스스로 문제로부터 정답을 풀 수 있는 능력을 갖도록 만드는 것(훈련)이다.
성능/효과
결과를 나타냈다. MNIST의 경우에는 99.75%의 매우 높은 정확도를 보였고, K-MNIST에 대해서도 99.07 의 매우 높은 결과를 나타냈다.
두 번째는 다른 네트워크보다 파라미터의 수를 많이 줄일 수 있다는 것이다. DenseNet의 레이어들은 다른 네트워크들에 비해 좁다.
이것은 저수준 피처와 고수준 피처를 효율적으로 섞어서 사용하는 것이라고 볼 수 있다. 마지막으로 고밀도 연결(dense connection)이 정규화 효과를 가지고 있어서 작은 데이터 셋에서도 과적합 되는 것을 줄여준다.
실험을 통해서 CNN으로는 DenseNet이 가장 좋은 성능을 보였고, 300회 이상의 학습을 진행할 경우에 높은 정확도를 보였다. 여러 학습 기법들 중에서 Mixup과 Random Erase 조합이 좋은 학습 결과를 보인다는 것을 실험적으로 도출하여 Kuzushiji-MNIST와 Kuzushiji-49를 위한 학습 방법을 제안하였다.
그림 10(b), (d)에서 “Validation Accuracy” 그래프를 비교해보면 그림 10(d) 의 그래프가 더욱 빠르게 편차가 적은 값으로 수렴되어간다는 것을 확인할 수 있다. 이러한 결과를 통해 Mixup 과 Random Erase가 K-MNIST의 분류 문제를 잘 해결하기 위한 학습방법이라는 것을 확인할 수 있다.
그림 10(b)는 Mixup만을 적용한 것이고, 그림 10(c)는 Randm Erase만을 적용한 것이고, 그림 10(d)는 둘 다 적용한 것이다. 특이한 점은 Mixup을 적용할 경우 정확도는 향상되지만 학습 시 loss 값은 높아진다는 것으로, Loss 값이 0.26정도로 비교적 높지만 분류의 정확도는 높다는 특성을 보인다. 또한 Random Erase를 적용한 경우, 학습의 안정화가 빨리 이루어진다는 점을 확인할 수 있다.
표 2에 다양한 CNN을 이용한 epoch에 따른 학습 결과를 정리하였다. 표 2의 결과에서 나타나는 것과 같이 DenseNet이 가장 좋은 성능을 보였고, epoche 300이 되어야 최고의 정확도를 보였다.
기존 방법에 의한 결과는 [1]번 논문의 연구팀이 추가 연구를 수행하여 웹 상에 결과를 게시한 것으로부터 가져왔다. 표 5에서 볼 수 있듯이 MNIST에 대해서는 99.75%, K-MNIST에 대해서는 99.07%, 그리고 K-49에 대해서는 97.56%의 정확도를 보임으로써 가장 높은 성능을 나타냈다.
후속연구
상기와 같은 역사적 배경 하, 중세 문자에 대한 연구와 함께 그 문자들을 인식하기 위해서는 본 연구에서와 같은 딥러닝의 특성을 숙지하고 본 연구에 적용할 것이 필요하다. 이 경우, 본 연구에서는 합성곱 심층 신경망 (convolutional neural network, CNN) 형태의 딥러닝 기법을 이용하고자 한다.
이와 같은 딥러닝 기반의 기술을 통해 동아시아와 서양의 역사, 문학, 그리고 문화를 연구하는 다양한 연구자들에게 좋은 연구 기반을 제공할 것으로 사료된다. 아울러 본 연구에서와 같은 첨단기술을 수단으로 다양한 학제간 소통과 융합에 일조하기를 기대한다.
여러 학습 기법들 중에서 Mixup과 Random Erase 조합이 좋은 학습 결과를 보인다는 것을 실험적으로 도출하여 Kuzushiji-MNIST와 Kuzushiji-49를 위한 학습 방법을 제안하였다. 이와 같은 딥러닝 기반의 기술을 통해 동아시아와 서양의 역사, 문학, 그리고 문화를 연구하는 다양한 연구자들에게 좋은 연구 기반을 제공할 것으로 사료된다. 아울러 본 연구에서와 같은 첨단기술을 수단으로 다양한 학제간 소통과 융합에 일조하기를 기대한다.
참고문헌 (26)
T. Clanuwat, M. Bober-Irizar, A. Kitamoto, A. Lamb, K. Yamamoto, and D. Ha. "Deep Learning for Classical Japanese Literature," arXiv preprint arXiv:1812.01718v1, 2018.
Y. Hashimoto, Y. Iikura, Y. Hisada, S. Kang, T. Arisawa, and D. Kobayashi-Better. (2017, November). The Kuzushiji Project: Developing a Mobile Learning Application for Reading Early Modern Japanese Texts. DHQ: Digital Humanities Quarterly [Internet]. 11(1), pp. 1-13. Available: http://dh2016.adho.org/static/data/254.html.
K. Takashiro. (2013, March). Notation of the Japanese Syllabary seen in the Textbook of the Meiji first Year. The bulletin of Jissen Women's Junior College [Internet]. pp. 34:109-119. Available: https://ci.nii.ac.jp/els/contents110009587135.pdf?idART0010042265.
A. Krizhevsky, I. Sutskever, and G. E. Hinton, "Imagenet classification with deep convolutional neural networks," in Advances in neural information processing systems, pp. 1097-1105, Jan. 2012.
K. Simonyan, and A. Zisserman. "Very deep convolutional networks for large-scale image recognition," arXiv preprint arXiv:1409.1556, 2014.
M. Lin, Q. Chen, and S. Yan. "Network in network," arXiv preprint arXiv:1312.4400, 2013.
L. Chen, G. Papandreou, F. Schroff, and H. Adam. "Rethinking atrous convolution for semantic image segmentation," arXiv preprint arXiv:1706.05587, 2017.
C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna, "Rethinking the inception architecture for computer vision," in Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, pp. 2818-2826, 2016.
K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," in Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, pp. 770-778, 2016.
G. Huang, Z. Liu, L. van der Maaten, and K. Q. Weinberger, "Densely connected convolutional networks," in Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, pp. 2261-2269. 2017.
B. Zoph, V. Vasudevan, J. Shlens, and Q. V. Le. "Learning transferable architectures for scalable image recognition," arXiv preprint arXiv:1707.07012, 2017.
T. He, Z. Zhang, H. Zhang, Z. Zhang, J. Xie, and M. Li, "Bag of Tricks for Image Classification with Convolutional Neural Networks," in Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, pp. 558-567, 2019.
C. for Open Data in the Humanities. Kuzushiji dataset [Internet]. Available: http://codh.rois.ac.jp/char-shape/.
Y. LeCun. The MNIST database of handwritten digits [Internet]. Available: http://yann.lecun.com/exdb/mnist/.
H. Xiao, K. Rasul, and R. Vollgraf. "Fashion-MNIST: a novel image dataset for benchmarking machine learning algorithms," arXiv preprint arXiv:1708.07747, 2017.
A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam. "Mobilenets: Efficient convolutional neural networks for mobile vision applications," arXiv preprint arXiv:1704.04861, 2017.
H.-T. Zheng, N. Ma, X. Zhang, and J. Sun. "Shufflenet v2: Practical guidelines for efficient cnn architecture design," arXiv preprint arXiv:1807.11164, 2018.
K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," in Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, pp. 770-778, 2016.
H. Zhang, M. Cisse, Y. N. Dauphin, and D. Lopez-Paz. "mixup: Beyond Empirical Risk Minimization," arXiv preprint arXiv:1710.09412v2, 2018.
Z. Zhong, L. Zheng, G. Kang, S. Li, and Y. Yang. "Random Erasing Data Augmentation," arXiv preprint arXiv: 1708.04896v2, 2017.
V. Verma, A. Lamb, C. Beckham, A. Najafi, A. Courville, I. Mitliagkas, and Y. Bengio. "Manifold Mixup: Learning Better Representations by Interpolating Hidden States," arXiv preprint arXiv:1806.05236, 2018.
S. Bubeck, and U. V. Luxburg, "Nearest Neighbor Clustering: A Baseline Method for Consistent Clustering with Arbitrary Objective Functions," Journal of Machine Learning Research, vol. 10, pp. 657-698, Mar. 2009.
C. Chang, S. Chou. (2015, June). Tuning of the hyperparameters for L2-loss SVMs with the RBF kernel by the maximum-margin principle and the jackknife technique. Pattern Recognition [Internet]. 48(12), pp. 3983-3992. Available: https://doi.org/10.1016/j.patcog.2015.06.017.
ROIS-DS Center for Open Data in the Humanities. Keras Simple CNN Benchmark [Internet]. Available: https://github.com/rois-codh/kmnist/blob/master/benchmarks/kuzushiji_mnist_cnn.py.
K. He, X. Zhang, S. Ren, and J. Sun, "Identity mappings in deep residual networks," in European conference on computer vision, Springer, vol. 9, no. 4, pp. 630-645, 2016.
ROIS-DS Center for Open Data in the Humanities. Benchmarks & Results [Internet]. Available: https://github.com/rois-codh/kmnist.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.