필기체 숫자의 인식과 비숫자의 기각을 위한 MLP 신경망의 구현 방법에 관한 연구 A Study on the Implementation Methods of MLP Neural Networks for the Recognition of Handwritten Numerals and the Rejection of Non-Numerals원문보기
본 논문은 MLP (multilayer perceptrons) 신경망을 이용하여 필기체 妾자와 비숫자를 인식하거나 기각할 경우의 MLP 구현 방법에 관한 것이다. MLP는 인식률 및 속도, 메모리 요구량 등에 있어서 필기체 숫자인식에 매우 효율적인 인식기로 알려져 있다. 그러나 기존 연구에서의 MLP는 숫자 입력에 대해서의 인식에만 초점이 맞춰져 있으며 비숫자 입력 경우의 인식률, 기각률 및 동작 특성에 대해서는 연구된 바가 거의 없다. 본 논문에서는 숫자와 비숫자가 혼재하는 경우의 MLP 인식기의 구현방법에 대해서 논한다. MLP 인식기는 세 가지 방법으로 구현되며, 세 가지의 오류유형을 정의하여 각 인식 방법의 인식 특성을 분석하였다. 인식 실험은 66,705자의 필기체 숫자와 비숫자를 이용하여 이루어지며, 세가지 오류유형의 측면에서 숫자와 비숫자에 대한 가장 적절한 인식 방법이 논의된다.
본 논문은 MLP (multilayer perceptrons) 신경망을 이용하여 필기체 妾자와 비숫자를 인식하거나 기각할 경우의 MLP 구현 방법에 관한 것이다. MLP는 인식률 및 속도, 메모리 요구량 등에 있어서 필기체 숫자인식에 매우 효율적인 인식기로 알려져 있다. 그러나 기존 연구에서의 MLP는 숫자 입력에 대해서의 인식에만 초점이 맞춰져 있으며 비숫자 입력 경우의 인식률, 기각률 및 동작 특성에 대해서는 연구된 바가 거의 없다. 본 논문에서는 숫자와 비숫자가 혼재하는 경우의 MLP 인식기의 구현방법에 대해서 논한다. MLP 인식기는 세 가지 방법으로 구현되며, 세 가지의 오류유형을 정의하여 각 인식 방법의 인식 특성을 분석하였다. 인식 실험은 66,705자의 필기체 숫자와 비숫자를 이용하여 이루어지며, 세가지 오류유형의 측면에서 숫자와 비숫자에 대한 가장 적절한 인식 방법이 논의된다.
This Paper describes the implementation methods of MLP (mulilayer perceptrons) neural networks to recognize or reject handwritten numerals and non-nummerals. The MLP has known to be a very efficient classifier to recognize handwritten numerals in terms of recognition accuracy, speed, and memory requ...
This Paper describes the implementation methods of MLP (mulilayer perceptrons) neural networks to recognize or reject handwritten numerals and non-nummerals. The MLP has known to be a very efficient classifier to recognize handwritten numerals in terms of recognition accuracy, speed, and memory requirements. In the previous researches, however, researchers have focused on the only numeral inputs and have not payed attention to the non-numeral inputs with respect to recognition accuracy, rejection rates, and other characteristics. In this paper, we present some implementation methods of the MLP in the environments that numeral and non-numerals are mixed. The MLPs have been developed by three methods, and investigated with three error types introduced. The experiments have been conducted on a total of 66,701 images of numerals and non-numerals. The promising method to recognize numerals and reject non-numerals has been described in terms of the three error types.
This Paper describes the implementation methods of MLP (mulilayer perceptrons) neural networks to recognize or reject handwritten numerals and non-nummerals. The MLP has known to be a very efficient classifier to recognize handwritten numerals in terms of recognition accuracy, speed, and memory requirements. In the previous researches, however, researchers have focused on the only numeral inputs and have not payed attention to the non-numeral inputs with respect to recognition accuracy, rejection rates, and other characteristics. In this paper, we present some implementation methods of the MLP in the environments that numeral and non-numerals are mixed. The MLPs have been developed by three methods, and investigated with three error types introduced. The experiments have been conducted on a total of 66,701 images of numerals and non-numerals. The promising method to recognize numerals and reject non-numerals has been described in terms of the three error types.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
예를 들어 기각이 아무리 많더라도(Type2 오류가 아무리 높더라도) 인식 오류 (Typel 오류)가 최소화되어야 하는 경우에는TypM 오류에 보다 더 많은 가중치를 두어 인식기의 성능을 측정하여야 할 것이다. 본 논문에서는 그림 1, 그림 2, 그림 3에 나타낸 각 MLP 인식기와 인식 방법에 대한 성능을 표 1에 정의된 세 가지 오류 유형의 관점에서 살펴보고자 한다. 전체적인 인식 성능은 본 논문에서의 중요 분석 대상이 아니다.
본 논문에서는 숫자와 비 숫자가 혼재하는 경우의 MLP 인식기의 구현 방법에 대해서 논하였다. MLP 인 식기를 세 가지 방법으로 구현하였으며, 세 가지의 오 류유형을 정의하여 각 인식 방법의 인식 특성을 분석하였다.
본 논문은 숫자와 비 숫자가 혼재하는 환경에서 MLP로 숫자 인식기를 구현하는 방법에 관한 것이다. MLP를 이용한 숫자 인식 방법을 제시하며 각 방법의 특성을 분석하여 적절한 방법을 제안한다.
본 연구에서는 이러한 구조의 MLP를 이용하여 숫 자뿐만 아니라 비 숫자도 처리하고자 한다. 입력이 숫 자라면 0~9까지의 숫자 중 하나를 결과로 출력하고 비 숫자이면 비 숫자로 인식하여야 한다.
실험 결과 비 숫자에 대한 오류는 적지만 숫자에 대한 오류는 매우 많다. 숫자인 것으로 올바르게 분류한 경우에 정확한 숫자 클래스를 인식할 수 있는지에 대해서도 실험해 보았다. S에서 바르게 분류된 숫자 입력을 P에 입력하여 인식한 결과 성능을 표 7에 나타내었다.
전술한 바와 같은 오류들을 전체적으로 통합한 결과를 살펴보는 것도 의미가 있다. 인식기가 적용되는 환경에 따라 각 오류율의 중요성을 다르게 취급하는 것이 타당하므로 본 논문에서는 각 오류 유형 별로 다음과 같이 가중치를 설정하여 결과를 분석하고자 한다.
가설 설정
숫자의 추출 과정에서 숫자는 다른 숫자 또는 문자 등과 접촉되어 있지 않거나, 다른 숫자와 약간만 접촉된 상태로 존재하는 경우가 많다. 따라서 인식 대상 숫자의 추출 과정이 매우 용이하다고 가정하여 인식기는 온전히 분리된 숫자를 인식하게 된다. 기존의 대부분의 연구는 이렇게 온전히 분리된 고립 숫자의 연구 [1, 2, 3]에 초점이 맞추어져 있으며 분리가 제대로 되지 않거나 숫 자가 아닌 비 숫자 입력에 대한 연구는 거의 없다.
제안 방법
본 논문에서는 숫자와 비 숫자가 혼재하는 경우의 MLP 인식기의 구현 방법에 대해서 논하였다. MLP 인 식기를 세 가지 방법으로 구현하였으며, 세 가지의 오 류유형을 정의하여 각 인식 방법의 인식 특성을 분석하였다. 인식 실험은 약 67, 000 여자의 필기체 숫자와 비 숫자를 이용하여 이루어졌다.
본 논문은 숫자와 비 숫자가 혼재하는 환경에서 MLP로 숫자 인식기를 구현하는 방법에 관한 것이다. MLP를 이용한 숫자 인식 방법을 제시하며 각 방법의 특성을 분석하여 적절한 방법을 제안한다. 각 방법의 체계적 분석을 위해 세 가지 종류의 오류 유형을 정의한다.
인식기 테스트 시에도 마찬가지로 방향각도 특징 벡터가 이용된다. 각 MLP 인식기는 하나의 중간층을 가지며 중간층 노드의 개수를 30, 50, 70, 90개로 달리하여 구현하였다. 학습 시의 학습율은 0.
인식기의 정확도를 오류율과 기각률의 관점에서만 측정할 경우 인식대상 숫자의 추출이 완벽하지 않아서 발생하는 잘못된 입력에 대한 정확도의 측정이 어렵다. 따라서 이러한 오류율과 기각률을 포함하여 본 논문에서는 표 1과 같이 인식기의 오류 유형을 세 가지로 정의한다. Typel 오류는 입력이 숫자 클래스이고 출력도 숫자 클래스이 지만 잘못된 클래스로 인식을 하는 경우에 해당한다.
표 3의 Type2 오류율에 포함되지 않은 즉, 기각되지 않은 숫자에 대한 인식률을 살펴보는 것도 의미 있을 것이다. 본 논문에서는 다음과 같이 Typel*오류율을 정의하여 인식기별로 오류율을 분석하였으며, 그 결과를 표 4에 나타내었다. 이 측정값들은 인식기의 인식 결정에 대한 신뢰도를 반영한다.
구현된 MLP 인식기는 숫자만을 학습한 P, 숫자와 비 숫자를 학습한 PN, PN의 출력층에 비 숫자 노드를 추가한 PN_S이다. 이들을 기본 인식기로 하여 P와 숫 자와 비 숫자를 구분하는 인식기인 S를 결합하여 인식하는 방법과 PN, PN_S 단독으로 숫자와 비 숫자를 인식하는 방법을 실험하였다.
인식기들의 학습을 완료한 후 다음과 같은 인식 규칙과 오류율 식을 이용하여 Typel 오류유형에 대한인 식기별 성능을 분석하였다.
대상 데이터
비 숫자 데이터 세트에 대해서도 각 인식기의 출력값 특성을 살펴보기 위해 최대 출력값과 차상위 출력값을 그림 6에 나타내었다. 각 인식기의 중간층 노드의 수는 90개이며 샘플 데이터는 200개이다.
본 논문에서는 실험을 위하여 4가지 종류의 영상 데이터 세트를 사용하였다. 학습을 위해서 11, 690개의 숫자 영상으로 이루어진 데이터 세트와 9, 113개의 비 숫자 영상으로 구성된 데이터 세트를 사용하였다.
숫자 영상과 비 숫자 영상의 예를 그림 4에 나타내었다. 비 숫자 영상 데이터 세트는 필기체로 작성된 우리나라의 우편 봉투 에 존재하는 주소 문자열에서 숫자 간의 접촉에 의해 숫자 분리에 실패한 영상과 한글 문자 및 잘못 분리된 한글 문자들로 구성되어 있다.
최종적인 Typel 오류와 Type2 오류 성능뿐만 아니라 실제적인 인식기의 출력값 분포를 분석하는 것도 인식기의 특성 분석에 매우 유용할 것이다. 이를 위하여 본 논문에서는 P, PN, PN_S 모두 중간층의 노드 수가 90개인 것을 선정하였으며, 숫자 데이터 세트에서 추출된 200개의 숫자 데이터를 각 인식기에 입력하였으며 그 출력 특성을 그림 5에 나타내었다.
MLP 인 식기를 세 가지 방법으로 구현하였으며, 세 가지의 오 류유형을 정의하여 각 인식 방법의 인식 특성을 분석하였다. 인식 실험은 약 67, 000 여자의 필기체 숫자와 비 숫자를 이용하여 이루어졌다.
본 논문에서 정의하는 인식기의 오류 유형을 사용함으로써 기존의 분석 방법에 비해 인식기의 인식 특성을 보다 명확하게 구분할 수 있다. 제시한 방법에 따른 숫자 인식 기의 구현 및 인식 실험은 약 53, 000 여자의 숫자 영상 데이터와 14, 000 여자의 비 숫자 영상 데이터를 이용하여 이루어졌다. 실험 결과, 제안한 MLP 숫자 인식기가 숫자와 비 숫자가 혼재하는 경우에 적절하게 사용될 수 있음을 알 수 있었다.
학습을 위해서 11, 690개의 숫자 영상으로 이루어진 데이터 세트와 9, 113개의 비 숫자 영상으로 구성된 데이터 세트를 사용하였다. 학습된 인식기의 테스트를 위해서 41, 193개의 숫자 영상으로 구성된 데이터 세트와 4, 709개의 비 숫자 영상으로 구성된 데이터 세트를 사용하였다. 숫자 영상과 비 숫자 영상의 예를 그림 4에 나타내었다.
본 논문에서는 실험을 위하여 4가지 종류의 영상 데이터 세트를 사용하였다. 학습을 위해서 11, 690개의 숫자 영상으로 이루어진 데이터 세트와 9, 113개의 비 숫자 영상으로 구성된 데이터 세트를 사용하였다. 학습된 인식기의 테스트를 위해서 41, 193개의 숫자 영상으로 구성된 데이터 세트와 4, 709개의 비 숫자 영상으로 구성된 데이터 세트를 사용하였다.
성능/효과
표 3에서 PN_S2에 대한 오류율은 기각 규칙 2를 적용했을 경우의 오류율이다. Type2 오류의 측면에서 P가 가장 우수한 성능을 보이고, PI"] PN_S보다 대체적으로 좋은 성능을 보이며, PN_S2가 가장 나쁜 성능을 보인다. P보다 나머지 세 개의 인식기가 Type2 오류율이 높은 것은 단순한 기각 규칙을 적용했을 경우 P보다 나머지 세 개의 인식기가 보다 신중하게 인식을 시도한다는 것을 의미한다.
Typel* 오류의 측면에서 PN이 가장 우수한 성능을 보였으며, P가 가장 좋지 않은 성능을 보였다. 이는 Typel 오류의 측면에서는 P가 가장 좋은 성능을 보인 것과 다른 특성이다.
모든 인식기에서 중간층 노드의 수가 많아질수록 Typel 오류가 감소한다. 각 인식기별로 성능을 비교해보면, 동일한 중간층 노드의 수를 가지는 인식기에서 숫자만 학습한 P의 오류율이 가장 낮으며, PN의 오류율이 PN_S보다 낮다. 그러나 PN과 PN_S의 중간층 노드의 수를 증가시키면 작은 규모의 P의 성능과 유사하게 나타남을 알 수 있다.
PN의 출력층에 비 숫자를 담당하는 기각 노드를 새로이 추가한 PN_S도 PN과 동작 특성이 유사하며 특별히 우수한 장점이 없다. 마지막으로, Type2와 Type3의 오류율이 낮아야 하는 경우에서는 기존에 아무리 잘 구현된 숫자 전용 인식기 P라도 비 숫자를 포함하여 재학습을 하는 것이, 보다 더 적절하다.
이 오류 유형에는 숫자 입력뿐만 아니라 비 숫자 입력에 대한 성능 측정 기준도 포함되어 있다. 본 논문에서 정의하는 인식기의 오류 유형을 사용함으로써 기존의 분석 방법에 비해 인식기의 인식 특성을 보다 명확하게 구분할 수 있다. 제시한 방법에 따른 숫자 인식 기의 구현 및 인식 실험은 약 53, 000 여자의 숫자 영상 데이터와 14, 000 여자의 비 숫자 영상 데이터를 이용하여 이루어졌다.
인식기 S를 도입하더라도 S의 오류율이 높아 P 단독으로 사용하는 것보다 나쁜 결과를 초래할 가능성이 높다. 셋째, 입력을 기각하지 않고 인식 결정을 내린 경우에는 숫자와 비 숫자를 동시에 학 습한 PN의 인식 결정이 신뢰도가 가장 높으며, 출력값 특성도 후처리에 유리하게 나타난다. PN의 출력층에 비 숫자를 담당하는 기각 노드를 새로이 추가한 PN_S도 PN과 동작 특성이 유사하며 특별히 우수한 장점이 없다.
그림 7-(b) 에서는 세 가지 오류 유형을 모두 고려하되 특정한 오류 유형에 보다 큰 가중치를 주었을 때의 인식기 성능을 나타내고 있다. 숫자 인식 신뢰도와 비 숫자 기각 율의 관점에서 PN이 가장 좋으며, 기각율의 관점에서는 P가 가장 좋게 나타났다.
제시한 방법에 따른 숫자 인식 기의 구현 및 인식 실험은 약 53, 000 여자의 숫자 영상 데이터와 14, 000 여자의 비 숫자 영상 데이터를 이용하여 이루어졌다. 실험 결과, 제안한 MLP 숫자 인식기가 숫자와 비 숫자가 혼재하는 경우에 적절하게 사용될 수 있음을 알 수 있었다.
본 논문의 실험 결과를 분석함으로써 다음과 같은 결론을 얻을 수 있다. 첫째, 비 숫자 환경에서도 Typel 오류만을 최소화시키고자 하는 경우에는 기존에 숫자만으로 학습된 인식기 P를 사용하는 것이 더 적절하다. 둘째, P의 장점을 취하고자 숫자와 비 숫자, 두 가지를 구분하는 새로운.
후속연구
어떠한 인식기는 특정 유형의 오류가 낮게 나타나지만 다른 유형의 오류가 높게 나타날 수도 있다. 따라서 인식기가 적용되는 환경에 따라 각 오류유형별로 가중치를 주어 인식기의 전체적인 성능을 평가하여야 할 것이다. 예를 들어 기각이 아무리 많더라도(Type2 오류가 아무리 높더라도) 인식 오류 (Typel 오류)가 최소화되어야 하는 경우에는TypM 오류에 보다 더 많은 가중치를 두어 인식기의 성능을 측정하여야 할 것이다.
참고문헌 (8)
S. Cho, 'Neural-network classifiers for recognizing totally unconstrained handwritten numerals,' IEEE Transactions on Neural Networks, vol. 8, pp. 43-53, 1997
F. Kimura and M. Shridhar, 'Handwritten numeral recognition based on multiple algorithms,' Pattern Recognition, vol. 24, no. 10, pp. 976-983, 1991
J. Cao, M. Ahmadi, and M. Shridhar, 'Recognition of handwritten numerals with multiple feature and multistage classifier,' Pattern Recognition, vol. 28, no. 2, pp. 153-160, 1995
C. Y. Suen, C. Nadal, R. Legault, T. A. Mai, and L. Lam, 'Computer recognition of unconstrained handwritten numerals,' Proc. of IEEE, vol. 80, no. 7, pp. 1162-1180, 1992
S.N. Srihari, E.J. Keubert, 'Integration of hand-written address interpretation technology into the United States Postal Service remote computer reader system,' Proc. of 4th International Conference on Document Analysis and Recognition, Ulm, Germany, pp.892-896, 1997
R. Plamondon and S. N. Srihari, 'On-line and off-line handwriting recognition: A comprehensive survey,' IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 22, pp. 63-84, 2000
D. E. Rumelhart, G.E. Hinton, and R.J. Williams, 'Learning Internal Representations by Error Propagation,' Parallel Distributed Processing, vol. 1, Eds. D. E. Rumelhart and J. L. McClelland, pp. 319-362, 1986
김호연, 임길택, 김두식, 남윤석, '서장 우편물 자동 처리를 위한 우편영상 인식 시스템', 정보처리학회 논문지, Vol.10 No.4, pp.429-442, 2003
※ AI-Helper는 부적절한 답변을 할 수 있습니다.