[논문]다층퍼셉트론의 출력 노드 수 증가에 의한 성능 향상

오상훈

doi:10.5392/jkca.2009.9.1.123

다층퍼셉트론의 출력 노드 수 증가에 의한 성능 향상
Performance Improvement of Multilayer Perceptrons with Increased Output Nodes 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.9 no.1, 2009년, pp.123 - 130

초록
AI-Helper

일반적으로 다층퍼셉트론을 패턴인식 문제에 적용할 경우 클래스 당 하나의 출력 노드를 배정하고, 이 출력 노드의 인덱스가 입력 패턴의 클래스를 뜻하도록 한다. 이 논문에서는 이와 달리 다층퍼셉트론의 성능 향상을 위하여 클래스 당 출력노드 수를 증가시키는 방법을 제안한다. 두 개의 클래스 문제를 대상으로 클래스 발생확률이 동일하고 각 클래스 내에서 출력노드가 균일분포를 지닌다는 가정 하에, 이 방법의 효용성을 확률론적인 유도를 통하여 증명하였다. 그리고, 50개의 고립단어 인식의 시뮬레이션으로 출력노드를 증가 시킬 경우 성능이 향상됨을 확인하였다.

Abstract ▼ AI-Helper

When we apply MLPs(multilayer perceptrons) to pattern classification problems, we generally allocate one output node for each class and the index of output node denotes a class. On the contrary, in this paper, we propose to increase the number of output nodes per each class for performance improvement of MLPs. For theoretical backgrounds, we derive the misclassification probability in two class problems with additional outputs under the assumption that the two classes have equal probability and outputs are uniformly distributed in each class. Also, simulations of 50 isolated-word recognition show the effectiveness of our method.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이 논문에서는 이러한 접근들과 달리 MLP의 성능을 향상시키기 위하여 출력노드 수를 증가시키는 새로운 방법을 제안한다. 일반적으로, 패턴인식 문제에서 클래스 당 하나의 출력노드가 할당되고, 임의의 입력패턴이 주어지면 MLP의 출력 값을 계산한 후 최대의 출력 값을 지닌 출력노드의 인덱스가 입력 패턴이 속한 클래스를 나타내는 Max.
이 논문에서는 패턴인식 문제에 MLP를 적용시킬 경우에 성능을 향상시키는 방법으로 클래스 당 출력 노드 수를 증가시키는 것을 제안하였다. 이 방법의 효용성을, 클래스 발생 확률이 동일하며 출력노드는 각 클래스 내에서 균일분포를 가진다는 가정 하에, 확률론적으로 분석하여 증명하였다.
이 경우는 최종 판단을 내리기 위한 별도의 네트웤이 구축되고 학습되어야 한다. 이와 달리, 여기서 제안하는 방법은 클래스 당 출력노드 수를 증가시키고 학습에 의해 여러 출력들이 스스로 융합하는 효과가 있는 것을 보이고자 한다.
이제 역방향 계산량을 비교해보겠다. N-H-M로 구성된 MLP는 n=4인 경우 (10)의 계산에 2M만큼의 곱하기 연산이 필요하며, 이를 사용한 (6)의 계산에 2M(H+1)만큼의 곱하기가 수행된다.

가설 설정

즉, 기존 방법인 클래스 당 출력노드가 하나인 경우보다 클래스 당 출력노드 수를 증가시킨 경우에 좋은 성능을 얻지 못하였다. III장에서 수학적으로 유도한 모델은 각 클래스가 발생할 확률이 동일하며 출력노드는 각 클래스 내에서 균일분포를 가진다고 가정하였다. 그렇지만, CEDAR 데이터 베이스에 구축된 필기체 숫자인식 문제의 경우, 각 클래스는 발생 확률이 다르기 때문에 이러한 가정에 부합하지 않아서 성능이 향상되지 않은 것으로 여겨진다.
이 경우 출력노드의 목표값은 입력이 클래스 1에 속하면 -1로 주어지고 클래스 2에 속하면 +1로 주어졌다고 하자. 또한, 각 클래스에 속하는 입력패턴에 대하여 MLP의 출력노드는 균일분포를 가진다고 가정하자.
와 같이 균일 분포(uniform distribution)을 가진다고 가정한다. 여기서, #은 음이고 #는 양이라고 가정한다.

제안 방법

제안한 방법의 효용성을 확인하기 위하여 고립단어 인식문제를 MLP에 학습시켰다. 50단어를 9명의 화자가 2번씩 발성한 900개의 음성패턴에서 1,024차원의 ZCPA(zero-crossing peak amplitude) 특징[18]을 추출한 후 MLP에 입력하여 500 epoch 동안 학습시켰다. MLP의 입력층 노드 수는 1,024이며, 중간층 노드는 50개를 사용하였다.
먼저 Section II에서 MLP의 구조와 학습방법을 설명한다. Section III에서 출력노드 수를 증가시키는 방법을 제안하며 이의 효용성을 확률 유도를 통하여 증명하고, Section V에서 고립단어 인식문제의 시뮬레이션으로 제안한 방법의 효용성을 확인한다. 마지막으로 Section VI에서 결론을 맺겠다.
법칙에 따라 조사하였다. 각각의 경우에 초기 가중치를 다르게 하여 9번의 시뮬레이션을 한 후 그 평균치를 그림으로 그렸다.
그렇지만, 이렇게 하나의 클래스 당 하나의 출력노드가 할당된 MLP가 충분한 성능을 얻지 못하는 경우 성능을 향상시키는 방법으로 클래스 당 출력노드 수를 증가시키는 방법을 제안한다. 이 방법은 입력층과 중간층은 공유하면서 각 클래스를 담당하는 출력노드 숫자는 여러 개가 되도록 하여 인식성능이 향상되도록 하는 방법이다.
여러 개의 MLP를 학습시킨 후 그 결과를 융합하여 최종 판단을 내리는 인식기와 여기서 제안한 방법의 계산량을 비교해보겠다. 입력이 N차원이고 중간층 노드가 H개이며 클래스 수는 M이라고 하자.
을 제거하기 위하여 CE(Cross-Entropy) 오차함수[5]가 제안되었으며, 이보다 더 나은 성능을 지닌 nCE(n-th order extension of CE) 오차함수[6] 역시 제안되었다. 이 논문에서는 nCE 오차함수(n=4)를 이용하여 MLP의 학습에 대한 시뮬레이션을 한다. nCE 오차함수[6]는
이 논문에서는 패턴인식 문제에 MLP를 적용시킬 경우에 성능을 향상시키는 방법으로 클래스 당 출력 노드 수를 증가시키는 것을 제안하였다. 이 방법의 효용성을, 클래스 발생 확률이 동일하며 출력노드는 각 클래스 내에서 균일분포를 가진다는 가정 하에, 확률론적으로 분석하여 증명하였다. 고립단어 음성인식 문제를 시뮬레이션하여 클래스 당 출력 노드 수가 증가될수록 시험패턴에 대한 오인식률이 감소함을 확인하였다.
제안한 방법의 효용성을 수학적으로 증명하기 위하여, 두 개의 클래스 c1과 c2가 같은 확률을 지니는 인식문제를 고려하자. 이 경우 출력노드의 목표값은 입력이 클래스 1에 속하면 -1로 주어지고 클래스 2에 속하면 +1로 주어졌다고 하자.
제안한 방법의 효용성을 확인하기 위하여 고립단어 인식문제를 MLP에 학습시켰다. 50단어를 9명의 화자가 2번씩 발성한 900개의 음성패턴에서 1,024차원의 ZCPA(zero-crossing peak amplitude) 특징[18]을 추출한 후 MLP에 입력하여 500 epoch 동안 학습시켰다.

대상 데이터

CEDAR 데이터 베이스는 18,468개의 학습패턴과 2,213개의 시험패턴으로 구성되어 있으며 각 필기체 숫자는 16레벨의 그레이 값을 가지는 12×12 영상으로 이루어져있다.
50단어를 9명의 화자가 2번씩 발성한 900개의 음성패턴에서 1,024차원의 ZCPA(zero-crossing peak amplitude) 특징[18]을 추출한 후 MLP에 입력하여 500 epoch 동안 학습시켰다. MLP의 입력층 노드 수는 1,024이며, 중간층 노드는 50개를 사용하였다. 또 다른 7명의 화자가 50단어를 3번씩 발성한 1,050음성패턴을 시험패턴으로 사용하였다.
MLP의 입력층 노드 수는 1,024이며, 중간층 노드는 50개를 사용하였다. 또 다른 7명의 화자가 50단어를 3번씩 발성한 1,050음성패턴을 시험패턴으로 사용하였다. 초기 가중치들은 [-1 × 10^-4, 1 × 10^-4] 에서 균일분포를 지니도록 하였으며, 학습률은 0.
CEDAR 데이터 베이스는 18,468개의 학습패턴과 2,213개의 시험패턴으로 구성되어 있으며 각 필기체 숫자는 16레벨의 그레이 값을 가지는 12×12 영상으로 이루어져있다. 이를 입력이 114개이고 중간층 노드가 30개인 MLP에 클래스 당 출력노드 수를 1부터 5까지 변화시켜가며 시뮬레이션 하였다. MLP의 초기 가중치들은[-1 × 10^-4 ,1 × 10^-4]에서 균일분포를 가지도록 하였으며, 학습률은 0.

이론/모형

그리고, 클래스 당 출력노드 수는 1, 2, 3, 4, 5개가 되도록 하여 MLP를 학습시키면서, 시험패턴에 대한 오인식률의 변화를 Max. 법칙에 따라 조사하였다. 각각의 경우에 초기 가중치를 다르게 하여 9번의 시뮬레이션을 한 후 그 평균치를 그림으로 그렸다.
여기에서 제안한 방법을 CEDAR 데이터 베이스[19]로 구축된 필기체 숫자인식 문제에 적용하여 보았다. CEDAR 데이터 베이스는 18,468개의 학습패턴과 2,213개의 시험패턴으로 구성되어 있으며 각 필기체 숫자는 16레벨의 그레이 값을 가지는 12×12 영상으로 이루어져있다.

성능/효과

이 방법의 효용성을, 클래스 발생 확률이 동일하며 출력노드는 각 클래스 내에서 균일분포를 가진다는 가정 하에, 확률론적으로 분석하여 증명하였다. 고립단어 음성인식 문제를 시뮬레이션하여 클래스 당 출력 노드 수가 증가될수록 시험패턴에 대한 오인식률이 감소함을 확인하였다. 여기서 제안한 방법은 하나의 패턴인식기로 충분한 성능을 얻지 못하는 경우, 여러 개의 패턴 인식기를 구현한 후 그 출력을 서로 융합하여 인식성능을 향상시키는 인위적인 융합방법이 아니라, MLP에 단순히 클래스 당 출력노드 수를 증가시켜도 역시 여러 패턴인식기가 융합되어 인식성능이 향상되는 효과를 보임을 확인한 것이다.
005를 사용하였다. 고립단어 인식문제와 마찬가지로 9번의 시뮬레이션 후 시험패턴에 대한 오인식률의 평균치를 점검하여 성능이 제일 좋은 시점의 오인식률과 epoch을 조사한 결과, 클래스 당 출력노드가 하나인 경우는 230 epoch에서 4.44%였다. 그렇지만 클래스당 출력노드가 2개인 경우는 80 epoch에서 4.
그렇지만, 고립단어 인식에서 출력노드가 증가할수록 인식성능이 지속적으로 향상되지 않는 것이 나타났으며, 필기체 숫자인식문제의 경우처럼 클래스의 발생 확률이 다를 경우에는 성능개선을 볼 수 없었다. 이러한 부분의 약점을 보완하는 연구가 더 필요하다.
고립단어 음성인식 문제를 시뮬레이션하여 클래스 당 출력 노드 수가 증가될수록 시험패턴에 대한 오인식률이 감소함을 확인하였다. 여기서 제안한 방법은 하나의 패턴인식기로 충분한 성능을 얻지 못하는 경우, 여러 개의 패턴 인식기를 구현한 후 그 출력을 서로 융합하여 인식성능을 향상시키는 인위적인 융합방법이 아니라, MLP에 단순히 클래스 당 출력노드 수를 증가시켜도 역시 여러 패턴인식기가 융합되어 인식성능이 향상되는 효과를 보임을 확인한 것이다.
78%을 얻었다. 한편, 이 논문에서 제안한 방법에 따라 출력노드 수를 증가시켜 얻은 성능으로는 클래스 당 출력노드 수가 2인 경우는 70번째 epoch에서 3.65%, 3인 경우 60번째 epoch에서 3.54%, 4인 경우 90번째 epoch에서 3.16%로 감소하였다. 그렇지만, 클래스당 출력노드가 5인 경우 60번째 epoch에서 3.

질의응답

핵심어	질문	논문에서 추출한 답변
	출력노드 수를 증가시킨다고 성능이 지속적으로 좋아지지는 않은 이유는 무엇인가?	그렇지만, 출력노드 수를 증가시킨다고 성능이 지속적으로 좋아지지는 않았다. 그 이유는 이론적 유도에서 세운 가정-출력노드가 클래스 내에서 균일분포를 지닌다-이 성립되지 않기 때문으로 추정된다.
	MLP의 학습은 어떤 알고리즘을 따르는가?	그렇지만, MLP의 학습은 MSE(mean-squared error)를 최소화 시키는 EBP(error back-propagation) 알고리즘[4]을 따르는데, 이 EBP 알고리즘의 학습속도가 느리거나 혹은 시험패턴에 대한 인식률이 충분치 않다는 단점을 해결하기 위하여 많은 개선책들이 제안되었다.
	다층퍼셉트론이 많은 응용 문제에 적용될 수 있었던 근거는 무엇인가?	다층퍼셉트론(MLP: multilayer perceptron)은 충분한 중간층 노드 수가 있으면 임의의 함수를 근사화 할 수 있다는 수학적 증명을 근거로 많은 응용 문제에 적용되어 왔으며, 특히 패턴인식 문제에 많이 사용되었다[1]. 패턴인식 문제에 사용되는 경우, MLP의 구조에서 출력층 노드는 패턴의 클래스(class) 수만큼 주어져, 하나의 출력노드가 하나의 클래스를 대표하게 된다.

참고문헌 (19)

Y. Ito, "Approximation of continuous functions on rdby linear combinations of shifted rotations of a sigmoid function with and without scaling," Neural Networks, Vol.5, pp.105-115, 1992.

상세보기
H. White, "Learning in artificial neural networks: a statistical perspective," Neural Computation, Vol.1, pp.425-464, 1989.

상세보기
오상훈, "다층퍼셉트론의 잡음강건성 분석 및 향상 방법," 한국콘텐츠학회 논문지, 제9권, 제1호.

원문보기 상세보기
Y. Lee, S.-H. Oh, and M. W. Kim, "An analysis of premature saturation in back-propagation learning," Neural networks, Vol.6, pp.719-728, 1993.

상세보기
A. van Ooyen and B. Nienhuis, "Improving the convgence of the back-propagation algorithm," Neural Networks, Vol.5, pp.465-471, 1992.

상세보기
S.-H. Oh, "Improving the error back-propagation algorithm with a modified error function," IEEE Trans. Neural Networks, Vol.8, pp.799-803, 1997.

상세보기
S.-H. Oh and S.-Y. Lee, "An adaptive learning rate with limited error signals for training of multilayer perceptrons," ETRI Journal, Vol.22, No.3, pp.10-18, 2000(9).

원문보기 상세보기
J. B. Hampshire II and A. H. Waibel, "A novel objective function for improved phoneme recognirtion using time-delay neural networks," IEEE Trans. Neural Networks, Vol.1, pp.216-228, 1990(6).

상세보기
B. B. Chaudhuri and U. Bhattacharya, "Efficient training and improved performance of multilayer perceptron in pattern classification," Neurocomputing, Vol.34, pp.11-27, 2000.

상세보기
K.-Y. Park and S.-Y. Lee, "Out-of vocabulary rejection based on selective attention model," Neural Processing Letters, Vol.12, pp.41-48, 2000.
F. J. Owens, G. H. Zheng, and D. A. Irvine, "A multi-output-layer perceptron," Neural Computation & Applications, Vol.4, pp.10-20, 1996.

상세보기
T. P. Vogl, J. K. Mangis, A. K. Rigler, W. T. Zink, and D. L. Alkon, "Accelerating the convergence of the back-propagation method," Biol. Cybern., Vol.59, pp.257-263, 1988.

상세보기
J. Y. F. Yam and W. S. Chow, "Extended least squares based algorithm for training feedfoward networks," IEEE Trans. Neural Networks, Vol.8, pp.806-810, 1997.

상세보기
R. Paris, E. D. Di Claudio, G. Orlandi, "A generalized learning paradigm exploiting the structure of feedforward neural networks," IEEE Trans. Neural Networks, Vol.7, pp.1450-1459, 1996.

상세보기
C. Yu, M. T. Manry, J. Li, and P. L. Narasimha, "An efficient hidden layer training method for multilayer perceptron," Neurocomputing, Vol.70, pp.525-535, 2006.

상세보기
S.-H. Oh and S.-Y. Lee, "A new error function at hidden layers for fast training of multilayer perceptrons," IEEE Trans. Neural Networks, Vol.10, pp.960-964, 1999.

상세보기
J.-H. Jeong, H. Kim, D.-S. Kim, and S.-Y. Lee, "Speaker adaptation based on judge neural networks for real world implementations of voice-command systems," Information Science, Vol.123, pp.13-24, 2000.

상세보기
D.-S. Kim, S.-Y. Lee, and R.-M. Kil, "Auditory processig of speech signals for robust speech recognition in real-worldnoisy environments," IEEE Trans. Speech and Audio Processing, Vol.7, pp.55-69, 1999.

상세보기
J. J. Hull, "A database for handwritten text recognition research," IEEE Trans. Pat. Ana. Mach. Int., Vol.16, pp.550-554, 1994.

상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증