[논문]대량 데이터를 위한 제한거절 기반의 회귀부스팅 기법

권혁호; 김승욱; 최동훈; 이기천

doi:10.7232/jkiie.2016.42.4.263

대량 데이터를 위한 제한거절 기반의 회귀부스팅 기법
Boosted Regression Method based on Rejection Limits for Large-Scale Data 원문보기

대한산업공학회지 = Journal of the Korean Institute of Industrial Engineers, v.42 no.4, 2016년, pp.263 - 269

권혁호 (한양대학교 융합기계공학과) , 김승욱 (한양대학교 융합기계공학과) , 최동훈 (한양대학교 기계공학과) , 이기천 (한양대학교 산업공학과)

Abstract ▼ AI-Helper

The purpose of this study is to challenge a computational regression-type problem, that is handling large-size data, in which conventional metamodeling techniques often fail in a practical sense. To solve such problems, regression-type boosting, one of ensemble model techniques, together with bootstrapping-based re-sampling is a reasonable choice. This study suggests weight updates by the amount of the residual itself and a new error decision criterion which constructs an ensemble model of models selectively chosen by rejection limits. Through these ideas, we propose AdaBoost.RMU.R as a metamodeling technique suitable for handling large-size data. To assess the performance of the proposed method in comparison to some existing methods, we used 6 mathematical problems. For each problem, we computed the average and the standard deviation of residuals between real response values and predicted response values. Results revealed that the average and the standard deviation of AdaBoost.RMU.R were improved than those of other algorithms.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

R2의 경우 회귀모델 나무(regression tree) 개념을 도입한 기법이었으며 AdaBoost.R의 적용 범위를 넓히기 위해 고안되었다. 하지만 수렴성이 보장되지 않는 문제가 존재하였다(Drucker, 1997).
즉, 부트스트래핑 기반의 랜덤복원추출 방법으로 다양한 근사모델을 생성한 후, 정확도에 따라 단계적으로 가중치를 달리하여 조합하는 부스팅을 통해 방대한 데이터를 효과적으로 다룰 수 있다. 따라서 본 연구에서는 부스팅 기법의 대표적인 알고리즘인 AdaBoost의 개념을 이용하여 회귀모델 제작에 적합한 새로운 알고리즘을 제안하고자한다.
대량 데이터를 모두 이용하여 일반 근사모델을 만드는 경우 수치적인 한계로 인해 근사모델이 부정확해진다. 따라서 본 연구에서는 이러한 일반 근사모델이 갖는 대량 데이터 처리 한계점을 극복하고자 하였다. 랜덤 복원 추출 방법을 통해 대량 데이터에서 일부 데이터를 이용하여 제한거절 방법 기반으로 근사모델을 생성하고, 이와 같은 과정을 반복하여 다양한 근사모델을 생성한 후 이들을 정확도에 따라 가중치를 달리하여 조합함으로써 효과적으로 대량 데이터를 다룰 수 있는 AdaBoost.

제안 방법

랜덤 복원 추출 방법을 통해 대량 데이터에서 일부 데이터를 이용하여 제한거절 방법 기반으로 근사모델을 생성하고, 이와 같은 과정을 반복하여 다양한 근사모델을 생성한 후 이들을 정확도에 따라 가중치를 달리하여 조합함으로써 효과적으로 대량 데이터를 다룰 수 있는 AdaBoost. RMU.R을 제안하였다.
본 연구에서는 이 값을 결정하기 위해, Z를 3, 4, 5로 변화시켜가며 AdaBoost.RMU.R의 정확도와 효율성을 평가하였다. [Table3], [Table4], [Table5]는 각각 최대 모델 반려 횟수 Z를 3, 4, 5로 변화시켰을 때, 예제에 따른 오차의 평균, 표준편차, 개별 근사모델 생성 횟수를 나타낸다.
AdaBoost.RT는 이전에 생성되었던 개별 근사모델의 오차를 이용하여 가중치를 갱신하고, 이를 기반으로 샘플링을 수행했다. 따라서 이 방법은 이전 개별 근사모델을 기반으로 한 제한된 향상 방향의 가중치 갱신이라 볼 수 있다.
이 때, 추출되는 데이터의 개수는 p이며 추출된 데이터를 S_i로 명명한다. S_i를 이용하여 근사모델 M_i을 생성한 후, 정확도 척도로 평균오차 M_i를 계산한다. 이를 이용하여 근사모델 M_i의 수용여부를 판단한다.
수용된 모든 개별 근사모델과 각각의 모델 가중치를 이용하여 현재 만들 수 있는 앙상블 모델을 제작하고, 이를 이용하여 전체 실험점(S)에서의 응답값을 예측한다. 그리고 예측된 응답값과 실제 응답값 사이의 오차를 계산하고, 계산된 오차의 전체 합이 1이 되도록 스케일링을 진행한다. 이 때, f_α(x_s)는 α번째의 개별 근사모델에 의해 예측되는 x_s에서의 예측값이다.
그리고 1,000개의 오차값들에 대한 평균과 표준편차를 이용하여 정확성을 평가하며 최종 앙상블 모델을 만들기까지 필요한 개별 근사모델의 개수로 효율성을 평가한다. 또한 랜덤성을 고려하여 각 문제에 대해 20번의 반복 수행을 실시하여 3가지 알고리즘의 성능을 비교한다.
따라서 본 연구에서는 이러한 일반 근사모델이 갖는 대량 데이터 처리 한계점을 극복하고자 하였다. 랜덤 복원 추출 방법을 통해 대량 데이터에서 일부 데이터를 이용하여 제한거절 방법 기반으로 근사모델을 생성하고, 이와 같은 과정을 반복하여 다양한 근사모델을 생성한 후 이들을 정확도에 따라 가중치를 달리하여 조합함으로써 효과적으로 대량 데이터를 다룰 수 있는 AdaBoost. RMU.
이 때, mw_α와 m_α는 각각 α번째 모델 가중치와 정확도 척도를 의미한다. 수용된 모든 개별 근사모델과 각각의 모델 가중치를 이용하여 현재 만들 수 있는 앙상블 모델을 제작하고, 이를 이용하여 전체 실험점(S)에서의 응답값을 예측한다. 그리고 예측된 응답값과 실제 응답값 사이의 오차를 계산하고, 계산된 오차의 전체 합이 1이 되도록 스케일링을 진행한다.
성능 측정 방법은 다음과 같다. 우선 근사모델을 만드는데 사용한 실험점들과 별개로 성능 평가를 위한 시험점을 따로1,000개 추출한 후, 해당 시험점에서의 실제 응답과 최종 앙상블 모델로 얻어진 예측값 사이의 오차를 구한다. 이 때, 오차는 절대 오차를 y의 최대값과 최소값의 차이로 스케일링한 값이다.
그 다음 최종 앙상블 모델을 생성하기 위한 반복과정이 실행되며 이는 k개의 개별 근사모델이 수용될 때까지 진행된다. 우선가중치 w에 기반하여 랜덤복원추출을 수행한다. 이 때, 추출되는 데이터의 개수는 p이며 추출된 데이터를 S_i로 명명한다.
S_i를 이용하여 근사모델 M_i을 생성한 후, 정확도 척도로 평균오차 M_i를 계산한다. 이를 이용하여 근사모델 M_i의 수용여부를 판단한다. 여기서 만약 m_i가 T보다 큰 경우, 근사모델 M_i는 부정확한 근사모델임을 뜻하기 때문에 M_i를 반려하게 된다.

대상 데이터

RT 2가지를 사용한다. 예제로는 Branin, SK7, RSB(Madsen and Zilinskas,2000), Mystery(Sasena, 2002), Linear, Quad 6개의 수학 예제를 사용하며, [Figure2]에 소개되어 있다.

데이터처리

이 때, 오차는 절대 오차를 y의 최대값과 최소값의 차이로 스케일링한 값이다. 그리고 1,000개의 오차값들에 대한 평균과 표준편차를 이용하여 정확성을 평가하며 최종 앙상블 모델을 만들기까지 필요한 개별 근사모델의 개수로 효율성을 평가한다. 또한 랜덤성을 고려하여 각 문제에 대해 20번의 반복 수행을 실시하여 3가지 알고리즘의 성능을 비교한다.

이론/모형

이러한 문제점을 해결하고자 산업공학 분야에서 사용하는 앙상블 기법의 하나인 부스팅을 이용하고자 한다. 부스팅은 다양한 근사모델을 생성하고, 이들을 정확도에 따라 서로 다른 가중치로 조합하는 방법이다.

성능/효과

1. 기존 알고리즘은 1회의 반복 과정 중 하나의 개별 근사모델을 생성하였으나 AdaBoost.RMU.
2. Bagging의 경우 각 실험점에서의 오차는 고려하지 않고 항상 동일한 가중치로 샘플링이 수행되기 때문에 다른 기법들에 비해 오차가 큰 실험점이 선택될 확률이 상대적으로 낮아지게 된다. AdaBoost.
3. Bagging의 경우 모든 실험점이 항상 동일한 가중치로 선정되기 때문에 특별히 각 실험점에서의 오차를 측정하지 않았다.AdaBoost.
정량적으로 AdaBoost.RMU.R이 bagging에 비해 오차의 평균은 평균 41.5% 개선되었으며, 오차의 표준편차도 평균 53.8% 향상되었다.
R은 AdaBoost.RT에 비해 오차의 평균이 평균 35.0% 개선되었으며 오차의 표준편차는 평균39.5% 향상되었다. 따라서 정확도 측면에서는 AdaBoost.
R은 AdaBoost.RT에 비해 오차의 평균이 평균 35.0% 개선되었으며 오차의 표준편차는 평균39.5% 향상되었다. 따라서 정확도 측면에서는 AdaBoost.
따라서 이 방법은 이전 개별 근사모델을 기반으로 한 제한된 향상 방향의 가중치 갱신이라 볼 수 있다. 또한 가중치를 갱신하는 과정에서 오차의 크기를 고려하지 못하고 미리 정해놓은 예측 오차 기준을 이용하여 만족시키는 경우, 동일하게 가중치를 갱신시키고 만족하지 못하는 경우에는 기존과 동일하게 가중치를 유지시켰다. 하지만 AdaBoost.
이로 인해 앙상블 모델의 정확도 향상을 위해 필요한 위치에서 샘플링이 수행되었다. 또한 오차의 크기에 따라 서로 다른 값으로 가중치를 갱신하기 때문에 오차가 큰 실험점이 선택될 가능성이 높아지며, 이는 결국 최종 앙상블 모델의 정확도 향상으로 이어졌다.
부스팅을 대량 데이터에 적용하는 경우에 랜덤복원추출 방법을 이용하여 방대한 데이터에서 일부 데이터를 선택한 후, 이를 이용하여 근사모델을 생성한다. 즉, 부트스트래핑 기반의 랜덤복원추출 방법으로 다양한 근사모델을 생성한 후, 정확도에 따라 단계적으로 가중치를 달리하여 조합하는 부스팅을 통해 방대한 데이터를 효과적으로 다룰 수 있다. 따라서 본 연구에서는 부스팅 기법의 대표적인 알고리즘인 AdaBoost의 개념을 이용하여 회귀모델 제작에 적합한 새로운 알고리즘을 제안하고자한다.
45배 많은 개별 근사모델을 필요로 했다. 하지만 bagging에 비해 오차의 평균이 평균 41.5%향상되었으며, 오차의 표준편차도 평균 53.8% 개선되었다. 또한 AdaBoost.

후속연구

따라서 향후, AdaBoost.RMU.R을 더욱 개선하여 RSB, Quad문제에서도 확실한 개선을 보여야 할 것으로 판단된다.
각 산업 분야에서는 오랜 기간의 연구 개발을 통해 방대한 양의 데이터와 전문 지식이 축적되어 있다. 이것을 정보로 변환하여 새로운 제품 또는 기술에 대한 연구에 적용할 수 있다면 설계 과정에서 효율성이 극대화 될 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	부스팅은 어떤 방법인가?	이러한 문제점을 해결하고자 산업공학 분야에서 사용하는 앙상블 기법의 하나인 부스팅을 이용하고자 한다. 부스팅은 다양한 근사모델을 생성하고, 이들을 정확도에 따라 서로 다른 가중치로 조합하는 방법이다. 부스팅을 대량 데이터에 적용하는 경우에 랜덤복원추출 방법을 이용하여 방대한 데이터에서 일부 데이터를 선택한 후, 이를 이용하여 근사모델을 생성한다.
	근사모델의 역할은?	이처럼 설계과정의 효율성을 극대화하기 위해 산업 분야에서 사용하는 방법 중 하나가 근사모델이다. 근사모델은 해석이나 실험을 통해 얻은 실제 응답 값을 기반으로 설계 공간 내에서 아직 해석이나 실험이 수행되지 않은 위치에서의 응답값을 예측해주는 역할을 한다. 각 산업 현장에서 갖고 있는 방대한 양의 데이터를 이용하여 근사모델을 제작한다면 정확성이 높은 근사모델을 얻을 수 있다(Chen et al.
	일반 근사모델이 방대한 데이터를 효과적으로 다루는 데에 한계가 있는 이유는?	하지만 일반 근사모델의 경우 방대한 데이터들을 효과적으로 다루기에는 한계가 있다. 데이터가 많아질수록 근사모델제작에 필요한 변수 행렬이 커져 역행렬 계산이 어려워지기 때문이다. 따라서 방대한 데이터를 이용하여 한 번에 근사모델을 만드는 경우, 정확성이 부정확해진다.

참고문헌 (13)

Drucker, H. (1997), Improving regressors using boosting techniques, Proceedings of the 14th International Conference of Machine Learning.
Freund, Y. and Schapire, R. E. (1997), A decision-theoretic generalization of on-line learning and an application to boosting, Journal of computer and system sciences, 55(1), 119-139.

상세보기
Gao, F., Kou, P., Gao, L., and Guan, X. (2013), Boosting regression methods based on a geometric conversion approach : using SVMs base learners, Neurocomputing, 113(3), 67-87.

상세보기
Jin, R., Chen, W., and Simpson, T. W. (2001), Comparative Studies of Metamodeling Techniques under Multiple Modeling Criteria, Structural and Multidisciplinary Optimization, 23(1), 1-13.

상세보기
Kodiyalam, S., Yang, R. J., and Gu, L. (2004), High-Performance Computing and Surrogate Modeling for Rapid Visualization with Multidisciplinary Optimization, AIAA Journal, 42(11), 2347-2354.

상세보기
Madsen, K. and Zilinskas, J. (2000), Testing branch-and-bound methods for global optimization, IMM technical report, Technical University of Denmark.
Sasena, M. J. (2002), Flexibility and Efficiency Enhancement for Constrained Global Design Optimization with Kriging Approximations, PhD thesis, University of Michigan.
Park, C. I., Kim, Y. D., Kim, J. S., Song, J. W., and Choi, H. S. (2011), Data Mining with R, Kyowoosa.
Powell, M. J. D. (1987), Radial Basis Functions for Multivariable Interpolation : A review, Oxford University Press, 143-167.
Shrestha, D. L. and Solomatine, D. P. (2006), Experiments with Ada Boost.RT : an improved boosting scheme for regression, Neural computation, 18(7), 1678-1710.

상세보기
Simpson, T. W., Toropov, V., Balabanov, V., and Viana, F. A. C. (2008), Design and Analysis of Computer Experiments in Multidisciplinary Design Optimization : A Review of How Far We Have Come-or Not, 12th AIAA/ISSMO Multidisciplinary and Optimization Conference.
Solomatine, D. P. and Shrestha, D. L. (2004), AdaBoost.RT : a boosting algorithm for regression problems, Proceedings of the International Joint Conference on Neural Networks.
Wang, G. G. and Shan, S. (2007), Review of Metamodeling Techniques in Support of Engineering Design Optimization, Journal of Mechanical Design, 129(4), 370-380.

상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증