[논문]의사결정나무를 이용한 다변량 공정관리 절차

정광영; 이재헌

doi:10.7465/jkdi.2015.26.3.639

의사결정나무를 이용한 다변량 공정관리 절차
Multivariate process control procedure using a decision tree learning technique 원문보기

Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, v.26 no.3, 2015년, pp.639 - 652

초록
AI-Helper

현대의 제조공정은 컴퓨터의 발전과 통신 및 네트워크의 발달로 컴퓨터통합제조가 가능해졌다. 이로 인해 고품질 제품의 고속 생산공정이 확대되고, 공정에서 실시간으로 전송되는 다양한 품질변수들의 데이터 축적 또한 가능하게 되었다. 이를 관리하기 위해서는 다변량 통계적 공정관리 절차가 필요하다. 전통적으로 사용하는 다변량 관리도는 이상상태 발생시 이상신호를 주지만, 이상원인이 어떠한 변수에 어떠한 영향을 주는지에 대한 정보를 제공하지 않는다는 단점이 있다. 이를 보완하기 위해 데이터마이닝과 기계학습 기법을 이용할 수 있다. 이 논문에서는 의사결정나무 학습 기법을 이용한 다변량 공정관리 절차를 소개하고, 이변량인 경우 모의실험을 통하여 그 효율을 살펴보았다. 모의실험 결과를 살펴볼 때, 상관계수에 따라 이상상태 탐지 능력은 비슷한 것으로 나타났고, 이상상태에 대한 분류 정확도는 상관계수와 이상원인의 형태에 따라 차이가 있지만 기존의 다변량 관리도에서는 제공하지 않는 이상원인의 정보를 제공하는 장점이 있음을 알 수 있다.

Abstract ▼ AI-Helper

In today's manufacturing environment, the process data can be easily measured and transferred to a computer for analysis in a real-time mode. As a result, it is possible to monitor several correlated quality variables simultaneously. Various multivariate statistical process control (MSPC) procedures have been presented to detect an out-of-control event. Although the classical MSPC procedures give the out-of-control signal, it is difficult to determine which variable has caused the signal. In order to solve this problem, data mining and machine learning techniques can be considered. In this paper, we applied the technique of decision tree learning to the MSPC, and we did simulation for MSPC procedures to monitor the bivariate normal process means. The results of simulation show that the overall performance of the MSPC procedure using decision tree learning technique is similar for several values of correlation coefficient, and the accurate classification rates for out-of-control are different depending on the values of correlation coefficient and the shift magnitude. The introduced procedure has the advantage that it provides the information about assignable causes, which can be required by practitioners.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

1인 경우 의사결정나무를 이용한 다변량 공정관리 절차의 효율에 대해 살펴보고자 한다. 다른 상관계수에 대해서도 효율을 살펴보았지만, 위의 6가지 상관계수에 대한 결과만 제시하였다.
의사결정나무 기반의 학습기술은 간단히 실행가능하며 분류나 예측에 대해 이해하고 설명하기 쉬운 장점이 있어서 실무자나 관리자에게 훌륭한 알고리즘이 될 수 있다. 또한 식별의 문제가 있던 기존의 다변량 관리도와는 다르게, 문제가 되는 품질변수를 식별하고 그 현상을 설명할 수 있는 정보를 제공하여 준다. 따라서 공정의 상태가 원하는 수준에서 벗어났을 경우 보다 빠르게 그 원인을 찾아 제거할 수 있기 때문에, 고품질의 고속 공정에서 시간과 비용을 절감할 수 있는 효과적인 다변량 공정관리의 절차라고 할 수 있다.
이 논문에서는 데이터를 처리하는 방법으로 이동식 윈도우를 사용하였고, 의사결정나무를 이용한 다변량 공정관리 절차를 소개하고 그 효율에 대하여 알아보았다. 모의실험을 통하여 얻은 결과를 정리하면 다음과 같다.
이 논문에서는 의사결정나무를 이용한 다변량 공정관리 절차를 소개하고, 그 효율에 대해 알아보고자 한다. 공정관리 절차의 효율을 판단하는 측도로는 분류의 정확도와 평균런길이 (average run length; ARL)를 사용했는데, 여기서 평균런길이는 관리도에서 이상신호를 줄 때까지 관측한 평균 표본의 수를 나타낸다.
이 절에서는 위에서 제시한 내용의 이해를 돕기 위해 이 논문에서 사용한 다변량 공정관리 절차, 즉 학습 데이터 생성, 분류 규칙 생성, 그리고 공정관리에 적용에 대하여 단계별로 설명하고자 한다. 품질 변수의 수는 p = 2이고, 윈도우 크기는 w = 10, 그리고 학습 데이터에서 관리상태와 이상상태를 구분하는 변화시점은 윈도우 크기의 1/4을 가정하였다.
식별 윈도우는 의사결정나무 학습에 의해 생성된 규칙들을 이용하여 공정의 상태를 파악하게 하는 일종의 단위라고 생각하면 된다. 즉, 현재의 측정값을 포함하여 일정기간 축적된 값들로 공정의 상태를 판단하는 것이다. 품질변수의 수와 윈도우 크기에 따라 공정상태의 판단 근거가 되는 입력 데이터의 크기는 달라진다.

가설 설정

nt는 t시점에 발생하는 우연원인 (chance cause)으로 N(0, Σ)를 따른다고 가정한다.
만일 공정이 관리상태일 경우 Xt는 다변량 정규분포 N(µ, Σ)를 따른다고 가정한다.
여기서 관리상태 (in-control state)인 공정의 평균벡터 µ와 공분산행렬 Σ는 정확히 알려졌다고 가정한다.
이 논문에서 평균런길이를 계산하는 모의실험은 공정의 변화시점 (process change point)으로 T = 51을 가정하였다. 즉, 공정은 50번째 시점까지는 관리상태이고 51번째부터 이상상태로 변화하는 것을 가정하였는데, 많은 연구를 통해 이 T값은 아주 작지만 않으면 결과에 큰 영향을 미치지 않는 것으로 알려져 있다.
이 논문에서 평균런길이를 계산하는 모의실험은 공정의 변화시점 (process change point)으로 T = 51을 가정하였다. 즉, 공정은 50번째 시점까지는 관리상태이고 51번째부터 이상상태로 변화하는 것을 가정하였는데, 많은 연구를 통해 이 T값은 아주 작지만 않으면 결과에 큰 영향을 미치지 않는 것으로 알려져 있다.
평균런길이는 각 경우마다 1000번 반복하여 계산한 평균값을 Table 2.4에 제시하였는데, 이때 상관계수는 ρ = 0.5를 가정하였다.
이 절에서는 위에서 제시한 내용의 이해를 돕기 위해 이 논문에서 사용한 다변량 공정관리 절차, 즉 학습 데이터 생성, 분류 규칙 생성, 그리고 공정관리에 적용에 대하여 단계별로 설명하고자 한다. 품질 변수의 수는 p = 2이고, 윈도우 크기는 w = 10, 그리고 학습 데이터에서 관리상태와 이상상태를 구분하는 변화시점은 윈도우 크기의 1/4을 가정하였다.
의사결정나무 기반의 다변량 공정관리 절차에서 공정 평균의 이상상태를 탐지하기 위해서는 평균 변화에 대한 상황들을 사전에 학습시킬 필요가 있다. 품질변수들의 평균은 관리상태에서 서서히 변화하는 것이 아니라 어느 시점에서 갑자기 변화하는 것으로 가정한다. 이 논문에서 평균 변화에 대한 데이터 생성 모형은 다음과 같이 Guh와 Shiue (2008)에서 사용한 모형을 동일하게 사용하였다.

제안 방법

단계 2에서 생성된 분류 규칙을 다변량 공정관리에 적용할 때, 먼저 10개 시점 (시점 1에서 시점 10)에서 각 시점마다 2개의 품질변수를 측정하여 마할라노비스 거리를 계산하고, 표준화 단계 및 코딩 단계를 거쳐 30개의 원소를 갖는 벡터를 구성한다. 이때 윈도우 크기인 w = 10 시점까지는 공정의 상태를 판단할 수 없는 것이 제안된 방법의 단점이라 할 수 있다.
여기서 다변량 정규분포 데이터를 생성하기 위해서 ‘mvtnorm’ 패키지와 마할라노비스 거리를 계산해 주는 ‘mahalanobis’ 패키지, 그리고 의사결정나무 규칙을 생성하고 생성된 규칙을 통해서 다변량 공정에서 측정된 입력데이터를 판별하는 ‘C5.0’ 패키지를 사용하였다.
이 논문에서는 변동의 크기가 −3, −2, 0, 2, 3인 경우를 고려하였다.

대상 데이터

학습 데이터는 관리상태의 데이터 2000개와 이상상태의 데이터 2400 (= 24 × 100)개로 총 4400개의 데이터를 만들었다.

데이터처리

학습 데이터 생성 및 모의실험은 통계 소프트웨어인 R을 통해 구현하였다. R은 필요한 분석을 직접 프로그래밍을 통해 실행하거나 연구자들이 개발한 패키지를 사용하여 분석할 수 있다.

이론/모형

가지치기는 2가지 옵션으로 구성되어 있는데, 하나는 의사결정나무 끝마디에 포함되는 최소한의 사례의 수를 결정하는 m과 다른 하나는 가지치기의 신뢰수준을 결정하는 c이다. 그리고 의사결정나무 학습을 향상시키기 위해서 Adaboost 기술을 사용하였다. 이 논문에서 의사결정나무를 생성할 때 가지치기 옵션은 m = 1과 c = 0.
5를 사용하였다. 또한 앙상블 기법인 Adaboost의 반복수는 3번으로 설정하였다.
본 연구에 사용한 의사결정나무 학습 모형은 이동식 윈도우 (moving window) 방법을 이용한다. 이는 공정에서 생산되는 제품이 순차적으로 관측될 때, 이동식 식별 윈도우 (moving identification window)도 앞으로 하나씩 움직이는 것을 말한다.
품질변수들의 평균은 관리상태에서 서서히 변화하는 것이 아니라 어느 시점에서 갑자기 변화하는 것으로 가정한다. 이 논문에서 평균 변화에 대한 데이터 생성 모형은 다음과 같이 Guh와 Shiue (2008)에서 사용한 모형을 동일하게 사용하였다.

성능/효과

6에 제시하였다. Adaboost의 반복수는 3번으로 설정하여, 처음에 108개의 규칙, 반복 1에서 53개의 규칙, 반복 2에서 55개의 규칙, 그리고 반복 3에서 72의 규칙 등 총 288개의 분류 규칙이 생성되었다. Table 2.
결론적으로 의사결정나무를 이용한 다변량 공정관리 절차의 효율은 상관계수와 이상원인의 형태에 따라 달라질 수 있다. 그러나 이 절차의 장점은 이상상태의 신호뿐만 아니라 이상상태의 유형에 대한 정보도 함께 제공하기 때문에, 이상상태에 대한 실무자의 신속한 대처가 가능할 것으로 판단된다.
그러나 위에서 언급한 일변량 관리도는 2개 이상의 속성에 의해 제품의 품질이 결정되는 다변량 공정의 관리에는 적용하기가 어렵다. 그러나 자동 데이터 습득 시스템의 발전과 온라인 모니터 프로그램의 적용으로 서로 상관이 있는 품질변수 (quality variable)들을 동시에 모니터링할 수 있는 다변량 공정관리 (multivariate SPC; MSPC)를 구현할 수 있게 되었다. 다변량 공정관리에서 전통적으로 많이 사용되고 있는 관리도는 Hotelling의 T² 관리도, 다변량 누적합 (multivariate CUSUM; MCUSUM) 관리도, 다변량 지수가중이동평균 (multivariate EWMA; MEWMA) 관리도 등이 있다.
둘째, 정분류율이 낮고 오분류율이 상대적으로 높은 경우를 살펴보면, 주로 유사한 집단으로 오분류되는 경우가 많음을 알 수 있다. 예를 들어, Table 3.
둘째, 학습 데이터를 생성할 때, 관리상태와 이상상태를 구분하는 변화시점 또한 관리 절차의 효율에 영향을 준다. 변화시점을 윈도우 크기의 1/4, 1/2, 3/4으로 설정하여 모의실험을 수행한 결과 1/4을 사용하는 것이 가장 바람직하다는 결론을 얻었다.
즉, 윈도우 크기가 커질수록 관리상태의 평균런길이는 커지지만 이상상태의 탐지 성능화이 떨어지며, 작아질 경우에는 그 반대가 된다. 모의실험 결과 윈도우 크기는 10이 적당한 것으로 나타났다.
둘째, 학습 데이터를 생성할 때, 관리상태와 이상상태를 구분하는 변화시점 또한 관리 절차의 효율에 영향을 준다. 변화시점을 윈도우 크기의 1/4, 1/2, 3/4으로 설정하여 모의실험을 수행한 결과 1/4을 사용하는 것이 가장 바람직하다는 결론을 얻었다.
셋째, 의사결정나무의 분류 규칙을 이용한 다변량 공정관리 절차는 전통적으로 사용하는 관리도와는 달리 이상상태의 유형에 대한 정보를 제공하기 때문에, 실제 공정관리에서 유용하게 사용될 수 있을 것이라 판단된다.
첫째, 상관계수의 절대값이 큰 경우 공정평균의 변화가 상관계수와 같은 방향으로 변화했을 때, 즉 상관계수가 양(+)인 경우에는 k1과 k2의 부호가 같고 음(−)인 경우에는 k1과 k2의 부호가 다를 때, 정분류율이 높게 나타났다.
첫째, 윈도우 크기에 따라서 관리 절차의 효율이 달라진다. 즉, 윈도우 크기가 커질수록 관리상태의 평균런길이는 커지지만 이상상태의 탐지 성능화이 떨어지며, 작아질 경우에는 그 반대가 된다.
6을 살펴보면 각 분류 기준과 분류되는 소속 집단이 나와있고, 집단 옆의 대괄호에 표기된 수치는 라플라스비 (Laplace ratio)로서 분류 규칙의 정확도를 나타낸다. 학습 데이터에 대해 총 288개의 분류 규칙을 적용할 경우 정분류율은 99.8% (4400개의 학습 데이터 중 7개가 오분류됨)로 나타났다. 이렇게 정분류율이 높게 나타난 것은 학습 데이터를 생성할 때, 평균의 변화량이 아주 작은 경우 (k1과 k2가 1 또는 −1인 경우)를 고려하지 않았기 때문인 것으로 판단된다.

후속연구

향후 품질변수의 수가 3개 이상인 경우와 다른 기계학습 기법을 이용한 다변량 공정관리 절차에 대한 연구가 진행되어야 한다고 생각한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	이동식 윈도우 (moving window) 방법이란 무엇인가?	본 연구에 사용한 의사결정나무 학습 모형은 이동식 윈도우 (moving window) 방법을 이용한다. 이는 공정에서 생산되는 제품이 순차적으로 관측될 때, 이동식 식별 윈도우 (moving identification window)도 앞으로 하나씩 움직이는 것을 말한다. Figure 2.
	통계적 공정관리에서 기본적으로 이용하는 관리도는 무엇인가?	목표하고 있는 품질수준을 유지하고 통제하기 위해서는 공정의 변동을 효율적으로 탐지하고 감시할 수 있는 적절한 통계적 공정관리 (statistical process control; SPC)가 필수적이다. 통계적 공정관리에서 기본적으로 이용하는 관리도는 Shewhart 관리도, 누적합 (cumulative sum; CUSUM) 관리도, 지수가중이동평균 (exponentially weighted moving average; EWMA) 관리도 등이 있다.
	의사결정나무 기반의 학습기술이 효과적인 다변량 공정관리의 절차인 이유는 무엇인가?	의사결정나무 기반의 학습기술은 간단히 실행가능하며 분류나 예측에 대해 이해하고 설명하기 쉬운 장점이 있어서 실무자나 관리자에게 훌륭한 알고리즘이 될 수 있다. 또한 식별의 문제가 있던 기존의 다변량 관리도와는 다르게, 문제가 되는 품질변수를 식별하고 그 현상을 설명할 수 있는 정보를 제공하여 준다. 따라서 공정의 상태가 원하는 수준에서 벗어났을 경우 보다 빠르게 그 원인을 찾아 제거할 수 있기 때문에, 고품질의 고속 공정에서 시간과 비용을 절감할 수 있는 효과적인 다변량 공정관리의 절차라고 할 수 있다.

참고문헌 (11)

Chen, L. H. and Wang, T. Y. (2004). Artificial neural networks to classify mean shifts from multivariate $chi^2$ chart signals. Computers & Industrial Engineering, 47, 195-205.

상세보기
Cho, G. Y. (2010). Multivariate Shewhart control charts with variable sampling intervals. Journal of the Korean Data & Information Science Society, 21, 999-1008.
Cho, G. Y. and Park, J. S. (2013). Parameter estimation in a readjustment procedure in the multivariate integrated process control. Journal of the Korean Data & Information Science Society, 24, 1275-1283.

원문보기 상세보기
Guh, R. S. (2005). A hybrid learning-based model for on-line detection and analysis of control chart patterns. Computers & Industrial Engineering, 49, 35-62.

상세보기
Guh, R. S. (2007). On-line identification and quantification of mean shifts in bivariate processes using a neural network-based approach. Quality and Reliability Engineering International, 23, 367-385.

상세보기
Guh, R. S. and Shiue, Y. R. (2005). On-line identification of control chart pattern using self-organizing approaches. International Journal of Production Research, 43, 1225-1254.

상세보기
Guh, R. S. and Shiue, Y. R. (2008). An effective application of decision tree learning for on-line detection of mean shifts in multivariate control charts. Computers & Industrial Engineering, 55, 475-493.

상세보기
Guh, R. S. and Tannock, J. D. T. (1999). Recognition of control chart concurrent pattern using a neural network approach. International Journal of Production Research, 37, 1743-1765.

상세보기
Ho, E. S. and Chang, S. I. (1999). An integrated neural network approach for simultaneous monitoring of process mean and variance shifts - a comparative study. International Journal of Production Research, 37, 1743-1765.

상세보기
Hwarng, H. B. (2005). Simultaneous identification of mean shift and correlation change in AR(1) processes. International Journal of Production Research, 43, 1761-1783.

상세보기
Quinlan, J. R. (1998). C5.0: An informal tutorial, RuleQuest, Australia.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증