[논문]k-NN을 활용한 터보팬 엔진의 잔여 유효 수명 예측 모델 제안

김정태; 서양우; 이승상; 김소정; 김용근

doi:10.5762/kais.2021.22.4.611

k-NN을 활용한 터보팬 엔진의 잔여 유효 수명 예측 모델 제안
A Proposal of Remaining Useful Life Prediction Model for Turbofan Engine based on k-Nearest Neighbor 원문보기

한국산학기술학회논문지 = Journal of the Korea Academia-Industrial cooperation Society, v.22 no.4, 2021년, pp.611 - 620

김정태 (LIG넥스원 PGM IPS연구소) , 서양우 (LIG넥스원 PGM IPS연구소) , 이승상 (LIG넥스원 PGM IPS연구소) , 김소정 (LIG넥스원 PGM IPS연구소) , 김용근 (LIG넥스원 PGM IPS연구소)

초록
AI-Helper

정비 산업은 사후정비, 예방정비를 거쳐, 상태기반 정비를 중심으로 진행되고 있다. 상태기반 정비는 장비의 상태를 파악하여, 최적 시점에서의 정비를 수행한다. 최적의 정비 시점을 찾기 위해서는 장비의 상태, 즉 잔여 유효 수명을 정확하게 파악하는 것이 중요하다. 이에, 본 논문은 시뮬레이션 데이터(C-MAPSS)를 사용한 터보팬 엔진의 잔여 유효수명(RUL, Remaining Useful Life) 예측 모델을 제시한다. 모델링을 위해 C-MAPSS(Commercial Modular Aero-Propulsion System Simulation) 데이터를 전처리, 변환, 예측하는 과정을 거쳤다. RUL 임계값 설정, 이동평균필터 및 표준화를 통해 데이터 전처리를 수행하였고, 주성분 분석(Principal Component Analysis)과 k-NN(k-Nearest Neighbor)을 활용하여 잔여 유효 수명을 예측하였다. 최적의 성능을 도출하기 위해, 5겹 교차검증기법을 통해 최적의 주성분 개수 및 k-NN의 근접 데이터 개수를 결정하였다. 또한, 사전 예측의 유용성, 사후 예측의 부적합성을 고려한 스코어링 함수(Scoring Function)를 통해 예측 결과를 분석하였다. 마지막으로, 현재까지 제시되어온 뉴럴 네트워크 기반의 알고리즘과 예측 성능 비교 및 분석을 통해 k-NN 활용 모델의 유용성을 검증하였다.

Abstract ▼ AI-Helper

The maintenance industry is mainly progressing based on condition-based maintenance after corrective maintenance and preventive maintenance. In condition-based maintenance, maintenance is performed at the optimum time based on the condition of equipment. In order to find the optimal maintenance point, it is important to accurately understand the condition of the equipment, especially the remaining useful life. Thus, using simulation data (C-MAPSS), a prediction model is proposed to predict the remaining useful life of a turbofan engine. For the modeling process, a C-MAPSS dataset was preprocessed, transformed, and predicted. Data pre-processing was performed through piecewise RUL, moving average filters, and standardization. The remaining useful life was predicted using principal component analysis and the k-NN method. In order to derive the optimal performance, the number of principal components and the number of neighbor data for the k-NN method were determined through 5-fold cross validation. The validity of the prediction results was analyzed through a scoring function while considering the usefulness of prior prediction and the incompatibility of post prediction. In addition, the usefulness of the RUL prediction model was proven through comparison with the prediction performance of other neural network-based algorithms.

주제어

표/그림 (21)

그림 Fig. 1. History of maintenance[2]
그림 Fig. 2. Operating conditions of the Dataset #1 and #2
그림 Fig. 3. Data structure of C-MAPSS dataset
표 Table 1. C-MAPSS dataset summary[12]
표 Table 2. Column names of dataset[12]
그림 Fig. 4. Modeling Process
그림 Fig. 5. Threshold of maximum RUL estimation
그림 Fig. 6. Raw data of individual engine (Dataset #1)
표 Table 3. Sensor measurement[12]
그림 Fig. 7. Filtered data of individual engine (Dataset #1)
그림 Fig. 8. Standardized data of individual engine (Dataset #1)
그림 Fig. 9. Individual and cumulative variance explained by Principal Component
그림 Fig. 10. Example of Principal Component map (Dataset #1, m = 2)
표 Table 4. Cases depending on RUL[12]
그림 Fig. 11. 5-fold cross validation
그림 Fig. 12. Validation Score depending on m
그림 Fig. 13. Validation Score depending on k
그림 Fig. 14. RUL prediction model
표 Table 5. Optimal value of m & k
그림 Fig. 15. Score of various methods
표 Table 6. Score of various methods[6]

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구에서는 센서 측정값과 운용 사이클의 상관관계를 파악하여 엔진의 수명을 예측하였다. 사이클이 진행되면서 센서 측정값이 상향 또는 하향 추세선을 갖는 센서를 분석 대상으로 활용하였다.
주제가 있다. 시뮬레이션 데이터(C-MAPSS Data, Commercial Modular Aero-Propulsion System Simulation) 분석을 통해 잔여 유효 수명을 예측하고, 성능 평가를 위한 점수를 산출하는 연구이다.
이에 본 연구에서는 k-NN(k-Nearest Neighbor) 기법을 활용한 RUL 예측 모델을 제시한다. k-NNe 데이터의 군집을 분류하는 분류기(classifier)로, 주변 데이터의 정보를 통해 표적 데이터를 특정 군집으로 분류한다.

제안 방법

(5) k개 학습 데이터의 RUL 값을 산술평균하고 계산된 RUL을 표적 데이터의 RUL으로 예측한다.
마지막으로, 테스트 데이터 근접 k개의 RUL 평균값으로 _{}를 제시하고 Eq. (5), 스코어링 함수로 성능을 평가하였다. 점수는 낮을수록 실제와 근접한 예측을 의미하며, Table 6에서 확인할 수 있듯이 다른 알고리즘에 비해 모두 좋은 성능을 보였다.
구성하는 엔진 샘플의 수이다. RUL 예측 모델을 형성할 때, 학습 데이터를 토대로 모델을 구성하고, 테스트 데이터를 적용하여 모델의 성능을 평가한다. 이때, 학습 및 테스트 데이터는 26열로 구성되어 있으며, Table 2와 Fig.
예측하는 모델이다. RUL 임계값 설정, 이동평균 필터 및 표준화로 데이터를 전처리하고, 주성분 분석을 통해 맵을 형성하였다. 또한, Cross Validation 기법을 활용하여 최적의 주성분 개수(m)와 근접 데이터 개수(k) 를 결정하였다.
학습데이터를 5개 그룹으로 나누어 4개 그룹은 학습 세트 (training set)로, 나머지 1개 그룹은 검증 세트 (validation set)로 설정하였다. 검증 세트를 매 검증마다 다르게 선택하여 총 5번의 검증 결과를 도출하였다. Fig.
또한, 데이터를 선별하여 활용하기 때문에 이상치나 손실 데이터와 같은 오류 데이터에 민감하지 않다는 장점이 있다. 다만, 본 모델은 기존의 k-NN을 활용하여, 군집 분류가 아닌 표적 데이터의 RUL 값을 예측하였으며, 다른 알고리즘과의 성능 비교를 위해 RUL 예측 정확도에 따른 점수를 산정하였다.
구성한다. 단, 테스트 세트는 정보가 없을 경우를 대비하여 모델의 모수만으로 RUL을 예측하였다. RUL 임계값 조정 과정은 거치지 않고, 표준화와 주성분 맵은 학습 세트의 모수 (, 공분산)를 사용하였다.
데이터 전처리는 RUL 임계값 설정, 이동평균 필터, 표준화 과정을 거쳤다. 데이터 변환 과정에서는, 전처리된 데이터를 주성분 분석하여 주성분 맵을 형성하고, k-NN을 활용하여 표적 데이터의 RUL을 산출하였다. 이 과정에서 PHM Society의 스코어링 함수 (Scoring function)로 모델 구축을 위한 최적의 파라미터를 검증하고, 모델의 성능을 평가하였다.
축소된 데이터는 몇 개의 주성분을 사용하는가에 따라 전체 데이터 분산 정보의 일정 부분을 포함한다. 따라서, 검증 과정을 통해 높은 분산 정도를 갖는 순서대로 m(2~14)개의 주성분을 선택했을 때 성능을 비교하여 주성분의 개수를 결정하였다.
파악하기 어렵다. 따라서, 주성분 분석을 통해 정보의 손실을 최소화하여 데이터의 차원을 축소하였다. 데이터의 주성분은 다음과 같이 구하였다.
RUL 임계값 설정, 이동평균 필터 및 표준화로 데이터를 전처리하고, 주성분 분석을 통해 맵을 형성하였다. 또한, Cross Validation 기법을 활용하여 최적의 주성분 개수(m)와 근접 데이터 개수(k) 를 결정하였다. m개 주성분을 선택하여 학습 데이터의 주성분 맵을 형성하고, 테스트 데이터 역시 투입하였다.
고려된 운용 환경이다. 비행의 출력에 영향을 주는 데이터 세트 내 운용상의 조건 변수(Operational Setting)를 고려하여 파악한다. 데이터 세트 1은 1개의 운영조건을, 데이터 세트 2는 6개의 운영조건을 갖는다.
데이터 변환 과정에서는, 전처리된 데이터를 주성분 분석하여 주성분 맵을 형성하고, k-NN을 활용하여 표적 데이터의 RUL을 산출하였다. 이 과정에서 PHM Society의 스코어링 함수 (Scoring function)로 모델 구축을 위한 최적의 파라미터를 검증하고, 모델의 성능을 평가하였다. 전체적인 모델링 절차를 도식화하여 Fig.
이를 고려하여 모델을 구성할 때, 학습 데이터의 RUL 임계값을 130 사이클로 설정하였다[6]. 임계 값을 초과하는 비관심 데이터의 경우, 수명을 임계 값으로 조정하여 분석하였다. Fig.
먼저, 14개의 센서를 입력 벡터 x로 구성하였다. 입력 벡터 x의 공분산 행렬(Covariance Matrix)을 구하고, 고유값 (Eigenvalue)에 따라 고유 벡터(Eigenvector)를 내림차순으로 정렬하였다. 공분산 행렬 C는 Eq.
반면, 본 연구에서는 k-NN 알고리즘을 응용하여 테스트 데이터의 RUL을 예측하였다. 테스트 데이터에서 가장 가까운 k개의 주변 데이터를 찾아, 주변 데이터의 RUL 값을 산술평균하여 테스트 데이터의 RUL 값을 산출하였다. 따라서 본 연구의 k-NN 결과값은 특정 군집이 아닌 RUL 값이다.
5겹 교차 검증은 알고리즘의 성능을 평가하기 위해 사용되는 기법이다[14]. 학습데이터를 5개 그룹으로 나누어 4개 그룹은 학습 세트 (training set)로, 나머지 1개 그룹은 검증 세트 (validation set)로 설정하였다. 검증 세트를 매 검증마다 다르게 선택하여 총 5번의 검증 결과를 도출하였다.

대상 데이터

또한, Cross Validation 기법을 활용하여 최적의 주성분 개수(m)와 근접 데이터 개수(k) 를 결정하였다. m개 주성분을 선택하여 학습 데이터의 주성분 맵을 형성하고, 테스트 데이터 역시 투입하였다. 마지막으로, 테스트 데이터 근접 k개의 RUL 평균값으로 _{}를 제시하고 Eq.
사이클이 진행되면서 센서 측정값이 상향 또는 하향 추세선을 갖는 센서를 분석 대상으로 활용하였다. 따라서, 각 엔진의 21개 센서 측정값 중, 추세를 갖지 않는 7개의 센서를 제외한 14개의 센서를 선정 및 분석하였다. Fig.
조치를 취하는 것이다. 따라서, 모델의 관심 대상은 고장 시점에 근접하며, 고장의 전조를 확인할 수 있는 사이클이다. 이를 고려하여 모델을 구성할 때, 학습 데이터의 RUL 임계값을 130 사이클로 설정하였다[6].
파악하여 엔진의 수명을 예측하였다. 사이클이 진행되면서 센서 측정값이 상향 또는 하향 추세선을 갖는 센서를 분석 대상으로 활용하였다. 따라서, 각 엔진의 21개 센서 측정값 중, 추세를 갖지 않는 7개의 센서를 제외한 14개의 센서를 선정 및 분석하였다.
RUL 예측 모델을 형성할 때, 학습 데이터를 토대로 모델을 구성하고, 테스트 데이터를 적용하여 모델의 성능을 평가한다. 이때, 학습 및 테스트 데이터는 26열로 구성되어 있으며, Table 2와 Fig. 3은 그 데이터 구조이다.
5회 검증 결과를 합산한 점수가 최소인 m과 k 값을 최적값으로 결정하였다. 주성분 개수인 me 14개의 센서를 대상으로 2 ~ 14 까지 총 13개 값을 사용하였다. k-NN 알고리즘에서 k 값은 범위를 10부터 250까지, 간격은 10으로 하였다.

데이터처리

PHM Society의 스코어링 함수를 기반으로, 최적 주성분 개수(m)와 근접 데이터 개수(k) 값 결정을 위해 5겹 교차 검증 기법을 사용하였다. 5겹 교차 검증은 알고리즘의 성능을 평가하기 위해 사용되는 기법이다[14].
검증을 통해 산출한 k, m 값을 활용하여 테스트 데이터에 대한 점수를 산출하였다. 테스트 데이터를 변환하여 점수를 산출하는 과정을 (1)~(5)와 같이 제시한다.
구성하였다. 데이터 전처리는 RUL 임계값 설정, 이동평균 필터, 표준화 과정을 거쳤다. 데이터 변환 과정에서는, 전처리된 데이터를 주성분 분석하여 주성분 맵을 형성하고, k-NN을 활용하여 표적 데이터의 RUL을 산출하였다.
축으로 하는 시계열 데이터이다. 시계열 데이터에 대한 전처리 과정으로, 데이터 이상치와 불규칙 변동 등을 제거하고 데이터의 추세를 반영하기 위해 이동평균 필터를 적용하였다. Fig.
이에, 5겹 교차 검증 방식으로 최적의 k 값을 검증하였다.

이론/모형

RUL 예측 모델은 데이터 전처리(Preprocessing), 데이터 변환(Transformation), k-최근접 이웃(k-NN) 기법으로 구성하였다. 데이터 전처리는 RUL 임계값 설정, 이동평균 필터, 표준화 과정을 거쳤다.
RUL 정보를 포함한다. 거리 측정 방식은 유클리디안 거리(Euclidean’s distance)를 사용하였다. k-NN 알고리즘으로 RUL을 예측하는 과정을 (1)~(5)와 같이 제시한다.
모델 성능 판단 기준은 PHM Society의 스코어링 함수를 사용하였다[12]. 해당 식은 PHM Society의 알고리즘 성능 평가 기준으로 Eq.
따라서, 일반적으로 k-NN 알고리즘의 결과값은 특정 군집이다. 반면, 본 연구에서는 k-NN 알고리즘을 응용하여 테스트 데이터의 RUL을 예측하였다. 테스트 데이터에서 가장 가까운 k개의 주변 데이터를 찾아, 주변 데이터의 RUL 값을 산술평균하여 테스트 데이터의 RUL 값을 산출하였다.
반면, 데이터 세트 3과 4는 HPC와 Fan의 성능 저하를 포함한 두 가지 고장 유형을 갖는다. 본 연구에서는 한 가지 고장 유형을 갖는 데이터 세트 1과 2를 대상으로 RUL 예측 모델을 적용한다.

성능/효과

[6]이 비교했던 알고리즘들과 RUL 예측 모델의 점수이다. 결과를 비교해보면, 제시된 5개의 알고리즘 중 가장 좋은 성능을 보이는 것을 확인할 수 있다. 데이터 세트 1의 경우, 811점으로 CNN과 400점 이상의 차이를 보였으며, 데이터 세트 2 에서는 10, 900점으로 다른 알고리즘들과 2, 700점 이상 차이로 월등하게 좋은 성능을 보였다.
13은 k 개수에 따른 검증 결과이다. 데이터 세트 1과 2 모두 14개의 주성분을 사용했을 때 가장 좋은 성능을 보였다. 반면, k 개수의 경우, 많을수록 좋은 성능을 보이는 것이 아니라 최적 성능을 갖는 k 값이 도출되었다.
결과를 비교해보면, 제시된 5개의 알고리즘 중 가장 좋은 성능을 보이는 것을 확인할 수 있다. 데이터 세트 1의 경우, 811점으로 CNN과 400점 이상의 차이를 보였으며, 데이터 세트 2 에서는 10, 900점으로 다른 알고리즘들과 2, 700점 이상 차이로 월등하게 좋은 성능을 보였다.
청색 점은 전체 엔진 데이터, 적색 점은 1개 엔진 데이터이다. 엔진이 열화되면서 데이터의 위치가 좌측에서 우측으로 이동하는 방향성을 갖는 것을 확인하였다.
(5), 스코어링 함수로 성능을 평가하였다. 점수는 낮을수록 실제와 근접한 예측을 의미하며, Table 6에서 확인할 수 있듯이 다른 알고리즘에 비해 모두 좋은 성능을 보였다.
9는 데이터 세트 1의 각 n번째 주성분(x축)에 포함된 분산 정도(y축)를 나타낸 것이다. 즉, 첫 번째 주성분은 데이터 세트 1의 전체 분산 중 약 62%의 분산 정보를 가졌다.

참고문헌 (14)

J. H. Choi, "Introduction of Failure Prediction and Prognostics Health Management", Journal of the KSME, Vol.53, No.7, pp.24-34, Jul. 2013.
S. H. Lee, B. D. Youn, "Directions for Industry 4.0, Failure Prediction and Prognostics Health Management", Journal of the KSNVE, Vol.25, No.1, pp.22-28, Feb. 2015.
B.S. Seo, T. W. Hwang, B. C. Jang, J. H. Song, Y. H. Son, D. K. Lee, B. D. Youn, "Introduction of the 4th industrial revolution and success cases through PHM technology", Journal of the KSME, Vol.59, No.1, pp.32-37, Jan. 2019.
X. Jia, B. Huang, J. Feng, H. Cai, J. Lee, "A Review of PHM Data Competitions from 2008 to 2017", Annual Conference of the PHM Society, Vol.10, No.1, Sep. 2018. DOI: https://doi.org/10.36001/phmconf.2018.v10i1.462
G. S. Babu, P. Zhao, X. Li, "Deep Convolutional Neural Network Based Regression Approach for Estimation of Remaining Useful Life", Database Systems for Advanced Application. DASFAA, pp.214-228, Mar. 2016. DOI: https://doi.org/10.1007/978-3-319-32025-0_14
Heimes, F., "Recurrent neural networks for remaining useful life estimation", Intenational Conference on Prognostics and Health Management, IEEE, Dever, CO, pp.1-6, Oct. 2008. DOI: https://doi.org/10.1109/PHM.2008.4711422
Y. Yun, S, Kim, S. H. Cho, J. H. Choi, "Neural Network based Aircraft Engine Health Management using C-MAPSS Data", Journal of Aerospace System Engineering, Vol.13, No.6, pp.17-25, 2019. DOI: https://dx.doi.org/10.20910/JASE.2019.13.6.17

원문보기 상세보기
Peel, L., "Data driven prognostics using a Kalman filter ensemble of neural network models", Intenational conference on Prognostics and Health Management, Denver, CO, pp. 1-6, 2008. DOI: https://doi.org/10.1109/phm.2008.4711423
P. Lim, C. K. Goh, K. C. Tan, A time-window neural networks based framework for remaining useful life estimation, International Joint Conference on Neural Networks(IJCNN), Vancouver, BC, pp.1746-1753, 2016. DOI: https://doi.org/10.1109/IJCNN.2016.7727410
Markus G., Deep learning: a critical appraisal, arXiv:1801.00631, pp.5-14, 2018.
H. T. Yang, H. Jhang, "Present and future of deep learning", FUTURE HORIZON, No.38, pp.8-11, 2018
A. Saxena, and K. Goebel, PHM08 Challenge Data Set, NASA Ames Prognostics Data Repository NASA Ames Research Center, Moffett Field, CA, 2008.
K. Beyer, J. Goldstein, R. Ramakrishnan, U. Shaft, "When Is "Nearest Neighbor" meaningful?", International Conference on Database Theory, ICDT, pp.217-235, Jan. 1997. DOI: https://doi.org/10.1007/3-540-49257-7_15

상세보기
T. Wong and P. Yeh, "Reliable Accuracy Estimates from k-fold Cross Validation", IEEE Transactions on Knowledge and Data Engineering, Vol.32, No.8, pp.1586-1594, Aug. 2020. DOI: https://doi.org/10.1109/TKDE.2019.2912815

상세보기

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증