시스템 가용성 보장을 위한 기계 학습 기반의 장애 예측 자동화 프레임워크 설계 및 구현 Design and Implementation of Machine Learning based Failure Prediction Automation Framework to Ensure System Availability원문보기
다양한 IT 서비스들이 발전하면서 컴퓨터 시스템의 신뢰성 및 가용성 보장을 위한 장애 예측이 중요해졌다. 많은 연구에서 기계 학습을 통해 장애를 사전에 예측하고자 하였으며, 최근에도 지속적인 연구를 통해 예측 성능이 향상되고 있다. 그러나, 기존 장애 예측 연구에서는 장애 데이터 부족으로 인하여 인위적 데이터 생성 기법을 적용하거나 전문적인 지식이 필요하였으며, 한정된 ...
다양한 IT 서비스들이 발전하면서 컴퓨터 시스템의 신뢰성 및 가용성 보장을 위한 장애 예측이 중요해졌다. 많은 연구에서 기계 학습을 통해 장애를 사전에 예측하고자 하였으며, 최근에도 지속적인 연구를 통해 예측 성능이 향상되고 있다. 그러나, 기존 장애 예측 연구에서는 장애 데이터 부족으로 인하여 인위적 데이터 생성 기법을 적용하거나 전문적인 지식이 필요하였으며, 한정된 기계 학습 모델 사용 및 반복적인 성능 비교로 큰 비용이 발생하였다. 본 논문에서는 기계 학습 최적화를 포함한 전반적인 기계 학습 과정을 자동화하여 장애 예측 모델을 생성하고, 지속적인 시스템 모니터링을 통해 장애 발생 여부를 실시간으로 알려주는 프레임워크를 설계 및 구현하였다. 프레임워크는 모니터링을 통해 시스템 정보를 수집하고 저장하며, 다양한 기계 학습 알고리즘과 수집 데이터를 사용하여 특징 선택, 하이퍼 파라미터튜닝 등의 최적화 과정을 진행한다. 이 과정에서 예측 모델들의 성능을 비교하여 최적의 예측 모델을 생성하고 실시간 데이터를 통해 시스템의 장애 여부를 예측하여 사용자에게 알람을 생성하도록 하였다.
다양한 IT 서비스들이 발전하면서 컴퓨터 시스템의 신뢰성 및 가용성 보장을 위한 장애 예측이 중요해졌다. 많은 연구에서 기계 학습을 통해 장애를 사전에 예측하고자 하였으며, 최근에도 지속적인 연구를 통해 예측 성능이 향상되고 있다. 그러나, 기존 장애 예측 연구에서는 장애 데이터 부족으로 인하여 인위적 데이터 생성 기법을 적용하거나 전문적인 지식이 필요하였으며, 한정된 기계 학습 모델 사용 및 반복적인 성능 비교로 큰 비용이 발생하였다. 본 논문에서는 기계 학습 최적화를 포함한 전반적인 기계 학습 과정을 자동화하여 장애 예측 모델을 생성하고, 지속적인 시스템 모니터링을 통해 장애 발생 여부를 실시간으로 알려주는 프레임워크를 설계 및 구현하였다. 프레임워크는 모니터링을 통해 시스템 정보를 수집하고 저장하며, 다양한 기계 학습 알고리즘과 수집 데이터를 사용하여 특징 선택, 하이퍼 파라미터 튜닝 등의 최적화 과정을 진행한다. 이 과정에서 예측 모델들의 성능을 비교하여 최적의 예측 모델을 생성하고 실시간 데이터를 통해 시스템의 장애 여부를 예측하여 사용자에게 알람을 생성하도록 하였다.
With the development of various IT services, predicting failures to ensure the reliability and availability of computer systems has become important. Many studies have sought to predict failures in advance through machine learning, and in recent years, predictive performance has been improved throug...
With the development of various IT services, predicting failures to ensure the reliability and availability of computer systems has become important. Many studies have sought to predict failures in advance through machine learning, and in recent years, predictive performance has been improved through continuous research. However, traditional failure prediction studies required artificial data generation techniques or specialized knowledge due to lack of fault data, and limited use of machine learning models and repetitive performance comparisons resulted in high costs. In this paper, the overall machine learning process, including machine learning optimization, was automated to create a failure prediction model, and a framework was designed and implemented to inform the occurrence of the failure in real time through continuous system monitoring. The framework collects and stores system information through monitoring, and uses various machine learning algorithms and collection data to proceed with optimization processes such as feature selection and hyperparameter tuning. In this process, the performance of the forecast models was compared to produce an optimal prediction model and real-time data were used to predict the failure of the system to generate an alarm for the user.
With the development of various IT services, predicting failures to ensure the reliability and availability of computer systems has become important. Many studies have sought to predict failures in advance through machine learning, and in recent years, predictive performance has been improved through continuous research. However, traditional failure prediction studies required artificial data generation techniques or specialized knowledge due to lack of fault data, and limited use of machine learning models and repetitive performance comparisons resulted in high costs. In this paper, the overall machine learning process, including machine learning optimization, was automated to create a failure prediction model, and a framework was designed and implemented to inform the occurrence of the failure in real time through continuous system monitoring. The framework collects and stores system information through monitoring, and uses various machine learning algorithms and collection data to proceed with optimization processes such as feature selection and hyperparameter tuning. In this process, the performance of the forecast models was compared to produce an optimal prediction model and real-time data were used to predict the failure of the system to generate an alarm for the user.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.