컴퓨팅 자원의 가용성을 보장하기 위한 기계 학습 기반의 실시간 장애 예측 프레임워크 연구 A Study on the Real-time Failure Prediction Framework based on Machine Learning to Ensure Availability of Computing Resources
컴퓨터 시스템을 통해 수많은 서비스들이 제공됨에 따라 시스템의 신뢰성 및 가용성이 중요해졌다. 이에 시스템 장애를 예측하여 이를 사전에 방지하는 것이 주요 과제가 되었다. 기존 연구에서 복잡한 시스템의 가용성을 보장하기 위해, 가장 많은 피해 비용을 초래하는 시스템 구성 자원의 장애를 예측하고자 하였으며, 시스템 지식을 기반으로 최적의 데이터 가공 및 예측 알고리즘을 적용하여 높은 예측률의 모델을 얻고자 하였다. 하지만, 최적의 모델을 얻기 위해서는 반복적인 데이터 분석 및 가공, 예측 모델최적화 및 비교가 필요하였고 해당 과정의 일부만이 경험적 지식에 의존하여 수동적으로 수행되었다. 본 논문에서는 최적화된 예측 모델을 얻기 위한 과정을 전략적으로 자동화하여 이러한 비용을 최소화하는 프레임워크를 구현하였다. 이를 위해 기존 연구에서 장애와 높은 연관성이 검증된 데이터를 수집하는 모니터링 시스템과 자동화된 기계 학습을 적용하여 특징 공학, 알고리즘 선택, 예측모델 최적화 과정을 자동화하고, 생성된 모델을 기반으로 실시간 장애 예측을 가능하게 하였다. 또한 여러 논문에서 파편화되어 있는 장애 개념, 예측 방법 및 적용을 체계화하고 프레임워크에 반영하였다.
컴퓨터 시스템을 통해 수많은 서비스들이 제공됨에 따라 시스템의 신뢰성 및 가용성이 중요해졌다. 이에 시스템 장애를 예측하여 이를 사전에 방지하는 것이 주요 과제가 되었다. 기존 연구에서 복잡한 시스템의 가용성을 보장하기 위해, 가장 많은 피해 비용을 초래하는 시스템 구성 자원의 장애를 예측하고자 하였으며, 시스템 지식을 기반으로 최적의 데이터 가공 및 예측 알고리즘을 적용하여 높은 예측률의 모델을 얻고자 하였다. 하지만, 최적의 모델을 얻기 위해서는 반복적인 데이터 분석 및 가공, 예측 모델 최적화 및 비교가 필요하였고 해당 과정의 일부만이 경험적 지식에 의존하여 수동적으로 수행되었다. 본 논문에서는 최적화된 예측 모델을 얻기 위한 과정을 전략적으로 자동화하여 이러한 비용을 최소화하는 프레임워크를 구현하였다. 이를 위해 기존 연구에서 장애와 높은 연관성이 검증된 데이터를 수집하는 모니터링 시스템과 자동화된 기계 학습을 적용하여 특징 공학, 알고리즘 선택, 예측모델 최적화 과정을 자동화하고, 생성된 모델을 기반으로 실시간 장애 예측을 가능하게 하였다. 또한 여러 논문에서 파편화되어 있는 장애 개념, 예측 방법 및 적용을 체계화하고 프레임워크에 반영하였다.
The reliability and availability of server and storage systems became important as a number of services were prevalent on them. Therefore, predicting system failures in advance has become a major challenge. In order to ensure the availability of complex systems, several studies have been conducted t...
The reliability and availability of server and storage systems became important as a number of services were prevalent on them. Therefore, predicting system failures in advance has become a major challenge. In order to ensure the availability of complex systems, several studies have been conducted to predict the critical system component faults which result in the most costly costs, and to achieve a high predictive model by applying optimal data processing and predictive algorithms based on system knowledges. However, in order to obtain such an optimal model, repeated data analysis/processing and predictive model optimization/comparison are necessary while relying on empirical knowledges and only part of them are applied. This requires a lot of time and effort to achieve an optimized predictive model. In this paper, we propose a strategy that automates the process of obtaining an optimized predictive model with the minimum cost. In our method, monitoring systems that collect important data proven from existing studies and automated machine learning have been applied to automate feature engineering, algorithm selection, and model optimization and to enable real-time failure prediction. In addition, the concepts and methods of failure prediction fragmented in various papers are systematically organized for the design of our framework.
The reliability and availability of server and storage systems became important as a number of services were prevalent on them. Therefore, predicting system failures in advance has become a major challenge. In order to ensure the availability of complex systems, several studies have been conducted to predict the critical system component faults which result in the most costly costs, and to achieve a high predictive model by applying optimal data processing and predictive algorithms based on system knowledges. However, in order to obtain such an optimal model, repeated data analysis/processing and predictive model optimization/comparison are necessary while relying on empirical knowledges and only part of them are applied. This requires a lot of time and effort to achieve an optimized predictive model. In this paper, we propose a strategy that automates the process of obtaining an optimized predictive model with the minimum cost. In our method, monitoring systems that collect important data proven from existing studies and automated machine learning have been applied to automate feature engineering, algorithm selection, and model optimization and to enable real-time failure prediction. In addition, the concepts and methods of failure prediction fragmented in various papers are systematically organized for the design of our framework.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.