클라우드 시스템은 클라우드 서비스의 성장과 함께 이를 수용하기 위해 점점 더 확대되고 복잡해지고 있다. 이에 따라, 시스템 운영 및 유지관리에 있어서 시스템 내부에서 발생하는 사고를 효과적으로 모니터링 및 식별하기 위한 노력이 증가하고 있다. 클라우드 ...
클라우드 시스템은 클라우드 서비스의 성장과 함께 이를 수용하기 위해 점점 더 확대되고 복잡해지고 있다. 이에 따라, 시스템 운영 및 유지관리에 있어서 시스템 내부에서 발생하는 사고를 효과적으로 모니터링 및 식별하기 위한 노력이 증가하고 있다. 클라우드인프라의 가상 머신에 컨테이너화된 애플리케이션이 동작하는 복합적인 환경에서는 하나의 장애에 의해 동시에 클라우드 시스템 내의 여러 개의 알람이 유발될 수 있다. 따라서 오류의 근본 원인을 파악하는 것은 여전히 어려운 작업이다. 본 논문에서는 시스템 사고를 모니터링하고 원인을 파악하기 위한 다계층 접근 방식을 갖춘 A-RCL이라는 자동화된 실시간 근본 원인 위치 파악 시스템을 제안한다. A-RCL은 모든 유용한 데이터 소스(예: 로그 및 메트릭)를 활용하여 혼합 환경에서 근본 원인 식별의 정확도를 향상시킬 수 있다. 또한 시스템에서 오류를 조기에 파악하고 자동으로 근본 원인 식별을 수행하는 기계 학습 기반의 예측 방법을 결합하여 근본 원인을 찾을 수 있는 메커니즘을 제시하며, 실제 클라우드 테스트베드에서 A-RCL을 구현하고 종합적으로 평가한다. 실험 결과 A-RCL은 사고 예측 및 근본 원인 파악에서 각각 93.99% 및 98.12%의 높은 정확도를 달성하였다. 또한 A-RCL은 실제 오류 발생 시점 보다 평균 48.28초만큼 먼저 사고의 근본 원인을 예측하고 특정할 수 있는 결과를 보였다.
클라우드 시스템은 클라우드 서비스의 성장과 함께 이를 수용하기 위해 점점 더 확대되고 복잡해지고 있다. 이에 따라, 시스템 운영 및 유지관리에 있어서 시스템 내부에서 발생하는 사고를 효과적으로 모니터링 및 식별하기 위한 노력이 증가하고 있다. 클라우드 인프라의 가상 머신에 컨테이너화된 애플리케이션이 동작하는 복합적인 환경에서는 하나의 장애에 의해 동시에 클라우드 시스템 내의 여러 개의 알람이 유발될 수 있다. 따라서 오류의 근본 원인을 파악하는 것은 여전히 어려운 작업이다. 본 논문에서는 시스템 사고를 모니터링하고 원인을 파악하기 위한 다계층 접근 방식을 갖춘 A-RCL이라는 자동화된 실시간 근본 원인 위치 파악 시스템을 제안한다. A-RCL은 모든 유용한 데이터 소스(예: 로그 및 메트릭)를 활용하여 혼합 환경에서 근본 원인 식별의 정확도를 향상시킬 수 있다. 또한 시스템에서 오류를 조기에 파악하고 자동으로 근본 원인 식별을 수행하는 기계 학습 기반의 예측 방법을 결합하여 근본 원인을 찾을 수 있는 메커니즘을 제시하며, 실제 클라우드 테스트베드에서 A-RCL을 구현하고 종합적으로 평가한다. 실험 결과 A-RCL은 사고 예측 및 근본 원인 파악에서 각각 93.99% 및 98.12%의 높은 정확도를 달성하였다. 또한 A-RCL은 실제 오류 발생 시점 보다 평균 48.28초만큼 먼저 사고의 근본 원인을 예측하고 특정할 수 있는 결과를 보였다.
Cloud system is becoming increasingly complex to accommodate the growth of cloud services. As a result, effective monitoring and identification of system incidents are critical for operations and maintenance efforts. In a mixed environment comprising containerized applications over virtual machines ...
Cloud system is becoming increasingly complex to accommodate the growth of cloud services. As a result, effective monitoring and identification of system incidents are critical for operations and maintenance efforts. In a mixed environment comprising containerized applications over virtual machines on cloud infrastructure, a single failure may simultaneously cause multiple alarms in the cloud system. Therefore, root-cause localization is still a daunting task. In this thesis, we propose an automated and real-time root cause localization system named A-RCL with a multi-layer approach for monitoring and localizing system incidents. A-RCL leverages all useful data sources (i.e., logs and metrics) to improve the accuracy of root cause identification in a mixed environment. In addition, we present a mechanism to locate the root cause by combining predictive methods based on machine learning, which cover incidents in the system early and automatically perform root cause identification. We implement and comprehensively evaluate A-RCL on a real-cloud testbed. The evaluation demonstrates that A-RCL achieved high accuracy of 93,99% and 98,12% in incident prediction and root cause localization, respectively. Furthermore, A-RCL can predict and localize the root cause of incidents in a range average of 48.28s before the actual failure time in our evaluation.
Cloud system is becoming increasingly complex to accommodate the growth of cloud services. As a result, effective monitoring and identification of system incidents are critical for operations and maintenance efforts. In a mixed environment comprising containerized applications over virtual machines on cloud infrastructure, a single failure may simultaneously cause multiple alarms in the cloud system. Therefore, root-cause localization is still a daunting task. In this thesis, we propose an automated and real-time root cause localization system named A-RCL with a multi-layer approach for monitoring and localizing system incidents. A-RCL leverages all useful data sources (i.e., logs and metrics) to improve the accuracy of root cause identification in a mixed environment. In addition, we present a mechanism to locate the root cause by combining predictive methods based on machine learning, which cover incidents in the system early and automatically perform root cause identification. We implement and comprehensively evaluate A-RCL on a real-cloud testbed. The evaluation demonstrates that A-RCL achieved high accuracy of 93,99% and 98,12% in incident prediction and root cause localization, respectively. Furthermore, A-RCL can predict and localize the root cause of incidents in a range average of 48.28s before the actual failure time in our evaluation.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.