정보통신기술의 발달과 가속화된 디지털 혁신으로 현대 사회는 무수히 많은 데이터가 실시간으로 발생하고 있다. 데이터량의 급속한 증가는 2007년 아이폰 도입을 시작으로 확산된 스마트폰(Device)과 모바일 플랫폼(Platform)을 통해 다양한 콘텐츠(Contents)와 애플리케이션(Application)에 접근하게 되면서 더더욱 빨라졌다. ...
정보통신기술의 발달과 가속화된 디지털 혁신으로 현대 사회는 무수히 많은 데이터가 실시간으로 발생하고 있다. 데이터량의 급속한 증가는 2007년 아이폰 도입을 시작으로 확산된 스마트폰(Device)과 모바일 플랫폼(Platform)을 통해 다양한 콘텐츠(Contents)와 애플리케이션(Application)에 접근하게 되면서 더더욱 빨라졌다. 빅 데이터(Big Data)의 영향력이 증대되는 환경에서 시대적 상황에 맞춰 정보시스템모니터링 시스템도 변화가 필요하다. 실시간으로 발생되는 대량의 데이터 기반의 성능 관리가 가능해야 한다. 실시간 대처를 위하여 ①시스템 복잡도 및 규모의 확대에 따라 확장성 있는 서버 성능 모니터링 시스템의 설계를 어떻게 할 것인가, ②이질적 환경에 이식성 있는 시스템을 어떻게 설계할 것인가, ③서버 성능 모니터링을 위하여 발생되는 수많은 데이터를 수집, 분석하여 어떻게 실시간으로 대처할 수 있는가가 중요한 고려사항이다. 성능 모니터링 시스템은 감시항목별 장애 이력 데이터와 임계치 관리 등을 통하여 장애 발생을 인지하거나 장해 발생 후 대응 수준의 기능을 지원하는데 그치고 있다. 본 논문에서는 기존의 서버 모니터링 감시의 단점을 보완하고 빅 데이터 환경을 고려한 모니터링, 또한 장애 발생 이전에 예측이 가능하도록 빅 데이터 환경을 고려한 서버 장애 모니터링 방안의 연구를 진행하였다. 도출된 감시항목 및 가설의 적용 및 검증을 위하여 실시간 서버 모니터링 시험 환경을 구축하였다. 이를 통하여 가상의 서비스 환경에서 시계열 분석과 예측의 결과를 검증하여 구축된 환경을 빅 데이터 환경을 고려한 서버 장애 모니터링 시스템 아키텍처로 제안하였다. 본 논문에서의 연구 과정 및 결과는 다음과 같다. 국내·외 학자들의 관련연구와 상용 및 오픈소스 기반의 솔루션들을 분석하여 실시간 감시항목을 도출하였다. 1차 감시항목 도출을 위하여 정보시스템 운영·관리 지침과 상용 및 오픈소스 기반의 솔루션 기준의 감시항목을 비교하였다. 비교 결과를 종합하여 CPU, Memory, 디스크, 프로세스, 네트워크, 응용 프로그램의 6개 분야에 25개 감시항목을 1차로 도출하였다. 실제 A사의 모니터링 솔루션의 데이터를 이용하여 서버 모니터링 감시항목을 2차로 도출하였다. 실제 A사의 모니터링 데이터를 수집하여 SPSS를 이용한 빈도 분석 및 교차 분석을 진행하였다. 분석은 모니터링 시스템이 관리하는 모든 서버가 아닌 실제 장애 수준이 높은 Interface #1, #2에 대하여 진행하였다. 분석 결과를 종합하여 동일한 6개 분야에 35개 감시항목을 2차로 도출하였다. 2차 도출된 감시항목은 1차와 비교하여 프로세스 분야에 2개항목, 네트워크 분야에 4개 항목, 응용 프로그램 분야에 4개항목이 추가되었다. 실시간 서버 모니터링을 위하여 1차, 2차의 기존 감시항목을 기준으로 정보시스템 운영·관리 지침과 상용 및 오픈소스 기반의 솔루션에서 제시하는 임계치와 감시수준, 빈도를 종합하여 기본 가설을 수립하였다. 수립한 가설은 ‘CPU, Memory, Disk 등에 관한 가설’, ‘Process, Queue 등에 관한 가설’, ‘네트워크 Node, Port 등에 관한 가설’, ‘Web, WAS 등에 관한 가설’ 4개 분야에 12개 가설을 수립하였다. 실제 A사의 모니터링 상세 데이터를 통하여 12개 가설 검증을 진행하였다. 가설 검증을 통하여 가설 제외, 수정 및 대체작업 후 4개 분야에 5개 항목으로 최종(3차) 감시항목을 종합적으로 도출하였다. 최종 도출된 감시항목을 통하여 장애 발생 이전의 장애 인지를 위하여 시계열 분석을 진행하였다. 감시항목 중 빅 데이터 환경을 고려한 서버 장애 대응 예측 구축 환경에 적합한 항목으로 ‘Peak 시간 CPU 사용율’에 대한 임계치를 선택하였다. 실제 환경과 동일한 환경 구성이 어려운 시험 환경에 장애 예측이 가능한 항목만을 선택하였다. 장애 발생 이전에 장애 인지를 위하여 실제 A사의 감시 데이터를 통하여 시계열 분석을 진행하였다. 초기에는 2013년 11월부터 2014년 4월까지의 데이터 중 정상 기준의 전후 1일씩과 장애시의 전후 1일씩의 데이터를 중첩되지 않도록 선택하였다. 이 데이터를 가지고 시계열 분석과 마지막일 이후의 3일치에 대한 예측값을 추출하였다. 시계열 예측 모형은 추세와 계절 효과가 없고 시간에 따라 일정한 계열에 적합한 단순계절 모형의 특징을 보였다. 해당 모형이 2014년 5월 이후의 시계열 분석과 유사한지 검증하기 위하여 추가적으로 2014년 5월부터 7월까지의 감시 데이터를 추출하였다. 4월까지의 시계열 예측값과 5월이후의 시계열 분석값을 비교하였다. 비교 결과, 장애가 발생할 가능성이 높은 3군데 지점에서 실제 1군데에서 장애가 발생하였음을 검증하였다. 예측 모형 적용 실험 및 결과를 분석하였다. 실제 서비스 환경에서의 시계열 예측 모형을 적용하고, 결과를 분석하기 위하여 실험 환경을 구축하였다. 오픈 OS인 Ubuntu를 설치하였고, 서버 모니터링을 위하여 오픈소스 기반의 Ganglia를 설치하였다. 모니터링 감시 항목별 수집 데이터 실시간 전송을 위한 Esper를 적용하였다. 수집 데이터 분석을 위하여 Hadoop 기반으로 분석처리를 하였으며, M
정보통신기술의 발달과 가속화된 디지털 혁신으로 현대 사회는 무수히 많은 데이터가 실시간으로 발생하고 있다. 데이터량의 급속한 증가는 2007년 아이폰 도입을 시작으로 확산된 스마트폰(Device)과 모바일 플랫폼(Platform)을 통해 다양한 콘텐츠(Contents)와 애플리케이션(Application)에 접근하게 되면서 더더욱 빨라졌다. 빅 데이터(Big Data)의 영향력이 증대되는 환경에서 시대적 상황에 맞춰 정보시스템 모니터링 시스템도 변화가 필요하다. 실시간으로 발생되는 대량의 데이터 기반의 성능 관리가 가능해야 한다. 실시간 대처를 위하여 ①시스템 복잡도 및 규모의 확대에 따라 확장성 있는 서버 성능 모니터링 시스템의 설계를 어떻게 할 것인가, ②이질적 환경에 이식성 있는 시스템을 어떻게 설계할 것인가, ③서버 성능 모니터링을 위하여 발생되는 수많은 데이터를 수집, 분석하여 어떻게 실시간으로 대처할 수 있는가가 중요한 고려사항이다. 성능 모니터링 시스템은 감시항목별 장애 이력 데이터와 임계치 관리 등을 통하여 장애 발생을 인지하거나 장해 발생 후 대응 수준의 기능을 지원하는데 그치고 있다. 본 논문에서는 기존의 서버 모니터링 감시의 단점을 보완하고 빅 데이터 환경을 고려한 모니터링, 또한 장애 발생 이전에 예측이 가능하도록 빅 데이터 환경을 고려한 서버 장애 모니터링 방안의 연구를 진행하였다. 도출된 감시항목 및 가설의 적용 및 검증을 위하여 실시간 서버 모니터링 시험 환경을 구축하였다. 이를 통하여 가상의 서비스 환경에서 시계열 분석과 예측의 결과를 검증하여 구축된 환경을 빅 데이터 환경을 고려한 서버 장애 모니터링 시스템 아키텍처로 제안하였다. 본 논문에서의 연구 과정 및 결과는 다음과 같다. 국내·외 학자들의 관련연구와 상용 및 오픈소스 기반의 솔루션들을 분석하여 실시간 감시항목을 도출하였다. 1차 감시항목 도출을 위하여 정보시스템 운영·관리 지침과 상용 및 오픈소스 기반의 솔루션 기준의 감시항목을 비교하였다. 비교 결과를 종합하여 CPU, Memory, 디스크, 프로세스, 네트워크, 응용 프로그램의 6개 분야에 25개 감시항목을 1차로 도출하였다. 실제 A사의 모니터링 솔루션의 데이터를 이용하여 서버 모니터링 감시항목을 2차로 도출하였다. 실제 A사의 모니터링 데이터를 수집하여 SPSS를 이용한 빈도 분석 및 교차 분석을 진행하였다. 분석은 모니터링 시스템이 관리하는 모든 서버가 아닌 실제 장애 수준이 높은 Interface #1, #2에 대하여 진행하였다. 분석 결과를 종합하여 동일한 6개 분야에 35개 감시항목을 2차로 도출하였다. 2차 도출된 감시항목은 1차와 비교하여 프로세스 분야에 2개항목, 네트워크 분야에 4개 항목, 응용 프로그램 분야에 4개항목이 추가되었다. 실시간 서버 모니터링을 위하여 1차, 2차의 기존 감시항목을 기준으로 정보시스템 운영·관리 지침과 상용 및 오픈소스 기반의 솔루션에서 제시하는 임계치와 감시수준, 빈도를 종합하여 기본 가설을 수립하였다. 수립한 가설은 ‘CPU, Memory, Disk 등에 관한 가설’, ‘Process, Queue 등에 관한 가설’, ‘네트워크 Node, Port 등에 관한 가설’, ‘Web, WAS 등에 관한 가설’ 4개 분야에 12개 가설을 수립하였다. 실제 A사의 모니터링 상세 데이터를 통하여 12개 가설 검증을 진행하였다. 가설 검증을 통하여 가설 제외, 수정 및 대체작업 후 4개 분야에 5개 항목으로 최종(3차) 감시항목을 종합적으로 도출하였다. 최종 도출된 감시항목을 통하여 장애 발생 이전의 장애 인지를 위하여 시계열 분석을 진행하였다. 감시항목 중 빅 데이터 환경을 고려한 서버 장애 대응 예측 구축 환경에 적합한 항목으로 ‘Peak 시간 CPU 사용율’에 대한 임계치를 선택하였다. 실제 환경과 동일한 환경 구성이 어려운 시험 환경에 장애 예측이 가능한 항목만을 선택하였다. 장애 발생 이전에 장애 인지를 위하여 실제 A사의 감시 데이터를 통하여 시계열 분석을 진행하였다. 초기에는 2013년 11월부터 2014년 4월까지의 데이터 중 정상 기준의 전후 1일씩과 장애시의 전후 1일씩의 데이터를 중첩되지 않도록 선택하였다. 이 데이터를 가지고 시계열 분석과 마지막일 이후의 3일치에 대한 예측값을 추출하였다. 시계열 예측 모형은 추세와 계절 효과가 없고 시간에 따라 일정한 계열에 적합한 단순계절 모형의 특징을 보였다. 해당 모형이 2014년 5월 이후의 시계열 분석과 유사한지 검증하기 위하여 추가적으로 2014년 5월부터 7월까지의 감시 데이터를 추출하였다. 4월까지의 시계열 예측값과 5월이후의 시계열 분석값을 비교하였다. 비교 결과, 장애가 발생할 가능성이 높은 3군데 지점에서 실제 1군데에서 장애가 발생하였음을 검증하였다. 예측 모형 적용 실험 및 결과를 분석하였다. 실제 서비스 환경에서의 시계열 예측 모형을 적용하고, 결과를 분석하기 위하여 실험 환경을 구축하였다. 오픈 OS인 Ubuntu를 설치하였고, 서버 모니터링을 위하여 오픈소스 기반의 Ganglia를 설치하였다. 모니터링 감시 항목별 수집 데이터 실시간 전송을 위한 Esper를 적용하였다. 수집 데이터 분석을 위하여 Hadoop 기반으로 분석처리를 하였으며, M
※ AI-Helper는 부적절한 답변을 할 수 있습니다.