임무컴퓨터는 항공전자시스템에서 임무 수행에 필요한 각종 전술데이터 처리, 영상처리, 항법정보의 관리 및 융합 등의 매우 중요한 기능을 수행한다. 이러한 중요 시스템이 단일시스템으로 구성되면, 여러 가지 SPOF(Single Point Of Failure) 요소의 고장으로 인해 전체 시스템의 고장으로 이어질 수 있다. 이는 서비스 중단으로 인한 임무의 실패뿐만 아니라 조종사의 생명까지도 위협할 수 있다. 본 논문에서는 단일 시스템의 이중화를 통해 SPOF 요소를 제거하고, 이를 운영하기 위한 방안으로 리눅스 기반의 Heartbeat, Fake, DRBD(Distributed Replicated Block Device), Bonding 등의 기법을 이용하여 고가용 시스템을 구현하였다. 또한, 구현한 고가용 시스템에서 빠른 고장 탐지를 위한 FDT(FaultDetectionTime)와 고장 발생 시 임무 연속성을 위해 중요한 요소일 MTTR(Mean Time To Repair)의 평균값을 측정하고, 그에 따른 성능분석 결과를 제시한다.
임무컴퓨터는 항공전자시스템에서 임무 수행에 필요한 각종 전술데이터 처리, 영상처리, 항법정보의 관리 및 융합 등의 매우 중요한 기능을 수행한다. 이러한 중요 시스템이 단일시스템으로 구성되면, 여러 가지 SPOF(Single Point Of Failure) 요소의 고장으로 인해 전체 시스템의 고장으로 이어질 수 있다. 이는 서비스 중단으로 인한 임무의 실패뿐만 아니라 조종사의 생명까지도 위협할 수 있다. 본 논문에서는 단일 시스템의 이중화를 통해 SPOF 요소를 제거하고, 이를 운영하기 위한 방안으로 리눅스 기반의 Heartbeat, Fake, DRBD(Distributed Replicated Block Device), Bonding 등의 기법을 이용하여 고가용 시스템을 구현하였다. 또한, 구현한 고가용 시스템에서 빠른 고장 탐지를 위한 FDT(Fault Detection Time)와 고장 발생 시 임무 연속성을 위해 중요한 요소일 MTTR(Mean Time To Repair)의 평균값을 측정하고, 그에 따른 성능분석 결과를 제시한다.
MC(Mission Computer) performs important function in avionics system which tactic data processing, image processing and managing navigation system etc. In general, the fault of SPOF(Single Point Of Failure) in unity system can lead to failure of whole system. It can cause a failure of a mission and a...
MC(Mission Computer) performs important function in avionics system which tactic data processing, image processing and managing navigation system etc. In general, the fault of SPOF(Single Point Of Failure) in unity system can lead to failure of whole system. It can cause a failure of a mission and also can threaten to the life of the pilot. So, in this paper, we design the HA(Hight-availability) system so that dealing with the failure. And we use HA software like Heartbeat, Fake, DRBD and Bonding to manage HA system. Also we analyze the performance of HA system using the FDT(Fault Detection Time) for fast fault detection and MTTR(Mean Time To Repair) for mission continuity.
MC(Mission Computer) performs important function in avionics system which tactic data processing, image processing and managing navigation system etc. In general, the fault of SPOF(Single Point Of Failure) in unity system can lead to failure of whole system. It can cause a failure of a mission and also can threaten to the life of the pilot. So, in this paper, we design the HA(Hight-availability) system so that dealing with the failure. And we use HA software like Heartbeat, Fake, DRBD and Bonding to manage HA system. Also we analyze the performance of HA system using the FDT(Fault Detection Time) for fast fault detection and MTTR(Mean Time To Repair) for mission continuity.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
시스템을 구동시켜 테스트를 해야 한다. 본 논문에서는 단기간동안의 시스템 구동으로 인해 정확한가용성은 측정하지 못하였고, 고가용 시스템에서 임무 연속성을 위해 중요한 MTTR을 측정하여 성능을 평가하였다.
본 논문에서는 단일 시스템의 이중화를 통해 SPOF 요소를 제거하여 시스템의 고가용성을 보장하고, 이를 효율적으로 관리하기 위해 리눅스 기반의 고가용 소프트웨어를 구현한다. 또한 고가용 시스템의 성능측정을 위해 빠른 고장탐지를 위한 FOT(Fault Detection TinQ와 고장 발생 시 임무 연속성에 중요한 영향을 미치는 MTTR(Mean Tirre To Repair)을 측정하여 분석한 내용을 기술한다.
제안 방법
Bondinge 리눅스 내부에 구현되어 있는 데몬으로 지정된 타깃(Target)에 ARP 패킷을 일정한 주기로 전송하고, 그에 대한 응답으로 NIC 또는 LAN Cable의 고장 여부를 파악한다.
NTP를 이용하여 각 노드의 시간을 동기화 하고 Heartbeat 소스를 수정하여 primary 노드에서 고장이 발생하였음을 판단하는 시점과 backup 노드로 이전이 완료되는 시점에 각각 타임스탬프를 설정한다. 타임 스탬프 정보를 시스템의 로그 메시지에 저장하여 그 시간차를 계산하였다.
primary 노드에 임의의 고장을 발생시킴으로써 FDT 를 측정하였다. 측정회수는 100회이며, 현재 구축한 고가용 시스템에서 평균 4.
또 한이 중화 된 시스템을 클러스터로 관리하고, Heartbeat, Fake, DRBD, Bonding등의 고가용성을 제공하는 여러 소프트웨어 기법을 적용하여 고가용 시스템을 설계하였다. 고가용 시스템의 성능측정을 위해 Heartbeat의 keepalive 시간과 deadtiime을 조절하여 시스템을 최 적화 시키 고, FDT와 MITR을 측정하였다. FDT는 고가용 시스템에서 매우 중요한 요소로 빠르게 고장을 탐지해야 시스템에 고장이 확산되는 것을 방지하고, 그 고장으로부터 복구될 수 있다.
구현한 고가용 시스템에서는 간단한 채팅 애플리케이션을 이용하여 MTTR을 측정하였다. 기존의 고가용 시스템은 그 특성에 따라 각각의 MTTR을 갖는다.
공유할 수 있도록 구성하였다. 그 후 임의로 고장을 발생시켜 서버의 동작을 확인하였다.
Heartbeat 프로그램은 시스템에 고장이 발생하였음을 판단하게 되고, primaiy 노드가 고장을 처음 판단한 시점을 로그 메시지를 이용하여 알아내고 타임 스탬프를 저장한다. 두 개의 타임스탬프 차이를 계산하여 FDT를 측정하였다.
또 한이 중화 된 시스템을 클러스터로 관리하고, Heartbeat, Fake, DRBD, Bonding등의 고가용성을 제공하는 여러 소프트웨어 기법을 적용하여 고가용 시스템을 설계하였다. 고가용 시스템의 성능측정을 위해 Heartbeat의 keepalive 시간과 deadtiime을 조절하여 시스템을 최 적화 시키 고, FDT와 MITR을 측정하였다.
구현한다. 또한 고가용 시스템의 성능측정을 위해 빠른 고장탐지를 위한 FOT(Fault Detection TinQ와 고장 발생 시 임무 연속성에 중요한 영향을 미치는 MTTR(Mean Tirre To Repair)을 측정하여 분석한 내용을 기술한다.
감시한다. 또한 두 개의 스위치 허브를 이용하여 허브자체의 고장에도 대비할 수 있도록 하였다.
또한 설계한 고가용 시스템을 효율적으로 관리하기 위하여 리눅스 기반의 Heartbeat, Ipfail, DRBD, Bonding 등을 이용하여 관리한다.
본 논문에서는 각 노드에 로컬디스크를 두고 DRBD 기법을 이용하여 노드간의 데이터를 실시간으로 동기화 시킨다. DRBD는 TCP/IP 프로토콜을 이용하여 동기화할 데이터를 전송하며, 공유데이터를 저장할 장소와 IP 및 port번호 등을 drbd.
본 논문에서는 단일시스템의 이중화를 통하여 시스템 붕괴의 원인이 되는 SPOF 요소를 제거하였다. 또 한이 중화 된 시스템을 클러스터로 관리하고, Heartbeat, Fake, DRBD, Bonding등의 고가용성을 제공하는 여러 소프트웨어 기법을 적용하여 고가용 시스템을 설계하였다.
본 시스템에서는 NIC0와 NIC1 을 하나의 IP로 묶어 관리하며, pinnaiy 이 더 넷을 NIC0로 설정하여 모든 패킷을 NIC0가 처 리하다가 LAN Cabie이나 NIC0에 고장이 발생하면 NIC1 이 모든 작업을 이전받아 처리하게 된다.
시스템에 고가용성을 제공하기 위해 단일 시스템의 모든 SPOF를 이중화하여 제거하였다. [그림 5]와 같이 CFU, Disk, Power, Network 등을 이중화하여 시스템의 고장으로부터 유연하게 대처할 수 있다.
노드의 시간동기화가 필요하다. 이에 본 논문에서는 리눅스에서 제공하는 시간동기화 프로토콜인 NTP(Network Time Protocol) [20] 를 사용하여 두 노드 간의 시간을 동기화 한다.
HA-OSCAR의 경우 가용성을 측정하기 위해 MTTR을 고려하여 측정하였지만 FDT를 고려하지 않았다. 이에 본 논문에서는 성능측정 요소로 FDT와 MTTR을 고려하였다.
채팅 애플리케이션을 이용하여 클라이언트와 서버가 통신을 하며, 채팅 내용은 DRBD 파티션에 저장되어 두 노드가 공유할 수 있도록 구성하였다. 그 후 임의로 고장을 발생시켜 서버의 동작을 확인하였다.
최적의 keepalive 시간과 deadtime을 측정하기 위하여 Heartbeat의 로그 메시지를 모니터링하여 에러 메시지가 발생하지 않는 범위 내에서 keepalive 시간과 deadtim값을 줄여가며 시스템의 상태를 모니터링 하였다.
타임 스탬프 정보를 시스템의 로그 메시지에 저장하여 그 시간차를 계산하였다. [표 3]은 고가용 시스템의 MTTR과시스템 비가용 시간을 나타낸다.
이론/모형
있도록 한다. 두 개의 시스템은 클러스터로 구성되어 관리되며, 백업시스템의 운영방안은 Active /Standby 방식을 사용한다. 시스템에서 가장 중요한 프로그램은 Heartbeat으로 [표 2]의 파일에 의해서 관리된다.
본 논문에서 구성한 고가용 시스템에서는 Bonding 기법을 사용하여 네트워크를 이중화하고, Heartbeat 프로그램의 IpfaH 데몬을 이용하여 네트워크를 감시한다. 또한 두 개의 스위치 허브를 이용하여 허브자체의 고장에도 대비할 수 있도록 하였다.
성능/효과
MTTR에 영향을 미치는 다양한 요소와 구현 HW의 차이로 단순 비교는 무의미 할 수 있지만, 기존의 고가용 시스템과 비교하여 본 논문에서 구현한 고가용 시스템의 성능은 EDT는 평균 4.3ms, MTTR는 0.7~1.6초로 성능상의 오버헤드는 크지 않다.
MTTRe 임무연속성을 위해 매우 중요한 요소로 MTTR이 짧아야 빠르게 고장으로부터 복구되어 시스템의 가용성을 높일 수 있다. 이로써 구축한 고가용 시스템에서의 평균 FDT는 4.321ms이고, 평균 MTTRe 965ms 가 소요되는 것을 확인하였다.
측정하였다. 측정회수는 100회이며, 현재 구축한 고가용 시스템에서 평균 4.3ms의 속도로 고장을 탐지하는 것을 확인하였다. 이는 하드웨어의 성능에 따라 달라질 것으로 예상되며 결과는 [표 6]과 같다.
후속연구
향후 연구과제로는 primaiy 노드에서 backup 노드로 이전이 발생할 때 디스크, 메모리, CPU등의 자원을 호율적으로 복구할 수 있는 방안에 대해 연구가 이루어져야 한다. 또한 실제 사용자에게 서비스를 제공하는 상용시스템에 리눅스 기반의 고가용 시스템을 구죽하여 장기간 모니터링 함으로써, 전체 시스템의 가용성과 신뢰성을 측정하여야 한다.
참고문헌 (28)
P. S. Weygant, Clusters for High Availability : A Primer of HP Solutions, Prentice Hall PTR, 2001.
D. K. Pradhan, Fault-Tolerant Computer System Design, Prentice Hall PTR, 1996.
최종명, 한주현, 최재영, "Diehard:인터넷 서비스를 위한 N-way 고가용성 시스템", 정보과학회논문지, 제28권, 제8호, pp.390-398, 2001.
배재환, "멀티미디어 관광정보시스템을 위한 고가용성 리눅스 서버에 관한 연구", 한국통신학회 논문지, Vol.29, No.9B, pp.818-825, 2004.
http://xcr.cenit.latech.edu/ha-oscar/index.html
L. Chokchai, S. Lixin, L. Tong, S. Hertong, and L. S. Stephen, "Availability Prediction and Modeling of High Availability OSCAR Cluster," IEEE, pp.380-387, 2003.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.