System and method for detecting process and network failures in a distributed system having multiple independent networks

   
   

The present invention provides a system and method of detecting a process failure and a network failure in a distributed system. The distributed system includes at least two processes, each executing on a host, operable to transmit messages (i.e., heartbeats) to each other on a plurality of networks in the distributed system. A process in the system is operable to execute a network failure algorithm for detecting failure of a network in the system. The process failure algorithm includes calculating a difference in the period of time to receive a heartbeat on a first network from a process and a period of time to receive a heartbeat on a second network from the process. If the difference exceeds a network failure threshold, the second network is suspected of failing. A process in the system is also operable to execute a process failure algorithm. The process failure algorithm includes detecting receipt of a heartbeat from a process on any one of a plurality of networks in the system within a network failure time limit. If a heartbeat is not received on any of the networks, the process is suspected of failing.

Die anwesende Erfindung liefert ein System und eine Methode des Ermittelns eines Prozeßausfalls und der Netzstörung in einem Verbundsystem. Das Verbundsystem schließt mindestens zwei Prozesse, jeden ein, der auf einem Wirt durchführt, funktionell, um Anzeigen (d.h., Herzschläge) auf eine Mehrzahl der Netze im Verbundsystem miteinander zu übertragen. Ein Prozeß im System ist funktionell, einen Netzstörung Algorithmus für das Ermitteln des Ausfalls eines Netzes im System durchzuführen. Der Prozeßausfalalgorithmus schließt die Berechnung eines Unterschiedes im Zeitabschnitt, einen Herzschlag in einem ersten Netz von einem Prozeß zu empfangen und in einem Zeitabschnitt, einen Herzschlag in einem zweiten Netz vom Prozeß zu empfangen ein. Wenn der Unterschied eine Netzstörung Schwelle übersteigt, wird das zweite Netz vom Ausfallen vermutet. Ein Prozeß im System ist auch funktionell, einen Prozeßausfalalgorithmus durchzuführen. Der Prozeßausfalalgorithmus schließt das Ermitteln des Empfangs eines Herzschlags von einem Prozeß auf irgendeinem einer Mehrzahl der Netze im System innerhalb einer Netzstörung Grenzzeit ein. Wenn ein Herzschlag nicht in irgendwelchen der Netze empfangen wird, wird der Prozeß vom Ausfallen vermutet.

 
Web www.patentalert.com

< Management of a device based on monitoring during an inactive state

< Integrated driver electronic (IDE) device power control

> Method and system for triggering a debugging unit

> Adaptive heartbeats

~ 00127