A method and apparatus for providing process-pair protection to complex applications is provided. The apparatus of the present invention includes a process-pair manager or PPM. The PPM is replicated so that a respective PPM is deployed on each of two computer systems. Each computer system also hosts a watchdog process that monitors and restarts the PPM in case of PPM failures. Each PPM communicates with a respective instance of an application. The application instances may include one or more processes along with associated resources. During normal operation the primary application provides service and periodically checkpoints its state to the backup application. The backup application functions in a standby mode. The two PPMs communicate with each other and exchange messages as state changes occur. The apparatus also includes in each computer system a node watcher that is the PPM of failures of the remote computer system. This way, each monitor the state of the other application instance and the health of the computer system on which it is resident. If a failure of the primary application or of the computer system where it runs is detected, the PPM managing the backup application takes steps to cause its instance of the application to become primary. The failover operation is faster (between 5 and 20 seconds) than corresponding operations provided by other existing methods (between one and 40 minutes depending on the application initialization time) because the backup application does not need to be started and initialized to become primary. The failover is stateful because the backup application receives periodic updates of the state of the primary application.

Une méthode et un appareil pour assurer la protection de processus-paire aux applications complexes est fournie. L'appareil de la présente invention inclut un directeur de processus-paire ou une page par minute. La page par minute est repliée de sorte qu'une page par minute respective soit déployée sur chacun de deux systèmes informatiques. Chaque système informatique accueille également un processus de chien de garde qui surveille et remet en marche la page par minute en cas d'échecs de page par minute. Chaque page par minute communique avec un exemple respectif d'une application. Les exemples d'application peuvent inclure un ou plusieurs processus avec les ressources associées. Pendant l'opération normale l'application primaire fournit le service et périodiquement les points de contrôle son état à l'application de secours. L'application de protection fonctionne en mode 'attente'. Les deux PPMs communiquent avec l'un l'autre et échangent des messages pendant que les changements d'état se produisent. L'appareil inclut également dans chaque système informatique un observateur de noeud qui est la page par minute d'échecs du système informatique à distance. De cette façon, chaque moniteur l'état de l'autre exemple d'application et la santé du système informatique sur lequel il est résident. Si un échec de l'application primaire ou du système informatique où il fonctionne est détecté, la page par minute contrôlant l'application de secours prend des mesures pour faire devenir son exemple de l'application primaire. L'opération de failover est plus rapide (entre 5 et 20 secondes) que des opérations correspondantes fournies par d'autres méthodes existantes (entre une et 40 minutes selon le temps d'initialisation d'application) parce que l'application de secours n'a pas besoin d'être commencée et initialisée pour devenir primaire. Le failover est stateful parce que l'application de secours reçoit les mises à jour périodiques de l'état de l'application primaire.

 
Web www.patentalert.com

< Attachment integrated claims system and operating method therefor

< System and method for determining optimal wireless communication service plans

> System and method for modifying software residing on a client computer that has access to a network

> Method and system for VMAN protocol

~ 00050