Method and apparatus for providing continued operation of a multiprocessor computer system after detecting impairment of a processor cooling device

   
   

A multiprocessor computer system continues operation after the failure of a cooling device coupled to a central processing unit (CPU). In accordance with the present invention, an impending failure of a cooling device is detected, and all user and operating system processes are moved from the affected CPU coupled to the failing cooling device to one or more other CPUs. The system state is then altered so that interrupts are no longer received and processed by the affected CPU, and all memory caches associated with the affected CPU are flushed back to main memory to ensure cache coherency. At this point, the CPU is either powered-down, or placed in a low-power mode that allows the CPU to operate without the cooling device, while the processes that were removed from the suspended CPU continue executing on other CPUs. After the cooling device has been replaced and is operating normally, the CPU can be powered back up, interrupts can be enabled, and the CPU can once again execute user and operating system processes.

Ένα συγκρότημα ηλεκτρονικών υπολογιστών πολυεπεξεργαστών συνεχίζει τη λειτουργία μετά από την αποτυχία μιας δροσίζοντας συσκευής που συνδέεται με μια μονάδα κεντρικής επεξεργασίας (ΚΜΕ). Σύμφωνα με την παρούσα εφεύρεση, μια επικείμενη αποτυχία μιας δροσίζοντας συσκευής ανιχνεύεται, και όλες οι διαδικασίες χρηστών και λειτουργικών συστημάτων κινούνται από την επηρεασθείσα ΚΜΕ που συνδέεται με την αποτυχούσα δροσίζοντας συσκευή σε ένα ή περισσότερα άλλα CPUs. Το κράτος συστημάτων αλλάζουν έπειτα έτσι ώστε διακόπτει δεν παραλαμβάνεται πλέον και υποβάλλεται σε επεξεργασία από την επηρεασθείσα ΚΜΕ, και όλες οι κρύπτες μνήμης που συνδέονται με την επηρεασθείσα ΚΜΕ ξεπλένονται πίσω στην κύρια μνήμη για να εξασφαλίσουν συνοχή κρύπτης. Σε αυτό το σημείο, η ΚΜΕ είναι είτε τροφοδοτώ-κατεβάζει, είτε τοποθετημένος σε έναν χαμηλής ισχύος τρόπο που επιτρέπει στην ΚΜΕ για να λειτουργήσει χωρίς τη δροσίζοντας συσκευή, ενώ οι διαδικασίες που αφαιρέθηκαν από την ανασταλμένη ΚΜΕ συνεχίζουν σε άλλο CPUs. Αφότου έχει αντικατασταθεί η δροσίζοντας συσκευή και λειτουργεί κανονικά, η ΚΜΕ μπορεί να τροφοδοτηθεί πίσω επάνω, διακόπτει μπορεί να επιτραπεί, και η ΚΜΕ μπορεί άλλη μια φορά να εκτελέσει τις διαδικασίες χρηστών και λειτουργικών συστημάτων.

 
Web www.patentalert.com

< Method and apparatus for performing failure recovery in a Java platform

< Method and system for recording and replaying the execution of distributed java programs

> Standardized format for reporting error events occurring within logically partitioned multiprocessing systems

> Virtual device driver

~ 00131