Suchen

Shutdown und Neustart virtueller Maschinen So sehen Admins Störungen im Netz gelassen entgegen

| Autor / Redakteur: Harald Trapp / Ulrike Ostler

Um kurzfristige Stromausfälle und Netzschwankungen abfedern zu können, setzen heute alle Rechenzentren auf Systeme zur unterbrechungsfreien Stromversorgung (USV). Bei langfristigen Störungen führt allerdings kein Weg daran vorbei, die USV-Stützzeit für einen geregelten Shutdown der IT-Infrastrukturen zu nutzen – ein anspruchsvolles Unterfangen – bis jetzt, so Eaton.

Firma zum Thema

Nichts geht mehr: Ein geregelter Shutdown im Rechenzentrum ist manchmal notwendig; virtuelle Maschinen sind jedoch eine Herausforderung.
Nichts geht mehr: Ein geregelter Shutdown im Rechenzentrum ist manchmal notwendig; virtuelle Maschinen sind jedoch eine Herausforderung.
(Bild: © hykoe - Fotolia)

Es ist durchaus anspruchsvoll bei einem geregelten Shutdown auch virtuelle Maschinen kontrolliert und schonend herunterzufahren. Das lässt sich nur mit Hilfe spezieller Management-Systeme bewältigen. Software wie „Eaton IPM“ beinhaltet alle benötigten Funktionen und ermöglicht neben einem geordneten Herunterfahren auch einen hierarchiekonformen Neustart.

Die empfindlichen IT-Infrastrukturen vor Stromausfällen und deren Folgen zu schützen, zählt zum A und O des Rechenzentrumsbetriebs. Kurzfristige Blackouts oder Netzschwankungen, aber auch Störfaktoren wie Frequenzabweichungen oder harmonische Oberwellen werden heute zumeist durch leistungsstarke Online-USV-Systeme kompensiert. Sie versorgen die Server mit sauberem Sinusstrom und können – je nach Auslegung des Batteriepuffers – den Rechnerbetrieb zum Teil über mehrere Stunden hinweg aus eigener Kraft aufrechterhalten.

Zeichnet sich indessen ab, dass die Dauer eines Stromausfalls oder einer Netzstörung die USV-Stützzeit überschreitet, ist ein Shutdown der IT unvermeidlich. Die verfügbare Stützzeit muss dann für ein geordnetes Herunterfahren der Server und Anwendungen genutzt werden.

Shutdown virtueller Maschinen ist eine besondere Herausforderung

Eine besondere Herausforderung stellt in diesem Zusammenhang der Shutdown virtueller Maschinen (VMs) dar. Solche Maschinen spielen in modernen Rechenzentren eine immer wichtigere Rolle, da sie durch optimales Ausnutzen der Server-Kapazitäten und die flexible Bereitstellung von Rechenleistung die Datacenter-Effizienz massiv erhöhen. Sie können jedoch sehr schnell schweren Schaden nehmen, wenn ihr Betrieb einfach unkontrolliert durch einen Shutdown des physikalischen Servers abgebrochen wird.

Bei langfristigen Netzstörungen oder Blackouts muss deshalb innerhalb der verfügbaren USV-Stützzeit ein VM-Shutdown realisiert werden, der zum einen vor dem Shutdown des physikalischen Hosts erfolgt und zum anderen die betriebliche Hierarchie der VMs berücksichtigt. Manuell ist ein solcher Shutdown unmöglich zu bewerkstelligen, da die Virtualisierungsstruktur zu komplex und die verfügbare Stützzeit begrenzt ist. Umsetzen lässt sich der beschriebene Shutdown daher nur mit Management-Systemen, die den Prozess des Herunterfahrens automatisch regeln.

Ein Beispiel für solche Systeme ist die Monitoring-Software Intelligent Power Manager von Eaton (IPM), die unter anderem für VMware zertifiziert ist. Ursprünglich als Steuerungs-Tool zur Verwaltung von USV-Anlagen und intelligenten Stromverteilerleisten (ePDUs) entwickelt, war sie bis vor kurzem bereits in der Lage, virtuelle Maschinen von einem Server, der von Stromausfall betroffen ist, auf einen anderen im Netz verfügbaren Server zu verlagern.

Ursprünglich für Stromverteiler entwickelt

In ihrer neuesten Version (IPM 1.52) beinhaltet sie darüber hinaus aber auch eine komplette Infrastructure-Shutdown-Funktion für virtuelle Umgebungen. Mit Hilfe dieser Funktion lassen sich alle Anforderungen an ein geregeltes Herunterfahren der virtuellen Maschinen erfüllen und USV-Stützzeit und VM-Shutdown optimal aufeinander abstimmen.

Erster Schritt des IPM-gesteuerten Infrastructure Shutdowns ist die Differenzierung zwischen kritischen und unkritischen virtuellen Instanzen. IPM identifiziert dabei zunächst sowohl die Management-Plattform, welche die VMs zentral verwaltet, als auch sich selbst als kritische Anwendungen und legt fest, dass der physikalische Host der Management-Plattform als letzter heruntergefahren wird.

Auf diesen Host werden anschließend alle kritischen VMs wie zum Beispiel Domain-Controller und DNS-Server sowie (falls erforderlich) auch IPM migriert, wohingegen unkritische VMs kontrolliert heruntergefahren werden. Um eine automatische Verteilung der kritischen VMs auf die übrigen Server zu verhindern, wird der DRS (Distributed Resource Scheduler), der im Normalbetrieb für eine optimale, kapazitätsadäquate Verteilung der VMs auf die Server sorgt, in den Manual Mode versetzt.

Die Stütze für virtuelle Maschinen

Sind die Migrations- und Shutdown-Prozesse der VMs abgeschlossen, folgt das Herunterfahren der nicht mehr benötigten Server. Durch diesen Lastabwurf erhöht sich die verbleibende USV-Stützzeit für die kritischen Anwendungen. Am Ende befinden sich die zentrale VM-Management-Plattform (wie zum Beispiel „VMware vCenter“ / „vRealize“, „Citrix Xen Center“), die IPM-Software sowie alle kritischen VM-Instanzen auf einem einzigen physikalischen Server.

Würde an dieser Stelle nun ein einfacher Befehl zum Herunterfahren des Servers erfolgen, könnten die auf dem Host befindlichen VMs nun allerdings noch immer beschädigt werden. Damit wäre ein zentrales Ziel des Prozesses verfehlt.

Die Infrastructure-Shutdown-Funktion von Eaton IPM hält indessen auch hierfür eine Lösung bereit: Sie ist in der Lage, vor dem Shutdown des physikalischen Servers die Verknüpfung im HA-Modus innerhalb des VM-Managements aufzuheben. Dadurch kann zunächst der Betrieb aller verbleibenden VMs kontrolliert beendet werden. Anschließend wird die VM-Management-Plattform und zum Schluss dann auch der physikalische Server selbst heruntergefahren.

Ab jenem Zeitpunkt, an dem sich eine langfristige Unterbrechung der Netzstromversorgung beziehungsweise eine dauerhafte Netzstörung abzeichnet, sorgt IPM also dafür, dass alle virtuellen Instanzen eines Rechenzentrums systematisch entlang ihrer hierarchischen Struktur außer Betrieb genommen werden. Die durch die USV-Stützzeit verfügbaren Spielräume werden dabei übrigens optimal ausgenutzt: Die Software ermittelt den Maximalzeitraum, der innerhalb des Gesamtprozesses für jeden einzelnen Shutdown-Vorgang zur Verfügung steht, und schöpft diesen vollumfänglich aus. Auf diese Weise wird ein möglichst schonendes Herunterfahren aller virtuellen Maschinen und Server realisiert.

Der Neustart nach behobener Störung

Genauso wichtig wie ein geregelter Shutdown ist nun allerdings ein geordneter Reboot von VMs und Hosts. Auch dieses Wiederhochfahren muss so durchgeführt werden, dass die Konsistenz aller Systeme erhalten bleibt.

Die neue Version von Eaton IPM bietet hierfür eine Reboot-Funktion, die auch diesen Vorgang automatisch steuert: Ist die Stromversorgung wiederhergestellt, also: die Netzstörung behoben, erfolgt zunächst ein Neustart aller Server. Anschließend werden die kritischen VMs und darauffolgend die Daten-Management-Plattform sowie IPM selbst neu gestartet.

Dieser grundlegende Reboot-Vorgang nimmt insgesamt etwa 15 bis 30 Minuten in Anspruch. Sobald er abgeschlossen ist, versetzen die Software HA und DRS vom manuellen in den automatischen Modus zurück, und die kritischen VMs migrieren wieder auf verschiedene Server. Mit dem Neustart und der kapazitätsadäquaten Distribution der unkritischen VMs wird der Wiederherstellungsvorgang abgeschlossen, und alle virtuellen Instanzen sind wieder in Betrieb.

Mit Management-Tools wie Eaton IPM können Rechenzentrumsbetreiber somit letztlich sowohl Blackouts als auch Netzstörungen gelassener entgegensehen. Müssen die virtuellen Instanzen aus Sicherheitsgründen heruntergefahren werden, ist gewährleistet, dass der Shutdown wie auch der spätere Neustart geordnet und streng in Einklang mit der internen Hierarchie der Virtualisierungsstruktur erfolgen. Schäden durch unkontrollierte Shutdown-Prozesse sind damit gleichermaßen ausgeschlossen wie inkonsistente Reboots.

Über den Autor

Harald Trapp ist Software Connectivity Engineer bei der Eaton Electric GmbH.

(ID:44075996)