Eine effektive Kombination aus Überwachung und Alarmierung versorgt IT-Experten bei der Netzwerkverwaltung optimal mit Informationen. Doch ein gutes Monitoring stellt sich nicht zwangsläufig ein, nur weil neueste Tools und Techniken zum Einsatz kommen. Selbst die besten Produkte, Methoden und Verfahren nützen nichts, wenn die Denk- und Herangehensweise nicht passt.
Bevor man ein Netzwerk-Monitoring einrichtet, sollte man genau überlegen, welche Parameter man überwacht.
Jeder Aspekt der Netzwerk-Überwachung lässt sich auf eine Entscheidung zurückführen. Es ist die Entscheidung über die Frage, wann, wie und wo Daten aus dem Umgebungen gesammelt werden sollen. Und sobald diese Daten vorhanden sind, müssen wir entscheiden, was wir mit ihnen anfangen wollen.
Mit der richtigen Herangehensweise kann Monitoring für einen positiven Wandel im Rechenzentrum sorgen. Umgekehrt bedeutet dies jedoch auch, dass eine Überwachungslösung, die auf einer falschen Herangehensweise beruht, sogar Systemunterbrechungen zur Folge haben kann.
CPU-Warnungen
Was ist an einer Warnung falsch, die ausgelöst wird, sobald die CPU-Auslastung auf über 90 Prozent steigt? Einfach alles. Eine hohe CPU-Auslastung ist vermutlich das Ereignis, für das am häufigsten eine Kombination aus Überwachung und Warnmeldung konfiguriert ist. Sie sagt jedoch nichts über die Ursache des Problems aus und trifft nicht einmal eine verlässliche Aussage darüber, ob überhaupt ein Problem vorliegt.
Eine hohe CPU-Auslastung ist häufig lediglich der Beleg dafür, dass das System mit dem Bedarf Schritt hält und somit für den konzipierten Workload richtig dimensioniert ist. Mit einigen Änderungen kann die Warnmeldung allerdings nützlich werden. Hierfür müssen zuerst drei Daten gesammelt werden:
Die CPU-Auslastung (CPU_UTIL)
Die Anzahl der CPUs (oder Kerne) im System (CPU_COUNT)
Die Anzahl der Aufträge in der Verarbeitungswarteschlange (CPU_QUEUE)
Anschließend sollte für den folgenden Fall eine Warnmeldung ausgelöst werden:
(CPU_QUEUE > CPU_COUNT) UND (CPU_UTIL > x%) [für mehr als y Minuten]
Wenn diese Warnmeldung ausgelöst wird, erfüllt der Rechner mit Sicherheit nicht die Workload-Anforderungen. In diesem Fall liegt entweder ein Fehler in der Prozessplanung vor, oder die Hardware ist zu alt und kann nicht mehr Schritt halten.
Warnmeldungen im Zusammenhang mit der Bandbreite
Wenn man sich bei der Überwachung von Linkauslastungen ausschließlich auf die Bandbreite konzentriert, kann man erneut nicht feststellen, was schiefläuft – nicht einmal, ob überhaupt etwas schiefläuft. Auch hier gilt: Eine hohe Bandbreitenauslastung ohne weitere negative Indikatoren ist im Allgemeinen ein Anzeichen dafür, dass die benötigte Bandbreite für die entsprechenden Anforderungen zur Verfügung steht und die Bandbreitenanforderungen gut geplant sind.
Eine Warnmeldung im Zusammenhang mit der Bandbreite ist nur dann sinnvoll, wenn man bspw. auch die Antwortzeit mit einbezieht. Denn nur, wenn die Bandbreitenauslastung über einem bestimmten Prozentsatz liegt und gleichzeitig die Antwortzeit über die Schnittstelle einen hohen Wert aufweist, gibt es einen Engpass im System.
Bei oben genanntem Prozess würde keine Warnmeldung ausgegeben, wenn sich die Bandbreitenauslastung auf einem normalen Niveau bewegt und die Antwortzeit einen hohen Wert aufweist. Dennoch kann bei dieser Konstellation ein Problem vorliegen. In diesem Fall kann man beispielsweise mit NetFlow einen guten Einblick in die Verwendung der Bandbreite bekommen und bestimmen, ob die Kombination aus langer Antwortzeit und konkreter Bandbreitenauslastung Sorge bereiten muss.
Überwachung der CPU-Auslastung in virtuellen Umgebungen
Die Überwachung der CPU-Auslastung von virtuellen Maschinen ist – gelinde gesagt – problematisch. Dies liegt daran, dass die virtuelle Maschine eventuell davon ausgeht, dass die CPU-Auslastung hoch ist, obwohl die physische Ressource tatsächlich nicht einmal ansatzweise ihre Kapazitätsgrenze erreicht hat. Ebenso kann es vorkommen, dass die virtuelle Maschine von einer geringen CPU-Auslastung ausgeht, obwohl es eventuell ein Problem mit einer anderen VM auf demselben Host gibt – etwa einen “Noisy Neighbour”, der für eine suboptimale Kapazität sorgt.
Um diese Warnmeldung korrigieren zu können, muss man zuerst die CPU-Bereitschaftszeit (den RDY-Prozentsatz) ermitteln. In diesem Zustand könnte die virtuelle Maschine die Aufgaben des IT-Administrators erledigen, muss aber warten, bis der Hypervisor diese Aufgaben auf die physischen CPUs verteilt hat. Hierzu kommt es in der Regel, wenn sich auf einem physischen Host zu viele virtuelle Maschinen befinden.
Das zweite Datenelement, das bestimmt werden muss, ist der Co-Stop-Wert. Dieser Wert steht für die Dauer, in der eine SMP-VM bereit zur Ausführung war, aber aufgrund eines Planungsproblems bei einer anderen virtuellen CPU (vCPU) noch nicht ausgeführt werden konnte. In einer virtuellen Maschine mit mehreren vCPUs ist der Co-Stop-Wert ein Indikator für: a) die zusätzliche Dauer zwischen dem Zeitpunkt, zu dem die erste vCPU verfügbar ist, bis zum Zeitpunkt, zu dem die anderen für die Jobausführung erforderlichen vCPUs verfügbar werden, oder b) die Dauer, während der die vCPU aufgrund von Planungsproblemen angehalten wird.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Wenn man beide Datenelemente ermittelt hat, empfiehlt es sich, auf der Basis der folgenden Formel, einen Warnungsschwellenwert festzulegen:
CPU-Bereitschaftszeit > (10 % * <Anzahl der vCPUs>) oder Co-Stop > 3 % [für mehr als y Minuten]
Warnungen auf Basis von Top-10-Liste
Warnungen auf Grundlage einer Liste wie „Top 10 der Abfragen, sortiert nach CPU-Auslastung“ sind im Grunde genommen nahezu nutzlos, werden aber sehr häufig definiert. Dabei sollte es anstatt um die „häufigsten Anfragen“ vielmehr um die Anfragen gehen, die innerhalb eines bestimmten Zeitraums die längste Wartezeit aufweisen. Wenn man diese bestimmt hat, lassen sich Probleme mit der Datenbankleistung viel einfacher ermitteln und beheben.
Leon Adato.
(Bild: SolarWinds)
Fazit
Die Beispiele für eine schlechte Überwachungs- und Warnmeldungs-Konfiguration erstrecken sich über verschiedene Bereiche der IT. Sie verdeutlichen exemplarisch, dass sich die richtige Denk- und Herangehensweise bei der Festlegung von Überwachungsparametern und Warnmeldungen in erheblichem Maße positiv auf das Aufspüren tatsächlicher Probleme auswirkt. Vielleicht waren die gezeigten Beispiele ja ein Anstoß, sich die eigene Überwachungskonfiguration im Hinblick auf Optimierungspotenzial noch einmal genau anzusehen.