Mobile-Menu

Verfügbarkeit ist heute mehr als bloßes "Up and Running" Warum ein "Network Management & Monitoring"-Tool Pflicht ist

Autor / Redakteur: Leon Adato / Dipl.-Ing. (FH) Andreas Donner

Wohl jedes Unternehmen hatte schon einmal einen Netzwerkausfall. Und egal ob davon "nur" die Mitarbeiter betroffen waren, oder ob es sich um Ausfälle in Kunden-Bereichen handelte: immer kostete es Geld! Deshalb müssen Ausfälle so weit wie möglich reduziert werden – und als „Ausfall“ zählt heute bereits eine inakzeptabel geringe Performance!

Anbieter zum Thema

Zur Reduzierung von Ausfallzeiten und der Verbesserung der Reaktionsfähigkeit von Anwendungen kann ein NMS (Network Management & Monitoring System) entscheidend beitragen.
Zur Reduzierung von Ausfallzeiten und der Verbesserung der Reaktionsfähigkeit von Anwendungen kann ein NMS (Network Management & Monitoring System) entscheidend beitragen.
(Bild: Jürgen Fälchle - Fotolia.com)

Mittlerweile sind sowohl interne als auch externe Anwendungen und Services wie CRM, SAP, Mail, Webshop-Systeme, Service-Portale und vieles mehr für viele Unternehmen Differenzierungs- und Alleinstellungsmerkmale gegenüber ihren Mitbewerbern. Unterscheidungsmerkmale, ohne die Unternehmen nicht existieren können. Umso wichtiger ist es, genau diese Dienste ohne Ausfälle permanent einsatzbereit zu halten.

Die durchschnittlichen Kosten eines ungeplanten Rechenzentrumsausfalls betragen laut einer Studie des Ponemon-Instituts heute beinahe 4.000 € pro Minute – das entspricht einem Anstieg um nicht weniger als 41 Prozent gegenüber den etwas mehr als 2.000 € pro Minute im Jahr 2010.

Darüber hinaus gibt es eine neue Facette beim Thema Verfügbarkeit: die harte Realität, dass heutzutage nicht erst ein Ausfall, sondern bereits eine zu geringe Geschwindigkeit problematisch ist. Eine kürzlich von SolarWinds durchgeführte Umfrage kam zu dem Ergebnis, dass 94 Prozent der Anwender in Unternehmen der Meinung sind, dass die Anwendungsleistung und -verfügbarkeit direkte Auswirkungen auf die Erledigung ihres Jobs hat, wobei weitere 44 Prozent angeben, dass dies äußerst kritisch ist. Diese aufschlussreiche Statistik weist darauf hin, dass die bloße Verfügbarkeit der Systeme und Services nicht mehr ausreicht. Die Reaktionsgeschwindigkeit spielt eine ebenso große Rolle.

Diese Statistiken – sowohl die Kosten für Ausfallzeiten als auch die Tatsache, dass langsame Reaktionszeiten als genauso schlimm wahrgenommen werden wie überhaupt keine Reaktion – sind ein überzeugendes Argument dafür, jederzeit und in Echtzeit zu wissen, was im Netzwerk gerade passiert. Dies verlangt nach einer umfassenden Überwachung und Verwaltung von Netzwerk und Systemen sowie einer automatisierten Reaktion.

Network Management & Monitoring

Solche Ergebnisse machen außerdem deutlich: NMS-Systeme (Network Management & Monitoring) sind längst keine Empfehlung mehr. Vielmehr sind sie ein unverzichtbares Tool für Kosteneinsparungen.

Denn Kosten werden offensichtlich eingespart, wenn Ausfallzeiten und Ausfälle reduziert werden. Kosten für entgangene Geschäftschancen werden auch vermieden, wenn sich IT-Personal auf strategische Projekte konzentrieren kann, die die Leistung und Zuverlässigkeit verbessern, anstatt Brandherde zu bekämpfen. Und schließlich werden Kosten eingespart, wenn die Mitarbeiter durch die Überwachung nicht nur auf die isolierten Symptome eines Problems hingewiesen werden, sondern mithilfe von Messdaten schnell die Ursache des Problems aufdecken. Das Unternehmen kann dann die entsprechende Lösung bereits auf den ersten Versuch implementieren. Dies vermeidet kostspielige Verzögerungen und Geldverschwendung aufgrund von Spekulationen anstelle von auf Daten beruhenden Entscheidungen.

Mit einem ausgeklügelten NMS werden Daten auf allen Ebenen der Infrastruktur erfasst. Sie reichen vom grundlegenden Hardwarezustand jeder Systemkomponente über die Verfügbarkeit von Anwendungen und Services in Cluster-Ressourcen bis hin zur Benutzererfahrung jedes Endbenutzers, der sich aktuell im System befindet. Dabei sollte jedes Unternehmen bei der Auswertung von NMS-Tools auf die folgenden Punkte achten.

Umfassende Komponentenüberwachung

Alle NMS-Lösungen sollten zwar danach streben, die Überwachung von Unternehmensabläufen und die Statusabfrage von miteinander verbundenen Systemen zu ermöglichen, dabei dürfen aber grundlegende Funktionen nicht ignoriert werden. Die Netzwerküberwachung muss über das einfache Anpingen hinausgehen. Sie muss auch den Status von WAN-Schnittstellen, Bandbreiteninformationen, verworfene und fehlerhafte Pakete sowie Informationen zum Status von Netzwerkhardware wie etwa CPU und RAM beinhalten.

Serverseitig müssen Sie Folgendes nachverfolgen: CPU, Festplattenleistung, Systemauslastung und Arbeitsspeicher sowie schließlich Datenbankverbindungen, ausgeführte Prozesse und Threads, Servicestatus, Anzahl der Abfragen/Sekunde und weitere Informationen zur Anwendung.

Das ist aber noch nicht alles. Eine solide NMS-Lösung muss zudem Erkenntnisse zu den Virtualisierungs- und Speicherkomponenten wie beispielsweise Hypervisoren, physische Ressourcen für virtuelle Maschinen, SAN-Fabric und Datenträgerarrays liefern.

Informationen in Echtzeit

Geschäftskritische Anwendungen wie CRM, CITRIX, ERP usw. erfordern die kontinuierliche Überwachung aller „Stack“-Ebenen – vom Netzwerk, Speicher, Virtualisierung, virtuellen Maschinen bis hin zu Anwendungen, die darauf ausgeführt werden. Kritische Anwendungen werden von Hunderten von Benutzern im gesamten Unternehmen verwendet und es gibt Prozesse wie Hinzufügen, Ändern oder Löschen von Daten, Updates, Backups usw., die ständig ausgeführt werden.

Um die Betriebsbereitschaft sicherzustellen, müssen Sie dafür sorgen, dass die physikalischen Server zu keinem Zeitpunkt überlastet sind. Mangelnde Ressourcen können zu einem Engpass führen, wodurch die Anwendung offensichtlich „langsam“ ausgeführt wird. Deshalb ist eine ganzheitliche und in Echtzeit aktualisierte Übersicht über die kritische Anwendungsinfrastruktur im Unternehmen erforderlich.

Proaktive Berichterstellung, intelligente Warnungen

Wie können Sie Ausfallzeiten reduzieren? Sie sollten nicht darauf warten, bis Sie von Endbenutzern auf ein Problem hingewiesen werden. Ein solides NMS analysiert Anwendungen und speichert Ausgangsdaten für normale Verhaltensmuster. Diese Ausgangsdaten können auf einfache Weise in Berichte konvertiert werden, mit deren Hilfe Sie Problembereiche erkennen können, egal ob es sich um eine fehlerhafte Festplatte, eine instabile Netzwerkverbindung oder eine Anwendung handelt, die mehr CPU-Zeit oder Arbeitsspeicher als erwartet belegt. Durch eine solide Berichterstellung (und die Bereitschaft, anhand dieser Berichte Verbesserungen vorzunehmen) können Sie Ausfallzeiten vermeiden.

Nicht alle Fehler sind jedoch vorhersehbar, und manche Probleme eskalieren schneller als dies von einem täglichen (oder sogar stündlichen) Bericht erfasst werden könnte. An diesem Punkt kommen intelligente Warnungen ins Spiel. Unter Verwendung derselben Ausgangsdaten schlägt ein solides NMS Schwellenwerte vor, bei deren Erreichen Sie gewarnt werden, bevor eine Änderung des Verhaltensmusters zu einem Problem wird.

Entscheidend hierbei ist die Verwendung einer datenbasierten Methode für Warnungen. Sie sollten nicht alles aktivieren, um jede noch so unwichtige Komponente auszusortieren. Sie würden dann nur noch Fehler registrieren. Konzentrieren Sie sich stattdessen auf Bereiche, bei denen in der Vergangenheit wiederholt Probleme aufgetreten sind, und versuchen Sie, die mittlere Reparaturdauer (Mean Time to Repair, MTTR) zu verkürzen, indem eine Warnung ausgegeben wird, sobald ein Problem festgestellt wird.

Automatisierung

Eine der am stärksten unterschätzten Funktionen eines leistungsfähigen NMS-Produkts ist die Möglichkeit, automatisch auf auslösende Ereignisse zu reagieren. Ein Datenträger ist voll? Warum versuchen Sie nicht, den temporären Ordner zu löschen, bevor Sie den Techniker um 2 Uhr nachts alarmieren? Im schlimmsten Fall funktioniert das Löschen nicht und die Warnung wird beim nächsten Zyklus ausgelöst. In vielen Fällen jedoch (vom Neustart eines abgestürzten Anwendungsdienstes bis hin zur Verteilung der Auslastung auf einem Servercluster) ermöglicht der Einsatz von NMS eine blitzschnelle Reaktion auf Fehler, wodurch wiederum Ausfallzeiten reduziert oder sogar eliminiert werden.

Lernen von Ausfällen

Ausfälle passieren – trotz aller Bemühungen. Sie sollten daher jeden kritischen Ausfall als eine Chance betrachten. Ein solides NMS erfasst ein breites Spektrum an Messdaten, aber nicht alle diese Messdaten können 1:1 einer Warnung zugeordnet werden. Bestimmen Sie nach einem Ausfall, ob Sie über die richtigen Daten verfügten und diese einfach nicht in eine Warnung umgesetzt werden konnten, oder ob die Schlüsselindikatoren nicht erfasst wurden – in diesem Fall haben Sie die Möglichkeit, einen zusätzlichen Monitor hinzufügen.

Kenntnis der Protokolle

Ein gutes NMS verfügt über mehrere Methoden, um Daten in der Umgebung zu erfassen. Hardwaredaten können mithilfe von SNMP (bspw. über den SolarWinds Network Performance Monitor) erfasst werden. Anhand dieser Daten können Sie beispielsweise erkennen, dass eine WAN-Schnittstelle 10 Gigabit an Daten pro Sekunde überträgt. Sie wissen aber nicht, wohin dieser Datenverkehr weitergeleitet wird. Hierfür können Sie das NetFlow-Protokoll verwenden. Es zeigt Ihnen, welchen Anteil Datenbankanfragen vom Onlinebestellungs-Webserver, welchen Anteil Systemsicherungen und welchen Anteil die Daten von Ihrem Kollegen Hans aus der Buchhaltung pro Stunde an diesen 10 Gbps ausmachen.

Auf Auslösern basierende Protokolle wie beispielsweise Traps und Syslog versenden Daten nur bei wichtigen Ereignissen. Dies hilft zwar nicht bei forensischen Analysen, liefert aber möglicherweise Einblicke in Ereignisse, die auf andere Weise nicht zu erkennen sind.

Für den Sprachdatenverkehr gibt es ein eigenes Protokoll, IPSLA, mit einer Fülle von Informationen, die von Jitter bis hin zur eigentlichen Anrufqualität an verschiedenen Punkten des Netzwerks reichen.

Schließlich unterstützen manche NMS-Lösungen die Analyse der Pakete im Netzwerk in Echtzeit und berechnen den Zeitaufwand, bis ein Benutzer Informationen von einem internen System wie ERP oder aber einem externen System wie SalesForce.com erhält. Mithilfe derartiger Techniken können Sie schnell die Frage „wird das Problem (langsame Reaktionszeit) durch die Anwendung oder das Netzwerk verursacht?“ beantworten und mit der Behebung des Problems wesentlich schneller beginnen.

Leon Adato
Leon Adato
(Bild: SolarWinds)

Fazit

Die Reduzierung von Ausfallzeiten und die Verbesserung der Reaktionsfähigkeit von Anwendungen können sich als einfach erweisen, wenn Sie die oben erwähnten Faktoren berücksichtigen. Sie müssen nicht nur Ihre wichtigen Ressourcen und kritischen Faktoren überwachen, sondern müssen sich auch mit normalen und problematischen Verhaltensweisen auskennen. Wenn Sie über die geeigneten Tools für die Server- und Anwendungsüberwachung in Ihrem Netzwerk verfügen, wird diese Aufgabe sogar noch einfacher.

Über den Autor

Leon Adato ist Head Geek bei SolarWinds.

(ID:43047002)