Automatisierung im Netzwerk als Treiber der Produktivität Das NetOps-Maturity-Modell

Autor / Redakteur: Oliver Burgstaller / Dipl.-Ing. (FH) Andreas Donner

Produktivitätssteigerungen werden nicht nur in der Produktion oder der Verwaltung angestrebt, sondern auch in der IT. Dabei gilt ein besonderes Augenmerk dem Netzwerk, denn funktioniert dieses nur mangelhaft oder gar nicht, geht die Produktivität sehr vieler Mitarbeiter gleichzeitig in den Keller. Da Störungen unvermeidlich sind, gilt es diese nicht nur zu minimieren, sondern im selben Atemzug so proaktiv wie möglich potenzielle Störungen zu beheben – optimalerweise bevor auftretende Fehler zum Problem werden.

Firmen zum Thema

Oliver Burgstaller erläutert die Zusammenhänge von Netzwerkautomatisierung, Troubleshooting und Produktivitätssteigerungen.
Oliver Burgstaller erläutert die Zusammenhänge von Netzwerkautomatisierung, Troubleshooting und Produktivitätssteigerungen.
(Bild: NetBrain Technologies)

Das mag an dieser Stelle vielleicht etwas paradox klingen, ist es aber aufgrund der Möglichkeiten, die die Netzwerkautomatisierung heute bietet, keineswegs. Denn je nachdem, wie weit die Unternehmen bereits Lösungen für die Netzwerkautomatisierung implementiert haben – also entsprechend dem Grad der Maturity – kann ein Unternehmen aus einer rein reaktiven Position heraus durchaus auf ein Level kommen, in dem auf Störungen im Netzwerk automatisiert reagiert werden kann.

Das heißt, im Fall der Fälle werden diese Störungen vom System erkannt, analysiert und behoben, menschliches Eingreifen ist nicht mehr notwendig. Das sorgt für eine erhebliche Beschleunigung der Fehlerbehebung und damit für mehr Produktivität im Unternehmen – Anwendungen und der Zugriff darauf sind schneller wieder verfügbar, die Nutzer können schneller wieder miteinander arbeiten, die IT-Abteilung die Störung schneller beseitigen und gegebenenfalls auch vernetzte Produktionssysteme ihre Arbeit wieder aufnehmen.

Doch wie lässt sich dieser Grad an Netzwerkautomatisierung überhaupt erreichen? Dazu dient eine genauere Betrachtung der einzelnen Stufen dieses Ansatzes: Der Prozess der Behebung einer Störung wird in drei unterschiedliche Abschnitte gegliedert, das Erkennen, Identifizieren und Beheben. Insbesondere Phase zwei, drei und vier haben dabei jeweils ihre eigenen Herausforderungen.

  • Erkennen: Die Fehlererkennung erfolgt in der Regel über bestehende Monitoring-Lösungen, über die heutzutage sicherlich jedes Unternehmen verfügt. Somit ist diese Phase meist sehr kurz.
  • Identifizieren: Die Identifizierung der Ursache eines Problems im Netzwerk dauert in der Regel am längsten. Unter anderem liegt das daran, dass oftmals keine Anhaltspunkte vorhanden sind, wo der Fehler konkret zu finden ist. Das liegt in vielen Fällen daran, dass die IT-Abteilung kein aktuelles und/oder vollständiges Bild des Netzwerks hat, denn es fehlt häufig an einer Dokumentation, die stets auf dem neuesten Stand gehalten wird. Änderungen im Netzwerk müssen eben zu oft noch händisch nachgetragen werden, jüngste Updates sind entsprechend noch nicht berücksichtigt. Folglich muss die Analyse breit gefächert unterschiedlichste Aspekte beleuchten, bevor man auf die relevanten Daten und Indizien stößt. Entsprechend ist die Dauer dieser Phase unvorhersehbar und hat folglich den größten Einfluss auf die Kosten eines Ausfalls.
  • Beheben: Die Behebungsphase kann zwar sehr kurz sein, aber dennoch sind Anstrengungen notwendig, um das jeder Änderung inhärente Risiko zu reduzieren und diese Phase in einen vollständigen Vorfallsreaktions-Workflow zu integrieren. Berücksichtigt werden müssen hier auch die Anpassungen des Netzwerks, denn jeder Change kann auch die Ursache eines Fehlers sein. Dies gilt insbesondere dann, wenn das Change-Management manuell statt automatisiert stattfindet.

Vorsorgen

Die drei bereits genannten Phasen sind notwendig und finden in der Regel auch ausreichende Beachtung. Doch sollten Unternehmen eine vierte, ergänzende Phase in Betracht ziehen – die proaktive Phase. Der Vorfall ist behoben, aber was ist, wenn später wieder ein ähnliches Ereignis auftritt? Lassen sich die gewonnenen Erkenntnisse aufzeichnen und daraus eine Handlungsempfehlung für das nächste Mal ableiten?

Bei all diesen Schritten kann die Netzwerkautomatisierung erheblich dazu beitragen, die Zeiten der einzelnen Phasen zu verkürzen und eine sinnvolle Vorsorge für möglicherweise wiederkehrende Störungen zu schaffen. Und je weiter fortgeschritten die Implementierung der Automatisierung ist, desto effizienter der gesamte Prozess.

Automatisierte Dokumentation

Der Ansatz einer komplett manuellen Netzwerkdokumentation und Fehlerbehebung ist wohl nur noch von historischer Bedeutung. Kein verantwortungsvoll handelndes Unternehmen mittlerer Größe oder gar ein global agierender Konzern kann derart ineffizient arbeiten und das Überleben der eigenen Firma durch Netzwerkstörungen gefährden.

Man kann daher durchaus annehmen, dass die IT-Verantwortlichen zumindest die Erfassung aller Netzwerkkomponenten, also die Netzwerkdokumentation, automatisiert haben. Die NetOps wissen, welche Geräte in welchem Zustand sich an welcher Stelle befinden. Jedes neu hinzugefügte und jedes entfernte Gerät finden unmittelbaren Niederschlag in der optischen Darstellung des Netzwerks, dem Netzwerkplan. Eine angemessene Netzwerkdokumentation bietet hier die Möglichkeit sowohl einer Übersichtsdarstellung als auch eines Drill-Downs in einzelne Netzwerksegmente.

Die Bedeutung dieser Option ist umso wichtiger, je größer das Netzwerk ist. Denn nur die End-to-End-Visibility über das gesamte Netzwerk in allen Ebenen und allen Verbindungen stellt sicher, dass im Falle eines Netzwerkproblems die Sicht auch bis zum ausgefallenen Element reicht. Dies gilt im Übrigen nicht nur für normale LANs, sondern auch für SDNs (Software Defined Network) und Cloud-basierte Netzwerke.

In dieser zweiten Stufe ist also die Dokumentation automatisiert, aber sobald es um die Fehlerbehebung geht, wird noch immer sehr stark auf menschliche Eingriffe gesetzt. Der IT-Experte hat vielleicht das ein oder andere Tool zur Verfügung, das ihm bei der Beseitigung der Störung unterstützt, doch automatisch behoben wird keine Störung, und sei es eine, die immer wieder auftritt und sich eigentlich einfach ohne menschliches Zutun beheben ließe.

Automatische Skripterstellung

Dies geschieht dann erst jetzt, in Stufe drei. Bleiben wir hier für einen Moment beim vorherigen Beispiel der wiederkehrenden Störung. Hierbei wird die Erfahrung aus dem wiederholten, manuellen Beheben dieser Störung in Code gegossen. Das heißt, auf Basis der mehr oder weniger immer gleichen Vorgehensweise wird automatisiert, nach den Vorgaben der NetOps ein Skript erstellt, das dann bei erneutem Auftreten des Problems vom Support manuell gestartet wird – das manuelle Erstellen von Scripts für die automatische Störungsanalyse und -beseitigung entfällt. Somit ist der Anfang gemacht, aus der reinen Netzwerkdokumentation in die Automatisierung einzusteigen.

Für Stufe drei stehen damit so genannte Runbooks zur Verfügung. Diese nutzt der Techniker anstatt die Command-Line-Interface-Ausgaben (CLI) von Netzwerkgeräten sequenziell zu analysieren und ruft kontextbezogene Diagnosedaten auf Knopfdruck ab. Dies trägt dazu bei, wiederholbare, vorhersagbare Ergebnisse zu liefern. Und es stellt sicher, dass genau die relevanten Daten abgerufen werden und reduziert so die Zeit für den Diagnoseprozess erheblich.

Doch die Netzwerkautomatisierung kann noch mehr: In der nächsten Stufe beginnt die Teilautomatisierung des Troubleshootings. Im Gegensatz zu Level drei wird hier die Beseitigung einfacher und bekannter Netzwerkstörungen automatisch gestartet. Damit können die Ausfallzeiten aufgrund wiederkehrender Probleme im Netz auf das absolute Minimum reduziert werden. Die NetOps müssen sich nicht mehr um Offensichtliches kümmern. Ihre Aufgabe besteht vielmehr darin, tief in die Ursachenforschung der Netzwerkprobleme einzusteigen. Zum einen gilt es ja nicht nur Störungen immer wieder zu beseitigen, sondern auch, die Ursache zu finden und somit das Problem dauerhaft aus der Welt zu schaffen.

Stete Erweiterung des Know-hows

Selbstverständlich fließen auch die hierbei gemachten Erfahrungen in die Runbooks mit ein und sorgen auf diesem Weg für ein stetig anwachsendes Know-how im Unternehmen. Aufgrund einer zentralen Erfassung und Verfügbarkeit können alle NetOps darauf zugreifen. Damit wird dieses Wissen unternehmensweit nutzbar und das Lösen eines Netzwerkproblems wird unabhängig vom gerade verfügbaren Netzwerkspezialisten und dessen Erfahrung nachhaltig beschleunigt.

Die letzte und damit höchste Stufe der Automatisierung ist schließlich dann erreicht, wenn die Netzwerkautomatisierung auftretende Beeinträchtigungen des Netzwerks erkennt, im Rahmen einer Fehleranalyse die Ursache findet, die Beseitigung eben dieser startet und damit den Netzwerkbetrieb wieder vollständig herstellt. Menschliche Interaktion ist dann in der Regel kaum noch notwendig.

Dies ist natürlich nur dann möglich, wenn dem System der Fehler bekannt ist. Doch durch den Einsatz moderner Machine-Learning-Technologien lassen sich hier weitere Fortschritte in der Problemlösungskompetenz der Netzwerkautomatisierungslösung erzielen.

Damit einher geht folglich auch eine gewisse Vorsorge vor Netzwerkproblemen. Die Automatisierung ist aufgrund ihrer Fähigkeit zu lernen in der Lage, Beeinträchtigungen im Datenverkehr schon sehr früh zu erkennen. Ist es ein wiederkehrendes Phänomen, kennt die Lösung auch die notwendigen Maßnahmen, um aus dieser Beeinträchtigung kein großes Problem entstehen zu lassen. Die Lösung kann dabei selbstverständlich auch gleichzeitig entsprechende Alerts an die NetOps senden, sodass – falls notwendig – auch weitere Aktionen vonseiten der IT-Experten erfolgen können.

Wichtig ist an dieser Stelle noch, dass die Netzwerkautomatisierung keineswegs eine Insellösung darstellt, sondern auch mit SIEM- (Security Information and Event Management) und Ticketing-Systemen integriert werden kann. Dieser integrierte Ansatz bedingt neben der Optimierung der Workflows der NetOps auch eine Beschleunigung für den technischen Support an sich. Tickets können bereits im Level-1-Support deutlich schneller und besser analysiert und die Beseitigung des Fehlers über die Automatisierung angestoßen werden – für die höheren Supportebenen eine deutliche Entlastung.

Daraus wird deutlich, dass je weiter fortgeschritten die Netzwerkautomatisierung im Unternehmen ist, desto kürzer und effizienter ist der Umgang mit jeder einzelnen Phase einer Netzwerkstörung. Das reduziert die Kosten dieser Störung und stellt gleichzeitig sicher, dass den Mitarbeitern ein funktionierendes, performantes Netzwerk zur Verfügung steht.

Oliver Burgstaller.
Oliver Burgstaller.
(Bild: NetBrain Technologies)

Über den Autor

Oliver Burgstaller ist seit dem Frühjahr 2020 Global Account Executive SIs & SPs, EMEA, bei NetBrain Technologies. Zu seinen wichtigsten Aufgaben gehört die strategische Zusammenarbeit mit NetBrains Globalen Enterprise Service Providern sowie Systemintegratoren. Gemeinsam mit den Partnern erarbeitet Oliver Burgstaller Lösungen, um den geschäftlichen und technologischen Mehrwert für die Enterprise Kunden von NetBrain sicherzustellen.

(ID:47042212)