Cisco ThousandEyes beobachtet und analysiert Störungen bei Internet-Service-Providern und SaaS-Anbietern sowie bei öffentlichen Cloud- und Edge-Service-Netzwerken. Das Network-Intelligence-Unternehmen blickt zurück und erklärt, welche Lehren aus den Ausfällen 2021 zu ziehen sind.
Die ThousandEyes Internet Outage Map hat den AWS-Ausfall vom 7. Dezember 2021 aufgezeichnet.
(Bild: Cisco ThousandEyes)
Spätestens seit dem Ausbruch der Pandemie sind Begriffe wie „Next Normal“ und „digitale Nutzererfahrung“ in das Standardvokabular vieler Menschen eingezogen. Zudem haben durch die veränderten gesellschaftlichen und wirtschaftlichen Voraussetzungen viele Onlinedienste und digitale Plattformen einen enormen Anstieg der Nutzerzahlen erfahren. Doch was passiert, wenn die Internetverbindung unterbrochen wird und alles gezwungenermaßen offline geht?
Für viele Unternehmen bedeuten Ausfallzeiten Umsatz- und Reputationsverluste sowie eine mögliche Ressourcenverschwendung, um auf Vorfälle zu reagieren. Dabei ist es möglich, die Auswirkungen solcher Vorfälle zu umgehen oder zu minimieren, indem man aus den Erfahrungen anderer lernt. Für Cisco ThousandEyes ist dies Grund genug, die weitreichendsten und bedeutendsten Störungen aus dem Jahr 2021 zu rekapitulieren:
Amazon Web Services am 15. Dezember 2021
Ein kurzer Ausfall von Amazon Web Services (AWS) betraf Dienste und Anwendungen in den Regionen US-WEST-1 und US-WEST-2. Der Vorfall dauerte etwa 45 Minuten und trat zu Beginn des Arbeitstages an der Westküste der USA auf. So wurde der Zugang zu Authentifizierungs- und Kollaborationsplattformen, die auf AWS angewiesen sind, unterbrochen – darunter Okta, Workday und Slack. AWS bestätigte die Beobachtung von ThousandEyes, dass Probleme mit der Netzwerkkonnektivität aufgrund von durch Überlastung verursachten Datenverlusten dafür verantwortlich waren.
Amazon Web Services am 7. Dezember 2021
Ebenfalls bei AWS, dem größten Anbieter von Cloud-Computing-Diensten in den USA, kam es Anfang Dezember zu einem noch größeren Ausfall. Die Unterbrechung dauerte über eine Stunde und verursachte Probleme, die sich auf die Benutzer mehrerer wichtiger Dienste auswirkten, darunter AWS Console, Amazon Prime Now und Amazon Pharmacy. Auch viele Dienste, die auf AWS angewiesen sind, etwa IoT-Geräte für Verbraucher wie Roomba und Ring, waren davon betroffen. Große Streamingdienste wie Disney+ und Netflix waren ebenfalls nicht verfügbar.
Dieser Ausfall hatte vor allem erhebliche Auswirkungen auf die Anwendungen und Dienste von Unternehmenskunden. So mussten viele besorgte IT-Spezialisten in Unternehmen mehr als eine Stunde lang darauf warten, dass die Statusseite des Anbieters die Hintergründe des Vorfalls anzeigte.
Facebook am 4. Oktober 2021
Am 4. Oktober konnten die Dienste von Facebook, Instagram und WhatsApp nicht mehr abgerufen werden. Der Ausfall betraf Hunderte Millionen, wenn nicht Milliarden von Nutzern weltweit. Zusätzlich gab es Meldungen über Probleme mit Dienstanbietern, die aufgrund des hohen Internetverkehrsaufkommens von Facebook ebenfalls betroffen waren.
Der reguläre Betrieb konnte für alle drei Messaging-Plattformen sieben Stunden später wiederhergestellt werden. Verständlicherweise wirft dieser Ausfall einige Fragen auf. Wie konnte es dazu kommen? Wieso dauerte es bis zur Wiederherstellung der Dienste durch das erfahrene Netzwerkbetriebsteam des Social-Media-Unternehmens so lange?
Der Ausfall von Facebook stellte in Bezug auf Umfang und Dauer eine erhebliche Störung dar, die auch monetäre Auswirkungen hatte: Laut Forbes soll der Ausfall zu Umsatzeinbußen in Höhe von 60 bis 100 Mio. US-Dollar und einem Rückgang der Marktkapitalisierung um 47,3 Mrd. US-Dollar geführt haben.
Akamai DNS am 22. Juli 2021
Ende Juli kam es bei Akamai zu einem weitreichenden Ausfall. Dieser führte dazu, dass Nutzer weltweit die Websites von Kunden des Unternehmens nicht mehr erreichen konnten. Der Ausfall dauerte über eine Stunde und hatte erhebliche Auswirkungen auf viele Websites und Anwendungen, die u.a. im Bankwesen, Flugverkehr und im Gamingbereich genutzt werden.
Akamai DNS ist ein kritischer Dienst, der Nutzer zum CDN-Edge von Akamai weiterleitet. Nutzer, die versuchten, von Akamai gehostete Webseiten aufzurufen, erhielten während des Ausfalls eine Fehlermeldung. Der Grund: Die von ihnen jeweils angeforderte Domain konnte nicht in eine gültige IP-Adresse aufgelöst werden.
Der Ausfall war von besonderer Bedeutung, da er nicht nur Akamai-Kunden betraf, sondern auch diejenigen, die auf Dienste von Akamai angewiesen sind. Unternehmen, die einen Multi-CDN-Ansatz verwenden, wie Amazon, blieben von den Auswirkungen dieses Vorfalls weitgehend verschont.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Um seine Kunden vor DDoS-Angriffen zu schützen, bereinigt Prolexic Routed den eingehenden Datenverkehr. Dazu werden (mit Erlaubnis) Kundenpräfixe anzeigt, bevor eingehende Anfragen an das jeweilige Netzwerk weitergeleitet werden. Die Ursache für diesen Vorfall war eine versehentliche Überschreitung des Limits der Routing-Tabelle.
Der Ausfall dauerte über vier Stunden, wobei die stärksten Auswirkungen in den ersten Minuten auftraten. Verschiedene Dienste waren je nach Standort, Tageszeit und zuvor erstellten Backup-Plänen unterschiedlich betroffen. Bestimmte Dienste hatten Failover-Systeme, die es ihnen ermöglichten, die Konnektivität wiederherzustellen – in einigen Fällen sogar innerhalb weniger Minuten.
Fastly am 8. Juni 2021
Im Juni kam es bei Fastly zu einem massiven Ausfall, von dem weltweit 85 Prozent der Dienste betroffen waren. Ein versteckter Softwarefehler löste den einstündigen Ausfall aus, als ein Kunde ein Routine-Update seiner CDN-Konfiguration durchführte. Wer versuchte, die betroffenen Websites oder Anwendungen zu erreichen, erhielt wahrscheinlich die Fehlermeldung „503 – Service Unavailable“.
Der Ausfall betraf viele große Websites, darunter auch Reddit oder das Webangebot der New York Times. Sogar Amazon und eBay waren stellenweise betroffen, weil diese ebenfalls auf die Dienste von Fastly zurückgreifen. Erwähnenswert ist, dass die Auswirkungen für jeden dieser Medien- und E-Commerce-Anbieter sehr unterschiedlich waren, obwohl die Ursache für den Ausfall dieselbe war.
Maßnahmen für ein resilienteres Jahr 2022
Aus den Ausfällen von 2021 kann man einige grundlegende Lehren ziehen, darunter die folgenden:
Auf praktische Redundanzkonzepte zurückgreifen: Unternehmen sollten die Nutzung von mehr als einem Anbieter für kritische Dienste wie CDN und DNS erwägen.
Funktionsweise der eigenen Servicebereitstellungskette analysieren: Diese kann sich auf mehrere Abhängigkeiten stützen. Daher ist es wichtig, alle Abhängigkeiten zu kennen, auch die indirekten oder „versteckten“ sowie die externen Dienste.
Proaktive Visibilität in die eigenen Standorte, Anwendungen und wichtigsten Abhängigkeiten gewährleisten: Auf diese Weise können Unternehmen am effizientesten feststellen, wann ein Serviceproblem aufgetreten ist und welche Strategie anzuwenden ist, um Störfälle mit minimalen Auswirkungen auf die Nutzer zu beheben.
Notfallkonzept erstellen: Selbst wenn bewährte Verfahren und redundante Service-Architekturen implementiert wurden, kann es immer noch zu unvorhergesehenen Ausfällen kommen. Mit einem Backup-Plan für Ausfallszenarien lassen sich Ausfallzeiten und Leistungseinbußen bei den eigenen Diensten minimieren.
Die Ausfälle 2021 zeigen eindrücklich, dass selbst die modernste Infrastruktur durchaus von Fehlern und Ausfällen betroffen sein kann. Auch wenn Ausfälle unvermeidlich sind, sollten Unternehmen bestimmte Maßnahmen implementiert haben, um diese schadlos zu überstehen. IT-Teams können durch die Analysen und Erkenntnisse der größten Ausfälle in diesem Jahr bessere Prozesse, Redundanzen und Failover-Systeme entwickeln, um die zu erwartenden Ausfallzeiten im Jahr 2022 zu kontrollieren und zu minimieren.