Mobile-Menu

Als bei Akamai, Facebook und Amazon das Licht ausging Die größten Internetausfälle 2021

Von Bernhard Lück

Cisco ThousandEyes beobachtet und analysiert Störungen bei Internet-Service-Providern und SaaS-Anbietern sowie bei öffentlichen Cloud- und Edge-Service-Netzwerken. Das Network-Intelligence-Unternehmen blickt zurück und erklärt, welche Lehren aus den Ausfällen 2021 zu ziehen sind.

Anbieter zum Thema

Die ThousandEyes Internet Outage Map hat den AWS-Ausfall vom 7. Dezember 2021 aufgezeichnet.
Die ThousandEyes Internet Outage Map hat den AWS-Ausfall vom 7. Dezember 2021 aufgezeichnet.
(Bild: Cisco ThousandEyes)

Spätestens seit dem Ausbruch der Pandemie sind Begriffe wie „Next Normal“ und „digitale Nutzererfahrung“ in das Standardvokabular vieler Menschen eingezogen. Zudem haben durch die veränderten gesellschaftlichen und wirtschaftlichen Voraussetzungen viele Onlinedienste und digitale Plattformen einen enormen Anstieg der Nutzerzahlen erfahren. Doch was passiert, wenn die Internetverbindung unterbrochen wird und alles gezwungenermaßen offline geht?

Für viele Unternehmen bedeuten Ausfallzeiten Umsatz- und Reputationsverluste sowie eine mögliche Ressourcenverschwendung, um auf Vorfälle zu reagieren. Dabei ist es möglich, die Auswirkungen solcher Vorfälle zu umgehen oder zu minimieren, indem man aus den Erfahrungen anderer lernt. Für Cisco ThousandEyes ist dies Grund genug, die weitreichendsten und bedeutendsten Störungen aus dem Jahr 2021 zu rekapitulieren:

Amazon Web Services am 15. Dezember 2021

Ein kurzer Ausfall von Amazon Web Services (AWS) betraf Dienste und Anwendungen in den Regionen US-WEST-1 und US-WEST-2. Der Vorfall dauerte etwa 45 Minuten und trat zu Beginn des Arbeitstages an der Westküste der USA auf. So wurde der Zugang zu Authentifizierungs- und Kollaborationsplattformen, die auf AWS angewiesen sind, unterbrochen – darunter Okta, Workday und Slack. AWS bestätigte die Beobachtung von ThousandEyes, dass Probleme mit der Netzwerkkonnektivität aufgrund von durch Überlastung verursachten Datenverlusten dafür verantwortlich waren.

Amazon Web Services am 7. Dezember 2021

Ebenfalls bei AWS, dem größten Anbieter von Cloud-Computing-Diensten in den USA, kam es Anfang Dezember zu einem noch größeren Ausfall. Die Unterbrechung dauerte über eine Stunde und verursachte Probleme, die sich auf die Benutzer mehrerer wichtiger Dienste auswirkten, darunter AWS Console, Amazon Prime Now und Amazon Pharmacy. Auch viele Dienste, die auf AWS angewiesen sind, etwa IoT-Geräte für Verbraucher wie Roomba und Ring, waren davon betroffen. Große Streamingdienste wie Disney+ und Netflix waren ebenfalls nicht verfügbar.

Dieser Ausfall hatte vor allem erhebliche Auswirkungen auf die Anwendungen und Dienste von Unternehmenskunden. So mussten viele besorgte IT-Spezialisten in Unternehmen mehr als eine Stunde lang darauf warten, dass die Statusseite des Anbieters die Hintergründe des Vorfalls anzeigte.

Facebook am 4. Oktober 2021

Am 4. Oktober konnten die Dienste von Facebook, Instagram und WhatsApp nicht mehr abgerufen werden. Der Ausfall betraf Hunderte Millionen, wenn nicht Milliarden von Nutzern weltweit. Zusätzlich gab es Meldungen über Probleme mit Dienstanbietern, die aufgrund des hohen Internetverkehrsaufkommens von Facebook ebenfalls betroffen waren.

Der reguläre Betrieb konnte für alle drei Messaging-Plattformen sieben Stunden später wiederhergestellt werden. Verständlicherweise wirft dieser Ausfall einige Fragen auf. Wie konnte es dazu kommen? Wieso dauerte es bis zur Wiederherstellung der Dienste durch das erfahrene Netzwerkbetriebsteam des Social-Media-Unternehmens so lange?

Der Ausfall von Facebook stellte in Bezug auf Umfang und Dauer eine erhebliche Störung dar, die auch monetäre Auswirkungen hatte: Laut Forbes soll der Ausfall zu Umsatzeinbußen in Höhe von 60 bis 100 Mio. US-Dollar und einem Rückgang der Marktkapitalisierung um 47,3 Mrd. US-Dollar geführt haben.

Akamai DNS am 22. Juli 2021

Ende Juli kam es bei Akamai zu einem weitreichenden Ausfall. Dieser führte dazu, dass Nutzer weltweit die Websites von Kunden des Unternehmens nicht mehr erreichen konnten. Der Ausfall dauerte über eine Stunde und hatte erhebliche Auswirkungen auf viele Websites und Anwendungen, die u.a. im Bankwesen, Flugverkehr und im Gamingbereich genutzt werden.

Akamai DNS ist ein kritischer Dienst, der Nutzer zum CDN-Edge von Akamai weiterleitet. Nutzer, die versuchten, von Akamai gehostete Webseiten aufzurufen, erhielten während des Ausfalls eine Fehlermeldung. Der Grund: Die von ihnen jeweils angeforderte Domain konnte nicht in eine gültige IP-Adresse aufgelöst werden.

Der Ausfall war von besonderer Bedeutung, da er nicht nur Akamai-Kunden betraf, sondern auch diejenigen, die auf Dienste von Akamai angewiesen sind. Unternehmen, die einen Multi-CDN-Ansatz verwenden, wie Amazon, blieben von den Auswirkungen dieses Vorfalls weitgehend verschont.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Netzwerktechnik, IP-Kommunikation und UCC

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Akamai Prolexic Routed am 16. Juni 2021

Für australische Internetnutzer und diejenigen, die in der asiatisch-pazifischen Region leben, war der 16. Juni 2021 ein besonders frustrierender Tag. Bei Prolexic Routed, dem DDoS-Abwehrdienst von Akamai, kam es zu einer Serviceunterbrechung, durch die die Webseiten einiger Kunden für unterschiedlich lange Zeit nicht erreichbar waren.

Um seine Kunden vor DDoS-Angriffen zu schützen, bereinigt Prolexic Routed den eingehenden Datenverkehr. Dazu werden (mit Erlaubnis) Kundenpräfixe anzeigt, bevor eingehende Anfragen an das jeweilige Netzwerk weitergeleitet werden. Die Ursache für diesen Vorfall war eine versehentliche Überschreitung des Limits der Routing-Tabelle.

Der Ausfall dauerte über vier Stunden, wobei die stärksten Auswirkungen in den ersten Minuten auftraten. Verschiedene Dienste waren je nach Standort, Tageszeit und zuvor erstellten Backup-Plänen unterschiedlich betroffen. Bestimmte Dienste hatten Failover-Systeme, die es ihnen ermöglichten, die Konnektivität wiederherzustellen – in einigen Fällen sogar innerhalb weniger Minuten.

Fastly am 8. Juni 2021

Im Juni kam es bei Fastly zu einem massiven Ausfall, von dem weltweit 85 Prozent der Dienste betroffen waren. Ein versteckter Softwarefehler löste den einstündigen Ausfall aus, als ein Kunde ein Routine-Update seiner CDN-Konfiguration durchführte. Wer versuchte, die betroffenen Websites oder Anwendungen zu erreichen, erhielt wahrscheinlich die Fehlermeldung „503 – Service Unavailable“.

Der Ausfall betraf viele große Websites, darunter auch Reddit oder das Webangebot der New York Times. Sogar Amazon und eBay waren stellenweise betroffen, weil diese ebenfalls auf die Dienste von Fastly zurückgreifen. Erwähnenswert ist, dass die Auswirkungen für jeden dieser Medien- und E-Commerce-Anbieter sehr unterschiedlich waren, obwohl die Ursache für den Ausfall dieselbe war.

Maßnahmen für ein resilienteres Jahr 2022

Aus den Ausfällen von 2021 kann man einige grundlegende Lehren ziehen, darunter die folgenden:

  • Auf praktische Redundanzkonzepte zurückgreifen: Unternehmen sollten die Nutzung von mehr als einem Anbieter für kritische Dienste wie CDN und DNS erwägen.
  • Funktionsweise der eigenen Servicebereitstellungskette analysieren: Diese kann sich auf mehrere Abhängigkeiten stützen. Daher ist es wichtig, alle Abhängigkeiten zu kennen, auch die indirekten oder „versteckten“ sowie die externen Dienste.
  • Proaktive Visibilität in die eigenen Standorte, Anwendungen und wichtigsten Abhängigkeiten gewährleisten: Auf diese Weise können Unternehmen am effizientesten feststellen, wann ein Serviceproblem aufgetreten ist und welche Strategie anzuwenden ist, um Störfälle mit minimalen Auswirkungen auf die Nutzer zu beheben.
  • Notfallkonzept erstellen: Selbst wenn bewährte Verfahren und redundante Service-Architekturen implementiert wurden, kann es immer noch zu unvorhergesehenen Ausfällen kommen. Mit einem Backup-Plan für Ausfallszenarien lassen sich Ausfallzeiten und Leistungseinbußen bei den eigenen Diensten minimieren.

Die Ausfälle 2021 zeigen eindrücklich, dass selbst die modernste Infrastruktur durchaus von Fehlern und Ausfällen betroffen sein kann. Auch wenn Ausfälle unvermeidlich sind, sollten Unternehmen bestimmte Maßnahmen implementiert haben, um diese schadlos zu überstehen. IT-Teams können durch die Analysen und Erkenntnisse der größten Ausfälle in diesem Jahr bessere Prozesse, Redundanzen und Failover-Systeme entwickeln, um die zu erwartenden Ausfallzeiten im Jahr 2022 zu kontrollieren und zu minimieren.

(ID:47925673)