Zeitleiste Internetausfälle

Tauchen Sie ein in die bekanntesten Internet-Störungen. Entdecken Sie die Auswirkungen, die Ursachen und die wichtigsten Lektionen, um die Widerstandsfähigkeit Ihres Internet-Stacks zu gewährleisten.

Juni

6. Juni 2025

OpenStreetMap

Nord-Amerika

Was ist passiert?

Am 6. Juni 2025, um 4:11 AM EDT, entdeckte Internet Sonar einen Ausfall, der OpenStreetMap-Dienste in mehreren Regionen, einschließlich Asien-Pazifik, Europa, Naher Osten und Afrika (EMEA) und Nordamerika, betraf. Die Analyse ergab konsistente HTTP 503 Service Unavailable Antworten für Anfragen an www.openstreetmap.org, Backend. Der Ausfall dauerte etwa 35 Minuten, wobei während der gesamten Dauer des Vorfalls 503-Fehler zurückgegeben wurden.

Mitbringsel

Regionale CDN- oder Caching-Layer-Ausfälle können unerwartete Druckpunkte in der globalen Verfügbarkeit aufdecken, insbesondere bei Open-Data-Plattformen mit verteilter Infrastruktur. Dieser Ausfall zeigt, warum es sich lohnt, Stresstests durchzuführen, wie der Datenverkehr weitergeleitet und bereitgestellt wird, wenn Backend-Dienste vorübergehend ausfallen - insbesondere bei Projekten ohne eigene Support-Teams im Unternehmen.

Juni 2, 2025

Tiktok

Nord-Amerika

Was ist passiert?

Am 2. Juni 2025, um 10:53 PM EDT, entdeckte Internet Sonar einen Ausfall, der TikTok-Dienste in der nordamerikanischen Region betraf. Die Analyse ergab HTTP 504 Gateway Timeout-Antworten für Anfragen an www.tiktok.com. Während des Vorfalls berichteten Benutzer, dass sie nicht auf TikTok-Dienste zugreifen konnten, was auf eine erhebliche Unterbrechung des Dienstes hindeutet.

Mitbringsel

Regionale Abhängigkeiten können zu unerwarteten Single Points of Failure führen. Dieser Vorfall macht deutlich, wie wichtig es ist, die Zuverlässigkeit des Upstream-Providers zu überprüfen und gezielte Failover-Strategien für regionalspezifische Störungen zu implementieren. Testen Sie proaktiv, wie sich Ihr Dienst bei regionalen Teilausfällen verschlechtert, um eine reibungslose Abwicklung und eine klare Kommunikation mit den Nutzern sicherzustellen.

Mai

31. Mai 2025

OpenAI-API

Nord-Amerika

Was ist passiert?

In den frühen Morgenstunden des 31. Mai entdeckte Catchpoint API-Timeouts und eine verminderte Leistung für den API-Endpunkt von OpenAI. Das Problem begann in einigen US-Städten und weitete sich schnell auf andere Standorte aus. Catchpoint alarmierte den von diesem Vorfall betroffenen Kunden, einen weltweit führenden Anbieter von Verbrauchertechnologie, über 40 Minuten bevor OpenAI das Problem bestätigte. Zu den Fehlern gehörten fehlerhafte Antworten und erhöhte Latenzzeiten.

Mitbringsel

Die frühzeitige, unabhängige Erkennung von API-Problemen von Drittanbietern ermöglicht es den Teams, proaktiv zu reagieren, indem sie den Datenverkehr umleiten, die Benachrichtigung der Benutzer anpassen oder nicht kritische Funktionen drosseln, bevor der Anbieter dies bestätigt. Wenn man sich ausschließlich auf die Kommunikation mit dem Anbieter verlässt, kann sich die Schadensbegrenzung verzögern und die Auswirkungen auf die Benutzer verstärken, insbesondere wenn Echtzeit-Erlebnisse von externen APIs abhängen.

Mai 26, 2025

Sallie Mae

Nord-Amerika

Was ist passiert?

Am 26. Mai 2025 um 9:21 PM EDT entdeckte Internet Sonar einen Ausfall, der die Dienste von Sallie Mae in mehreren nordamerikanischen Regionen beeinträchtigte. Die Störung wurde durch DNS-Fehler bei Anfragen an www.salliemae.com verursacht, die um 9:21 PM EDT begannen und von mehreren US-Standorten aus beobachtet wurden. Dieses DNS-Problem verhinderte, dass Anfragen die Website erreichten, was zur Unerreichbarkeit des Dienstes führte.

Mitbringsel

DNS-Ausfälle können den Benutzerzugriff sofort unterbrechen, unabhängig vom Zustand des Backends. Um die Erkennungs- und Lösungszeit zu verkürzen, sollten Sie DNS-Zustandsprüfungen von verschiedenen externen Punkten aus durchführen und die Reaktion auf DNS-Vorfälle in die Runbooks integrieren. Überprüfen Sie regelmäßig die Redundanz- und Failover-Strategien von DNS-Anbietern, um einzelne Ausfallpunkte am Netzwerkrand zu vermeiden.

Mai 26, 2025

Google Bard

US, EMEA und APAC
Nach unten blättern

Was ist passiert?

Am 26. Mai 2025, um 8:45 AM EDT, entdeckte Internet Sonar einen Ausfall, der Google Gemini in mehreren Regionen betraf, darunter die USA, EMEA und APAC. Der Vorfall verursachte HTTP 502 Bad Gateway-Antworten für Anfragen an https://gemini.google.com/ von verschiedenen Standorten aus. Die Nutzer erhielten Fehlermeldungen, die darauf hinwiesen, dass auf dem Server ein Problem aufgetreten war und ihre Anfragen nicht abgeschlossen werden konnten, was zu einer Instabilität des Dienstes führte.

Mitbringsel

Weitverbreitete 502-Fehler signalisieren eine Instabilität des Upstream oder des Gateways, die sich schnell auf die globale Verfügbarkeit auswirken kann. Eine verteilte Überwachung hilft dabei, intermittierende Backend-Ausfälle frühzeitig zu erkennen. Eine wirksame Reaktion hängt jedoch von der Korrelation der Fehlermuster in verschiedenen Regionen und der Isolierung der Grundursachen ab. Simulieren Sie regelmäßig Backend-Ausfallsszenarien und überprüfen Sie, ob die Fallback-Mechanismen und die benutzerseitige Fehlerbehandlung die Unterbrechungen bei partiellen oder kaskadierenden Ausfällen minimieren.

22. Mai 2025

Hawaiianische Fluggesellschaften

Global

Was ist passiert?

Am 22. Mai 2025 um 4:12 PM EDT entdeckte Internet Sonar einen Ausfall, der die Dienste von Hawaiian Airlines in mehreren Städten in den Vereinigten Staaten beeinträchtigte. Die Analyse ergab konsistente HTTP 503 Service Unavailable-Antworten für Anfragen an https://www.hawaiianairlines.com, was auf die Nichtverfügbarkeit des Dienstes und die Unterbrechung des Dienstes hinweist.

Mitbringsel

HTTP 503-Fehler signalisieren häufig eine Überlastung des Backends oder eine Fehlkonfiguration des Dienstes, und selbst kurze globale Ausfälle können zu erheblichen betrieblichen und rufschädigenden Auswirkungen für Fluggesellschaften führen. Um Unterbrechungen zu minimieren, sollten Sie automatische Kapazitätssicherungen, Echtzeit-Zustandsprüfungen und klare Statusmeldungen für die Benutzer implementieren. Testen Sie regelmäßig Reaktionspläne für Zwischenfälle, um eine schnelle Wiederherstellung und transparente Kommunikation bei plötzlichen, großflächigen Serviceunterbrechungen zu gewährleisten.

22. Mai 2025

OpenAI API ChatGPT

Global

Was ist passiert?

Am 22. Mai 2025, um 5:20 AM EDT, kam es bei der API von OpenAI (ChatGPT) zu einem globalen Ausfall, der die Regionen APAC, EMEA, Lateinamerika und Nordamerika betraf. Internet Sonar entdeckte die Unterbrechung, als Anfragen an https://api.openai.com/v1/models anfingen, HTTP 5xx-Fehler einschließlich 503, 504 und 500 zurückzugeben, was auf serverseitige Fehler hindeutet.  

Mitbringsel

Gleichzeitige 5xx-Fehler in mehreren Regionen deuten auf systemische Backend-Fehler hin, nicht auf isolierte Netzwerkprobleme. Eine schnelle Triage erfordert die Unterscheidung zwischen Fehlertypen (z. B. 500 vs. 503 vs. 504), um gezielte Abhilfe zu schaffen. Stellen Sie sicher, dass Playbooks für die Reaktion auf Vorfälle die Klassifizierung von Fehlermustern und Eskalationspfaden für globale Abhängigkeiten von Drittanbietern enthalten, um eine schnellere Ursachenanalyse und eine effektivere Benutzerkommunikation zu ermöglichen.

19. Mai 2025

Microsoft Büro

Global

Was ist passiert?

Am 19. Mai 2025 um 4:42 PM EDT kam es bei Microsoft Office zu einem globalen Ausfall, der den Zugriff auf die Online-Dienste beeinträchtigte. Anfragen an https://www.office.com lieferten die Antwort HTTP 503 Service Unavailable, was auf die Nichtverfügbarkeit des Backend-Dienstes hinweist. Die Störung beeinträchtigte den Dienst weltweit und verhinderte den Zugriff auf Produktivitäts-Tools im Zusammenhang mit den Online-Diensten von Microsoft.

Mitbringsel

Ein globaler 503-Ausfall von Microsoft Office unterstreicht das Risiko von Backend-Service-Abhängigkeiten im Cloud-Maßstab. Um die Auswirkungen auf die Benutzer zu reduzieren, sollten Sie Ausweichpfade und einen zwischengespeicherten Zugriff auf wichtige Produktivitätsfunktionen bei Backend-Störungen vorsehen. Testen Sie regelmäßig Business-Continuity-Pläne, um sicherzustellen, dass wichtige Arbeitsabläufe auch dann zugänglich bleiben, wenn die Kerndienste nicht verfügbar sind.

17. Mai 2025

SAP

Global

Was ist passiert?

Am 17. Mai 2025, um 1:08 PM EDT, entdeckte Catchpoint Internet Sonar einen globalen Ausfall, der SAP-Services betraf. Die Unterbrechung wirkte sich auf die Verfügbarkeit und Leistung in mehreren Regionen aus, wobei erhöhte Fehlerraten und HTTP 503-Antworten beobachtet wurden. Der Ausfall betraf Domains unter crm.ondemand.com, was auf eine weit verbreitete Nichtverfügbarkeit der Dienste hindeutet.

Mitbringsel

Ein sprunghafter Anstieg der globalen 503-Fehler für SAP Cloud CRM deutet auf systemische Backend- oder Infrastrukturprobleme hin, die den Geschäftsbetrieb lahmlegen können. Sorgen Sie für eine zuverlässige Alarmierung bei kritischen SaaS-Abhängigkeiten und pflegen Sie klare Runbooks für eine schnelle Eskalation und Kundenkommunikation. Überprüfen Sie regelmäßig die Service-Level-Vereinbarungen und testen Sie die Kontinuitätspläne, um auf großflächige SaaS-Störungen vorbereitet zu sein.

Mai 14, 2025

Granulieren

Südamerika

Was ist passiert?

Am 14. Mai 2025, um 2:02 AM EDT, beobachtete Catchpoint Internet Sonar Ausfälle in Testläufen, die Granify-Dienste betrafen. Die Unterbrechung führte zu HTTP 502 Bad Gateway-Fehlern, was auf Upstream-Server-Probleme hinweist. Der Ausfall wirkte sich auf Anfragen an die Domain https://matching.granify.com/ aus, wobei in Teilen Südamerikas eine Instabilität des Dienstes beobachtet wurde.

Mitbringsel

Lokalisierte 502-Fehler deuten auf vorgelagerte oder zwischengeschaltete Ausfälle hin, die ohne regionale Überwachung unbemerkt bleiben können. Überprüfen Sie regelmäßig die Edge-Infrastruktur und vorgelagerte Abhängigkeiten in weniger stark frequentierten Regionen, um stille Störungen frühzeitig zu erkennen. Einbindung regionaler Störungssimulationen zur Validierung der Erkennung und Reaktion auf geografisch begrenzte Störungen

6. Mai 2025

Google-Wolke

Brasilien

Was ist passiert?

Am 6. Mai 2025, von 8:58 PM bis 9:23 PM EDT, entdeckte Internet Sonar einen Ausfall, der die Google Cloud-Dienste in Brasilien beeinträchtigte. Die Analyse ergab HTTP 502 Bad Gateway-Fehler und Verbindungsfehler bei Anfragen, die IPs auflösten, die mit Google und Google Cloud verbunden waren, was auf vorübergehende Backend- oder Netzwerkprobleme hinweist, die die Verfügbarkeit der Dienste beeinträchtigten. Der Ausfall betraf mehrere Dienste, darunter Blue Core, Apigee, Google Cloud und Spotify.

Mitbringsel

Ein kurzer regionaler Ausfall bei einem großen Cloud-Anbieter kann mehrere abhängige Dienste gleichzeitig stören. Um kaskadierende Auswirkungen zu minimieren, sollten Sie für kritische Arbeitslasten in den betroffenen Regionen eine Abhängigkeitszuordnung und ein automatisches Failover implementieren. Überprüfen und testen Sie regelmäßig regionale Ausfallsicherheitsstrategien, um eine schnelle Wiederherstellung zu gewährleisten, wenn die Cloud-Infrastruktur örtlich begrenzt ausfällt.

6. Mai 2025

Optimal

Global

Was ist passiert?

Am 6. Mai 2025, um 10:16 PM EDT, entdeckte Catchpoint Internet Sonar einen globalen Ausfall, der Optimizely-Dienste betraf. Die Störung wirkte sich auf die Verfügbarkeit und Leistung der primären Domain https://www.optimizely.com aus, wobei erhöhte Fehlerraten und Serviceunterbrechungen in mehreren Regionen beobachtet wurden.

Mitbringsel

Probleme im Backend können sich schnell ausbreiten und in verschiedenen Regionen Probleme verursachen, selbst wenn die Internetverbindung in Ordnung zu sein scheint. Dies unterstreicht die Notwendigkeit einer proaktiven Überwachung, um Vorfälle zu erkennen, die von internen Systemen möglicherweise übersehen werden, damit die Teams Probleme schneller beheben können.

6. Mai 2025

Basarstimme

Global

Was ist passiert?

Am 6. Mai 2025, von 03:12 bis 03:51 PDT, wurden die Bazaarvoice-Dienste durch einen weltweiten Ausfall beeinträchtigt, wobei die Auswirkungen hauptsächlich in Nordamerika zu beobachten waren. Das Problem wurde durch mehrere Costco-Tests identifiziert, bei denen 502 Bad Gateway und 500 Internal Server Errors vom Bazaarvoice-Anfrageendpunkt zurückgegeben wurden: https://network-a.bazaarvoice.com/a.gif?.*. Der Ausfall wurde über das Internet-Sonar-Dashboard bestätigt, was die weitreichenden Auswirkungen zeigt.

April

April 25, 2025

Netskope

Global

Was ist passiert?

Am 25. April 2025, von 00:41 bis 01:04 EDT, entdeckte Catchpoint's Internet Sonar einen globalen Ausfall, der Netskope betraf. Der Vorfall betraf mehrere Regionen, darunter APAC, EMEA, Lateinamerika und Nordamerika. Die primäre Domain, https://www.netskope.com/, gab wiederholt HTTP 500 Internal Server Errors zurück, was auf einen serverseitigen Ausfall in diesem Zeitraum hindeutet.

1. April 2025

Zendesk

Global

Was ist passiert?

Am 1. April 2025, um 08:22 Uhr EDT, entdeckte CatchpointInternet Sonar einen globalen Ausfall, der die Zendesk-Dienste beeinträchtigte. Die Unterbrechung führte zu weit verbreiteten 500 Internal Server Errors über mehrere Systeme hinweg. Zendesk bestätigte das Problem und kündigte eine aktive Untersuchung an. In den ersten Updates fehlten jedoch Details zur Ursache, was zu Unsicherheiten bei den betroffenen Benutzern führte.

Mitbringsel

Frühzeitige Erkennung und Kommunikation sind bei Serviceunterbrechungen von entscheidender Bedeutung.
Klare, rechtzeitige Aktualisierungen von Serviceanbietern tragen dazu bei, die Verwirrung der Benutzer zu verringern.
Proaktive interne Überwachung ermöglicht eine schnellere Benachrichtigung der Benutzer und betriebliche Anpassungen bei Ausfällen.

März

März 30, 2025

OpenAI

Global

Was ist passiert?

Am 30. März 2025, um 06:01 EDT, entdeckte CatchpointInternet Sonar einen globalen Ausfall, der die OpenAI API betraf, insbesondere den Endpunkt https://api.openai.com/v1/models. Der Vorfall betraf Benutzer in APAC, EMEA, Lateinamerika und Nordamerika, wobei die Systeme HTTP 500 Internal Server Error Antworten zurückgaben. Die Antwort deutete auf ein Backend-Verarbeitungsproblem hin, und OpenAI riet den Benutzern, es erneut zu versuchen oder den Support zu kontaktieren.

Mitbringsel

Dieser Ausfall verdeutlicht, wie weitreichende Backend-Ausfälle sich sofort geografisch ausbreiten können. Selbst wenn die Konnektivität in Ordnung ist, können serverseitige Probleme die Funktionalität aufhalten. Aus diesem Grund müssen Teams über eine externe Beobachtungsmöglichkeit verfügen, um Probleme zu erkennen und zu isolieren, die von der internen Telemetrie übersehen oder verzögert werden könnten.

März 28, 2025

Twitter/X

Global

Was ist passiert?

Am 28. März 2025, zwischen 2:50 PM und 3:10 PM EDT, kam es bei Twitter zu einem teilweisen globalen Ausfall. Catchpoint Internet Sonar stellte an mehreren Standorten 503 Service Unavailable Fehler fest. Die betroffenen Benutzer konnten nicht auf twitter.com zugreifen und sahen wahrscheinlich eine leere Seite oder eine generische Antwort auf einen Dienstausfall.

Mitbringsel

Kurzfristige Ausfälle wie dieser können immer noch große Auswirkungen haben, insbesondere bei stark frequentierten Plattformen. Dieser Vorfall unterstreicht die Notwendigkeit einer globalen Echtzeitüberwachung und einer schnellen Alarmierung, um die MTTR zu verringern. Er erinnert die Teams auch daran, bei ihren Nachuntersuchungen kurze Serviceverschlechterungen zu berücksichtigen - die Nutzer bemerken selbst kurze Einbrüche in der Verfügbarkeit.

März 28, 2025

Squarespace

Verschiedene Regionen

Was ist passiert?

Am 28. März 2025, um 12:55 PM EDT, entdeckte Catchpoint's Internet Sonar einen Squarespace-Ausfall, der Nutzer in Europa, dem Mittleren Osten und Afrika betraf. Die Ursache lag in 503 Service Unavailable Fehlern und hohen Verbindungszeiten beim Zugriff auf https://www.squarespace.com. Die betroffenen Nutzer sahen die Nichtverfügbarkeit der Website und mögliche Verzögerungen beim Zugriff auf von Squarespace gehostete Websites und Dienste.

Mitbringsel

Auch wenn regional begrenzte Probleme schwieriger zu erkennen sind, zeigt dieser Ausfall, warum es wichtig ist, den gesamten Globus zu überwachen. Die Kombination aus langsamen Verbindungszeiten und 503s deutet auf eine Überlastung der Server oder der Infrastruktur hin. Für Teams, die webbasierte Dienste betreiben, unterstreicht dies den Wert der Internet-Leistungsüberwachung, um partielle oder regionale Ausfälle zu erkennen, bevor Kunden Tickets auslösen.

März 27, 2025

British Airways

Nord-Amerika

Was ist passiert?

Am 27. März 2025, um 22:45 EDT, entdeckte Catchpoint's Internet Sonar einen Serviceausfall auf der British Airways Website (https://www.britishairways.com/). Die Störung war auf zu viele Umleitungen zurückzuführen, wahrscheinlich ausgelöst durch einen Anstieg der Nutzerzahlen. Die Ausfälle begannen sporadisch, steigerten sich aber schnell zu konsistenten Ausfällen bei allen überwachten Tests.

Mitbringsel

Übermäßige Umleitungen deuten oft auf zugrundeliegende Konfigurations- oder Lastausgleichsprobleme hin - vor allem bei hohem Datenverkehr. Dies unterstreicht die Bedeutung von Lasttests unter realen Bedingungen sowie von klaren Schwellenwerten und Ausweichmechanismen. Kontinuierliche Überwachung ist der Schlüssel, um Probleme zu erkennen, bevor sie sich zu vollständigen Ausfällen auswachsen.

März 24, 2025

Criteo

Nordamerika (17 Städte)

Was ist passiert?

Am 24. März 2025, von 09:20 bis 09:25 PST, wurde ein Ausfall auf dynamic.criteo.com beobachtet, der sich auf die Leistung der verschiedenen Costco-Domains auswirkte. Das Problem verursachte erhebliche Wartezeiten von mehr als 10.000 ms und führte zu einer Verringerung der Verfügbarkeit um 71 %. Obwohl der Ausfall mit fünf Minuten nur von kurzer Dauer war, hatte er in 17 Städten in Nordamerika spürbare Auswirkungen.

Mitbringsel

Selbst kleine Ausfälle können große Auswirkungen haben, wenn sie Endpunkte mit hohem Datenverkehr betreffen. Kurze Unterbrechungen können die Benutzererfahrung beeinträchtigen, wenn sie bei kritischen Serviceaufrufen auftreten. Eine kontinuierliche Überwachung ist unerlässlich, um diese Leistungseinbußen in Echtzeit zu erkennen und zu quantifizieren.

März 24, 2025

Granulieren

Nordamerika (6 Standorte)

Was ist passiert?

Zwischen 01:05 und 01:20 CDT am 24. März 2025 kam es bei Granify zu einer Dienstunterbrechung, die Footlocker betraf. Tests zeigten Anforderungsausfälle von sechs verschiedenen Standorten. Obwohl der Ausfall 15 Minuten dauerte, waren die Ausfälle lokal begrenzt und wurden als wenig schwerwiegend eingestuft.

Mitbringsel

Lokale Ausfälle sind zwar nicht so sichtbar wie globale Vorfälle, können aber dennoch die Benutzerfreundlichkeit für bestimmte Regionen oder Kunden beeinträchtigen. Eine gezielte Überwachung hilft dabei, diese kleineren Probleme zu erkennen und sicherzustellen, dass die betroffenen Partner informiert sind und umgehend reagieren können.

März 20, 2025

Zendesk

Global

Was ist passiert?

Am 20. März 2025 um 15:43 UTC kam es bei Zendesk zu einem globalen Serviceausfall aufgrund von 503 Service Unavailable und anderen 5xx-Fehlern auf Serverseite, wodurch die Benutzer nicht mehr auf Support-Tools und Kommunikationskanäle zugreifen konnten. CatchpointInternet Sonar entdeckte die Störung 21 Minuten bevor Zendesk sie bestätigte und zeigte Probleme in mehreren Pods und Regionen auf. Während die Kerndienste stabilisiert wurden, dauerten die intermittierenden Ausfälle mehr als 24 Stunden an und verzögerten die vollständige Wiederherstellung bis zum 21. März um 22:59 UTC.

Mitbringsel

Dieser Ausfall zeigte, wie eine Multi-Pod-Infrastruktur, die zwar auf Ausfallsicherheit ausgelegt ist, die Wiederherstellung erschweren kann, wenn etwas schief läuft. Eine frühzeitige Erkennung war entscheidend - interne Teams brauchten über 20 Minuten, um die Ursache zu ermitteln, während derer die Unternehmen den Zugang zu wichtigen Support-Workflows verloren. Der Vorfall zeigt auch, wie wichtig eine unabhängige Überwachung in Echtzeit ist, um Verzögerungen zu vermeiden, Ausfallzeiten zu reduzieren und das Vertrauen zu erhalten. Das Verständnis der Abhängigkeiten von Drittanbietern ist nicht optional, sondern für den modernen SaaS-Betrieb unerlässlich.

März 10, 2025

Twitter/X

30+ Länder
Nach unten blättern

Was ist passiert?

Am 10. März 2025, beginnend um 5:30 Uhr EDT, wurden Nutzer weltweit plötzlich von X getrennt. In den folgenden 24 Stunden gab es Wellen von Ausfällen - unterbrochen von kurzen Erholungen - die Nutzer konnten nicht auf Feeds zugreifen, Nachrichten senden oder mit Inhalten interagieren.

Die Unterbrechung erstreckte sich auf mehr als 30 Länder, von Argentinien bis zu den Vereinigten Arabischen Emiraten, was die globale Abhängigkeit der Plattform unterstreicht.

Unsere eigenen Daten, die wir über einen längeren Zeitraum für die Domains von X corp gesammelt haben, zeigen, dass es während des Ausfalls einen deutlichen Anstieg der durchschnittlichen Wartezeit gab. Dies deutet darauf hin, dass die Server langsamer reagierten - ein Effekt, der typischerweise bei einem DDoS-Angriff (Denial of Service) auftritt.

Februar

7. Februar 2025

DocuSign

Indien

Was ist passiert?

Zwischen 5:50 und 6:09 EST entdeckte Catchpoint's Internet Sonar einen Ausfall, der DocuSign betraf. Benutzer in Indien erlebten HTTP 502 Bad Gateway Fehler, wenn sie versuchten, auf www.docusign.com zuzugreifen. Das Problem führte zu kompletten Ausfallzeiten in Städten wie Hyderabad, Ahmedabad, Bangalore, Delhi und Chennai, wobei Ausfälle an allen überwachten Teststandorten verzeichnet wurden.

Mitbringsel

Dieser Vorfall macht deutlich, dass regionale Ausfälle erhebliche Auswirkungen auf die Nutzer haben können, auch wenn das Problem nicht global ist. Die Überwachung von geografisch verteilten Standorten aus ist entscheidend für eine frühzeitige Erkennung und schnellere Behebung von Störungen.

Januar

22. Januar 2025

Optimal

Mehrere Regionen

Was ist passiert?

Ab 12:50 PM EST trat bei Optimizely ein weit verbreitetes Latenzproblem auf, das den Graph-Dienst betraf. Der Ausfall betraf Anfragen an cdn.optimizely.com und www.optimizely.com, wobei in mehreren Tests in verschiedenen Regionen Ausfälle beobachtet wurden. Catchpoint's Internet Sonar entdeckte das Problem frühzeitig und bestätigte Antwortzeitüberschreitungen und Leistungseinbußen in 68 Städten. Optimizely bestätigte den Vorfall später auf seiner Statusseite und gab an, dass um 17:41 UTC ein Fix bereitgestellt wurde, obwohl die Überwachung noch andauerte.

2024

Dezember

November

25. November 2024

Microsoft Büro 365

Europa

Was ist passiert?

Am 25. November 2024 kam es bei den Produktivitätstools von Microsoft, darunter Outlook, Teams, Exchange und SharePoint, zu einer erheblichen Störung. Die Störung begann am frühen Montagmorgen und führte dazu, dass Millionen von Nutzern in den betroffenen europäischen Regionen keinen Zugang zu wichtigen Kommunikations- und Kollaborationstools hatten. Die Störung dauerte über 24 Stunden. Viele Nutzer berichteten von lückenhaftem Service, z. B. verzögerten E-Mails und unzugänglichen Anhängen, während andere komplett abgeschnitten waren.

Mitbringsel

Dieser Vorfall unterstreicht die kritische Rolle der Überwachung durch Dritte bei der Aufrechterhaltung der Widerstandsfähigkeit des Internets. Auf der Statusseite von Microsoft fehlten zeitnahe Updates, so dass die Nutzer frustriert und uninformiert waren. Proaktive Überwachungstools wie CatchpointInternet Sonar entdeckten den Ausfall frühzeitig, wiesen auf Serviceunterbrechungen hin und bestätigten, dass das Problem auf die Infrastruktur von Microsoft beschränkt war. Durch die frühzeitige Erkennung und die Einblicke in Echtzeit konnten die Unternehmen die Auswirkungen des Ausfalls abmildern, bevor Microsoft das Problem öffentlich bestätigte.

Oktober

1. Oktober 2024

Mashery

Verschiedene Regionen

Was ist passiert?

Am 1. Oktober 2024 kam es bei TIBCO Mashery, einer API-Verwaltungsplattform für Unternehmen, die von einigen der bekanntesten Marken der Welt genutzt wird, zu einem erheblichen Ausfall. Um etwa 7:10 AM ET traten bei den Benutzern SSL-Verbindungsfehler auf. Internet Sonar fand heraus, dass die Ursache nicht in einem SSL-Fehler lag, sondern in einer DNS-Fehlkonfiguration, die den Zugriff auf wichtige Dienste beeinträchtigte.

Mitbringsel

Der Ausfall von Mashery zeigt eine wichtige Lektion: SSL-Fehler können nur die Spitze des Eisbergs sein. Das eigentliche Problem liegt oft tiefer, wie in diesem Fall bei einer DNS-Fehlkonfiguration. Wenn DNS nicht richtig konfiguriert oder überwacht wird, kann das gesamte System ausfallen, und was wie ein einfacher SSL-Fehler aussieht, kann sich zu einem viel größeren Problem auswachsen. Um sich wirklich gegen die Anfälligkeit des Internets zu schützen, benötigen Sie einen vollständigen Einblick in jede Schicht des Internet-Stacks, von DNS bis SSL und darüber hinaus.

September

17. September 2024

Reliance Jio

Indien

Was ist passiert?

Am 17. September 2024 kam es bei Reliance Jio zu einem größeren Netzwerkausfall, von dem Kunden in mehreren Regionen in Indien und weltweit betroffen waren. Der Ausfall wurde zunächst bemerkt, als Nutzer beim Versuch, auf die AJIO- und Jio-Webseiten zuzugreifen, Verbindungszeitüberschreitungen aufwiesen. Der Ausfall wurde um 05:42 EDT behoben.

Mitbringsel

Die vollständige Transparenz des gesamten Internet-Stacks, einschließlich externer Abhängigkeiten wie CDN, DNS und ISPs, ist für Unternehmen entscheidend. Eine proaktive Überwachung ist für die frühzeitige Erkennung von Problemen wie Paketverlusten und Latenzzeiten unerlässlich und hilft Unternehmen, Risiken zu mindern, bevor sie zu größeren Ausfällen eskalieren.

August

15. August 2024

ServiceNow

Global

Was ist passiert?

Am 15. August, um 14:15 Uhr ET, kam es bei ServiceNow zu einem erheblichen Ausfall, der 2 Stunden und 3 Minuten dauerte. Catchpoint Der Internet-Sonar von ServiceNow entdeckte die Unterbrechung durch erhöhte Antwort- und Verbindungszeitüberschreitungsfehler an wichtigen geografischen Standorten. Die Unterbrechung, die durch eine instabile Konnektivität mit dem Upstream-Provider Zayo (AS 6461) verursacht wurde, beeinträchtigte die Kerndienste und Kundenintegrationen von ServiceNow. Der Ausfall führte zu einer unregelmäßigen Serviceverfügbarkeit, wobei die Benutzer mit hohen Verbindungszeiten und häufigen Timeouts konfrontiert wurden.

Mitbringsel

Ein proaktiver Ansatz bei der BGP-Überwachung ist entscheidend, um längere Ausfälle zu vermeiden. Die schnelle Reaktion von ServiceNow bei der Umleitung des Datenverkehrs ist ein gutes Beispiel dafür, wie ein effektives Störungsmanagement und die Übernahme von Verantwortung durch den Anbieter den Unterschied ausmachen können, damit der Betrieb aufrechterhalten wird und die Benutzer zufrieden sind.

14. August 2024

AWS

Mehrere Regionen (hauptsächlich Standorte mit CenturyLink AS209 und Lumen AS3356)

Was ist passiert?

Am 14. August, zwischen 8:00 und 8:25 UTC, kam es bei AWS zu einem Mikroausfall, der Dienste wie S3, EC2, CloudFront und Lambda betraf. Catchpoint Der Internet-Sonar von AWS erkannte Verbindungszeitüberschreitungen in mehreren Regionen, insbesondere an Standorten, die über CenturyLink AS209 und Lumen AS3356 geleitet wurden. Diese Unterbrechung wurde zwar nicht auf der AWS-Statusseite angezeigt, hatte jedoch erhebliche Auswirkungen auf den Zugriff dieser Regionen auf AWS-Dienste.

Mitbringsel

Statusseiten sind nicht immer zuverlässige Indikatoren für den Zustand des Dienstes. Wenn Sie sich nur auf Cloud-basierte Überwachungstools verlassen, haben Sie ein Problem, wenn deren Cloud ausfällt. Es ist eine gute Praxis, Ihre Überwachungsstrategie zu diversifizieren und einen Ausweichplan zu haben, um die Ausfallsicherheit des Internets zu gewährleisten. Eine klare Kommunikation hilft Ihnen außerdem, das Vertrauen Ihrer Nutzer zu erhalten.

Juli

31. Juli 2024

Disney+

Mehrere Knotenpunkte

Was ist passiert?

Am 31. Juli um 20:12 EDT kam es bei Disney Plus zu einem kurzen Ausfall, der 38 Minuten dauerte. Catchpoint entdeckte 502 Bad Gateway-Fehler von mehreren Knotenpunkten, ein Problem, das sowohl durch automatisierte Tests als auch durch manuelles Browsing bestätigt wurde. Die Störung war um 20:50 Uhr EDT behoben.

Mitbringsel

Dieser Vorfall zeigt, warum es so wichtig ist, Ihre Dienste von mehreren Punkten aus zu überwachen, um Ausfälle schnell zu erkennen und zu verifizieren. Selbst kurzzeitige Unterbrechungen können die Benutzerfreundlichkeit beeinträchtigen, weshalb eine kontinuierliche Überwachung und schnelle Reaktion unerlässlich sind.

31. Juli 2024

Alaska Fluggesellschaften

Nord-Amerika

Was ist passiert?

Am 23. Juli, von 14:35 bis 14:52 Uhr, trat auf der Website von Alaska Airlines (www.alaskaair.com) ein 404 Not Found-Fehler auf, der die Website für etwa 20 Minuten unzugänglich machte. Catchpoint erkannte das Problem und bestätigte die Fehler in mehreren Tests. Die Antwort-Header wiesen darauf hin, dass das Problem von Konfigurationsfehlern herrührte, was durch den 404-Fehler und die anschließenden Cache-Miss-Antworten belegt wurde.

23. Juli 2024

Microsoft Outlook

Mehrere Standorte

Was ist passiert?

Ab 21:23 Uhr EDT am 23. Juli kam es in mehreren Regionen zu zeitweiligen Ausfällen von Microsoft Outlook. Die Benutzer erhielten verschiedene Fehlermeldungen, darunter 404 Not Found, 400 Bad Request und 503 Service Unavailable, wenn sie versuchten, auf https://www.outlook.com/ und https://outlook.live.com/owa/ zuzugreifen. CatchpointDer Internet-Sonar von Microsoft hat das Problem durch mehrere Tests festgestellt, während die offizielle Statusseite von Microsoft zu diesem Zeitpunkt keine Ausfälle gemeldet hat.

Mitbringsel

Dies ist ein weiteres Beispiel dafür, dass intermittierende Probleme, die die größte Bedrohung für die Beobachtbarkeit darstellen können, möglicherweise nicht auf den offiziellen Statusseiten angezeigt werden. Angesichts der hohen Kosten von Internetunterbrechungen kann selbst eine kurze Verzögerung bei der Behebung dieser Probleme außerordentlich teuer werden. Und wenn Sie darauf warten, dass Ihr Provider Ihnen mitteilt, wenn etwas nicht in Ordnung ist, kann diese Verzögerung sogar noch länger sein.

18. Juli 2024

Azure

Region US Central

Was ist passiert?

Am 18. Juli, beginnend um 18:36 Uhr EDT, kam es in der Azure-Region US Central zu einem größeren Service-Ausfall, der bis 22:17 Uhr EDT dauerte. Zunächst wurden 502 Bad Gateway-Fehler gemeldet, gefolgt von 503 Service Unavailable-Fehlern. Von diesem Ausfall waren zahlreiche Unternehmen betroffen, die auf Azure-Funktionen angewiesen sind, sowie Microsoft 365-Dienste wie SharePoint Online, OneDrive und Teams, bei denen es zu erheblichen Unterbrechungen kam.

Mitbringsel

Dieser Vorfall ereignete sich innerhalb von 24 Stunden nach einem separaten CrowdStrike-Ausfall, was in den Medien zu Verwirrung führte, da beide Probleme gleichzeitig gemeldet wurden. Unternehmen, die sich ausschließlich auf Azure verlassen und keine Multi-Regionen- oder Multi-Cloud-Strategien verfolgen, waren erheblich betroffen, insbesondere diejenigen, die eCommerce-APIs verwenden. CatchpointInternet Sonar erkannte den Ausfall frühzeitig und half dabei, das Problem einzugrenzen und zu bestätigen, dass es nicht mit Netzwerkproblemen zusammenhing, wodurch Zeit für unnötige Fehlersuche gespart wurde.

19. Juli 2024

CrowdStrike

Global

Was ist passiert?

Am 19. Juli kam es weltweit zu einem massiven Ausfall kritischer Dienste, von dem auch Systeme betroffen waren, die auf Microsoft-Computer angewiesen sind. Der Ausfall, der durch ein fehlerhaftes automatisches Software-Update des Cybersicherheitsunternehmens CrowdStrike verursacht wurde, setzte PCs und Server von Microsoft außer Betrieb und zwang sie in eine Wiederherstellungs-Bootschleife. Dieser beispiellose Ausfall hatte Auswirkungen auf das tägliche Leben auf globaler Ebene, legte Fluggesellschaften lahm, brachte Notdienste außer Betrieb und stoppte den Betrieb von Großbanken und Unternehmen.

Mitbringsel

Der Ausfall von CrowdStrike ist ein Weckruf dafür, wie anfällig unsere digitale Welt wirklich ist. Alles, was wir tun, hängt von diesen Systemen ab, und wenn sie ausfallen, sind die Auswirkungen enorm. Dieser Vorfall zeigt, wie wichtig es ist, vorbereitet zu sein. Kennen Sie Ihre Abhängigkeiten, testen Sie Aktualisierungen, als ob Ihr Unternehmen davon abhinge (denn das tut es), und haben Sie einen Plan für den Fall, dass etwas schief läuft. Gehen Sie nicht einfach davon aus, dass alles funktionieren wird, sondern stellen Sie es sicher. Und denken Sie daran, dass es bei der Ausfallsicherheit nicht nur um Ihre Technik geht, sondern auch um Ihr Team. Halten Sie sie geschult, halten Sie sie bereit, und stellen Sie sicher, dass sie wissen, was zu tun ist, wenn das Unerwartete passiert.

Juni

Mai

23. Mai 2024

Bing

Global

Was ist passiert?

Am 23. Mai, beginnend um 01:39 EDT, kam es bei Bing zu einem Ausfall mit mehreren 50X-Fehlern, von dem Nutzer weltweit betroffen waren. Das Problem wurde von Catchpoint's Internet Sonar entdeckt und durch manuelle Überprüfungen bestätigt. Durch den Ausfall wurde der Zugriff auf die Bing-Startseite unterbrochen, was sich auf die Nutzererfahrung in verschiedenen Regionen auswirkte.

Mitbringsel

Dieser Vorfall zeigt, wie wichtig es ist, eine zuverlässige Überwachung einzurichten. Schnelle Erkennung und Bestätigung sind entscheidend, um die Auswirkungen solcher Ausfälle zu minimieren.

1. Mai 2024

Google

Global

Was ist passiert?

Am 1. Mai, ab 10:40 Uhr Ostküste, kam es zu einem 34-minütigen Ausfall der Google-Dienste in mehreren Regionen, bei dem die Nutzer 502 Bad Gateway-Fehler erhielten. Das Problem betraf die Erreichbarkeit in Australien, Kanada und dem Vereinigten Königreich. Internet Sonar entdeckte den Vorfall und der Ausfall wurde auch durch manuelle Überprüfungen bestätigt.

April

29. April 2024

Google

Nordamerika, Asien-Pazifik

Was ist passiert?

Am 29. April, ab 03:29 EDT, kam es bei X (früher bekannt als Twitter) zu einem Ausfall, bei dem die Nutzer beim Versuch, auf die Basis-URL "twitter.com" zuzugreifen, lange Wartezeiten hatten. Das Problem wurde von Internet Sonar entdeckt, wobei von mehreren Standorten Ausfälle gemeldet wurden. Auch manuelle Überprüfungen bestätigten den Ausfall. Darüber hinaus wurden während dieser Zeit Verbindungszeitüberschreitungen bei DFS- und Walmart-Tests beobachtet, die auf fehlgeschlagene Anfragen an den Analysedienst von Twitter zurückzuführen waren und beide Plattformen weiter beeinträchtigten.

März

6. März 2024

ChatGPT

Global

Was ist passiert?

Am 30. April, beginnend um 03:00 EST, kam es bei den APIs von ChatGPT zu zeitweiligen Ausfällen aufgrund von HTTP 502 (Bad Gateway) und HTTP 503 (Service Unavailable) Fehlern. Mikro-Ausfälle wurden in verschiedenen Intervallen beobachtet, darunter 03:00-03:05 EST, 03:49-03:54 EST und 03:58-03:59 EST. Diese Unterbrechungen wurden von Catchpoint's Internet Sonar entdeckt und durch weitere Untersuchungen bestätigt.

Mitbringsel

Selbst kurze Mikroausfälle können die Dienste und das Nutzererlebnis beeinträchtigen. Frühzeitige Erkennung ist der Schlüssel zur Minimierung der Auswirkungen.

Februar

25. Februar 2024

ChatGPT

Global
Nach unten blättern

Was ist passiert?

Am 25. Februar 2024, um 23:29 EST, kam es bei der ChatGPT-API von OpenAI zu sporadischen Fehlern. Die Hauptprobleme waren HTTP 502 Bad Gateway und HTTP 503 Service Unavailable Fehler beim Zugriff auf den Endpunkt https://api.openai.com/v1/models. Der Ausfall wurde manuell bestätigt, und das Internet-Sonar-Dashboard von Catchpointidentifizierte die Störung in mehreren Regionen, einschließlich Nordamerika, Lateinamerika, Europa, dem Nahen Osten, Afrika und dem asiatisch-pazifischen Raum. Die Probleme hielten bis zum nächsten Tag an, wobei 89 Städte Fehler während des Ausfalls meldeten.

Mitbringsel

Wie bei vielen Ausfällen im Zusammenhang mit APIs ist eine Überwachung in Echtzeit unerlässlich, um die Auswirkungen auf die Benutzer schnell zu mildern und die Zuverlässigkeit der Dienste in verschiedenen Regionen zu gewährleisten.

Januar

26. Januar 2024

Microsoft Teams

Global

Was ist passiert?

Am 26. Januar kam es bei Microsoft Teams zu einer globalen Dienstunterbrechung, die wichtige Funktionen wie Anmeldung, Nachrichten und Anrufe betraf. In ersten Berichten wurden 503 Service Unavailable-Fehler angezeigt, wobei das Problem durch synthetische Tests von Autodesk erfasst wurde. Später identifizierte Microsoft die Ursache als Netzwerkprobleme, die einen Teil des Teams-Dienstes beeinträchtigten. Der Failover-Prozess trug zunächst dazu bei, den Dienst in einigen Regionen wiederherzustellen, aber in Nord- und Südamerika kam es weiterhin zu anhaltenden Ausfällen.

Mitbringsel

Failover-Prozesse können viele Service-Probleme schnell beheben, aber dieser Ausfall zeigte, wie wichtig eine kontinuierliche Optimierung für eine vollständige Wiederherstellung in allen Regionen ist. Außerdem wurde deutlich, wie wichtig die Überwachung aus Sicht der Nutzer ist. Während der Unterbrechung schien Teams teilweise verfügbar zu sein, was einige Benutzer zu der Annahme verleitete, das Problem läge auf ihrer Seite.

2023

Dezember

15. Dezember 2023

Box

Global

Was ist passiert?

Am 15. Dezember, von 6:00 bis 9:11 Uhr Pazifikzeit, kam es bei Box zu einem erheblichen Ausfall, der wichtige Dienste wie das Tool "Alle Dateien", die Box-API und Benutzeranmeldungen beeinträchtigte. Der Ausfall führte zu einer Unterbrechung der Upload- und Download-Funktionen, so dass Benutzer keine Dateien freigeben oder auf ihre Konten zugreifen konnten. Die frühzeitige Erkennung durch proaktives Internet Performance Monitoring (IPM) half Box, die Auswirkungen des Ausfalls abzumildern. IPM löste bereits um 04:37 Uhr PST Warnmeldungen aus, lange bevor sich der Ausfall ausweitete.

Mitbringsel

Frühzeitige Erkennung und schnelle Reaktion sind der Schlüssel zur Minimierung von Ausfallzeiten, zur Verringerung finanzieller Verluste und zum Schutz des Markenrufs. Dieser Vorfall unterstreicht den Wert einer ausgereiften Strategie zur Überwachung der Internetleistung, der Festlegung der richtigen Schwellenwerte zur Vermeidung von Fehlalarmen und der Gewährleistung, dass die Teams die Ursachen schnell identifizieren können, um die Systeme widerstandsfähig zu halten.

8. Dezember 2023

Adobe

Global

Was ist passiert?

Von 8:00 Uhr EST am 8. Dezember bis 1:45 Uhr EST am 9. Dezember kam es in der Experience Cloud von Adobe zu einem größeren Ausfall, von dem mehrere Dienste wie Datenerfassung, Datenverarbeitung und Berichtsanwendungen betroffen waren. Der Ausfall, der fast 18 Stunden dauerte, beeinträchtigte den Betrieb für Adobes umfangreichen Kundenstamm und hatte Auswirkungen auf Unternehmen weltweit. Catchpoint Internet Sonar von Adobe war das erste Tool, das das Problem erkannte und Ausfälle im Adobe Tag Manager und anderen Diensten identifizierte, lange bevor Adobe seine Statusseite aktualisierte.

Mitbringsel

Ein weiteres Beispiel für die Anfälligkeit des Internets und ein weiterer Fall für Internet Sonar, das für die frühzeitige Erkennung und schnelle Reaktion unerlässlich war und dazu beitrug, die Ursache des Problems zu lokalisieren und die Ausfallzeit zu minimieren. Der Ausfall macht auch deutlich, wie wichtig eine proaktive Überwachung und Vorbereitung ist und wie hoch die potenziellen finanziellen und rufschädigenden Kosten von Serviceunterbrechungen sind.

November

Oktober

September

20. September 2023

Salesforce

Global

Was ist passiert?

Am 20. September, ab 10:51 AM EST, kam es bei Salesforce zu einer größeren Serviceunterbrechung, von der mehrere Dienste betroffen waren, darunter Commerce Cloud, MuleSoft, Tableau, Marketing Cloud und andere. Der Ausfall dauerte mehr als vier Stunden und hinderte einen Teil der Salesforce-Kunden daran, sich anzumelden oder auf wichtige Dienste zuzugreifen. Die Ursache war eine Richtlinienänderung, die die Sicherheit verbessern sollte und unbeabsichtigt den Zugriff auf wichtige Ressourcen blockierte, was zu Systemausfällen führte. Catchpoint entdeckte das Problem um 9:15 AM EST - fast eineinhalb Stunden bevor Salesforce das Problem offiziell bestätigte.

Mitbringsel

CatchpointIPM half dabei, das Problem zu identifizieren, lange bevor das Salesforce-Team es entdeckte, wodurch wertvolle Zeit gespart und Störungen minimiert werden konnten. Für Unternehmen, die in hohem Maße auf Cloud-Dienste angewiesen sind, ist eine IPM-Strategie, die Echtzeitdaten und eine rasche Ursachenermittlung in den Vordergrund stellt, entscheidend für die Aufrechterhaltung der Internet-Resilienz und die Vermeidung kostspieliger Ausfallzeiten.

August

Juli

Juni

28. Juni 2023

Microsoft Teams

Global

Was ist passiert?

Am 28. Juni 2023 wurde die Webversion von Microsoft Teams (https://teams.microsoft.com) weltweit unzugänglich. Benutzer erhielten die Meldung "Operation failed with unexpected error", wenn sie versuchten, über einen beliebigen Browser auf Teams zuzugreifen. Catchpoint entdeckte das Problem um 6:51 Uhr Eastern, wobei interne Tests HTTP 500-Antwortfehler anzeigten. Das Problem wurde manuell bestätigt, obwohl zu diesem Zeitpunkt auf der offiziellen Statusseite von Microsoft keine Updates verfügbar waren.

Mai

April

März

Februar

Januar

25. Januar 2023

Microsoft

Global

Was ist passiert?

Am 25. Januar 2023, um 07:08 UTC/02:08 EST, kam es bei Microsoft zu einem weltweiten Ausfall, der mehrere Dienste, darunter Microsoft 365 (Teams, Outlook, SharePoint Online), Azure und Spiele wie HALO, beeinträchtigte. Die Störung dauerte etwa fünf Stunden. Die Ursache wurde auf eine WAN-Routing-Änderung (Wide Area Network) zurückgeführt. Eine einzige Aktualisierung der Router-IP-Adresse führte zu Problemen bei der Paketweiterleitung im gesamten WAN von Microsoft und verursachte weitreichende Unterbrechungen. Microsoft nahm die Änderung zwar wieder zurück, aber der Vorfall hatte weltweit erhebliche Auswirkungen, insbesondere für Nutzer in Regionen, in denen der Ausfall während der Arbeitszeit auftrat.

Mitbringsel

CatchpointIPM half dabei, das Problem zu identifizieren, lange bevor das Salesforce-Team es entdeckte, wodurch wertvolle Zeit gespart und Störungen minimiert werden konnten. Für Unternehmen, die in hohem Maße auf Cloud-Dienste angewiesen sind, ist eine IPM-Strategie, die Echtzeitdaten und eine rasche Ursachenermittlung in den Vordergrund stellt, entscheidend für die Aufrechterhaltung der Internet-Resilienz und die Vermeidung kostspieliger Ausfallzeiten.

2022

Dezember

5. Dezember 2022

Amazon

Global

Was ist passiert?

Ab 12:51 Uhr ET am 5. Dezember 2022 stellte Catchpoint zeitweilige Fehler im Zusammenhang mit der Suchfunktion von Amazon fest. Das Problem hielt 22 Stunden lang bis zum 7. Dezember an und betraf etwa 20 % der Nutzer weltweit sowohl auf Desktop- als auch auf mobilen Plattformen. Die betroffenen Nutzer konnten nicht nach Produkten suchen und erhielten eine Fehlermeldung. Catchpoint stellte fest, dass die Ursache ein HTTP 503-Fehler war, der von Amazon CloudFront zurückgegeben wurde und die Suchfunktion während des Ausfalls beeinträchtigte.

Mitbringsel

Auch wenn nur ein kleiner Teil der Nutzer betroffen ist, können partielle Ausfälle schwerwiegende Folgen haben. Wenn man sich ausschließlich auf herkömmliche Überwachungsmethoden wie Protokolle und Traces verlässt, kann dies zu einer verzögerten Erkennung führen, insbesondere bei intermittierenden Problemen. Die Möglichkeit, die für das Problem verantwortliche Schicht des Internet-Stacks genau zu bestimmen, hilft den Technikern bei der Fehlersuche und Problembehebung.

November

Oktober

September

August

Juli

Juli 8, 2022

Rogers Kommunikation

Kanada (landesweit)

Was ist passiert?

Am 8. Juli 2022 kam es bei Rogers Communications zu einem größeren Ausfall, der fast zwei Tage lang einen Großteil Kanadas betraf und Internet- und Mobilfunkdienste beeinträchtigte. Ein Code-Update-Fehler legte das Kernnetz gegen 4 Uhr morgens lahm und beeinträchtigte sowohl drahtgebundene als auch drahtlose Dienste. Durch den Ausfall wurden wichtige Dienste wie 911-Anrufe, Unternehmen, Regierungsdienste und Zahlungssysteme wie Interac unterbrochen. Einige Dienste konnten nach 15 Stunden wiederhergestellt werden, andere blieben jedoch bis zu vier Tage lang außer Betrieb. Der Vorfall betraf Millionen von Kanadiern, löste weit verbreitete Frustration aus und machte die Risiken deutlich, die mit der starken Abhängigkeit von einem einzigen Telekommunikationsanbieter verbunden sind.

Mitbringsel

Testen Sie gründlich, bevor Sie Änderungen am Netz vornehmen, und stellen Sie sicher, dass Redundanzen vorhanden sind und funktionieren. Rogers dachte, es gäbe Redundanzen, aber sie funktionierten nicht, als sie am meisten gebraucht wurden. Schnelle Erkennung und Behebung sind entscheidend. Die langsame Reaktion von Rogers führte zu erheblichen finanziellen Verlusten, Rufschädigung und einer möglichen Sammelklage.

Juni

Mai

April

März

Februar

22. Februar 2022

Slack

Global

Was ist passiert?

Am 22. Februar 2022, um 9:09 AM ET, traten bei Slack Probleme auf, die sich vor allem auf die Fähigkeit der Nutzer auswirkten, Konversationen und Nachrichten abzurufen. Die Benutzer konnten sich zwar anmelden, aber wichtige Funktionen waren nicht verfügbar, was zu weitreichenden Störungen führte. Das Problem trat zeitweise auf und beeinträchtigte die Produktivität vieler Unternehmen, die auf Slack als Kommunikationsmittel angewiesen sind. Catchpoint Tests bestätigten Fehler auf API-Ebene, die auf Probleme mit den Backend-Diensten von Slack und nicht mit dem Netzwerk hinwiesen.

Mitbringsel

Frühzeitige Erkennung und Echtzeittransparenz der Serviceleistung sind entscheidend. Die Möglichkeit, ein Problem schnell zu diagnostizieren und die Nutzer zu benachrichtigen, bevor eine Flut von Support-Tickets eintrifft, kann Ausfallzeiten und Frustration erheblich reduzieren. Die Überwachung aus der Nutzerperspektive ist von entscheidender Bedeutung, da sie dazu beiträgt, Probleme schneller und genauer zu erkennen als das Warten auf offizielle Service-Updates.

Januar

2021

Dezember

Dezember 2021

Amazon Web Services (AWS)

Global (über mehrere AWS-Regionen hinweg)

Was ist passiert?

Im Dezember 2021 kam es bei AWS zu drei erheblichen Ausfällen:

1. 7. Dezember 2021: Ein längerer Ausfall, der von der Region US-EAST-1 ausging, störte wichtige Dienste wie Amazon, Disney+, Alexa und Venmo sowie wichtige Apps, die von Amazons Lager- und Liefermitarbeitern während der geschäftigen Weihnachtszeit genutzt wurden. Die Ursache war eine Beeinträchtigung von Netzwerkgeräten.

2. Dezember 2021: Dieser Ausfall in den Regionen US-West-2 und US-West-1 dauerte etwa eine Stunde und beeinträchtigte Dienste wie DoorDash, PlayStation Network und Zoom. Das Problem wurde durch eine Netzwerküberlastung zwischen Teilen des AWS-Backbone und externen Internetdienstanbietern (ISPs) verursacht.

3. 22. Dezember 2021: Ein Stromausfall in der Region US-EAST-1 verursachte kurze Unterbrechungen bei Diensten wie Slack, Udemy und Twilio. Während der anfängliche Ausfall kurz war, gab es bei einigen Diensten anhaltende Auswirkungen von bis zu 17 Stunden.

Mitbringsel

Verlassen Sie sich nicht auf die Überwachung in derselben Umgebung. Viele Unternehmen, die ihre Beobachtungstools auf AWS hosten, hatten während der Ausfälle mit Überwachungsproblemen zu kämpfen. Es ist wichtig, Failover-Systeme zu haben, die außerhalb der überwachten Umgebung gehostet werden, um die Sichtbarkeit bei Zwischenfällen zu gewährleisten.

November

November 16, 2021

Google Wolke

Global

Was ist passiert?

Am 16. November 2021 kam es ab 12:39 Uhr ET zu einem Ausfall der Google Cloud, der mehrere große Websites offline brachte, darunter Home Depot, Spotify und Etsy. Die Nutzer sahen eine Google 404-Fehlerseite. Der Ausfall betraf eine Reihe von Google Cloud-Diensten wie Google Cloud Networking, Cloud Functions, App Engine und Firebase. Die Ursachenanalyse von Google wies auf einen latenten Fehler in einem Netzwerkkonfigurationsdienst hin, der während einer routinemäßigen Ladung der Leader-Wahl ausgelöst wurde. Während die Dienste um 1:10 PM ET teilweise wiederhergestellt waren, dauerte die vollständige Wiederherstellung fast zwei Stunden.

Mitbringsel

Überwachen Sie Ihre Dienste von außerhalb Ihrer Infrastruktur, um Problemen zuvorzukommen, bevor die Kunden sie bemerken. Die Verfolgung Ihrer Service Level Agreements (SLAs) und der mittleren Wiederherstellungszeit (MTTR) ermöglicht es Ihnen, die Effizienz Ihrer Teams und Provider bei der Lösung von Störungen zu messen.