Zeitleiste Internetausfälle
Tauchen Sie ein in die bekanntesten Internet-Störungen. Entdecken Sie die Auswirkungen, die Ursachen und die wichtigsten Lektionen, um die Widerstandsfähigkeit Ihres Internet-Stacks zu gewährleisten.
September
Cheapflightnow




Was ist passiert?
Um 7:34 AM EDT funktionierte die Cheapflightnow-Website in Teilen der USA nicht mehr. Besucher sahen HTTP 522-Fehler, was ein Cloudflare-spezifischer Fehler ist. Das bedeutet, dass Cloudflare gut funktionierte, aber keine Verbindung zu Cheapflightnows eigenen Servern herstellen konnte - entweder waren diese ausgefallen oder zu langsam, um zu reagieren.

Mitbringsel
Das globale Netzwerk von Cloudflare blieb in Betrieb, aber da die eigenen Server von Cheapflightnow nicht antworteten, kam es für die Nutzer trotzdem zu Ausfällen. Um dies zu verhindern, richten Unternehmen häufig Backup-Ursprungsserver (zusätzliche Kopien ihrer Hauptserver) ein, damit der Datenverkehr bei einem Ausfall eines Servers auf einen anderen umgeleitet werden kann. Der Ausfall zeigt auch, wie Abhängigkeiten zwischen CDNs und Ursprungsservern zu Schwachstellen führen können. Durch die Überwachung des gesamten Internet-Stacks, von DNS über CDN bis hin zu Anwendungsservern, können Unternehmen schnell erkennen, wo die Kette bricht und Ausfallzeiten reduzieren.
Alaska Fluggesellschaften




Was ist passiert?
Um 10:27 PM EDT war die Hauptwebsite von Alaska Airlines www.alaskaair.com in vielen größeren Städten der USA nicht mehr erreichbar. Die Benutzer sahen HTTP 503 Service Unavailable und HTTP 500 Internal Server Error Meldungen. Ein 503-Fehler bedeutet, dass der Server zu stark ausgelastet oder wegen Wartungsarbeiten nicht erreichbar ist, während ein 500-Fehler eine allgemeine Meldung ist, dass im System etwas schief gelaufen ist.

Mitbringsel
Wenn sowohl 500- als auch 503-Fehler zusammen auftreten, bedeutet dies oft, dass das Problem nicht nur ein einzelner überlasteter Server ist, sondern ein tiefergehendes, systemweites Problem. Für Fluggesellschaften können Ausfälle zu Verzögerungen bei Flugbuchungen und Check-ins führen. Daher ist die Implementierung einer proaktiven Internet-Leistungsüberwachung (IPM) und der Aufbau starker Backup-Systeme entscheidend für einen reibungslosen Betrieb.
Microsoft Büro




Was ist passiert?
Zwischen 1:10 PM und 1:51 PM EDT funktionierte die Microsoft Office Website www.office.com in mehreren Ländern nicht mehr. Während des Ausfalls wurden Anfragen mit HTTP 503 (Service Unavailable) beantwortet.

Mitbringsel
Dieser Ausfall wurde wahrscheinlich durch eine vorübergehende Serverüberlastung oder einen Konfigurationsfehler verursacht. Die schnelle Wiederherstellung deutet darauf hin, dass Microsofts Backup-Systeme gegriffen haben und den Dienst wiederhergestellt haben. Das Problem dabei ist, dass Microsoft Office von Millionen Menschen genutzt wird. Ein proaktives Internet Performance Monitoring (IPM) stellt sicher, dass selbst kurze Unterbrechungen erkannt, gemessen und verstanden werden und hilft IT-Teams, die Ausfallsicherheit zu überprüfen und die Benutzerfreundlichkeit zu verbessern.
SAP C4C




Was ist passiert?
Um 11:08 AM EDT konnten Benutzer von SAP C4C (einem Cloud-basierten Kundenmanagement-Tool) weltweit nicht auf die Dienste zugreifen. Bei Anfragen an ondemand.com wurden HTTP 503 Service Unavailable-Fehler angezeigt, was bedeutet, dass die Server nicht in der Lage waren, den Datenverkehr zu verarbeiten.

Mitbringsel
Da der Ausfall so viele Regionen gleichzeitig betraf, war er wahrscheinlich auf ein zentrales Problem der Cloud-Infrastruktur zurückzuführen. Globale SaaS-Dienste sind auf einen Lastausgleich angewiesen, um den Datenverkehr zu verteilen und die Leistung stabil zu halten. Mit einer synthetischen Überwachung über mehrere Regionen hinweg können Unternehmen die Verfügbarkeit weltweit bestätigen und sicherstellen, dass ihre Kunden nicht ausgesperrt werden.
SAP Concur




Was ist passiert?
Von 3:39 PM bis 3:51 PM EDT ist SAP Concur, das für die Verwaltung von Geschäftsreisen und Spesen verwendet wird, in mehreren Regionen ausgefallen. Bei dem Versuch, eine Verbindung zu www.concursolutions.com herzustellen, wurde die Fehlermeldung HTTP 503 Service Unavailable ausgegeben.

Mitbringsel
Auch wenn dieser Ausfall nur kurz war, bedeuteten 503-Fehler, dass die Server Anfragen nicht bearbeiten konnten. Bei Unternehmensanwendungen wie Concur können selbst minutenlange Ausfallzeiten den Finanzbetrieb stören. Eine durchgängige Überwachung, von der DNS-Auflösung bis zur Reaktion der Anwendung, hilft Unternehmen, die Zuverlässigkeit zu überprüfen und Schwachstellen zu erkennen, bevor sie zu sichtbaren Ausfällen führen.
Aleph Alpha




Was ist passiert?
Um 4:20 AM EDT hatte die Website von Aleph Alpha in mehreren Ländern Probleme. Die Nutzer hatten mit Verbindungsabbrüchen und sehr langsamen Ladezeiten zu kämpfen, was bedeutet, dass ihre Browser keine stabile Verbindung zu den Servern herstellen konnten.

Mitbringsel
Langsame Verbindungen und Ausfälle können auf DNS-Probleme, Routing-Probleme oder Serverüberlastungen hinweisen. Für KI-Anbieter beeinträchtigen diese Störungen die Zuverlässigkeit. Durch die Überwachung von DNS und BGP (dem Routing-System des Internets) kann schnell festgestellt werden, ob die Ausfälle von der Netzwerkebene oder den Servern selbst ausgehen.
Dynatrace




Was ist passiert?
Um 2:58 AM EDT funktionierte der Login-Service von Dynatrace für Benutzer in mehreren Ländern nicht mehr, darunter Großbritannien, Rumänien, Serbien, die Niederlande und Südafrika. Beim Versuch, sich anzumelden, kam es zu Verbindungsfehlern, d. h. ihre Geräte konnten die Anmeldeserver überhaupt nicht erreichen.

Mitbringsel
Da der Anmeldedienst ausfiel, konnten die Benutzer nicht auf Dynatrace zugreifen, obwohl der Rest der Plattform vielleicht noch lief. Dies unterstreicht eine besondere Herausforderung: Die Überwachungstools selbst hängen von demselben Internet-Stack ab, den sie messen. Ausfälle in DNS, Routing (BGP) oder Authentifizierungsschichten können sich auf die Überwachungsplattformen auswirken. Eine unabhängige, externe Überwachung bietet ein Sicherheitsnetz - im Wesentlichen eine "Überwachung der Überwachungsgeräte" -, um sicherzustellen, dass die Sichtbarkeit nicht verloren geht, wenn die Tools selbst betroffen sind.
Google Mail




Was ist passiert?
Von 10:40 bis 11:20 AM EDT konnten sich Gmail-Benutzer nicht anmelden. Beim Versuch, auf die Anmeldeseite zuzugreifen, wurden HTTP 502 Bad Gateway-Fehler zurückgegeben, was bedeutet, dass ein Server eine ungültige Antwort von einem anderen erhalten hat. Ab 10:26 AM EDT kam es außerdem zu langsameren Ladezeiten.

Mitbringsel
Login-Fehler sind besonders störend, weil sie den Zugang blockieren, selbst wenn die Mailserver in Ordnung sind. Durch die Überwachung des gesamten Benutzerverlaufs, von der Anmeldung bis zum Posteingang, mit synthetischer Überwachung können Unternehmen diese Probleme frühzeitig erkennen und die Widerstandsfähigkeit des Internets stärken.
NS1




Was ist passiert?
Zwischen 7:08 und 7:32 Uhr EDT fielen die DNS-Dienste von NS1 in mehreren Regionen aus. DNS-Timeouts (wenn das System, das Website-Namen in IP-Adressen übersetzt, nicht rechtzeitig reagiert) unterbrachen den Zugang zu vielen Kunden-Websites, einschließlich Pinterest.

Mitbringsel
Wenn DNS ausfällt, werden Websites unerreichbar, selbst wenn ihre Server in Ordnung sind. Da NS1 vielen Diensten zugrunde liegt, wirken sich Ausfälle weit aus. Eine unabhängige Überwachung des DNS-Zustands und des Internet-Routings (BGP) ist der Schlüssel, um Ausfälle schnell zu erkennen und ihr Ausmaß zu bestätigen.
Buchen.com




Was ist passiert?
Um 8:00 PM EDT fielen die Dienste von Booking.com in mehreren Städten aus. Die Benutzer erhielten HTTP 502 Bad Gateway-Fehler, was bedeutet, dass die Server, die den Datenverkehr verarbeiten, die dahinter liegenden Systeme nicht erreichen konnten.

Mitbringsel
Bei Reiseplattformen blockieren Ausfälle Buchungen und schaden dem Vertrauen. Ein 502-Fehler deutet oft auf Ausfälle zwischen Lastverteilern und Anwendungsservern hin. Die synthetische Überwachung von APIs und Nutzertransaktionen hilft dabei, diese Ausfälle frühzeitig zu erkennen und genau zu zeigen, wo sie in der Dienstleistungskette auftreten.
DemandBase




Was ist passiert?
Von 5:13 bis 6:55 PMT kam es bei DemandBase zu einem globalen Ausfall. Benutzer sahen sich mit HTTP 502 Bad Gateway-Fehlern und später mit einem SSL-Zertifikatsfehler konfrontiert, der sichere Verbindungen blockierte.

Mitbringsel
Bei diesem Ausfall wurden Serververbindungsprobleme mit einer falschen Sicherheitskonfiguration kombiniert. Da SSL-Zertifikate für den verschlüsselten Zugriff erforderlich sind, kann ein abgelaufenes oder ungültiges Zertifikat die Benutzer vollständig ausschließen. Die Überwachung des SSL-Zustands zusammen mit der DNS- und Anwendungsleistung hilft zu verhindern, dass kleine Unachtsamkeiten zu großen globalen Ausfällen führen.
Azure




Was ist passiert?
Um 3:33 PM EDT fiel die Azure-Cloud-Plattform von Microsoft in mehreren Regionen aus. Die Benutzer sahen HTTP 500 Internal Server Errors und HTTP 503 Service Unavailable Antworten. Ein 500-Fehler bedeutet, dass der Server nicht funktioniert, während ein 503-Fehler bedeutet, dass er zu stark ausgelastet oder nicht verfügbar ist.

Mitbringsel
Azure ist eine kritische Infrastruktur für Unternehmen, so dass Ausfälle unzählige abhängige Dienste beeinträchtigen. Die Überwachung des gesamten Internet-Stacks, von der Cloud-Infrastruktur bis hin zu DNS und CDNs, hilft Unternehmen zu verstehen, ob das Problem beim Cloud-Anbieter oder extern liegt
Microsoft Outlook




Was ist passiert?
Um 3:38 AM EDT kam es in ganz Nordamerika zu einem Outlook-Ausfall. Die Benutzer erhielten HTTP 500 Internal Server Error-Antworten, die zeigten, dass das Problem auf den Microsoft-Servern lag.

Mitbringsel
E-Mail ist sowohl für Unternehmen als auch für Behörden von entscheidender Bedeutung. Selbst kurze Ausfälle stören die Kommunikation. Die synthetische Überwachung von SaaS-Diensten bietet Unternehmen eine unabhängige Möglichkeit, Störungen frühzeitig zu erkennen und festzustellen, ob die Probleme beim Anbieter oder im Internet selbst liegen.




Was ist passiert?
Um 5:33 PM EDT ist Twitter in mehreren Ländern ausgefallen. Nutzer sahen HTTP 500 Internal Server Errors, was bedeutet, dass Anfragen die Twitter-Server erreichten, aber aufgrund interner Probleme fehlschlugen.

Mitbringsel
Ausfälle in den sozialen Medien sind unübersehbar. Interne Serverfehler sind oft auf Backend-Ausfälle oder Überlastungen zurückzuführen. Die Überwachung aus globaler Sicht ist entscheidend, um festzustellen, ob es sich um einen regionalen oder globalen Ausfall handelt, wodurch die Anbieter schneller reagieren können.
Citibank




Was ist passiert?
Von 3:10 bis 5:04 Uhr EDT waren die Citibank-Dienste in ganz Nordamerika unterbrochen. Die Kunden sahen sich mit HTTP 502 Bad Gateway-Fehlern konfrontiert, die anzeigten, dass die Front-End-Server die dahinter liegenden Banksysteme nicht erreichen konnten.

Mitbringsel
Für Finanzinstitute blockieren Ausfallzeiten wichtige Transaktionen und untergraben das Vertrauen. Die Überwachung der DNS-, TLS- und Anwendungsleistungsebenen liefert frühzeitige Warnungen und trägt dazu bei, dass Bankdienstleistungen stabil bleiben.
Alibaba Wolke




Was ist passiert?
Von 10:35 bis 10:50 Uhr EDT kam es bei Alibaba Cloud zu einem regionalen Ausfall. Die Benutzer sahen langsame Antworten und eine Reihe von Fehlern: HTTP 500 Internal Server Error, 502 Bad Gateway, 504 Gateway Timeout, und 413 Payload Too Large.

Mitbringsel
Die Mischung aus Fehlern zeigt Stress in verschiedenen Bereichen der Alibaba Cloud-Infrastruktur - von Serverüberlastungen bis hin zu Grenzen bei der Bearbeitung von Anfragen. Mit der synthetischen Überwachung von verteilten Standorten aus können Unternehmen den Umfang von Ausfällen bestätigen und Arbeitslasten in nicht betroffene Regionen umleiten, um die Serviceverfügbarkeit aufrechtzuerhalten.
August
Hotwire




Was ist passiert?
Am 25. August 2025, um 2:09 AM EDT, entdeckte Internet Sonar einen Ausfall, der Hotwire-Dienste in mehreren Regionen, einschließlich der USA und Kanada, beeinträchtigte. Während des Vorfalls lieferten Anfragen an https://www.hotwire.com/ ab 2:09 AM EDT von mehreren Standorten HTTP 504 (Gateway Timeout) und HTTP 503 (Service Unavailable) Antworten.

Mitbringsel
Die Nichtverfügbarkeit des Dienstes und die Zeitüberschreitungen am Gateway können gleichzeitig auftreten, was auf eine Überlastung der serverseitigen Ressourcen und auf vorgelagerte Kommunikationsprobleme schließen lässt. Die Auswirkungen auf mehrere Regionen deuten darauf hin, dass es sich nicht um einen lokal begrenzten Ausfall handelte, sondern um eine umfassendere Unterbrechung des Dienstes. Die kontinuierliche Überwachung mit verteilten Aussichtspunkten war der Schlüssel zur schnellen Ermittlung des Ausmaßes und der Art der Ausfälle.
Oppenheimer-Fonds




Was ist passiert?
Am 23. August 2025, um 7:35 AM EDT, entdeckte Internet Sonar einen Ausfall, der die Dienste von Oppenheimer Funds in der gesamten Region Nordamerika beeinträchtigte. Während des Vorfalls wurde eine hohe Verbindungszeit für Anfragen beobachtet, die zur Domain https://www.oppenheimerfunds.com/ gehörten.

Mitbringsel
Im Gegensatz zu schwerwiegenden Ausfällen führen latenzbedingte Unterbrechungen oft zu langsameren Seitenladevorgängen, Transaktionsverzögerungen und möglichen Sitzungsausfällen. Unternehmen sollten nicht nur auf Ausfälle von Diensten achten, sondern auch auf Leistungseinbußen, da diese ein frühes Warnsignal für Infrastrukturstress oder falsch konfigurierte Abhängigkeiten sein können. Proaktive Leistungsüberwachung und Kapazitätsplanung sind entscheidend für die Minimierung der geschäftlichen Auswirkungen solcher Probleme.
Netskope




Was ist passiert?
Am 20. August 2025, um 3:38 AM EDT, entdeckte Internet Sonar einen Ausfall, der Netskope in mehreren Regionen der Vereinigten Staaten betraf. Während des Ausfalls wurden DNS-Auflösungsfehler für die Domain https://www.netskope.com/ beobachtet , beginnend um 03:38:16 EDT von mehreren US-Standorten aus. Abfragen bei Level-2-Nameservern lieferten aufgrund von 100 % Paketverlusten "unbekannte" Antworten.

Mitbringsel
Selbst wenn die Anwendungsserver in Ordnung sind, können Ausfälle auf Nameserver-Ebene dazu führen, dass die Dienste für die Benutzer unzugänglich werden. Der 100-prozentige Paketverlust deutet eher auf ein systemisches Problem als auf eine lokale Beeinträchtigung hin, was entweder auf eine Fehlkonfiguration auf Seiten des Anbieters oder auf eine umfassendere Störung der Infrastruktur schließen lässt. Zur Risikominderung sollten Unternehmen die Implementierung redundanter DNS-Provider, die Überwachung der Auflösungspfade von verschiedenen Standorten aus und die Ausarbeitung von Failover-Strategien in Betracht ziehen, die die Auswirkungen auf die Benutzer minimieren, wenn primäre Nameserver ausfallen.
Spotify




Was ist passiert?
Am 20. August 2025, um 2:45 AM EDT, stellte Internet Sonar einen Ausfall fest, der Spotify-Dienste an mehreren Standorten im asiatisch-pazifischen Raum betraf. Während des Vorfalls lieferten Anfragen an clienttoken.spotify.com und apresolve.spotify.com HTTP 502 (Bad Gateway) und HTTP 504 (Gateway Timeout) Antworten.

Mitbringsel
Dieser Ausfall verdeutlicht die Anfälligkeit der Token-Authentifizierung und der Endpunkte für die Dienstauflösung, die beide für die Gewährleistung eines nahtlosen Benutzerzugriffs und der Wiedergabefunktionalität entscheidend sind. Ausfälle auf diesen Ebenen verhindern häufig die Sitzungsvalidierung und unterbrechen die Konnektivität zwischen Client-Anwendungen und Kerninfrastruktur. Unternehmen, die auf globaler Ebene tätig sind, sollten robuste Redundanz für Authentifizierungs- und Service-Discovery-Komponenten sowie proaktive Zustandsprüfungen implementieren, um Gateway-Fehler schnell zu erkennen und zu beheben, bevor sie sich zu regionalen Ausfällen auswachsen.
SAP C4C




Was ist passiert?
Am 16. August 2025 um 9:06 AM EDT stellte Internet Sonar einen Ausfall fest, der die SAP C4C-Dienste in mehreren Regionen, einschließlich Asien-Pazifik, Europa, Naher Osten und Afrika, Lateinamerika und Nordamerika, beeinträchtigte. Während des Vorfalls lieferten Anfragen an https://my354302.crm.ondemand.com die Antwort HTTP 503 Service Unavailable.

Mitbringsel
Dieser weit verbreitete Ausfall zeigt, wie sich Ausfälle auf der Dienstebene global ausbreiten können, wenn die zentrale Infrastruktur gestört wird. Die einheitlichen 503-Fehler deuten eher auf eine Ressourcenerschöpfung oder Nichtverfügbarkeit von Backend-Systemen als auf isolierte Netzwerkprobleme hin. Für Cloud-basierte CRM-Plattformen, die verteilte Unternehmen unterstützen, können solche Vorfälle die Geschäftskontinuität stark beeinträchtigen. Um das Risiko zu mindern, sollten Anbieter für einen angemessenen Lastausgleich, geografische Redundanz und Kapazitätssicherung sorgen, um die Verfügbarkeit in allen bedienten Regionen aufrechtzuerhalten.
Datadog




Was ist passiert?
Am 14. August 2025, um 11:25 PM EDT, entdeckte Internet Sonar einen Ausfall, der Datadog-Dienste in mehreren Regionen, einschließlich Europa, dem Nahen Osten, Afrika und Nordamerika, betraf. Während des Vorfalls lieferten Anfragen an mehrere Datadog-Domänen, einschließlich app.datadoghq.com, logs.datadoghq.com und synthetics.datadoghq.com, HTTP 503 Service Unavailable-Antworten. Die Unterbrechung des Dienstes dauerte ca. 5 Minuten und konnte um 11:30 PM EDT wieder behoben werden.

Mitbringsel
Auch wenn dieser Ausfall nur von kurzer Dauer war, so zeigt er doch die betrieblichen Auswirkungen von gleichzeitigen Ausfällen in mehreren kritischen Servicebereichen. Für eine Plattform wie Datadog, die Beobachtbarkeit und Überwachung im großen Maßstab bietet, können selbst kurzzeitige Unterbrechungen kaskadenartige Auswirkungen auf die Fähigkeit der Kunden haben, den Zustand von Anwendungen zu verfolgen, Vorfälle zu erkennen und auf laufende Probleme zu reagieren. Dieses Ereignis unterstreicht die Bedeutung von Service-Segmentierung, robusten Failover-Mechanismen und proaktiver Incident-Kommunikation, um die geschäftlichen Auswirkungen von Verfügbarkeitsausfällen in mehreren Domänen zu reduzieren.
Es wirft auch die Frage auf : "Wer überwacht die Monitore?" Da Datadog in der Cloud gehostet wird, wirkt sich jede Unterbrechung der zugrundeliegenden Hosting-Umgebung direkt sowohl auf die eigenen Dienste als auch auf die Sichtbarkeit der Systeme der Kunden aus. Dies unterstreicht den Wert einer robusten Überwachungsstrategie mit mehreren unabhängigen Blickwinkeln, die einen kontinuierlichen Einblick gewährleistet, selbst wenn ein primärer Überwachungsanbieter ausfällt.
Netskope




Was ist passiert?
Am 14. August 2025, um 11:17 PM EDT, stellte Internet Sonar einen anhaltenden Ausfall fest, der Netskope-Dienste in mehreren Regionen, einschließlich Asien-Pazifik, Nordamerika, Europa, dem Nahen Osten und Afrika, betrifft. Anfragen an www.netskope.com haben seit Beginn des Vorfalls von mehreren globalen Standorten aus HTTP 500 Internal Server Error-Antworten zurückgegeben, was auf ein weit verbreitetes serverseitiges Problem hinweist.

Mitbringsel
Dieser Vorfall verdeutlicht die Risiken, die von zentralen serverseitigen Ausfällen ausgehen, wenn die Anwendungsinfrastruktur nicht mehr in der Lage ist, Anfragen global zu verarbeiten. HTTP-500-Fehler deuten in der Regel auf Fehlkonfigurationen, Softwarefehler oder überlastete Backend-Systeme hin - Probleme, die sich schnell auf eine in der Cloud bereitgestellte Plattform wie Netskope ausbreiten können. Die gleichzeitige globale Auswirkung unterstreicht die Bedeutung stabiler Bereitstellungsstrategien, wie verteilte Service-Cluster, Failover-Mechanismen und gestaffelte Rollouts, um weitreichende Störungen zu minimieren.
Für Sicherheits- und Cloud-Zugangsanbieter können Ausfälle dieser Art besonders störend sein, da sie genau die Dienste beeinträchtigen, auf die sich Unternehmen für eine sichere Konnektivität verlassen. Eine proaktive Überwachung über mehrere Regionen hinweg ist für eine schnelle Erkennung und eine schnellere Eingrenzung der Grundursache unerlässlich. Auch wenn dieser Ausfall nur von kurzer Dauer war, zeigt er doch die betrieblichen Auswirkungen von gleichzeitigen Ausfällen in mehreren kritischen Servicebereichen.
TikTok




Was ist passiert?
Am 14. August 2025, um 4:36 PM EDT, entdeckte Internet Sonar einen Ausfall, der die TikTok-Dienste in Nordamerika beeinträchtigte. Während des Vorfalls wurden bei Anfragen an https://www.tiktok.com/en/ HTTP 504 Gateway Timeout Antworten zurückgegeben. Der Ausfall dauerte ca. 11 Minuten, die Dienste waren um 4:47 PM EDT wieder verfügbar.

Mitbringsel
Dieser kurzzeitige, aber störende Ausfall verdeutlicht, wie sich Ausfälle auf Gateway-Ebene schnell auf die Verfügbarkeit für eine große Benutzerbasis auswirken können. HTTP 504-Fehler deuten oft auf Probleme mit vorgelagerten Diensten oder überlasteter Edge-Infrastruktur hin und verhindern, dass Anfragen ordnungsgemäß weitergeleitet oder verarbeitet werden. Bei verbraucherorientierten Plattformen wie TikTok können selbst kurze Ausfallzeiten die Benutzererfahrung in großem Umfang spürbar beeinträchtigen. Redundanz auf der Gateway-Ebene und schnelle Failover-Mechanismen sind wichtige Schritte, um die Auswirkungen solcher zeitkritischen Unterbrechungen zu minimieren.
Aurus Kreditverarbeitung




Was ist passiert?
Am 14. August 2025, um 1:23 AM EDT, entdeckte Internet Sonar einen Ausfall, der Aurus Credit Processing Services in mehreren Regionen, einschließlich Asien-Pazifik und Nordamerika, betraf. Während des Ausfalls kam es bei Anfragen an www.aurusinc.com zu Verbindungsausfällen und verlängerten Verbindungszeiten. Die Unterbrechung war nur von kurzer Dauer, und die Dienste waren um 1:30 AM EDT wieder verfügbar.

Mitbringsel
Selbst kurze Ausfälle von Zahlungs- und Kreditverarbeitungsdiensten können schwerwiegende Folgen haben, da sie den Transaktionsfluss stören und das Vertrauen der Kunden untergraben. In diesem Fall deuten erhöhte Verbindungszeiten in Verbindung mit völligen Ausfällen eher auf eine vorübergehende Belastung des Netzes oder der Infrastruktur als auf einen vollständigen Ausfall des Dienstes hin. Solche Vorfälle verdeutlichen, wie wichtig es ist, die Latenzzeiten ebenso genau zu überwachen wie die Verfügbarkeit, da eine frühzeitige Leistungsverschlechterung häufig größeren Ausfällen vorausgeht. Die Implementierung von Redundanz in Zahlungs-Gateways und die Gewährleistung schneller Failover-Mechanismen sind der Schlüssel zur Minimierung von Unterbrechungen bei geschäftskritischen Finanzdienstleistungen.
ING Bank (Voya)




Was ist passiert?
Am 13. August 2025, um 1:05 PM EDT, entdeckte Internet Sonar einen Ausfall, der die Dienste der ING Bank (Voya) beeinträchtigte. Während dieses Zeitraums wurden Anfragen an https://www.ing.com mit HTTP 504 Gateway Timeout beantwortet. Der Ausfall wurde etwa eine Stunde lang beobachtet, wobei die normale Funktionalität um 14:05 Uhr EDT wiederhergestellt war.

Mitbringsel
Ein einstündiger Ausfall bei einem großen Finanzinstitut macht deutlich, wie wichtig die Aufrechterhaltung der Online-Verfügbarkeit im Bankensektor ist. Timeout-Fehler bei Gateways deuten in der Regel auf Probleme mit vorgelagerten Servern oder einer überlasteten Infrastruktur hin, was darauf hindeutet, dass die Backend-Systeme während der Unterbrechung nicht in der Lage waren, auf Kundenanfragen zu reagieren. Wenn Kunden über einen längeren Zeitraum nicht auf digitale Bankdienstleistungen zugreifen können, kann dies das Vertrauen untergraben und wichtige Finanzaktivitäten stören.
Dieser Vorfall unterstreicht die Notwendigkeit einer robusten Redundanz, eines proaktiven Datenverkehrsmanagements und einer kontinuierlichen Überwachung, um Engpässe in der Infrastruktur schnell zu erkennen und zu beheben. Insbesondere Finanzinstitute profitieren von mehrstufigen Failover-Mechanismen, die die Auswirkungen von Ausfällen auf Gateway-Ebene abmildern und Ausfallzeiten für die Kunden minimieren können.
Azure Zentralindien




Was ist passiert?
Am 11. August 2025 um 2:38 PM EDT entdeckte Internet Sonar einen Ausfall der Azure Central India-Dienste, der insbesondere die Verfügbarkeit von GitHub beeinträchtigte. Während des Vorfalls begannen Anfragen an https://github.com, HTTP 503 Service Unavailable Antworten zurückzugeben. Der Ausfall wurde in der gesamten asiatisch-pazifischen Region beobachtet und dauerte etwa 14 Minuten. Um 2:52 PM EDT war der Ausfall wieder behoben.

Fredericks




Was ist passiert?
Am 7. August 2025 um 4:34 PM CDT stellte Internet Sonar einen Ausfall fest, der die Dienste von Fredericks beeinträchtigte. Das Problem wurde in mehreren Städten in den Vereinigten Staaten beobachtet. Bei Anfragen an die Website https://www.fredericks.com wurden zunächst HTTP 500 Internal Server Error-Antworten zurückgegeben, was auf einen serverseitigen Fehler hinweist.

Mitbringsel
HTTP-500-Fehler deuten eher auf zugrundeliegende Server- oder Anwendungsprobleme als auf Störungen auf Netzwerkebene hin, was darauf schließen lässt, dass die Backend-Systeme von Fredericks während des Ausfalls nicht in der Lage waren, den eingehenden Datenverkehr zu verarbeiten. Für Einzelhandels- und E-Commerce-Plattformen können sich solche Ausfälle direkt auf den Umsatz und das Vertrauen der Kunden auswirken, insbesondere wenn sie während der Hauptverkehrszeiten auftreten. Dieses Ereignis unterstreicht, wie wichtig eine zuverlässige Anwendungsüberwachung, Lasttests und Redundanz in der Backend-Infrastruktur sind, um durch serverseitige Instabilität verursachte Ausfallzeiten zu minimieren.
Optimal




Was ist passiert?
Am 5. August 2025, um 4:24 AM EDT, entdeckte Internet Sonar einen globalen Ausfall, der Optimizely-Dienste betraf. Der Vorfall betraf Benutzer in mehreren Regionen, einschließlich Asien-Pazifik, Amerika, Europa, Naher Osten und Afrika. Anfragen an die primäre Domain www.optimizely.com führten zu HTTP 502 Bad Gateway Fehlern, begleitet von langen Wartezeiten. Diese Probleme wurden durchgängig von mehreren globalen Standorten aus beobachtet, was auf eine weitreichende Unterbrechung der Serviceverfügbarkeit hindeutet.

Mitbringsel
Dieser Ausfall veranschaulicht, wie sich Ausfälle von vorgelagerten Diensten zu globalen Verfügbarkeitsproblemen ausweiten können, wobei schlechte Gateway-Fehler die Unterbrechung der Kommunikation zwischen Edge-Servern und der zentralen Anwendungsinfrastruktur signalisieren. Die gleichzeitige Beobachtung hoher Wartezeiten deutet darauf hin, dass Backend-Systeme nicht nur ausfielen, sondern auch Schwierigkeiten hatten, unter Last zu reagieren. Für digitale Erlebnisplattformen wie Optimizely, auf die Kunden für die Bereitstellung von Inhalten in Echtzeit und für Experimente angewiesen sind, können selbst kurzzeitige Störungen kritische Geschäftsabläufe weltweit unterbrechen.
Um Risiken dieses Ausmaßes zu mindern, sollten Unternehmen Redundanzen für mehrere Regionen implementieren, Gateway-Failover-Mechanismen stärken und die Leistung unter Last proaktiv testen, um Engpässe zu erkennen, bevor sie zu systemischen Ausfällen führen.
ServiceNow
.avif)

.avif)

Was ist passiert?
Am 4. August 2025, zwischen 7:35 AM und 8:00 AM EDT, stellte Internet Sonar einen Ausfall fest, der ServiceNow-Dienste in mehreren Regionen betraf. Die Unterbrechung war mit hohen Lastbedingungen verbunden, die zu verlängerten Verbindungszeiten und weit verbreiteten Verbindungsfehlern für an ServiceNow gerichtete Anfragen führten.
.avif)
Mitbringsel
Kurzfristige, aber regionsübergreifende Ausfälle, die durch hohe Last verursacht werden, können große Auswirkungen haben, insbesondere für Unternehmensplattformen wie ServiceNow, die wichtige Arbeitsabläufe unterstützen. Selbst eine 25-minütige Unterbrechung kann zu verpassten Service-Tickets, verzögerten Automatisierungen und Frustration der Benutzer führen. Dieser Vorfall unterstreicht die Bedeutung einer proaktiven Kapazitätsplanung, eines Lastausgleichs zwischen den Regionen und einer frühzeitigen Erkennung steigender Verbindungszeiten - und nicht nur offener Ausfälle. Die Überwachung dieser Frühwarnzeichen ermöglicht ein schnelleres Eingreifen, bevor eine Leistungsverschlechterung zu sichtbaren Ausfällen eskaliert.
PayPal
.avif)

.avif)

Was ist passiert?
Am 1. August 2025, von 8:25 AM bis 9:45 AM EDT, entdeckte Internet Sonar einen globalen Ausfall, der PayPal-Dienste in mehreren Regionen beeinträchtigte. Ab 8:27 AM EDT lieferten Anfragen an die Domains api.paypal.com und paypal.com von mehreren Standorten aus HTTP 503 Service Unavailable-Fehler, was auf eine weitreichende Serviceunterbrechung hinweist.
.avif)
Mitbringsel
Wenn bei einer globalen Zahlungsplattform wie PayPal 503 Fehler auftreten, und sei es auch nur für etwas mehr als eine Stunde, kann dies Auswirkungen auf den gesamten E-Commerce, Einzelhandelskassen und Peer-to-Peer-Transaktionen haben. Für Finanzdienstleistungen ist die Verfügbarkeit ebenso wichtig wie die Sicherheit - jede fehlgeschlagene Anfrage bedeutet einen Verlust an Umsatz und Kundenvertrauen. Dieser Ausfall unterstreicht die Notwendigkeit redundanter Zahlungswege, automatisierter Failover-Strategien und einer Echtzeit-Überwachung, die zwischen lokal begrenzten Verlangsamungen und systemischen Backend-Ausfällen unterscheidet. Durch proaktive Abhilfemaßnahmen können wichtige Transaktionsströme auch bei einer Instabilität der vorgelagerten Dienste aufrechterhalten werden.
Juli
Bluecore
.avif)

.avif)

Was ist passiert?
Am 22. Juli 2025, um 11:25 PM EDT, entdeckte Internet Sonar einen Ausfall, der Bluecore-Dienste in mehreren Regionen betraf. Der Vorfall betraf Nutzer im asiatisch-pazifischen Raum, in Europa, im Nahen Osten und Afrika sowie in Amerika. Anfragen an die Domain www.bluecore.com lieferten von mehreren Standorten HTTP 500 Internal Server Error-Antworten, was auf einen serverseitigen Fehler hinwies und zu einer Unterbrechung des Dienstes führte.
.avif)
Mitbringsel
HTTP-500-Fehler weisen auf zugrunde liegende serverseitige Probleme hin, die sich schnell auf andere Regionen auswirken können, wenn sie nicht behoben werden. Bei Plattformen wie Bluecore, die Kundenbindungs- und Marketingprozesse unterstützen, können selbst kurze Ausfälle Kampagnen verzögern und das Vertrauen der Nutzer schwächen. Dieser Vorfall unterstreicht die Bedeutung robuster Backend-Architekturen, ausfallsicherer Anwendungsebenen und proaktiver Überwachung, die serverseitige Ausfälle erkennen und isolieren kann, bevor sie sich global ausbreiten. Eine schnelle Erkennung und Eskalation sind unerlässlich, um Ausfallzeiten zu minimieren und kundenorientierte Abläufe zu schützen.
Google Mail
.avif)

.avif)

Was ist passiert?
Am 18. Juli 2025, von 10:58 AM bis 12:01 PM EDT, entdeckte Internet Sonar eine Störung, die Google Mail in den USA und Kanada betraf. Bei Anfragen an accounts.google.com wurden HTTP 503 Service Unavailable und 535 inoffizielle Fehler zurückgegeben, begleitet von erhöhten Wartezeiten. Die Störung führte zu einer weit verbreiteten Instabilität des Dienstes, so dass die Nutzer nicht zuverlässig auf Google Mail zugreifen konnten.
.avif)
Mitbringsel
Gemischte Fehlercodes wie 503 und inoffizielle 535, kombiniert mit langen Verbindungszeiten, deuten auf eine Überlastung des Backends hin, die die verfügbaren Kapazitäten übersteigt. Bei produktivitätskritischen Plattformen wie Google Mail kann schon eine Stunde Ausfallzeit den Geschäftsbetrieb und die persönliche Kommunikation zum Erliegen bringen. Dieser Vorfall unterstreicht die Notwendigkeit einer detaillierten Überwachung sowohl der Fehlervielfalt als auch der Latenztrends. Proaktive Drosselung, Lastausgleich und regionale Failover-Strategien sind der Schlüssel, um zu verhindern, dass hohe Nachfragespitzen zu weit verbreiteten E-Mail-Störungen führen.
iCloud
.avif)

.avif)

Was ist passiert?
Am 16. Juli 2025, von 04:52 Uhr bis 06:21 Uhr EDT, hat Internet Sonar einen regionalen Ausfall festgestellt, der die iCloud-Dienste betraf. Der Vorfall betraf Benutzer in Kolumbien, Frankreich und Italien. Bei Anfragen an die Domain www.icloud.com wurden in diesem Zeitraum die Fehler HTTP 504 Gateway Timeout und 503 Service Unavailable angezeigt, was auf eine Instabilität des Dienstes hinweist.
.avif)
Mitbringsel
Eine Mischung aus 504 Gateway Timeout- und 503 Service Unavailable-Fehlern deutet auf eine Überlastung des Backends hin, die durch Upstream-Konnektivitätsprobleme verstärkt wird. Bei Cloud-Speicher- und Synchronisierungsplattformen wie iCloud können regionale Ausfälle dazu führen, dass Benutzer von Dateien, Backups und Geräte-Synchronisierungsvorgängen ausgeschlossen werden - kritische tägliche Arbeitsabläufe. Dieser Vorfall unterstreicht die Bedeutung regionaler Redundanz, proaktiver Kapazitätssicherungen und automatischer Ausfallsicherung, um die Ausfallsicherheit wichtiger Dienste zu gewährleisten. Eine kontinuierliche Überwachung auf Timeout-Trends, nicht nur auf Ausfälle, kann helfen, Frühwarnzeichen zu erkennen, bevor ein vollständiger Serviceverlust eintritt.
Optimal

.avif)

.avif)
Was ist passiert?
Am 15. Juli 2025, um 7:20 PM EDT, hat Internet Sonar einen weltweiten Ausfall der Optimizely-Dienste festgestellt. Der Vorfall betraf Benutzer im asiatisch-pazifischen Raum, in Europa, im Nahen Osten und Afrika sowie in Nord- und Südamerika. Anfragen an die primäre Domain www.optimizely.com lieferten eine Reihe von Fehlerantworten, darunter HTTP 502 Bad Gateway, 503 Service Unavailable und inoffizielle Statuscodes wie 524, 525 und 535. Außerdem wurden von mehreren globalen Standorten aus hohe Wartezeiten beobachtet. Manuelle Zugriffsversuche bestätigten, dass die Anwendung während des Ausfalls nicht zugänglich war, was auf eine Dienstunterbrechung hindeutet.

Cloudflare DNS-Auflöser



Was ist passiert?
Am 15. Juli 2025, beginnend um 5:50 PM EDT, kam es bei Cloudflare's 1.1.1.1 DNS Resolver zu einem globalen Ausfall von ca. 30 Minuten. Eine Fehlkonfiguration in den internen Systemen von Cloudflare verknüpfte die IP-Präfixe des Resolvers mit einer nicht produktiven Servicetopologie. Als ein neuer Teststandort hinzugefügt wurde, löste dies unbeabsichtigt einen globalen Abzug dieser Präfixe aus den Rechenzentren von Cloudflare aus, wodurch die DNS-Auflösung weltweit unterbrochen wurde. Ein BGP-Hijack, der etwa zur gleichen Zeit entdeckt wurde, war nicht die Ursache, sondern ein separates, latentes Problem, das durch die Rücknahme von Routen aufgedeckt wurde. Der Dienst wurde wiederhergestellt, nachdem Cloudflare einen Fix bereitgestellt hatte.

Citibank



Was ist passiert?
Am 2. Juli 2025, zwischen 1:05 Uhr und 01:30 Uhr EDT, entdeckte CatchpointInternet Sonar einen kurzen, aber vollständigen Ausfall, der die Citibank-Dienste in den Vereinigten Staaten betraf. Anfragen an www.citi.com lieferten konsistente HTTP 502 Bad Gateway-Antworten in mindestens neun Städten, darunter New York, Los Angeles, Salt Lake City und Washington D.C. Die 25-minütige Unterbrechung führte zu einer vollständigen Ausfallzeit an allen überwachten Standorten, was auf einen wahrscheinlichen Konfigurations- oder Gateway-Fehler hinweist, der schnell behoben werden konnte.

Mitbringsel
Kurzfristige, aber öffentlichkeitswirksame Ausfälle wie dieser können das Vertrauen der Nutzer dennoch untergraben. Ein 25-minütiger Vorfall mag kurz erscheinen, aber bei einer Bankplattform kann jede Minute Ausfallzeit zu Kundenbeschwerden oder fehlgeschlagenen Transaktionen führen. Dieser Fall zeigt, wie wichtig Echtzeit-Warnungen, eine schnelle Ursachenermittlung und eine klare Kommunikation nach dem Vorfall sind, um das Vertrauen bei Serviceunterbrechungen zu erhalten.
Juni
PayPal




Was ist passiert?
Am 24. Juni 2025, 0:02 AM EDT, bis zum 24. Juni 2025, 0:21 AM EDT, hat Internet Sonar einen Ausfall festgestellt, der die PayPal-Dienste in mehreren Regionen Nordamerikas beeinträchtigt hat. Anfragen an www.paypal.com zeigten ungewöhnlich hohe Wartezeiten, was auf eine verminderte Leistung und mögliche Verzögerungen beim Service, der Anwendungsverarbeitung oder dem Laden von Seiten hinweist.

Mitbringsel
Eine verminderte Leistung - im Gegensatz zu einem vollständigen Ausfall - kann schwieriger zu erkennen und für die Benutzer frustrierender sein. Erhöhte Wartezeiten ohne Totalausfall deuten auf Kapazitätsengpässe oder Backend-Warteschlangenprobleme hin. Die Überwachung von Verlangsamungen ist ebenso wichtig wie die Überwachung von Fehlern, insbesondere bei Plattformen mit hohem Transaktionsaufkommen im Finanzbereich.
Ometria



Was ist passiert?
Am 13. Juni 2025, um 2:49 AM EDT, entdeckte Catchpoint's Internet Sonar einen ausgedehnten Ausfall der Ometria-Dienste. Die Unterbrechung betraf 74 Städte in Nord- und Südamerika, Europa, dem Nahen Osten, Afrika und dem asiatisch-pazifischen Raum. Anfragen an ometria.com lieferten HTTP 500 (Internal Server Error) und 502 (Bad Gateway) Antworten, während cdn.ometria.com anhaltende Verbindungsabbrüche zeigte, was auf Probleme sowohl auf der Ursprungsebene als auch auf der Edge-Ebene hindeutet. Der Vorfall dauerte fast fünf Stunden und führte zu weitreichenden Serviceunterbrechungen in beiden Kerndomänen.

Mitbringsel
500- und 502-Fehler in mehreren Regionen deuten auf Probleme im Backend oder beim Upstream-Provider hin, nicht nur auf oberflächliche Ausfallzeiten. Dieser Vorfall zeigt, warum die Überwachung plötzliche Spitzen bei den Fehlertypen - und nicht nur Ausfälle - anzeigen sollte, um Teilausfälle frühzeitig zu erkennen. Da sich die Störung über die USA, Europa und Asien erstreckte, unterstreicht sie auch die Notwendigkeit einer global verteilten Beobachtungsmöglichkeit, um den vollen Umfang der Auswirkungen zu erfassen.
Google Cloud-Plattform



Was ist passiert?
Eine automatische Quotenaktualisierung im globalen API-Verwaltungssystem von Google Cloud überforderte eine Richtliniendatenbank und löste eine Welle von 503-Fehlern bei mehr als 30 GCP-Diensten aus. Der Ausfall breitete sich aus und beeinträchtigte Plattformen wie Discord, Spotify, Snapchat, Twitch und Cloudflare. Die meisten Regionen erholten sich innerhalb weniger Stunden, während us-central1 bis in den Nachmittag hinein beeinträchtigt blieb.

Mitbringsel
Selbst die größten Cloud-Anbieter sind nicht davor gefeit. Was als routinemäßige Konfigurationsaktualisierung begann, führte zu einem weltweiten Ausfall und bewies, dass keine Plattform zu groß ist, um zu versagen. Die Statusseiten hinkten fast eine Stunde hinterher, was die Notwendigkeit einer unabhängigen Echtzeit-Überwachung vom Rand aus verdeutlicht. Um widerstandsfähig zu bleiben, sollten Teams Fehlerdomänen isolieren und Failover-Systeme mit mehreren Regionen oder Providern aufbauen, die die kritischen User Journeys aufrechterhalten, selbst wenn eine einzelne versteckte Abhängigkeit ausfällt.
Brot und Finanzen




Was ist passiert?
Am 10. Juni 2025, um 12:15 AM EDT, kam es bei Bread Financial zu einem globalen Ausfall. HTTP 503-Fehler und "no healthy upstream"-Antworten, die darauf hinweisen, dass die Server vorübergehend nicht verfügbar waren, wurden bei Login-Anfragen auf den Domains member-portal.breadpayments.com und merchants.platform.breadpayments.com beobachtet.

OpenStreetMap



Was ist passiert?
Am 6. Juni 2025, um 4:11 AM EDT, entdeckte Internet Sonar einen Ausfall, der OpenStreetMap-Dienste in mehreren Regionen, einschließlich Asien-Pazifik, Europa, Naher Osten und Afrika (EMEA) und Nordamerika, betraf. Die Analyse ergab konsistente HTTP 503 Service Unavailable Antworten für Anfragen an www.openstreetmap.org, Backend. Der Ausfall dauerte etwa 35 Minuten, wobei während der gesamten Dauer des Vorfalls 503-Fehler zurückgegeben wurden.

Mitbringsel
Regionale CDN- oder Caching-Layer-Ausfälle können unerwartete Druckpunkte in der globalen Verfügbarkeit aufdecken, insbesondere bei Open-Data-Plattformen mit verteilter Infrastruktur. Dieser Ausfall zeigt, warum es sich lohnt, Stresstests durchzuführen, wie der Datenverkehr weitergeleitet und bereitgestellt wird, wenn Backend-Dienste vorübergehend ausfallen - insbesondere bei Projekten ohne eigene Support-Teams im Unternehmen.
Tiktok



Was ist passiert?
Am 2. Juni 2025, um 10:53 PM EDT, entdeckte Internet Sonar einen Ausfall, der TikTok-Dienste in der nordamerikanischen Region betraf. Die Analyse ergab HTTP 504 Gateway Timeout-Antworten für Anfragen an www.tiktok.com. Während des Vorfalls berichteten Benutzer, dass sie nicht auf TikTok-Dienste zugreifen konnten, was auf eine erhebliche Unterbrechung des Dienstes hindeutet.

Mitbringsel
Regionale Abhängigkeiten können zu unerwarteten Single Points of Failure führen. Dieser Vorfall macht deutlich, wie wichtig es ist, die Zuverlässigkeit des Upstream-Providers zu überprüfen und gezielte Failover-Strategien für regionalspezifische Störungen zu implementieren. Testen Sie proaktiv, wie sich Ihr Dienst bei regionalen Teilausfällen verschlechtert, um eine reibungslose Abwicklung und eine klare Kommunikation mit den Nutzern sicherzustellen.
Mai
OpenAI-API



Was ist passiert?
In den frühen Morgenstunden des 31. Mai entdeckte Catchpoint API-Timeouts und eine verminderte Leistung für den API-Endpunkt von OpenAI. Das Problem begann in einigen US-Städten und weitete sich schnell auf andere Standorte aus. Catchpoint alarmierte den von diesem Vorfall betroffenen Kunden, einen weltweit führenden Anbieter von Verbrauchertechnologie, über 40 Minuten bevor OpenAI das Problem bestätigte. Zu den Fehlern gehörten fehlerhafte Antworten und erhöhte Latenzzeiten.

Mitbringsel
Die frühzeitige, unabhängige Erkennung von API-Problemen von Drittanbietern ermöglicht es den Teams, proaktiv zu reagieren, indem sie den Datenverkehr umleiten, die Benachrichtigung der Benutzer anpassen oder nicht kritische Funktionen drosseln, bevor der Anbieter dies bestätigt. Wenn man sich ausschließlich auf die Kommunikation mit dem Anbieter verlässt, kann sich die Schadensbegrenzung verzögern und die Auswirkungen auf die Benutzer verstärken, insbesondere wenn Echtzeit-Erlebnisse von externen APIs abhängen.
Sallie Mae



Was ist passiert?
Am 26. Mai 2025 um 9:21 PM EDT entdeckte Internet Sonar einen Ausfall, der die Dienste von Sallie Mae in mehreren nordamerikanischen Regionen beeinträchtigte. Die Störung wurde durch DNS-Fehler bei Anfragen an www.salliemae.com verursacht, die um 9:21 PM EDT begannen und von mehreren US-Standorten aus beobachtet wurden. Dieses DNS-Problem verhinderte, dass Anfragen die Website erreichten, was zur Unerreichbarkeit des Dienstes führte.

Mitbringsel
DNS-Ausfälle können den Benutzerzugriff sofort unterbrechen, unabhängig vom Zustand des Backends. Um die Erkennungs- und Lösungszeit zu verkürzen, sollten Sie DNS-Zustandsprüfungen von verschiedenen externen Punkten aus durchführen und die Reaktion auf DNS-Vorfälle in die Runbooks integrieren. Überprüfen Sie regelmäßig die Redundanz- und Failover-Strategien von DNS-Anbietern, um einzelne Ausfallpunkte am Netzwerkrand zu vermeiden.
Google Bard




Was ist passiert?
Am 26. Mai 2025, um 8:45 AM EDT, entdeckte Internet Sonar einen Ausfall, der Google Gemini in mehreren Regionen betraf, darunter die USA, EMEA und APAC. Der Vorfall verursachte HTTP 502 Bad Gateway-Antworten für Anfragen an https://gemini.google.com/ von verschiedenen Standorten aus. Die Nutzer erhielten Fehlermeldungen, die darauf hinwiesen, dass auf dem Server ein Problem aufgetreten war und ihre Anfragen nicht abgeschlossen werden konnten, was zu einer Instabilität des Dienstes führte.

Mitbringsel
Weitverbreitete 502-Fehler signalisieren eine Instabilität des Upstream oder des Gateways, die sich schnell auf die globale Verfügbarkeit auswirken kann. Eine verteilte Überwachung hilft dabei, intermittierende Backend-Ausfälle frühzeitig zu erkennen. Eine wirksame Reaktion hängt jedoch von der Korrelation der Fehlermuster in verschiedenen Regionen und der Isolierung der Grundursachen ab. Simulieren Sie regelmäßig Backend-Ausfallsszenarien und überprüfen Sie, ob die Fallback-Mechanismen und die benutzerseitige Fehlerbehandlung die Unterbrechungen bei partiellen oder kaskadierenden Ausfällen minimieren.
Hawaiianische Fluggesellschaften



Was ist passiert?
Am 22. Mai 2025 um 4:12 PM EDT entdeckte Internet Sonar einen Ausfall, der die Dienste von Hawaiian Airlines in mehreren Städten in den Vereinigten Staaten beeinträchtigte. Die Analyse ergab konsistente HTTP 503 Service Unavailable-Antworten für Anfragen an https://www.hawaiianairlines.com, was auf die Nichtverfügbarkeit des Dienstes und die Unterbrechung des Dienstes hinweist.

Mitbringsel
HTTP 503-Fehler signalisieren häufig eine Überlastung des Backends oder eine Fehlkonfiguration des Dienstes, und selbst kurze globale Ausfälle können zu erheblichen betrieblichen und rufschädigenden Auswirkungen für Fluggesellschaften führen. Um Unterbrechungen zu minimieren, sollten Sie automatische Kapazitätssicherungen, Echtzeit-Zustandsprüfungen und klare Statusmeldungen für die Benutzer implementieren. Testen Sie regelmäßig Reaktionspläne für Zwischenfälle, um eine schnelle Wiederherstellung und transparente Kommunikation bei plötzlichen, großflächigen Serviceunterbrechungen zu gewährleisten.
OpenAI API ChatGPT



Was ist passiert?
Am 22. Mai 2025, um 5:20 AM EDT, kam es bei der API von OpenAI (ChatGPT) zu einem globalen Ausfall, der die Regionen APAC, EMEA, Lateinamerika und Nordamerika betraf. Internet Sonar entdeckte die Unterbrechung, als Anfragen an https://api.openai.com/v1/models anfingen, HTTP 5xx-Fehler einschließlich 503, 504 und 500 zurückzugeben, was auf serverseitige Fehler hindeutet.

Mitbringsel
Gleichzeitige 5xx-Fehler in mehreren Regionen deuten auf systemische Backend-Fehler hin, nicht auf isolierte Netzwerkprobleme. Eine schnelle Triage erfordert die Unterscheidung zwischen Fehlertypen (z. B. 500 vs. 503 vs. 504), um gezielte Abhilfe zu schaffen. Stellen Sie sicher, dass Playbooks für die Reaktion auf Vorfälle die Klassifizierung von Fehlermustern und Eskalationspfaden für globale Abhängigkeiten von Drittanbietern enthalten, um eine schnellere Ursachenanalyse und eine effektivere Benutzerkommunikation zu ermöglichen.
Microsoft Büro



Was ist passiert?
Am 19. Mai 2025 um 4:42 PM EDT kam es bei Microsoft Office zu einem globalen Ausfall, der den Zugriff auf die Online-Dienste beeinträchtigte. Anfragen an https://www.office.com lieferten die Antwort HTTP 503 Service Unavailable, was auf die Nichtverfügbarkeit des Backend-Dienstes hinweist. Die Störung beeinträchtigte den Dienst weltweit und verhinderte den Zugriff auf Produktivitäts-Tools im Zusammenhang mit den Online-Diensten von Microsoft.

Mitbringsel
Ein globaler 503-Ausfall von Microsoft Office unterstreicht das Risiko von Backend-Service-Abhängigkeiten im Cloud-Maßstab. Um die Auswirkungen auf die Benutzer zu reduzieren, sollten Sie Ausweichpfade und einen zwischengespeicherten Zugriff auf wichtige Produktivitätsfunktionen bei Backend-Störungen vorsehen. Testen Sie regelmäßig Business-Continuity-Pläne, um sicherzustellen, dass wichtige Arbeitsabläufe auch dann zugänglich bleiben, wenn die Kerndienste nicht verfügbar sind.
PayPal



Was ist passiert?
Am 19. Mai 2025, um 19:45 Uhr EDT, stellte Internet Sonar einen globalen Serviceausfall fest, der PayPal in mehreren Regionen betraf. Die Unterbrechung führte zu Testfehlern mit deutlich verlängerten Wartezeiten bei Online- und Einzelhandelskassen, was auf eine verminderte Serviceverfügbarkeit und -leistung hindeutet.

Mitbringsel
Längere Latenzzeiten und verschlechterte Verfügbarkeit im großen Maßstab können wichtige Finanztransaktionen stören und das Vertrauen der Benutzer untergraben. Priorisieren Sie die Leistungsüberwachung in Echtzeit mit automatischer Alarmierung für Endpunkte mit hohem Datenverkehr und erstellen Sie Eskalationsprotokolle für eine schnelle Abhilfe. Führen Sie regelmäßig Stresstests von Zahlungsabläufen durch, um Engpässe zu erkennen und Ausweichverfahren bei weit verbreiteten Verlangsamungen zu validieren.
SAP



Was ist passiert?
Am 17. Mai 2025, um 1:08 PM EDT, entdeckte Catchpoint Internet Sonar einen globalen Ausfall, der SAP-Services betraf. Die Unterbrechung wirkte sich auf die Verfügbarkeit und Leistung in mehreren Regionen aus, wobei erhöhte Fehlerraten und HTTP 503-Antworten beobachtet wurden. Der Ausfall betraf Domains unter crm.ondemand.com, was auf eine weit verbreitete Nichtverfügbarkeit der Dienste hindeutet.

Mitbringsel
Ein sprunghafter Anstieg der globalen 503-Fehler für SAP Cloud CRM deutet auf systemische Backend- oder Infrastrukturprobleme hin, die den Geschäftsbetrieb lahmlegen können. Sorgen Sie für eine zuverlässige Alarmierung bei kritischen SaaS-Abhängigkeiten und pflegen Sie klare Runbooks für eine schnelle Eskalation und Kundenkommunikation. Überprüfen Sie regelmäßig die Service-Level-Vereinbarungen und testen Sie die Kontinuitätspläne, um auf großflächige SaaS-Störungen vorbereitet zu sein.
Granulieren



Was ist passiert?
Am 14. Mai 2025, um 2:02 AM EDT, beobachtete Catchpoint Internet Sonar Ausfälle in Testläufen, die Granify-Dienste betrafen. Die Unterbrechung führte zu HTTP 502 Bad Gateway-Fehlern, was auf Upstream-Server-Probleme hinweist. Der Ausfall wirkte sich auf Anfragen an die Domain https://matching.granify.com/ aus, wobei in Teilen Südamerikas eine Instabilität des Dienstes beobachtet wurde.

Mitbringsel
Lokalisierte 502-Fehler deuten auf vorgelagerte oder zwischengeschaltete Ausfälle hin, die ohne regionale Überwachung unbemerkt bleiben können. Überprüfen Sie regelmäßig die Edge-Infrastruktur und vorgelagerte Abhängigkeiten in weniger stark frequentierten Regionen, um stille Störungen frühzeitig zu erkennen. Einbindung regionaler Störungssimulationen zur Validierung der Erkennung und Reaktion auf geografisch begrenzte Störungen
Google-Wolke



Was ist passiert?
Am 6. Mai 2025, von 8:58 PM bis 9:23 PM EDT, entdeckte Internet Sonar einen Ausfall, der die Google Cloud-Dienste in Brasilien beeinträchtigte. Die Analyse ergab HTTP 502 Bad Gateway-Fehler und Verbindungsfehler bei Anfragen, die IPs auflösten, die mit Google und Google Cloud verbunden waren, was auf vorübergehende Backend- oder Netzwerkprobleme hinweist, die die Verfügbarkeit der Dienste beeinträchtigten. Der Ausfall betraf mehrere Dienste, darunter Blue Core, Apigee, Google Cloud und Spotify.

Mitbringsel
Ein kurzer regionaler Ausfall bei einem großen Cloud-Anbieter kann mehrere abhängige Dienste gleichzeitig stören. Um kaskadierende Auswirkungen zu minimieren, sollten Sie für kritische Arbeitslasten in den betroffenen Regionen eine Abhängigkeitszuordnung und ein automatisches Failover implementieren. Überprüfen und testen Sie regelmäßig regionale Ausfallsicherheitsstrategien, um eine schnelle Wiederherstellung zu gewährleisten, wenn die Cloud-Infrastruktur örtlich begrenzt ausfällt.
Optimal



Was ist passiert?
Am 6. Mai 2025, um 10:16 PM EDT, entdeckte Catchpoint Internet Sonar einen globalen Ausfall, der Optimizely-Dienste betraf. Die Störung wirkte sich auf die Verfügbarkeit und Leistung der primären Domain https://www.optimizely.com aus, wobei erhöhte Fehlerraten und Serviceunterbrechungen in mehreren Regionen beobachtet wurden.

Mitbringsel
Probleme im Backend können sich schnell ausbreiten und in verschiedenen Regionen Probleme verursachen, selbst wenn die Internetverbindung in Ordnung zu sein scheint. Dies unterstreicht die Notwendigkeit einer proaktiven Überwachung, um Vorfälle zu erkennen, die von internen Systemen möglicherweise übersehen werden, damit die Teams Probleme schneller beheben können.
Basarstimme



Was ist passiert?
Am 6. Mai 2025, von 03:12 bis 03:51 PDT, wurden die Bazaarvoice-Dienste durch einen weltweiten Ausfall beeinträchtigt, wobei die Auswirkungen hauptsächlich in Nordamerika zu beobachten waren. Das Problem wurde durch mehrere Costco-Tests identifiziert, bei denen 502 Bad Gateway und 500 Internal Server Errors vom Bazaarvoice-Anfrageendpunkt zurückgegeben wurden: https://network-a.bazaarvoice.com/a.gif?.*. Der Ausfall wurde über das Internet-Sonar-Dashboard bestätigt, was die weitreichenden Auswirkungen zeigt.

April
Netskope



Was ist passiert?
Am 25. April 2025, von 00:41 bis 01:04 EDT, entdeckte Catchpoint's Internet Sonar einen globalen Ausfall, der Netskope betraf. Der Vorfall betraf mehrere Regionen, darunter APAC, EMEA, Lateinamerika und Nordamerika. Die primäre Domain, https://www.netskope.com/, gab wiederholt HTTP 500 Internal Server Errors zurück, was auf einen serverseitigen Ausfall in diesem Zeitraum hindeutet.

Zendesk



Was ist passiert?
Am 1. April 2025, um 08:22 Uhr EDT, entdeckte CatchpointInternet Sonar einen globalen Ausfall, der die Zendesk-Dienste beeinträchtigte. Die Unterbrechung führte zu weit verbreiteten 500 Internal Server Errors über mehrere Systeme hinweg. Zendesk bestätigte das Problem und kündigte eine aktive Untersuchung an. In den ersten Updates fehlten jedoch Details zur Ursache, was zu Unsicherheiten bei den betroffenen Benutzern führte.

Mitbringsel
Frühzeitige Erkennung und Kommunikation sind bei Serviceunterbrechungen von entscheidender Bedeutung.
Klare, rechtzeitige Aktualisierungen von Serviceanbietern tragen dazu bei, die Verwirrung der Benutzer zu verringern.
Proaktive interne Überwachung ermöglicht eine schnellere Benachrichtigung der Benutzer und betriebliche Anpassungen bei Ausfällen.
März
OpenAI



Was ist passiert?
Am 30. März 2025, um 06:01 EDT, entdeckte CatchpointInternet Sonar einen globalen Ausfall, der die OpenAI API betraf, insbesondere den Endpunkt https://api.openai.com/v1/models. Der Vorfall betraf Benutzer in APAC, EMEA, Lateinamerika und Nordamerika, wobei die Systeme HTTP 500 Internal Server Error Antworten zurückgaben. Die Antwort deutete auf ein Backend-Verarbeitungsproblem hin, und OpenAI riet den Benutzern, es erneut zu versuchen oder den Support zu kontaktieren.

Mitbringsel
Dieser Ausfall verdeutlicht, wie weitreichende Backend-Ausfälle sich sofort geografisch ausbreiten können. Selbst wenn die Konnektivität in Ordnung ist, können serverseitige Probleme die Funktionalität aufhalten. Aus diesem Grund müssen Teams über eine externe Beobachtungsmöglichkeit verfügen, um Probleme zu erkennen und zu isolieren, die von der internen Telemetrie übersehen oder verzögert werden könnten.
Twitter/X



Was ist passiert?
Am 28. März 2025, zwischen 2:50 PM und 3:10 PM EDT, kam es bei Twitter zu einem teilweisen globalen Ausfall. Catchpoint Internet Sonar stellte an mehreren Standorten 503 Service Unavailable Fehler fest. Die betroffenen Benutzer konnten nicht auf twitter.com zugreifen und sahen wahrscheinlich eine leere Seite oder eine generische Antwort auf einen Dienstausfall.

Mitbringsel
Kurzfristige Ausfälle wie dieser können immer noch große Auswirkungen haben, insbesondere bei stark frequentierten Plattformen. Dieser Vorfall unterstreicht die Notwendigkeit einer globalen Echtzeitüberwachung und einer schnellen Alarmierung, um die MTTR zu verringern. Er erinnert die Teams auch daran, bei ihren Nachuntersuchungen kurze Serviceverschlechterungen zu berücksichtigen - die Nutzer bemerken selbst kurze Einbrüche in der Verfügbarkeit.
Squarespace



Was ist passiert?
Am 28. März 2025, um 12:55 PM EDT, entdeckte Catchpoint's Internet Sonar einen Squarespace-Ausfall, der Nutzer in Europa, dem Mittleren Osten und Afrika betraf. Die Ursache lag in 503 Service Unavailable Fehlern und hohen Verbindungszeiten beim Zugriff auf https://www.squarespace.com. Die betroffenen Nutzer sahen die Nichtverfügbarkeit der Website und mögliche Verzögerungen beim Zugriff auf von Squarespace gehostete Websites und Dienste.

Mitbringsel
Auch wenn regional begrenzte Probleme schwieriger zu erkennen sind, zeigt dieser Ausfall, warum es wichtig ist, den gesamten Globus zu überwachen. Die Kombination aus langsamen Verbindungszeiten und 503s deutet auf eine Überlastung der Server oder der Infrastruktur hin. Für Teams, die webbasierte Dienste betreiben, unterstreicht dies den Wert der Internet-Leistungsüberwachung, um partielle oder regionale Ausfälle zu erkennen, bevor Kunden Tickets auslösen.
British Airways



Was ist passiert?
Am 27. März 2025, um 22:45 EDT, entdeckte Catchpoint's Internet Sonar einen Serviceausfall auf der British Airways Website (https://www.britishairways.com/). Die Störung war auf zu viele Umleitungen zurückzuführen, wahrscheinlich ausgelöst durch einen Anstieg der Nutzerzahlen. Die Ausfälle begannen sporadisch, steigerten sich aber schnell zu konsistenten Ausfällen bei allen überwachten Tests.

Mitbringsel
Übermäßige Umleitungen deuten oft auf zugrundeliegende Konfigurations- oder Lastausgleichsprobleme hin - vor allem bei hohem Datenverkehr. Dies unterstreicht die Bedeutung von Lasttests unter realen Bedingungen sowie von klaren Schwellenwerten und Ausweichmechanismen. Kontinuierliche Überwachung ist der Schlüssel, um Probleme zu erkennen, bevor sie sich zu vollständigen Ausfällen auswachsen.
Criteo



Was ist passiert?
Am 24. März 2025, von 09:20 bis 09:25 PST, wurde ein Ausfall auf dynamic.criteo.com beobachtet, der sich auf die Leistung der verschiedenen Costco-Domains auswirkte. Das Problem verursachte erhebliche Wartezeiten von mehr als 10.000 ms und führte zu einer Verringerung der Verfügbarkeit um 71 %. Obwohl der Ausfall mit fünf Minuten nur von kurzer Dauer war, hatte er in 17 Städten in Nordamerika spürbare Auswirkungen.

Mitbringsel
Selbst kleine Ausfälle können große Auswirkungen haben, wenn sie Endpunkte mit hohem Datenverkehr betreffen. Kurze Unterbrechungen können die Benutzererfahrung beeinträchtigen, wenn sie bei kritischen Serviceaufrufen auftreten. Eine kontinuierliche Überwachung ist unerlässlich, um diese Leistungseinbußen in Echtzeit zu erkennen und zu quantifizieren.
Granulieren



Was ist passiert?
Zwischen 01:05 und 01:20 CDT am 24. März 2025 kam es bei Granify zu einer Dienstunterbrechung, die Footlocker betraf. Tests zeigten Anforderungsausfälle von sechs verschiedenen Standorten. Obwohl der Ausfall 15 Minuten dauerte, waren die Ausfälle lokal begrenzt und wurden als wenig schwerwiegend eingestuft.

Mitbringsel
Lokale Ausfälle sind zwar nicht so sichtbar wie globale Vorfälle, können aber dennoch die Benutzerfreundlichkeit für bestimmte Regionen oder Kunden beeinträchtigen. Eine gezielte Überwachung hilft dabei, diese kleineren Probleme zu erkennen und sicherzustellen, dass die betroffenen Partner informiert sind und umgehend reagieren können.
Zendesk



Was ist passiert?
Am 20. März 2025 um 15:43 UTC kam es bei Zendesk zu einem globalen Serviceausfall aufgrund von 503 Service Unavailable und anderen 5xx-Fehlern auf Serverseite, wodurch die Benutzer nicht mehr auf Support-Tools und Kommunikationskanäle zugreifen konnten. CatchpointInternet Sonar entdeckte die Störung 21 Minuten bevor Zendesk sie bestätigte und zeigte Probleme in mehreren Pods und Regionen auf. Während die Kerndienste stabilisiert wurden, dauerten die intermittierenden Ausfälle mehr als 24 Stunden an und verzögerten die vollständige Wiederherstellung bis zum 21. März um 22:59 UTC.

Mitbringsel
Dieser Ausfall zeigte, wie eine Multi-Pod-Infrastruktur, die zwar auf Ausfallsicherheit ausgelegt ist, die Wiederherstellung erschweren kann, wenn etwas schief läuft. Eine frühzeitige Erkennung war entscheidend - interne Teams brauchten über 20 Minuten, um die Ursache zu ermitteln, während derer die Unternehmen den Zugang zu wichtigen Support-Workflows verloren. Der Vorfall zeigt auch, wie wichtig eine unabhängige Überwachung in Echtzeit ist, um Verzögerungen zu vermeiden, Ausfallzeiten zu reduzieren und das Vertrauen zu erhalten. Das Verständnis der Abhängigkeiten von Drittanbietern ist nicht optional, sondern für den modernen SaaS-Betrieb unerlässlich.
Twitter/X




Was ist passiert?
Am 10. März 2025, beginnend um 5:30 Uhr EDT, wurden Nutzer weltweit plötzlich von X getrennt. In den folgenden 24 Stunden gab es Wellen von Ausfällen - unterbrochen von kurzen Erholungen - die Nutzer konnten nicht auf Feeds zugreifen, Nachrichten senden oder mit Inhalten interagieren.
Die Unterbrechung erstreckte sich auf mehr als 30 Länder, von Argentinien bis zu den Vereinigten Arabischen Emiraten, was die globale Abhängigkeit der Plattform unterstreicht.
Unsere eigenen Daten, die wir über einen längeren Zeitraum für die Domains von X corp gesammelt haben, zeigen, dass es während des Ausfalls einen deutlichen Anstieg der durchschnittlichen Wartezeit gab. Dies deutet darauf hin, dass die Server langsamer reagierten - ein Effekt, der typischerweise bei einem DDoS-Angriff (Denial of Service) auftritt.

Februar
DocuSign



Was ist passiert?
Zwischen 5:50 und 6:09 EST entdeckte Catchpoint's Internet Sonar einen Ausfall, der DocuSign betraf. Benutzer in Indien erlebten HTTP 502 Bad Gateway Fehler, wenn sie versuchten, auf www.docusign.com zuzugreifen. Das Problem führte zu kompletten Ausfallzeiten in Städten wie Hyderabad, Ahmedabad, Bangalore, Delhi und Chennai, wobei Ausfälle an allen überwachten Teststandorten verzeichnet wurden.

Mitbringsel
Dieser Vorfall macht deutlich, dass regionale Ausfälle erhebliche Auswirkungen auf die Nutzer haben können, auch wenn das Problem nicht global ist. Die Überwachung von geografisch verteilten Standorten aus ist entscheidend für eine frühzeitige Erkennung und schnellere Behebung von Störungen.
Januar
Optimal



Was ist passiert?
Ab 12:50 PM EST trat bei Optimizely ein weit verbreitetes Latenzproblem auf, das den Graph-Dienst betraf. Der Ausfall betraf Anfragen an cdn.optimizely.com und www.optimizely.com, wobei in mehreren Tests in verschiedenen Regionen Ausfälle beobachtet wurden. Catchpoint's Internet Sonar entdeckte das Problem frühzeitig und bestätigte Antwortzeitüberschreitungen und Leistungseinbußen in 68 Städten. Optimizely bestätigte den Vorfall später auf seiner Statusseite und gab an, dass um 17:41 UTC ein Fix bereitgestellt wurde, obwohl die Überwachung noch andauerte.

2024
Dezember
November
Microsoft Büro 365



Was ist passiert?
Am 25. November 2024 kam es bei den Produktivitätstools von Microsoft, darunter Outlook, Teams, Exchange und SharePoint, zu einer erheblichen Störung. Die Störung begann am frühen Montagmorgen und führte dazu, dass Millionen von Nutzern in den betroffenen europäischen Regionen keinen Zugang zu wichtigen Kommunikations- und Kollaborationstools hatten. Die Störung dauerte über 24 Stunden. Viele Nutzer berichteten von lückenhaftem Service, z. B. verzögerten E-Mails und unzugänglichen Anhängen, während andere komplett abgeschnitten waren.

Mitbringsel
Dieser Vorfall unterstreicht die kritische Rolle der Überwachung durch Dritte bei der Aufrechterhaltung der Widerstandsfähigkeit des Internets. Auf der Statusseite von Microsoft fehlten zeitnahe Updates, so dass die Nutzer frustriert und uninformiert waren. Proaktive Überwachungstools wie CatchpointInternet Sonar entdeckten den Ausfall frühzeitig, wiesen auf Serviceunterbrechungen hin und bestätigten, dass das Problem auf die Infrastruktur von Microsoft beschränkt war. Durch die frühzeitige Erkennung und die Einblicke in Echtzeit konnten die Unternehmen die Auswirkungen des Ausfalls abmildern, bevor Microsoft das Problem öffentlich bestätigte.
Oktober
Mashery
.avif)
.avif)

Was ist passiert?
Am 1. Oktober 2024 kam es bei TIBCO Mashery, einer API-Verwaltungsplattform für Unternehmen, die von einigen der bekanntesten Marken der Welt genutzt wird, zu einem erheblichen Ausfall. Um etwa 7:10 AM ET traten bei den Benutzern SSL-Verbindungsfehler auf. Internet Sonar fand heraus, dass die Ursache nicht in einem SSL-Fehler lag, sondern in einer DNS-Fehlkonfiguration, die den Zugriff auf wichtige Dienste beeinträchtigte.
.avif)
Mitbringsel
Der Ausfall von Mashery zeigt eine wichtige Lektion: SSL-Fehler können nur die Spitze des Eisbergs sein. Das eigentliche Problem liegt oft tiefer, wie in diesem Fall bei einer DNS-Fehlkonfiguration. Wenn DNS nicht richtig konfiguriert oder überwacht wird, kann das gesamte System ausfallen, und was wie ein einfacher SSL-Fehler aussieht, kann sich zu einem viel größeren Problem auswachsen. Um sich wirklich gegen die Anfälligkeit des Internets zu schützen, benötigen Sie einen vollständigen Einblick in jede Schicht des Internet-Stacks, von DNS bis SSL und darüber hinaus.
September
Reliance Jio



Was ist passiert?
Am 17. September 2024 kam es bei Reliance Jio zu einem größeren Netzwerkausfall, von dem Kunden in mehreren Regionen in Indien und weltweit betroffen waren. Der Ausfall wurde zunächst bemerkt, als Nutzer beim Versuch, auf die AJIO- und Jio-Webseiten zuzugreifen, Verbindungszeitüberschreitungen aufwiesen. Der Ausfall wurde um 05:42 EDT behoben.

Mitbringsel
Die vollständige Transparenz des gesamten Internet-Stacks, einschließlich externer Abhängigkeiten wie CDN, DNS und ISPs, ist für Unternehmen entscheidend. Eine proaktive Überwachung ist für die frühzeitige Erkennung von Problemen wie Paketverlusten und Latenzzeiten unerlässlich und hilft Unternehmen, Risiken zu mindern, bevor sie zu größeren Ausfällen eskalieren.
August
ServiceNow



Was ist passiert?
Am 15. August, um 14:15 Uhr ET, kam es bei ServiceNow zu einem erheblichen Ausfall, der 2 Stunden und 3 Minuten dauerte. Catchpoint Der Internet-Sonar von ServiceNow entdeckte die Unterbrechung durch erhöhte Antwort- und Verbindungszeitüberschreitungsfehler an wichtigen geografischen Standorten. Die Unterbrechung, die durch eine instabile Konnektivität mit dem Upstream-Provider Zayo (AS 6461) verursacht wurde, beeinträchtigte die Kerndienste und Kundenintegrationen von ServiceNow. Der Ausfall führte zu einer unregelmäßigen Serviceverfügbarkeit, wobei die Benutzer mit hohen Verbindungszeiten und häufigen Timeouts konfrontiert wurden.

Mitbringsel
Ein proaktiver Ansatz bei der BGP-Überwachung ist entscheidend, um längere Ausfälle zu vermeiden. Die schnelle Reaktion von ServiceNow bei der Umleitung des Datenverkehrs ist ein gutes Beispiel dafür, wie ein effektives Störungsmanagement und die Übernahme von Verantwortung durch den Anbieter den Unterschied ausmachen können, damit der Betrieb aufrechterhalten wird und die Benutzer zufrieden sind.
AWS



Was ist passiert?
Am 14. August, zwischen 8:00 und 8:25 UTC, kam es bei AWS zu einem Mikroausfall, der Dienste wie S3, EC2, CloudFront und Lambda betraf. Catchpoint Der Internet-Sonar von AWS erkannte Verbindungszeitüberschreitungen in mehreren Regionen, insbesondere an Standorten, die über CenturyLink AS209 und Lumen AS3356 geleitet wurden. Diese Unterbrechung wurde zwar nicht auf der AWS-Statusseite angezeigt, hatte jedoch erhebliche Auswirkungen auf den Zugriff dieser Regionen auf AWS-Dienste.

Mitbringsel
Statusseiten sind nicht immer zuverlässige Indikatoren für den Zustand des Dienstes. Wenn Sie sich nur auf Cloud-basierte Überwachungstools verlassen, haben Sie ein Problem, wenn deren Cloud ausfällt. Es ist eine gute Praxis, Ihre Überwachungsstrategie zu diversifizieren und einen Ausweichplan zu haben, um die Ausfallsicherheit des Internets zu gewährleisten. Eine klare Kommunikation hilft Ihnen außerdem, das Vertrauen Ihrer Nutzer zu erhalten.
Juli
Disney+



Was ist passiert?
Am 31. Juli um 20:12 EDT kam es bei Disney Plus zu einem kurzen Ausfall, der 38 Minuten dauerte. Catchpoint entdeckte 502 Bad Gateway-Fehler von mehreren Knotenpunkten, ein Problem, das sowohl durch automatisierte Tests als auch durch manuelles Browsing bestätigt wurde. Die Störung war um 20:50 Uhr EDT behoben.

Mitbringsel
Dieser Vorfall zeigt, warum es so wichtig ist, Ihre Dienste von mehreren Punkten aus zu überwachen, um Ausfälle schnell zu erkennen und zu verifizieren. Selbst kurzzeitige Unterbrechungen können die Benutzerfreundlichkeit beeinträchtigen, weshalb eine kontinuierliche Überwachung und schnelle Reaktion unerlässlich sind.
Alaska Fluggesellschaften



Was ist passiert?
Am 23. Juli, von 14:35 bis 14:52 Uhr, trat auf der Website von Alaska Airlines (www.alaskaair.com) ein 404 Not Found-Fehler auf, der die Website für etwa 20 Minuten unzugänglich machte. Catchpoint erkannte das Problem und bestätigte die Fehler in mehreren Tests. Die Antwort-Header wiesen darauf hin, dass das Problem von Konfigurationsfehlern herrührte, was durch den 404-Fehler und die anschließenden Cache-Miss-Antworten belegt wurde.

Microsoft Outlook



Was ist passiert?
Ab 21:23 Uhr EDT am 23. Juli kam es in mehreren Regionen zu zeitweiligen Ausfällen von Microsoft Outlook. Die Benutzer erhielten verschiedene Fehlermeldungen, darunter 404 Not Found, 400 Bad Request und 503 Service Unavailable, wenn sie versuchten, auf https://www.outlook.com/ und https://outlook.live.com/owa/ zuzugreifen. CatchpointDer Internet-Sonar von Microsoft hat das Problem durch mehrere Tests festgestellt, während die offizielle Statusseite von Microsoft zu diesem Zeitpunkt keine Ausfälle gemeldet hat.

Mitbringsel
Dies ist ein weiteres Beispiel dafür, dass intermittierende Probleme, die die größte Bedrohung für die Beobachtbarkeit darstellen können, möglicherweise nicht auf den offiziellen Statusseiten angezeigt werden. Angesichts der hohen Kosten von Internetunterbrechungen kann selbst eine kurze Verzögerung bei der Behebung dieser Probleme außerordentlich teuer werden. Und wenn Sie darauf warten, dass Ihr Provider Ihnen mitteilt, wenn etwas nicht in Ordnung ist, kann diese Verzögerung sogar noch länger sein.
Azure



Was ist passiert?
Am 18. Juli, beginnend um 18:36 Uhr EDT, kam es in der Azure-Region US Central zu einem größeren Service-Ausfall, der bis 22:17 Uhr EDT dauerte. Zunächst wurden 502 Bad Gateway-Fehler gemeldet, gefolgt von 503 Service Unavailable-Fehlern. Von diesem Ausfall waren zahlreiche Unternehmen betroffen, die auf Azure-Funktionen angewiesen sind, sowie Microsoft 365-Dienste wie SharePoint Online, OneDrive und Teams, bei denen es zu erheblichen Unterbrechungen kam.

Mitbringsel
Dieser Vorfall ereignete sich innerhalb von 24 Stunden nach einem separaten CrowdStrike-Ausfall, was in den Medien zu Verwirrung führte, da beide Probleme gleichzeitig gemeldet wurden. Unternehmen, die sich ausschließlich auf Azure verlassen und keine Multi-Regionen- oder Multi-Cloud-Strategien verfolgen, waren erheblich betroffen, insbesondere diejenigen, die eCommerce-APIs verwenden. CatchpointInternet Sonar erkannte den Ausfall frühzeitig und half dabei, das Problem einzugrenzen und zu bestätigen, dass es nicht mit Netzwerkproblemen zusammenhing, wodurch Zeit für unnötige Fehlersuche gespart wurde.
CrowdStrike



Was ist passiert?
Am 19. Juli kam es weltweit zu einem massiven Ausfall kritischer Dienste, von dem auch Systeme betroffen waren, die auf Microsoft-Computer angewiesen sind. Der Ausfall, der durch ein fehlerhaftes automatisches Software-Update des Cybersicherheitsunternehmens CrowdStrike verursacht wurde, setzte PCs und Server von Microsoft außer Betrieb und zwang sie in eine Wiederherstellungs-Bootschleife. Dieser beispiellose Ausfall hatte Auswirkungen auf das tägliche Leben auf globaler Ebene, legte Fluggesellschaften lahm, brachte Notdienste außer Betrieb und stoppte den Betrieb von Großbanken und Unternehmen.

Mitbringsel
Der Ausfall von CrowdStrike ist ein Weckruf dafür, wie anfällig unsere digitale Welt wirklich ist. Alles, was wir tun, hängt von diesen Systemen ab, und wenn sie ausfallen, sind die Auswirkungen enorm. Dieser Vorfall zeigt, wie wichtig es ist, vorbereitet zu sein. Kennen Sie Ihre Abhängigkeiten, testen Sie Aktualisierungen, als ob Ihr Unternehmen davon abhinge (denn das tut es), und haben Sie einen Plan für den Fall, dass etwas schief läuft. Gehen Sie nicht einfach davon aus, dass alles funktionieren wird, sondern stellen Sie es sicher. Und denken Sie daran, dass es bei der Ausfallsicherheit nicht nur um Ihre Technik geht, sondern auch um Ihr Team. Halten Sie sie geschult, halten Sie sie bereit, und stellen Sie sicher, dass sie wissen, was zu tun ist, wenn das Unerwartete passiert.
Juni
Mai
Bing



Was ist passiert?
Am 23. Mai, beginnend um 01:39 EDT, kam es bei Bing zu einem Ausfall mit mehreren 50X-Fehlern, von dem Nutzer weltweit betroffen waren. Das Problem wurde von Catchpoint's Internet Sonar entdeckt und durch manuelle Überprüfungen bestätigt. Durch den Ausfall wurde der Zugriff auf die Bing-Startseite unterbrochen, was sich auf die Nutzererfahrung in verschiedenen Regionen auswirkte.

Mitbringsel
Dieser Vorfall zeigt, wie wichtig es ist, eine zuverlässige Überwachung einzurichten. Schnelle Erkennung und Bestätigung sind entscheidend, um die Auswirkungen solcher Ausfälle zu minimieren.



Was ist passiert?
Am 1. Mai, ab 10:40 Uhr Ostküste, kam es zu einem 34-minütigen Ausfall der Google-Dienste in mehreren Regionen, bei dem die Nutzer 502 Bad Gateway-Fehler erhielten. Das Problem betraf die Erreichbarkeit in Australien, Kanada und dem Vereinigten Königreich. Internet Sonar entdeckte den Vorfall und der Ausfall wurde auch durch manuelle Überprüfungen bestätigt.

April



Was ist passiert?
Am 29. April, ab 03:29 EDT, kam es bei X (früher bekannt als Twitter) zu einem Ausfall, bei dem die Nutzer beim Versuch, auf die Basis-URL "twitter.com" zuzugreifen, lange Wartezeiten hatten. Das Problem wurde von Internet Sonar entdeckt, wobei von mehreren Standorten Ausfälle gemeldet wurden. Auch manuelle Überprüfungen bestätigten den Ausfall. Darüber hinaus wurden während dieser Zeit Verbindungszeitüberschreitungen bei DFS- und Walmart-Tests beobachtet, die auf fehlgeschlagene Anfragen an den Analysedienst von Twitter zurückzuführen waren und beide Plattformen weiter beeinträchtigten.

März
ChatGPT



Was ist passiert?
Am 30. April, beginnend um 03:00 EST, kam es bei den APIs von ChatGPT zu zeitweiligen Ausfällen aufgrund von HTTP 502 (Bad Gateway) und HTTP 503 (Service Unavailable) Fehlern. Mikro-Ausfälle wurden in verschiedenen Intervallen beobachtet, darunter 03:00-03:05 EST, 03:49-03:54 EST und 03:58-03:59 EST. Diese Unterbrechungen wurden von Catchpoint's Internet Sonar entdeckt und durch weitere Untersuchungen bestätigt.

Mitbringsel
Selbst kurze Mikroausfälle können die Dienste und das Nutzererlebnis beeinträchtigen. Frühzeitige Erkennung ist der Schlüssel zur Minimierung der Auswirkungen.
Februar
ChatGPT




Was ist passiert?
Am 25. Februar 2024, um 23:29 EST, kam es bei der ChatGPT-API von OpenAI zu sporadischen Fehlern. Die Hauptprobleme waren HTTP 502 Bad Gateway und HTTP 503 Service Unavailable Fehler beim Zugriff auf den Endpunkt https://api.openai.com/v1/models. Der Ausfall wurde manuell bestätigt, und das Internet-Sonar-Dashboard von Catchpointidentifizierte die Störung in mehreren Regionen, einschließlich Nordamerika, Lateinamerika, Europa, dem Nahen Osten, Afrika und dem asiatisch-pazifischen Raum. Die Probleme hielten bis zum nächsten Tag an, wobei 89 Städte Fehler während des Ausfalls meldeten.

Mitbringsel
Wie bei vielen Ausfällen im Zusammenhang mit APIs ist eine Überwachung in Echtzeit unerlässlich, um die Auswirkungen auf die Benutzer schnell zu mildern und die Zuverlässigkeit der Dienste in verschiedenen Regionen zu gewährleisten.
Januar
Microsoft Teams



Was ist passiert?
Am 26. Januar kam es bei Microsoft Teams zu einer globalen Dienstunterbrechung, die wichtige Funktionen wie Anmeldung, Nachrichten und Anrufe betraf. In ersten Berichten wurden 503 Service Unavailable-Fehler angezeigt, wobei das Problem durch synthetische Tests von Autodesk erfasst wurde. Später identifizierte Microsoft die Ursache als Netzwerkprobleme, die einen Teil des Teams-Dienstes beeinträchtigten. Der Failover-Prozess trug zunächst dazu bei, den Dienst in einigen Regionen wiederherzustellen, aber in Nord- und Südamerika kam es weiterhin zu anhaltenden Ausfällen.

Mitbringsel
Failover-Prozesse können viele Service-Probleme schnell beheben, aber dieser Ausfall zeigte, wie wichtig eine kontinuierliche Optimierung für eine vollständige Wiederherstellung in allen Regionen ist. Außerdem wurde deutlich, wie wichtig die Überwachung aus Sicht der Nutzer ist. Während der Unterbrechung schien Teams teilweise verfügbar zu sein, was einige Benutzer zu der Annahme verleitete, das Problem läge auf ihrer Seite.
2023
Dezember
Box



Was ist passiert?
Am 15. Dezember, von 6:00 bis 9:11 Uhr Pazifikzeit, kam es bei Box zu einem erheblichen Ausfall, der wichtige Dienste wie das Tool "Alle Dateien", die Box-API und Benutzeranmeldungen beeinträchtigte. Der Ausfall führte zu einer Unterbrechung der Upload- und Download-Funktionen, so dass Benutzer keine Dateien freigeben oder auf ihre Konten zugreifen konnten. Die frühzeitige Erkennung durch proaktives Internet Performance Monitoring (IPM) half Box, die Auswirkungen des Ausfalls abzumildern. IPM löste bereits um 04:37 Uhr PST Warnmeldungen aus, lange bevor sich der Ausfall ausweitete.

Mitbringsel
Frühzeitige Erkennung und schnelle Reaktion sind der Schlüssel zur Minimierung von Ausfallzeiten, zur Verringerung finanzieller Verluste und zum Schutz des Markenrufs. Dieser Vorfall unterstreicht den Wert einer ausgereiften Strategie zur Überwachung der Internetleistung, der Festlegung der richtigen Schwellenwerte zur Vermeidung von Fehlalarmen und der Gewährleistung, dass die Teams die Ursachen schnell identifizieren können, um die Systeme widerstandsfähig zu halten.
Adobe



Was ist passiert?
Von 8:00 Uhr EST am 8. Dezember bis 1:45 Uhr EST am 9. Dezember kam es in der Experience Cloud von Adobe zu einem größeren Ausfall, von dem mehrere Dienste wie Datenerfassung, Datenverarbeitung und Berichtsanwendungen betroffen waren. Der Ausfall, der fast 18 Stunden dauerte, beeinträchtigte den Betrieb für Adobes umfangreichen Kundenstamm und hatte Auswirkungen auf Unternehmen weltweit. Catchpoint Internet Sonar von Adobe war das erste Tool, das das Problem erkannte und Ausfälle im Adobe Tag Manager und anderen Diensten identifizierte, lange bevor Adobe seine Statusseite aktualisierte.

Mitbringsel
Ein weiteres Beispiel für die Anfälligkeit des Internets und ein weiterer Fall für Internet Sonar, das für die frühzeitige Erkennung und schnelle Reaktion unerlässlich war und dazu beitrug, die Ursache des Problems zu lokalisieren und die Ausfallzeit zu minimieren. Der Ausfall macht auch deutlich, wie wichtig eine proaktive Überwachung und Vorbereitung ist und wie hoch die potenziellen finanziellen und rufschädigenden Kosten von Serviceunterbrechungen sind.
November
Oktober
September
Salesforce



Was ist passiert?
Am 20. September, ab 10:51 AM EST, kam es bei Salesforce zu einer größeren Serviceunterbrechung, von der mehrere Dienste betroffen waren, darunter Commerce Cloud, MuleSoft, Tableau, Marketing Cloud und andere. Der Ausfall dauerte mehr als vier Stunden und hinderte einen Teil der Salesforce-Kunden daran, sich anzumelden oder auf wichtige Dienste zuzugreifen. Die Ursache war eine Richtlinienänderung, die die Sicherheit verbessern sollte und unbeabsichtigt den Zugriff auf wichtige Ressourcen blockierte, was zu Systemausfällen führte. Catchpoint entdeckte das Problem um 9:15 AM EST - fast eineinhalb Stunden bevor Salesforce das Problem offiziell bestätigte.

Mitbringsel
CatchpointIPM half dabei, das Problem zu identifizieren, lange bevor das Salesforce-Team es entdeckte, wodurch wertvolle Zeit gespart und Störungen minimiert werden konnten. Für Unternehmen, die in hohem Maße auf Cloud-Dienste angewiesen sind, ist eine IPM-Strategie, die Echtzeitdaten und eine rasche Ursachenermittlung in den Vordergrund stellt, entscheidend für die Aufrechterhaltung der Internet-Resilienz und die Vermeidung kostspieliger Ausfallzeiten.
August
Juli
Juni
Microsoft Teams



Was ist passiert?
Am 28. Juni 2023 wurde die Webversion von Microsoft Teams (https://teams.microsoft.com) weltweit unzugänglich. Benutzer erhielten die Meldung "Operation failed with unexpected error", wenn sie versuchten, über einen beliebigen Browser auf Teams zuzugreifen. Catchpoint entdeckte das Problem um 6:51 Uhr Eastern, wobei interne Tests HTTP 500-Antwortfehler anzeigten. Das Problem wurde manuell bestätigt, obwohl zu diesem Zeitpunkt auf der offiziellen Statusseite von Microsoft keine Updates verfügbar waren.

Mai
April
März
Februar
Januar
Microsoft



Was ist passiert?
Am 25. Januar 2023, um 07:08 UTC/02:08 EST, kam es bei Microsoft zu einem weltweiten Ausfall, der mehrere Dienste, darunter Microsoft 365 (Teams, Outlook, SharePoint Online), Azure und Spiele wie HALO, beeinträchtigte. Die Störung dauerte etwa fünf Stunden. Die Ursache wurde auf eine WAN-Routing-Änderung (Wide Area Network) zurückgeführt. Eine einzige Aktualisierung der Router-IP-Adresse führte zu Problemen bei der Paketweiterleitung im gesamten WAN von Microsoft und verursachte weitreichende Unterbrechungen. Microsoft nahm die Änderung zwar wieder zurück, aber der Vorfall hatte weltweit erhebliche Auswirkungen, insbesondere für Nutzer in Regionen, in denen der Ausfall während der Arbeitszeit auftrat.

Mitbringsel
CatchpointIPM half dabei, das Problem zu identifizieren, lange bevor das Salesforce-Team es entdeckte, wodurch wertvolle Zeit gespart und Störungen minimiert werden konnten. Für Unternehmen, die in hohem Maße auf Cloud-Dienste angewiesen sind, ist eine IPM-Strategie, die Echtzeitdaten und eine rasche Ursachenermittlung in den Vordergrund stellt, entscheidend für die Aufrechterhaltung der Internet-Resilienz und die Vermeidung kostspieliger Ausfallzeiten.
2022
Dezember
Amazon



Was ist passiert?
Ab 12:51 Uhr ET am 5. Dezember 2022 stellte Catchpoint zeitweilige Fehler im Zusammenhang mit der Suchfunktion von Amazon fest. Das Problem hielt 22 Stunden lang bis zum 7. Dezember an und betraf etwa 20 % der Nutzer weltweit sowohl auf Desktop- als auch auf mobilen Plattformen. Die betroffenen Nutzer konnten nicht nach Produkten suchen und erhielten eine Fehlermeldung. Catchpoint stellte fest, dass die Ursache ein HTTP 503-Fehler war, der von Amazon CloudFront zurückgegeben wurde und die Suchfunktion während des Ausfalls beeinträchtigte.

Mitbringsel
Auch wenn nur ein kleiner Teil der Nutzer betroffen ist, können partielle Ausfälle schwerwiegende Folgen haben. Wenn man sich ausschließlich auf herkömmliche Überwachungsmethoden wie Protokolle und Traces verlässt, kann dies zu einer verzögerten Erkennung führen, insbesondere bei intermittierenden Problemen. Die Möglichkeit, die für das Problem verantwortliche Schicht des Internet-Stacks genau zu bestimmen, hilft den Technikern bei der Fehlersuche und Problembehebung.
November
Oktober
September
August
Juli
Rogers Kommunikation


Was ist passiert?
Am 8. Juli 2022 kam es bei Rogers Communications zu einem größeren Ausfall, der fast zwei Tage lang einen Großteil Kanadas betraf und Internet- und Mobilfunkdienste beeinträchtigte. Ein Code-Update-Fehler legte das Kernnetz gegen 4 Uhr morgens lahm und beeinträchtigte sowohl drahtgebundene als auch drahtlose Dienste. Durch den Ausfall wurden wichtige Dienste wie 911-Anrufe, Unternehmen, Regierungsdienste und Zahlungssysteme wie Interac unterbrochen. Einige Dienste konnten nach 15 Stunden wiederhergestellt werden, andere blieben jedoch bis zu vier Tage lang außer Betrieb. Der Vorfall betraf Millionen von Kanadiern, löste weit verbreitete Frustration aus und machte die Risiken deutlich, die mit der starken Abhängigkeit von einem einzigen Telekommunikationsanbieter verbunden sind.
Mitbringsel
Testen Sie gründlich, bevor Sie Änderungen am Netz vornehmen, und stellen Sie sicher, dass Redundanzen vorhanden sind und funktionieren. Rogers dachte, es gäbe Redundanzen, aber sie funktionierten nicht, als sie am meisten gebraucht wurden. Schnelle Erkennung und Behebung sind entscheidend. Die langsame Reaktion von Rogers führte zu erheblichen finanziellen Verlusten, Rufschädigung und einer möglichen Sammelklage.
Juni
Mai
April
März
Februar
Slack



Was ist passiert?
Am 22. Februar 2022, um 9:09 AM ET, traten bei Slack Probleme auf, die sich vor allem auf die Fähigkeit der Nutzer auswirkten, Konversationen und Nachrichten abzurufen. Die Benutzer konnten sich zwar anmelden, aber wichtige Funktionen waren nicht verfügbar, was zu weitreichenden Störungen führte. Das Problem trat zeitweise auf und beeinträchtigte die Produktivität vieler Unternehmen, die auf Slack als Kommunikationsmittel angewiesen sind. Catchpoint Tests bestätigten Fehler auf API-Ebene, die auf Probleme mit den Backend-Diensten von Slack und nicht mit dem Netzwerk hinwiesen.

Mitbringsel
Frühzeitige Erkennung und Echtzeittransparenz der Serviceleistung sind entscheidend. Die Möglichkeit, ein Problem schnell zu diagnostizieren und die Nutzer zu benachrichtigen, bevor eine Flut von Support-Tickets eintrifft, kann Ausfallzeiten und Frustration erheblich reduzieren. Die Überwachung aus der Nutzerperspektive ist von entscheidender Bedeutung, da sie dazu beiträgt, Probleme schneller und genauer zu erkennen als das Warten auf offizielle Service-Updates.
Januar
2021
Dezember
Amazon Web Services (AWS)



Was ist passiert?
Im Dezember 2021 kam es bei AWS zu drei erheblichen Ausfällen:
1. 7. Dezember 2021: Ein längerer Ausfall, der von der Region US-EAST-1 ausging, störte wichtige Dienste wie Amazon, Disney+, Alexa und Venmo sowie wichtige Apps, die von Amazons Lager- und Liefermitarbeitern während der geschäftigen Weihnachtszeit genutzt wurden. Die Ursache war eine Beeinträchtigung von Netzwerkgeräten.
2. Dezember 2021: Dieser Ausfall in den Regionen US-West-2 und US-West-1 dauerte etwa eine Stunde und beeinträchtigte Dienste wie DoorDash, PlayStation Network und Zoom. Das Problem wurde durch eine Netzwerküberlastung zwischen Teilen des AWS-Backbone und externen Internetdienstanbietern (ISPs) verursacht.
3. 22. Dezember 2021: Ein Stromausfall in der Region US-EAST-1 verursachte kurze Unterbrechungen bei Diensten wie Slack, Udemy und Twilio. Während der anfängliche Ausfall kurz war, gab es bei einigen Diensten anhaltende Auswirkungen von bis zu 17 Stunden.

Mitbringsel
Verlassen Sie sich nicht auf die Überwachung in derselben Umgebung. Viele Unternehmen, die ihre Beobachtungstools auf AWS hosten, hatten während der Ausfälle mit Überwachungsproblemen zu kämpfen. Es ist wichtig, Failover-Systeme zu haben, die außerhalb der überwachten Umgebung gehostet werden, um die Sichtbarkeit bei Zwischenfällen zu gewährleisten.
November
Google Wolke



Was ist passiert?
Am 16. November 2021 kam es ab 12:39 Uhr ET zu einem Ausfall der Google Cloud, der mehrere große Websites offline brachte, darunter Home Depot, Spotify und Etsy. Die Nutzer sahen eine Google 404-Fehlerseite. Der Ausfall betraf eine Reihe von Google Cloud-Diensten wie Google Cloud Networking, Cloud Functions, App Engine und Firebase. Die Ursachenanalyse von Google wies auf einen latenten Fehler in einem Netzwerkkonfigurationsdienst hin, der während einer routinemäßigen Ladung der Leader-Wahl ausgelöst wurde. Während die Dienste um 1:10 PM ET teilweise wiederhergestellt waren, dauerte die vollständige Wiederherstellung fast zwei Stunden.

Mitbringsel
Überwachen Sie Ihre Dienste von außerhalb Ihrer Infrastruktur, um Problemen zuvorzukommen, bevor die Kunden sie bemerken. Die Verfolgung Ihrer Service Level Agreements (SLAs) und der mittleren Wiederherstellungszeit (MTTR) ermöglicht es Ihnen, die Effizienz Ihrer Teams und Provider bei der Lösung von Störungen zu messen.