Kundenbericht

Google

Google spart Zeit und verringert die Latenzzeit mit Catchpoint
Reduzierung der MTTR von Stunden auf Minuten
Minimieren Sie die Zeit für die Problemanalyse

Google musste riesige Datenmengen in möglichst kurzer Zeit analysieren, um langfristige Benchmarks und Trends zu ermitteln, Latenzzeiten zu reduzieren, spezifische Daten über lange Zeiträume hinweg zu analysieren und Daten für die vielen Personen und Abteilungen, für die sie relevant sein könnten, leicht zugänglich zu machen.

Google ist eine Partnerschaft mit Catchpoint eingegangen, um:

o Bereitstellung aktiver Beobachtbarkeitsdaten über ihre digitalen Liegenschaften und Netzwerke.

o Bereitstellung aktiver Beobachtbarkeitsdaten über ihre digitalen Liegenschaften und Netzwerke.

o ihre Leistungsdaten zur Speicherung und Analyse an einen bestimmten Endpunkt übermitteln.

o Integrieren Sie die Warnmeldungen von Catchpoint in ihr eigenes Warnsystem, um proaktiver zu werden.

Mitarbeiter:
139,995
Umsatz:
$66,001,000,000
Hauptsitz:
Mountain View, CA
Branche:
Medien und Unterhaltung
IaaS
Unternehmen

CatchpointDie Webhooks von geben uns die Kontrolle und Flexibilität, unsere Daten zu visualisieren und zu analysieren und sie in unsere Alarmierungs-Tools zu integrieren. Mit diesem Tool waren wir in der Lage, die Echtzeitmessungen von Catchpoint zu nutzen, um die Latenz von Google Public DNS zu ermitteln und zu beheben. Anstelle eines langwierigen Prozesses waren wir in der Lage, das Problem fast sofort anzugehen und es in wenigen Minuten zu beheben, anstatt in zig Minuten.

Matthew White
,
SRE-Manager

Problem

Als eines der größten Unternehmen der Welt hat Google eine riesige Menge an digitalen Objekten unter seiner Kontrolle, die einer ständigen internen und externen Überwachung bedürfen, um den Ruf der Technologiemarke für digitale Exzellenz zu wahren.

Um eine exzellente Leistung über die vielen verschiedenen digitalen Objekte hinweg zu gewährleisten, muss Google in der Lage sein, riesige Datenmengen in möglichst kurzer Zeit zu sammeln, zu speichern und zu analysieren. Eine herkömmliche REST-API-Lösung kann diesen Bedarf aufgrund der Systemgrenzen, die die Anzahl der Anfragen in einem bestimmten Zeitraum begrenzen, nicht erfüllen. Stattdessen benötigen sie eine Möglichkeit, alle eingehenden Daten zu sammeln und zu speichern, damit sie diese in Echtzeit analysieren können.

Google muss in der Lage sein, diese Informationen über Monate und Jahre hinweg zu analysieren, sei es, um langfristige Benchmarks und Trends zu ermitteln, oder um spezifische Daten über lange Zeiträume hinweg zu analysieren.

Außerdem müssen die Daten aufgrund des Umfangs der Organisation an einem Ort gespeichert werden können, der für die vielen verschiedenen Personen und Abteilungen, für die sie relevant sein könnten, leicht zugänglich ist.

Lösung

Um all diese Daten zu verwalten, verlässt sich das Site Reliability Engineering (SRE)-Team von Google auf die Testdaten-Webhook-Funktion von Catchpoint. Mit diesem Tool kann der Kunde auswählen, welche seiner Tests die Daten von Catchpoint in Echtzeit an einen bestimmten Endpunkt weiterleiten sollen, wo sie dann in eine beliebige Anzahl von Tools von Drittanbietern zur Speicherung und Visualisierung integriert werden können; im Fall von Google wird dies mit den hauseigenen Tools wie Google Data Studio durchgeführt.

Durch die Aktivierung des Testdaten-Webhooks werden die Leistungsdaten von Google jedes Mal, wenn ein Test auf der Plattform Catchpoint ausgeführt wird, an den dafür vorgesehenen Endpunkt weitergeleitet, wo sie dann ihr ETL-Paradigma (Extract, Transform, Load) ausführen können. Auf diese Weise sind sie in der Lage, die Systemgrenzen der REST-API zu überwinden, um alle ihre Leistungsdaten zu verarbeiten, sobald sie von Catchpoint erfasst werden, und sie sogar noch länger zu speichern als die branchenführende dreijährige Speicherfrist von Catchpoint.

Nachdem die Testdaten vom Testziel durch den Knoten Catchpoint gesammelt wurden, werden die Informationen kompiliert und in ein JSON-Format (XML ist eine weitere Formatierungsoption) gebracht, bevor sie an den Endpunkt von Google gesendet werden, wo sie an eine AppEngine gesendet werden, die auf der Google-Plattform läuft. Dort durchlaufen sie die ETL-Funktionen und werden dann mit Cloud Bigtable gesendet und gespeichert, von wo aus sie mit Data Studio oder einem anderen gewünschten Visualisierungstool (z. B. Grafana, Geckoboard usw.) visualisiert und analysiert werden können.

Ergebnisse

Die von Catchpoint bereitgestellten Messungen haben Google in die Lage versetzt, Leistungsprobleme bei mehreren digitalen Objekten unter seiner Kontrolle zu erkennen, darunter sowohl das öffentliche DNS als auch die Backbone-Infrastruktur.

Im Fall von Google Public DNS kam es zu einer sehr hohen Abfragelatenz, die bei der internen Überwachung des Dienstes nicht festgestellt werden kann, da es keine Möglichkeit gibt, festzustellen, wie lange eine DNS-Antwort vom Client empfangen wird, sobald sie aufgrund einer fehlenden TCP-Verbindung gesendet wurde; im Wesentlichen gibt es keine Möglichkeit, die Umlaufzeit zwischen Client und Server zu messen.

Mit Catchpoint war das SRE-Team von Google jedoch in der Lage, Probleme mit der Abfragelatenz aus der Netzwerkperspektive zu erkennen, insbesondere durch die Identifizierung einiger ASNs, die die größte Latenz aufwiesen. Von dort aus konnte das SRE-Team direkt ermitteln, wo das Problem lag, anstatt zwischen dem ISP, der das Problem gemeldet hatte, und seinen Kunden und dann dem SRE-Supportteam hin und her zu gehen. Letztendlich konnte das Problem in nur wenigen Minuten erkannt und behoben werden, während dies normalerweise fast eine Stunde gedauert hätte.

Wenn Google Probleme in seinem Backbone hat, die ein Post-Mortem erfordern, ist das Unternehmen unter anderem daran interessiert, zu erfahren, wie sich diese Ausfälle auf sein Cloud-Produkt ausgewirkt haben. Da jeder im Unternehmen auf die Daten zugreifen kann, sobald sie den Datenspeicher erreicht haben, können die zuständigen Mitarbeiter die Analyse selbst durchführen und in den Post-Mortem- oder Leistungsbericht aufnehmen, ohne dass sie sich darauf verlassen müssen, dass jemand, der direkten Zugriff auf die Plattform Catchpoint hat, einen Bericht für sie erstellt, was mehreren Teams Zeit spart.