Glossar der Begriffe

Mittlere Zeit bis zur Lösung (MTTR)

Was ist die MTTR (Mean Time to Resolve)?

MTTR (Mean Time to Resolve) ist eine Kennzahl, die die Gesamtzeit vom Auftreten eines Problems bis zu seiner Behebung, geteilt durch die Gesamthäufigkeit der Probleme, angibt.

Gesamtauflösungszeit / Häufigkeit = MTTR

Beispiel: Wenn ein IT-Team insgesamt 5 Probleme mit einer Gesamtlösungszeit von:

  • 5 Minuten
  • 4 Minuten
  • 3 Minuten
  • 2 Minuten
  • 1 Minute

Dann wird die Gesamtzeit vom Beginn bis zur Lösung - 15 Minuten - durch die Gesamtzahl der Probleme - 5 - geteilt.

15 min. Gesamtauflösungszeit / 5 Vorfälle insgesamt = 3 min. MTTR.

Wie nutzen Unternehmen MTTR?

Meantime to resolve (MTTR) hilft Unternehmen, die wesentlichen Betriebs- und Wartungskosten für Geräte, Teile, Dienstleistungen, Verfahren und Prozesse zu ermitteln.

Verschiedene Unternehmen definieren MTTR je nach Geschäftsanforderungen unterschiedlich. Unternehmen definieren MTTR unterschiedlich, je nachdem, was sie als Anfangs- und Endpunkt der Störungsbehebung festlegen.

Dieser Artikel konzentriert sich auf die Definition und Verwendung von MTTR in der Informationstechnologie (IT), obwohl viele andere Unternehmen MTTR verwenden. Coca Cola könnte MTTR zum Beispiel nutzen, um den Zustand und die Wartung ihrer Cola-Maschinen zu verbessern.

MTTR hilft IT-Entscheidungsträgern, wie IT-Managern, Chief Information Officers (CIOs) und Site Reliability Engineers (SREs), bei der Entscheidung, wie ein Dienst, eine Maschine oder ein Prozess am besten zu behandeln ist. MTTR kann helfen, Fragen zu beantworten wie:

  • Soll das Verfahren oder die Maschine in Betrieb bleiben?
  • Sollte es durch etwas schnelleres oder robusteres ersetzt werden?
  • Kann der Prozess automatisiert werden?
  • Sollte der Dienst gestärkt werden?
  • Gibt es bessere Alternativen zu dem, was derzeit gilt?

Wenn ein SRE zum Beispiel über seine Leistungsüberwachungssoftware einen Ausfall des Domain Name Systems (DNS) feststellt, kann er schnell zu seinem Backup-DNS-Anbieter wechseln. Kommt es bei diesem DNS weiterhin zu Ausfällen, können der SRE und sein IT-Team einen Wechsel des DNS-Anbieters in Betracht ziehen.

Frühzeitiges Erkennen von Problemen bedeutet, dass IT-Manager, CIOs, DevOps-Leiter und SREs früher handeln können. Je früher sie handeln, desto kürzer ist die Lösungszeit.

Je länger ein Problem anhält, desto schwieriger ist es zu lösen und desto mehr Kunden sind davon betroffen. Bei Strategien zur Überwachung der Systemleistung werden häufig Konzepte eingesetzt, um kleinere Probleme zu erkennen , bevor sie zu großen Problemen werden.

Wie können Sie die MTTR verbessern?

Unternehmen können die MTTR verbessern, indem sie Strategien zur Systembeobachtung einführen. Je eher ein Unternehmen weiß, dass ein System Probleme hat, desto eher können die Entscheidungsträger reagieren und das Problem einordnen. Die Fähigkeit, schnell zu handeln, wird die MTTR immer verbessern.

Beobachtbarkeit der Leistung und MTTR

Leistungsbeobachtung ist der Einsatz von Software zur Beobachtung der Leistung der einzelnen Bestandteile einer Anwendung oder Website.

Die Beobachtung Ihrer Infrastruktur ist wie ein Wachhund, der rund um die Uhr alle Komponenten einer Anwendung und alle automatisierten Prozesse im Auge behält und Sie mit verwertbaren Informationen versorgt, wenn ein Problem entdeckt wird. Letztlich bietet die Beobachtung aller Teile der Infrastruktur aus möglichst vielen Blickwinkeln die beste Abdeckung.

Alarmierung und Benachrichtigung

IT-Teams können die Kosten für Ausfälle reduzieren, indem sie Software zur Leistungsüberwachung einsetzen, die sie über Probleme informiert, sobald diese erkannt werden. Erkannte Anomalien lösen Warnungen aus, die an die Entscheidungsträger gesendet werden, damit diese handeln und das System wieder online und ordnungsgemäß in Betrieb nehmen können.

Wenn ein Unternehmen frühzeitig auf potenzielle Fallstricke aufmerksam gemacht wird, verkürzt sich die Zeit, die für die Lösung eines Problems benötigt wird.

Teamkommunikation und MTTR

Eine weitere Möglichkeit, die MTTR zu verbessern, besteht darin, sicherzustellen, dass jeder im Team weiß, wie man einen Fehler protokolliert und alle Teammitglieder alarmiert, die für die Behebung des Problems oder die Kommunikation mit Dritten zuständig sind. Verantwortliche Parteien könnten sein:

  • QA-Team oder IT-Team, die Probleme eskalieren.
  • SREs, IT-Manager oder andere Personen, die an der Lösung der Probleme beteiligt sind.
  • Die Person(en), die mit Dritten, die von Ausfällen betroffen sind, kommunizieren müssen.
  • Die Person(en), die andere Abteilungen oder Mitarbeiter innerhalb des Unternehmens alarmieren müssen.

Den Kunden zuhören und MTTR

Obwohl es am besten ist, Probleme zu erkennen, bevor sie zu viele Kunden betreffen, können die Kunden eine Rolle bei der Verbesserung der MTTR spielen.

Erstens können Kunden ein Unternehmen über soziale Medien oder über ein Support-Ticket auf ein Problem aufmerksam machen. Eine leicht zugängliche Dokumentation mit Hilfeartikeln, Anleitungen, Tipps und FAQs ist ein weiterer wichtiger Schutz für die MTTR.

Im Idealfall erstellen Unternehmen Dokumente mit Blick auf den Kunden. Sie sollten leicht zugänglich und klar formuliert sein. Eine gute Benutzerdokumentation löst viele Nicht-Probleme und sorgt dafür, dass die technischen Support-Teams für tatsächliche Probleme zur Verfügung stehen.

Kunden wollen heute mehr denn je Probleme selbst lösen und nach Antworten suchen, wenn sie wissen, dass sie dies leicht tun können. Die meisten würden lieber einer Kurzanleitung folgen, um ihr Problem zu lösen, als am Telefon zu warten und mit dem technischen Support zu sprechen.

Die meisten Menschen werden automatisch nach Hilfe oder FAQs suchen, bevor sie zum Telefon greifen. Wenn Sie über eine umfangreiche Bibliothek mit aktueller Dokumentation verfügen, kann der technische Support mehr Zeit für die Lösung von Infrastruktur- oder Prozessproblemen aufwenden.

Wie MTTD die MTTR beeinflusst

In der IT bezieht sich die mittlere Erkennungszeit (MTTD) auf die Zeit, die vom Beginn eines Problems bis zur Entdeckung des Problems durch das IT-Team vergeht.

(Summe aller Erkennungszeiten) / (Anzahl der erkannten Vorfälle) = MTTD

Die schnelle Erkennung eines Problems wirkt sich direkt darauf aus, wie schnell ein IT-Team das Problem lösen kann. Je länger es dauert, ein Problem zu erkennen, desto länger dauert es, das System wieder in einen nutzbaren Zustand zu versetzen. Ziel ist es, die Zeit bis zur Erkennung zu verkürzen, um auch die Zeit bis zur Lösung zu verkürzen.

Auch hier spielt die Beobachtbarkeit eine große Rolle und kann sehr wichtig sein, um die MTTD zu reduzieren. Es ist wichtig, jeden Teil der Infrastruktur zu beobachten, um Probleme zu erkennen, ihre Ursachen zu lokalisieren und sie zu beheben, bevor sie viele Kunden betreffen.

Schlussfolgerung

IT-Manager, Chief Information Officers (CIOs), Site Reliability Engineers (SREs) und DevOps-Leiter sind alle wichtig, wenn es darum geht, Entscheidungen darüber zu treffen, wie mit einer Maschine, einem System, einem Prozess oder einem Dienst verfahren werden soll. Die schnelle Identifizierung von Problemen ist für sie alle von größter Bedeutung, wenn es um die Wiederherstellung von Systemen geht. Je länger ein kleines Problem ungelöst bleibt, desto größer ist die Wahrscheinlichkeit, dass es sich zu einem großen Problem entwickelt und viele Benutzer beeinträchtigt.

Die Implementierung einer umfassenden Strategie zur Leistungsbeobachtung wird IT-Teams helfen, sowohl MTTI als auch MTTR zu verbessern.