Service Level Report 2013

Die Auswertung der Verfügbarkeit im Jahr 2013 mit Nagios zeigt folgendes Ergebnis:

99,94%

Die Verfügbarkeit wird für das Gesamtsystem und die wichtigsten Dienste gemessen (DNS, SMTP, HTTP, IMAP). Hier eine Übersicht der einzelnen Dienste:

Die Antwortzeiten des Apache Webserver haben sich im Gegensatz zu 2012 (zirka 100 ms) etwas verlängert, liegen mit zirka 150 ms aber immer noch im tief grünen Bereich:

Damit werden die SLA’s von 99,5% Verfügbarkeit und unter 1 Sekunde Antwortzeit locker erfüllt.

In diesem Jahr wurde auch erstmals ein kompletter Restore der wichtigsten Dienste aus dem Backup auf ein Testsystem durchgeführt. Die MTTR liegt damit aktuell bei zirka 5 Stunden.

Zukünftig ist geplant, die Reports Live zur Verfügung zu stellen. Dazu wird im Moment an einer eigenen Reporting Software für Nagios geschrieben. Einen ersten Ausblick findet man in folgendem Screenshot:

Sobald die Software ausgereift ist, wird sie als Open Source veröffentlicht und mit Anbindung an die Nagios Datenbank zur Verfügung gestellt.

Nagios Monitor mit einem Raspberry Pi

In kritischen IT Umgebungen ist ein lückenloses Monitoring Pflicht. In der Regel kommt dabei Nagios, oder Icinga zum Einsatz.

Reichen E-Mail, SMS und iOS Push Benachrichtigung nicht mehr aus, kann als zusätzlicher Schutz oder Informatiosquelle, ein großer LED TV helfen, der die Weboberfläche im Büro oder einer Werkhalle anzeigt.

Die Weboberfläche wird über einen Raspberry Pi dargestellt. Der Einplatinen-Computer ist inklusive Netzteil, Gehäuse und SD-Karte für zirka 65€ zu haben und benötigt inklusive WLAN-Adapter unter 4 Watt.

Ein kurzer Wiki Artikel beschreibt die Einrichtung:

Mit ein wenig mehr Aufwand können auch individuelle Dashboard und Ansichten von verschiedenen Anwendungen dargestellt werden.

Service Level Report 2012

Die Auswertung der Verfügbarkeit im Jahr 2012 mit Nagios zeigt ein tolles Ergebnis:

99,954%!

Bildschirmfoto 2013-01-01 um 15.26.15

Die Antwortzeiten lassen auch keine Wünsche offen. Hier z.B der Apache Webserver:

apache_accesses-year

Die durchschnittliche Antwortzeit liegt damit bei 99,46 Millisekunden.

Für einzelne Services sind die Werte etwas schlechter, liegen aber immer über 99,5% Verfügbarkeit und 1 Sekunde Antwortzeit. Damit werden alle SLA’s erfüllt und die Messlatte für 2013 hoch gelegt.

Für 2013 werde ich zusätzlich zur Verfügbarkeit und Antwortzeit auch die maximale Dauer zur Wiederherstellung in Angriff nehmen. Dazu werde ich einmal pro Quartal das gesamte System in der Amazon EC2 Cloud aus dem letzten Backup wiederherstellen und die Dauer bis zum funktionsfähigen Betrieb der wichtigsten Services messen und das Ergebnis hier veröffentlichen. Bisher war das zum Glück noch nicht notwendig, im Fall der Fälle, ist man dann aber geübt und kommt schneller zum Ziel.