Service Level und Status Seite

Die Service Level wurden überarbeitet und für alle Pakete vereinheitlicht:

In diesem Zuge kann man nun auch über Extras die Änderungshistorie einsehen.

Die Auswertung der Service Level wurde automatisiert und steht unter folgender URL zur Verfügung:

Hier können geplante Wartungen, die letzten Ausfälle und die Verfügbarkeiten eigesehen werden. Über die Seite kann man sich auch am Newsletter anmelden und wird über alle Ereignisse informiert.

Ausfall des Root-Server

Am Samstag den 05.07.2014 um 06:48 Uhr ist der Root-Server und damit alle verbundenen Dienste ausgefallen. Das System wurde durch einen manuellen Reset eines RZ-Mitarbeiters wieder gestartet. Danach wurden alle Dateisysteme und Datenbanken auf Konsistenz geprüft. Ab 12:08 Uhr standen wieder alle Dienste wie gewohnt zur Verfügung.

Der gesamte Ausfall hat 5 Stunde und 22 Minuten gedauert. Die Verfügbarkeit für das Jahr 2014 sinkt damit auf 99,58%. Damit werden die SLA’s noch knapp erreicht.

Die Dauer der Ausfalls wurde durch einen Memtest leider erhöht. Dafür ist nun sicher, dass fehlerhafte Bereiche im Arbeitsspeicher für den Ausfall gesorgt haben. In den nächsten Wochen ist ein Umzug auf neue Hardware geplant, um die Verfügbarkeit wieder zu erhöhen.

Service Level Report 2013

Die Auswertung der Verfügbarkeit im Jahr 2013 mit Nagios zeigt folgendes Ergebnis:

99,94%

Die Verfügbarkeit wird für das Gesamtsystem und die wichtigsten Dienste gemessen (DNS, SMTP, HTTP, IMAP). Hier eine Übersicht der einzelnen Dienste:

Die Antwortzeiten des Apache Webserver haben sich im Gegensatz zu 2012 (zirka 100 ms) etwas verlängert, liegen mit zirka 150 ms aber immer noch im tief grünen Bereich:

Damit werden die SLA’s von 99,5% Verfügbarkeit und unter 1 Sekunde Antwortzeit locker erfüllt.

In diesem Jahr wurde auch erstmals ein kompletter Restore der wichtigsten Dienste aus dem Backup auf ein Testsystem durchgeführt. Die MTTR liegt damit aktuell bei zirka 5 Stunden.

Zukünftig ist geplant, die Reports Live zur Verfügung zu stellen. Dazu wird im Moment an einer eigenen Reporting Software für Nagios geschrieben. Einen ersten Ausblick findet man in folgendem Screenshot:

Sobald die Software ausgereift ist, wird sie als Open Source veröffentlicht und mit Anbindung an die Nagios Datenbank zur Verfügung gestellt.