Information: Nachlese zu den Stromausfällen am 20.08.2016

Meldungsnummer: 201608231723
Zeitraum: 20.08.2016, 0:00 Uhr bis 21.08.2016, 18:00 Uhr
Betroffen: alle Nutzer der GWDG
Auswirkungen: Ausfall der Dienste

In der Nacht zum Samstag, dem 20.08.2016, kam es aufgrund von Problemen im Umspannwerk Göttingen-Weende zu Stromausfällen in mehreren Göttinger Ortsteilen und auf dem Max-Planck-Campus in Göttingen-Nikolausberg, welche auch die GWDG getroffen haben. Drei Stromausfälle in der Zeit von 00:07 bis 01:13 Uhr, 01:31 bis 01:38 Uhr und 01:38 bis 01:48 Uhr führten zu Problemen und/oder Schäden insbesondere bei mehreren Speichersystemen, Netzwerkkomponenten und Servern. Neben regulären unterbrechungsfreien Stromversorgungen (USVs) werden die wichtigsten Komponenten  zusätzlich durch eine mittels Dieselgenerator gestützte USV weiterbetrieben. Leider löste aus unbekannten Gründen die Schmelzsicherung einer von drei Phasen aus, so dass Anteile dieser wichtigsten Komponenten unerwartet ausfielen.

Sehr viele Dienste der GWDG waren betroffen; zu deren wichtigsten gehören in Reihenfolge der Wiederinbetriebnahme:

Zentrale Netzwerkkomponenten bis 20.08.2016 ca. 8 Uhr
Virtuelle Server (vSphere) bis 20.08.2016 ca. 10 Uhr
E-Mail-Service (Exchange) bis 20.08.2016 ca. 10 Uhr
GWDG-CloudShare und Aleph-Bibliothekssystem bis 20.08.2016 ca. 13:30 Uhr
Extranet der MPG-Generalverwaltung bis 20.08.2016 ca. 18 Uhr
FTP-Server bis 21.08.2016 ca. 12 Uhr
Virtuelle Web-Server bis 21.08.2016 ca. 13 Uhr
Fileservice (Persönliche und Gruppenlaufwerke, UNIX-Dateisysteme) bis 21.08.2016 ca. 14 Uhr
HPC-Systeme und virtuelle Maschinen in der GWDG-Cloud bis 21.08.2016 ca. 18 Uhr

Ein Stromausfall über mehr als 10 bis 15 Minuten kann durch USV-Systeme nicht kompensiert werden, weil durch die fehlende Klimatisierung erhebliche Wärmeprobleme auftreten.  Schon der Wärmeeintrag von ca. 20 kW durch die per Dieselgenerator versorgten Systeme führt zu Raumtemperaturen um 30 Grad Celsius. Das Fehlen einer Drehstromphase aufgrund der defekten Schmelzsicherung ließ zentrale Netzwerkkomponenten ausfallen, so dass die Verbindungen zu den Redundanzstandorten in der Fernmeldezentrale und der Staats- und Universitätsbibliothek gestört waren und die Übernahme von entsprechend konfigurierten Diensten nur teilweise funktionierte.

Die langfristige Störung der allgemeinen Speicherumgebung (der hochverfügbare Speicher NetApp-Metrocluster wurde korrekt in der SUB in Betrieb genommen) bedingt sich durch den konzeptionellen Aufbau. Die GWDG betreibt ca. 80 Speichersysteme, die mittels einer Virtualisierung abstrahiert werden. Die Filesysteme verteilen sich aus Leistungs-, Skalierungs und Lizenzgründen über alle Systeme. Fünf der 80 Systeme mit insgesamt ca. 150 TB Daten initialisierten nach den Ausfällen nicht mehr. Die Reparatur-Arbeiten dauerte bis in die Nachtstunden. Nach nachfolgender umbedingt erforderlicher Überprüfung der Speichervirtualisierung stand die zugrundliegende Speicherumgebung Sonntag gegen Mittag den Fileservern wieder zur Verfügung, so dass mit kleineren Arbeiten die Filesysteme und die darauf aufbauenden Services wieder in Betrieb genommen werden konnten.