Information: About the Power Outages on Saturday, August 20th, 2016

[sc name=“head_betriebsmeldungen_en“ message_id=“201608231758″ time=“Aug 20th 2016, 0:00 a.m. – Aug 21st 2016, 6:00 p.m.“ affected=“all GWDG users“ impact=“alfunction of services“ ]

During the night of Saturday, Aug 20th, 2016, there were power outages due to problems at the substation Göttingen-Weende in several districts of Göttingen and also on the Max Planck Campus in Göttingen-Nikolausberg, which also affected the GWDG. Three power outages in the period 0:07 a.m. to 1:13 a.m., 1:31 a.m. to 1:38 a.m. and 1:38 a.m. to 1:48 a.m. led to problems with and/or harm especially to multiple storage systems, network components and servers. Beside regular uninterruptible power supplies (UPS), the main components are additionally supplied by a diesel generator UPS. Unfortunately for unknown reasons one of three phases failed due to a blown fuse so that parts of these key components failed unexpectedly, too.

Many services of GWDG were affected; most important are, ordered by time of re-commissioning:

Central network components to Aug 20th, 2016, around 8 a.m.
Virtual Server (vSphere) to Aug 20th, 2016, around 10 a.m.
E-mail Service (Exchange) to Aug 20th, 2016, around 10 a.m.
GWDG-Cloud Share and Aleph library system to Aug 20th, 2016, about 1:30 p.m.
Extranet of MPG General Administration to Aug 20th, 2016, about 6 p.m.
FTP server to Aug 21st, 2016, around 12 a.m.
Virtual Web servers to Aug 21st, 2016, about 1 p.m.
File Service (Personal and group drives, UNIX file systems) to Aug 21st, 2016, about 2 p.m.
HPC systems and virtual machines in the GWDG cloud to Aug 21st, 2016, about 2 p.m.

A power failure for more than 10 to 15 minutes can not be compensated by UPS systems, because significant heat problems due to the lack of air conditioning arise. Already the heat input of about 20 kW by the systems supplied by the diesel generator leads to room temperatures about 30 degrees Celsius. The lack of a phase due to the blown fuse led to failed central network components so that connections to the redundancy locations in the telecommunications headquarters and the State and University Library were disturbed and the fail-over of appropriately configured services worked partially only.

The long-term failure of the general storage area (the high-availability storage NetApp Metro Cluster failed over correctly to the SUB site) is caused by the conceptual structure. GWDG operates about 80 storage systems, which are abstracted by virtualization. The file systems are distributed for performance, scaling, and licensing issues across all systems. Five of the 80 systems with a total capacity of about 150 TB of data failed on initialization after the power outages. Repair works lasted until the night hours of Saturday. After subsequent verification of the storage virtualization which was absolutely necessary the storage environment was available again on Sunday about noon. Thereafter, with smaller effort, file servers and file systems and its follow-up services could be put back into operation.

 

Information: Nachlese zu den Stromausfällen am 20.08.2016

[sc name=“head_betriebsmeldungen_de“ meldungsnummer=“201608231723″ zeitraum=“20.08.2016, 0:00 Uhr bis 21.08.2016, 18:00 Uhr“ betroffen=“alle Nutzer der GWDG“ auswirkungen=“Ausfall der Dienste“ ]

In der Nacht zum Samstag, dem 20.08.2016, kam es aufgrund von Problemen im Umspannwerk Göttingen-Weende zu Stromausfällen in mehreren Göttinger Ortsteilen und auf dem Max-Planck-Campus in Göttingen-Nikolausberg, welche auch die GWDG getroffen haben. Drei Stromausfälle in der Zeit von 00:07 bis 01:13 Uhr, 01:31 bis 01:38 Uhr und 01:38 bis 01:48 Uhr führten zu Problemen und/oder Schäden insbesondere bei mehreren Speichersystemen, Netzwerkkomponenten und Servern. Neben regulären unterbrechungsfreien Stromversorgungen (USVs) werden die wichtigsten Komponenten  zusätzlich durch eine mittels Dieselgenerator gestützte USV weiterbetrieben. Leider löste aus unbekannten Gründen die Schmelzsicherung einer von drei Phasen aus, so dass Anteile dieser wichtigsten Komponenten unerwartet ausfielen.

Sehr viele Dienste der GWDG waren betroffen; zu deren wichtigsten gehören in Reihenfolge der Wiederinbetriebnahme:

Zentrale Netzwerkkomponenten bis 20.08.2016 ca. 8 Uhr
Virtuelle Server (vSphere) bis 20.08.2016 ca. 10 Uhr
E-Mail-Service (Exchange) bis 20.08.2016 ca. 10 Uhr
GWDG-CloudShare und Aleph-Bibliothekssystem bis 20.08.2016 ca. 13:30 Uhr
Extranet der MPG-Generalverwaltung bis 20.08.2016 ca. 18 Uhr
FTP-Server bis 21.08.2016 ca. 12 Uhr
Virtuelle Web-Server bis 21.08.2016 ca. 13 Uhr
Fileservice (Persönliche und Gruppenlaufwerke, UNIX-Dateisysteme) bis 21.08.2016 ca. 14 Uhr
HPC-Systeme und virtuelle Maschinen in der GWDG-Cloud bis 21.08.2016 ca. 18 Uhr

Ein Stromausfall über mehr als 10 bis 15 Minuten kann durch USV-Systeme nicht kompensiert werden, weil durch die fehlende Klimatisierung erhebliche Wärmeprobleme auftreten.  Schon der Wärmeeintrag von ca. 20 kW durch die per Dieselgenerator versorgten Systeme führt zu Raumtemperaturen um 30 Grad Celsius. Das Fehlen einer Drehstromphase aufgrund der defekten Schmelzsicherung ließ zentrale Netzwerkkomponenten ausfallen, so dass die Verbindungen zu den Redundanzstandorten in der Fernmeldezentrale und der Staats- und Universitätsbibliothek gestört waren und die Übernahme von entsprechend konfigurierten Diensten nur teilweise funktionierte.

Die langfristige Störung der allgemeinen Speicherumgebung (der hochverfügbare Speicher NetApp-Metrocluster wurde korrekt in der SUB in Betrieb genommen) bedingt sich durch den konzeptionellen Aufbau. Die GWDG betreibt ca. 80 Speichersysteme, die mittels einer Virtualisierung abstrahiert werden. Die Filesysteme verteilen sich aus Leistungs-, Skalierungs und Lizenzgründen über alle Systeme. Fünf der 80 Systeme mit insgesamt ca. 150 TB Daten initialisierten nach den Ausfällen nicht mehr. Die Reparatur-Arbeiten dauerte bis in die Nachtstunden. Nach nachfolgender umbedingt erforderlicher Überprüfung der Speichervirtualisierung stand die zugrundliegende Speicherumgebung Sonntag gegen Mittag den Fileservern wieder zur Verfügung, so dass mit kleineren Arbeiten die Filesysteme und die darauf aufbauenden Services wieder in Betrieb genommen werden konnten.