Update: Fileservice gwdu05

Message-ID: 201604220930
Time:  since 21.04.2016, 16:00 Uhr
Affected: HPC cluster, users on gwdu05
Impact: partial access failures on homedirectories of HPC users

The troubleshooting of the filesystem UNI05 is progressing, but will most probably take until Monday. About 190 of the 585 HPC users and functional accounts are affected by this issue.

Due to a software error, increasing the capacity of the filesystem failed. By analyzing the issue so far, partial inconsistencies within the filesystem were detected. Yesterday at around 4:00 pm the system began to disable any access to protect the data.

For fully resolving the failure, a full filesystem check is advised by the manufacturer which are expected to be finished on the course of the weekend. After that, final checks will be performed and the storage increased. If everything runs as expected, the filesystem will be back at full service on Monday.

We are very sorry for this inconvenience and apologize for being vague on providing a specific time for the repair – due to the very complex directory structure of the filesystem, we can only estimate the required time for the checks.

Aktualisierung: Fileservice gwdu05

Meldungsnummer:  201604220930
Zeitraum: seit 21.04.2016, 16:00 Uhr
Betroffen: Parallelrechner, Benutzer von gwdu05
Auswirkungen: teilweise Ausfälle der Homedirectory von Benutzern der Parallelrechner

Die Störungsbeseitigung am Filesystem UNI05 schreitet voran, wird sich jedoch noch bis voraussichtlich Montag hinziehen. Vom Ausfall betroffen sind die Homeverzeichnisse von ca. 190 von 585 regulären HPC-Benutzern und Funktionsaccounts.

Aufgrund eines Fehlers in der Software ist eine durchgeführte Filesystemvergrößerung insoweit fehlgeschlagen, als dass das Filesystem UNI05 im HPC-Cluster nicht zugreifbar war. Für weitere Systeme (Dialog- und Login-Systeme, vor allem die auch in der Betriebsmeldung genannte gwdu05) funktionierte alles fehlerfrei. Diese Teilstörung konnte durch Entfernung des zugefügten neuen Speicherbereichs direkt korrigiert werden. Nachfolgend zeigten sich jedoch erneute Zugriffsprobleme einzelner Klienten. Aus der inzwischen durchgeführten Analyse wurde ersichtlich, dass es bei der Teilstörung zur Inkonsistenz des Filesystems gekommen ist und das System bereits gestern gegen 16:00 Uhr begann, zum Schutz der Daten entsprechende Zugriffe auf genau diese Bereiche zu unterbinden. Für die Reparatur sieht der Hersteller zwingend einen vollständigen Filesystem-Check vor, der voraussichtlich erst im Laufe des Wochenendes abgeschlossen sein wird. Anschließend müssen noch Funktionstests durchgeführt und die Filesystemvergrößerungen wiederholt werden. Dies wird ebenfalls mehrere Stunden in Anspruch nehmen. Sofern dies erfolgreich verläuft, wird das Filesystem voraussichtlich im Laufe des Montags wieder zur Verfügung gestellt.

Wir bitten die Störung zu entschuldigen und bitten um Verständnis, dass die Zeit für die Reparatur nur sehr unkonkret angegeben werden kann. Die Laufzeiten der Prüfungen hängen mit der sehr komplexen Verzeichnisstruktur zusammen.