Aktualisierung: Probleme im GÖNET

Meldungsnummer: 201601281340
Zeitraum: ab 25.01.2016, speziell 28.01.2016, 13:22 Uhr – 28.01.2016, 13:38 Uhr
Betroffen: Allgemein Dienste im Rechenzentrum, speziell am 28.01. Vweb-Server und Storage-System, dadurch auch u.a. Aleph und Cloud Share
Auswirkungen: Sporadische Verzögerungen beim Zugriff auf Dienste der GWDG, am 28.01. für ca. 15 Minuten Totalausfall der Zugriffe auf die Vweb-Server und einige Storage-Server der GWDG und durch die ausgefallenen Storage-Systeme auch Ausfall der Aleph-Bibliotheksserver und des Cloud-Share-Dienstes.

Hintergrund:

Seit Montag, dem 25.01., treten sporadisch diffuse Verzögerungen oder Aussetzer beim Zugriff auf Server der GWDG auf. Weil viele verschiedene Systeme betroffen scheinen, wird das Problem im Datennetz vermutet. Die Verteilung auf verschiedene Systeme und das kurzfristige Auftreten erschweren leider die Suche der eigentlichen Ursache der Probleme.

Derzeit wird die redundate Verbindung zwischen den Rechenzentrums-Routern an den Standorten GWDG und SUB mit den GÖNET-Routern an den Standorten GWDG und FMZ als Problemursache vermutet.

Beim Versuch, die Komplexität im Netzwerkaufbau durch Außerbetriebnahme des Rechenzentrums-Routers im Redundanz-Rechenzentrum SUB zu reduzieren, war es am 28.01. um 13:22 Uhr zu einem Totalausfall der Netzwerkverbindung zu einzelnen Bereichen im Rechenzentrum gekommen. Ursache dafür war nach bisherigen Untersuchungen ein Softwarefehler in der Router-Software des Herstellers, der unter den im Netz der GWDG gegebenen Umständen zu einer fehlerhaften Abschaltung von Verbindungen führen kann. Der Fehler konnte behoben werden, indem der redundante Router wieder zugeschaltet wurde.

Am Freitagnachmittag (29.01.) und am Montagmorgen (01.02.) wurde die obengenannte Komplexität auf anderem, den Softwarefehler umgehenden Weg reduziert. Der erste Schritt am Freitag scheint keine wesentliche Verbesserung des Gesamtzustands erreicht zu haben. Die Änderung am Montagmorgen scheint zu einer Verbesserung geführt zu haben. Die Situation wird aber weiterhin beobachtet.

Etwaige Unannehmlichkeiten, die durch diese Störung entstehen, bitten wir zu entschuldigen.

Kategorien

Archive

--