Störung: Netzwerkausfall während Wartungsarbeiten (Software-Upgrade an Routern im GÖNET und im Rechenzentrum am 06.10.2016 ab 17:00 Uhr)

Meldungsnummer: 201610061606 
Zeitraum: 06.10.2016, 18:08 Uhr – 18:13 Uhr
Betroffen: Rechenzentrumsrouter rz-sub1 und Rechenzentrumsnetze
Auswirkungen: Ausfall des Routers und Ausfall der Rechenzentrumsnetze (Zugriffe von außen und innerhalb der Rechenzentrumsnetze) im obigen Zeitraum.

Zeitraum: 06.10.2016, 19:13 Uhr – 19:20 Uhr
Betroffen: GÖNET-Router xr-physio1 und daran angeschlossenen Netze
Auswirkungen: Ausfall des Routers und Ausfall aller Verbindungen über diesen Router (Bereich südlich des Universitätsklinikums und östlich der Goßlerstraße sowie Sportinstitut) im obigen Zeitraum.

Während des kurzfristig angekündigten Upgrades von GÖNET- und Rechenzentrums-Routern wegen Einspielen von Sicherheitspatches ist es leider zu Störungen gekommen.

Hintergrund:

Die Upgrade liefen leider nicht so problemlos wie vom Hersteller versprochen (und an einem Testsystem erfolgreich ausprobiert). Störungen sind nur an diesen beiden Routern aufgetreten, weil der Upgrade der anderen Router wegen dieser Störungen gar nicht mehr versucht wurde.

Die Upgrades der Router xr-physio1 und rz-sub1 haben leider zu einem Reboot aller „Linecards“ (der Module, auf denen die eigentlichen Anschlüsse stecken) geführt. Dadurch waren diese beiden Router aus Nutzersicht praktisch komplett für 5-10 Minuten ausgefallen.

Die Störung an rz-sub1 hatte aus bisher nicht geklärten Gründen Rückwirkungen auf den zweiten Rechenzentrumsrouter (rz-gwdg1). Der Betrieb der Rechenzentrumsnetz hätte eigentlich beim Ausfall von rz-sub1 ohne Unterbrechung weiterlaufen müssen. rz-gwdg1 hat jedoch auf unvorhergesehene Weise reagiert und die eigentlich funktionsfähigen Verbindungen in die Rechenzentrumsnetze nach bisherigen Untersuchungen abgeschaltet.

Die Störung an xr-physio1 trat erst spät auf, weil während des Upgrades dieses Routers weitere Probleme auftraten und dadurch der Schritt, der zum Reboot der Linecard führte, mit Verzögerung stattfand.

Für die weitere Untersuchung von Ursachen und das weitere Vorgehen bzgl. der Upgrades wurde bereits unser Servivepartner eingeschaltet.

Die Störungen im Rechenzentrumsnetz haben die Verfügbarkeit von Diensten der GWDG während der Netzstörung und teilweise darüber hinaus verursacht.

Wir bitten um Entschuldigung für die Beeinträchtigung der Dienste.