Information: State of Shared Windows Drives

Message-Id: 201612150955
Time:  2016Q4
Affected: users of shared drives
Impact: temporary access problems

The shared Windows drives are a strongly demanded resources by our customers and thus an important service offered by the GWDG. With approximately 400 TB in total, the shared drives are by now mostly migrated into the StorNext environment. StorNext is a storage area network file system; data are stored in RAID systems at our computing centre and are accessible via multiple File-Servers in parallel. The management of data is carried out by the so-called meta-data controllers. While the environment is complex, it was built with redundancy in mind in order to increase availability.

Unfortunately within the last weeks we experienced several service failures:

  • 24.11-25.11.2016: Service maintenance due to StorNext upgrade
  • 28.11.2016: Unexpected failure due to rectification works on the previous upgrade.
  • 09.12.2016: Fatal failure of one our RAID systems that affected data accessibility  and service performance.

In addition, the service experienced various failures at irregular points in time because network shares and access control rights on the file servers were not accessible due to network connectivity flaws to the meta-data controllers. We also noticed problems when storing Excel-2016 files.

The following measures were engaged so far:

  • Network shares now verified automatically at regular points in time.
  • The shared drives of the faculties have been distributed on several file servers.

We are currently monitoring this service with great care and we are prepared to  engage counteractive measures to improve on short notice. We apologize for the service failures and resulting drawbacks and consequences for all our users of this service.

Information: Stand der Windows-Gruppenlaufwerke

[sc name=“head_betriebsmeldungen_de“ meldungsnummer=“201612150955″ zeitraum=“2016Q4″ betroffen=“Nutzer der Gruppenlaufwerke“ auswirkungen=“temporäre Zugriffsprobleme“ ]

Die Windows-Gruppenlaufwerke sind eine stark nachgefragte Ressource und eine wichtige Dienstleistung der GWDG. Mit ca. 400 TB Datenbestand insgesamt sind fast alle Gruppenlaufwerke mittlerweile in die StorNext-Umgebung der GWDG migriert worden. Dabei handelt es sich um Storage-Area-Network-Dateisysteme, bei denen die Daten auf RAID-Systemen im Rechenzentrum abgelegt sind und über mehrere Fileserver parallel verfügbar gemacht werden. Die Verwaltung der Daten erfolgt durch sog. Metadaten-Controller. Die gesamte Umgebung ist einerseits komplex, andererseits aber redundant zur Erhöhung der Verfügbarkeit ausgelegt.

Bedauerlicherweise sind in den letzten Wochen vermehrt Betriebsunterbrechungen und Störungen aufgetreten:

  • 24.11.-25.11.2016: Wartungsarbeiten aufgrund eines StorNext-Upgrades
  • 28.11.2016: Unerwartete Störung durch Nacharbeiten zum Upgrade
  • 09.12.2016: Totalausfall eines RAID-Systems mit Auswirkungen auf Datenverfügbarkeit und Zugriffsgeschwindigkeit

Zusätzlich traten in den letzten Wochen unregelmäßig und leider nicht selten Störungen auf, weil Freigaben oder Zugriffsrechte auf den Fileservern aufgrund von Kommunikationsstörungen zu den Metadaten-Controllern temporär nicht verfügbar waren. Auch wurden Probleme mit der Speicherung von Excel-2016-Dateien beobachtet.

Folgende Maßnahmen wurden bislang ergriffen:

  • Die Freigaben werden jetzt automatisiert regelmäßig überprüft und erneuert.
  • Die Gruppenlaufwerke der Fakultäten wurden auf mehr Fileserver verteilt

Wir werden die Gruppenlaufwerke weiter sorgfältig beobachten und sind sehr bemüht, die Situation kurzfristig deutlich zu verbessern. Wir bedauern die Störungen und die spürbaren Nachteile für alle Nutzerinnen und Nutzer des Dienstes.