Archivierung

Nutzung des Archivsystems HSM bei der GWDG

Sie können die Dateien eines abgeschlossenen Projektes oder große Datensammlungen, die nur selten oder erst viel später wieder genutzt werden sollen, auf kostengünstigen Speicher dauerhaft auslagern. Dann wird der durch Disk Quotas begrenzte Massenspeicher durch die große Datenmenge nicht belastet. Hierzu betreibt die GWDG ein Hierarchical-Storage-System (HSM); es umfasst einen Plattenspeicher und ein Kassetten-Robotsystem. Der Plattenspeicher dient als Cache und damit der Zwischenablage archivierter Dateien: Ins Archiv verschobene Dateien werden zunächst im Cache gespeichert und automatisch an zwei redundanten Standorten auf Kassetten kopiert. Die Verweildauer einer Datei im Cache hängt von ihrer Größe und dem Füllungsgrad des Caches ab.

Jedem Benutzer-Account ist ein persönliches Archiv zugeordnet, das sowohl unter Windows als auch unter UNIX/Linux verwendet werden kann. Mit Hilfe spezieller Speicherverwaltungssoftware ist ein gewohnter Zugriff auf die im Archiv befindlichen Dateien realisiert. Bis auf längere Zugriffszeiten (einige Minuten) bleibt dem Nutzer verborgen, dass es sich bei dem verwendeten Speichermedium letztendlich um Bandkassetten handelt.

Benutzung unter Windows

Jedem Windows-Nutzer mit einem GWDG-Account steht ein Netzlaufwerk-Ordner \\winfs-hsm.top.gwdg.de\Username-hsm$ als Archivspeicher zur Verfügung; für den Nutzer mit dem Nutzernamen umeier also \\winfs-hsm.top.gwdg.de\umeier-hsm$.

Der Netzwerkpfad kann im Explorer unter Extras → Netzlaufwerk verbinden… als Ordner angegeben werden, um ihn als Laufwerk (z.B. mit dem Buchstaben H:) anzusprechen. Jetzt kann das Archiv als normales Laufwerk genutzt werden, um Ordner und Dateien abzulegen.

Generell wird empfohlen, Ordner vor dem Verschieben ins Archiv als ZIP-Datei zu packen; im Explorer durch Datei → Senden an → Zip-komprimierter Ordner.

Dadurch wird gewährleistet, dass die zusammengehörenden Dateien nicht auf mehrere Bandkassetten verteilt werden, so dass beim Zurückholen des Ordners das Robotsystem nur eine Bandkassette laden muss.

Benutzung unter UNIX/Linux

Jedem Nutzer des Unix-Clusters steht unter dem Directory /usr/users/a/Username für den Nutzer mit dem Nutzernamen umeier also unter /usr/users/a/umeier Archivspeicher zur Verfügung, der wie ein UNIX-Directory benutzt werden kann. Die Umgebungsvariable AHOME „zeigt“ auf dieses persönliche Archiv.

Generell wird empfohlen, Directories vor dem Verschieben ins Archiv zu komprimieren (als tar-Datei). Beispiel: Der Nutzer mit dem Usernamen umeier möchte die in dem Unterverzeichnis daten seines Homedirectory gespeicherten Dateien archivieren. Dazu gibt er die folgende Kommandofolge ein:

cd   
tar –czvf $AHOME/daten.tgz daten''

In seinem Archiv-Homedirectory (/usr/users/a/umeier) befindet sich nun die Datei daten.tgz. Die relative Pfadangabe daten sorgt dafür, dass eine spätere Restaurierung an beliebiger Stelle möglich ist. Die Restaurierung des Directory daten mit allen Dateien erfolgt später z.B. im persönlichen temporären Homedirectory durch die Kommandofolge:

cd  $THOME 
tar –xzvf $AHOME/daten.tgz

Die Dateien befinden sich nun im Unterverzeichnis daten des temporären Homedirectory. Diese Restaurierung kann je nach Belastung des Systems lange dauern, wenn die Datei nur noch auf Kassette vorliegt.

Hinweis zum sinnvollen Umgang mit dem Archiv

Die meisten Probleme im HSM-System der GWDG werden immer wieder dadurch verursacht, dass zu viele kleine Dateien gespeichert werden, anstatt sie vorher geeignet in großen Containern (tar, ZIP) zusammenzufassen. Das Problem entsteht erst bei der automatischen Migration der Dateien aus dem Disk-Cache auf Magnetbandkassetten: Die einzelnen Dateien werden unabhängig voneinander (aus der Sicht des Benutzers zusammenhangslos) auf verschiedene Kassetten geschrieben.

Beim späteren Leseversuch dieser archivierten Dateien muss dann im schlechtesten Fall auf jede einzelne Datei mehrere Minuten gewartet werden, da der Bandroboter für jede einzelne Datei eine andere Kassette laden, spulen und lesen muss. Es lässt sich leicht überschlagen, dass das Rückholen von tausend Dateien bereits länger als einen Tag dauern kann. Während dieser Zeit wäre der Roboter ausschließlich mit dieser (aus Benutzersicht einen zusammenhängenden) Operation beschäftigt, die in Wahrheit aber aus tausend einzelnen, jeweils langwierigen, weil mechanischen Operationen besteht.

Es wird daher im Interesse aller Beteiligten daran appelliert, nicht etwa ganze Dateibäume oder Dateigruppen ins Archiv zu kopieren. Dateibäume oder -gruppen müssen vorher mit ZIP (unter UNIX/Linux mit tar) zu einem Container zusammengefasst werden, und dieser kann dann bedenkenlos dem Archiv übergeben werden.

Bei Fragen zu diesem Thema wenden Sie sich bitte an unsere Service-Hotline (E-Mail: support@gwdg.de; Telefon: 0551 201-1523).