Vom 13. bis 17. Dezember 2021 fand die erste HPC-Workshop-Woche, organisiert von Mitgliedern der GWDG-Arbeitsgruppe „Computing“ (AG C), statt. Mitarbeiter*innen und Externe referierten und diskutierten hierbei über verschiedene HPC-Themen in den Workshops „NHR-Container”, „HPC Certification for the German HPC Community”, „Security” und „Data Lakes“
Die erste HPC-Workshop-Woche fand vom 13. – 17.12.2021aufgrund der geltenden Corona-Bestimmungen in einem virtuellen Rahmen statt. Vier Workshops gaben Expert*innen die Möglichkeit, über verschiedene aktuelle High-Performance-Computing(HPC)-Themen zu referieren und zu diskutieren. Während die Workshops „Data Lakes” und „NHR Container” aus laufenden Projekten heraus organisiert wurden, konnte der Workshop „HPC Certification for the German HPC Community” zusammen mit der TU Dresden im Rahmen des HPC Certification Forums organisiert werden. Der Workshop „Security” wiederum richtete sich explizit an Administrator*innen von Rechenzentren, um hier einen regen Austausch zwischen den Zentren zu ermöglichen. Gleichzeitig waren die Workshops für alle Interessenten geöffnet. So waren am Ende insgesamt mehr als 150 Teilnehmer*innen aus dem HLRN, dem NHR, den Projekten und Weitere an den Workshops beteiligt, was für die erste Ausgabe der Workshop-Woche einen großen Erfolg bedeutete. Da alle Workshops online stattfanden und auch zukünftig viele GWDG-Workshops im Online-Format zu erwarten sind, wurde ein dedizierter Big Blue Button(BBB)-Raum aus dem Serviceportfolio der GWDG eingerichtet. Nähere Informationen zur Organisation finden sich am Ende des Artikels.
Workshop „NHR Container“
Den Start in die Workshop-Woche machte der “NHR Container Workshop” am Montag, 13. Dezember 2021, ab 13 Uhr, welcher von Azat Khuziyakhmetov organisiert wurde. In diesem Workshop ging es um die Problemstellung, dass die Installation und Konfiguration von Anwendungen auf HPC Systemen stark von der tatsächlich vorhandenen Soft- und Hardwareumgebung abhängt. Die Abhängigkeit von Betriebssystemversion, Bibliotheken, Modulen, z.T. sogar von dem vorhandenen Netzwerk oder den CPU-Architekturen, verkompliziert die Bereitstellung von Software als auch den Wechsel zwischen verschiedenen Rechenzentren. Das heißt, dass sowohl eine Veränderung im bestehenden System (z.B. Software Update, CPU-Austausch), als auch die Migration in ein anderes Rechenzentrum (z.B. von lokalen oder regionalen Ressourcen auf ein NHR-Zentrum), oftmals mit erheblichem Support-Aufwand verbunden ist.
Einen Ansatz um diese Probleme zu verkleinern verfolgt das NHR-Projekt “Container and Container Management”, aus welchem dieser Workshop entstanden ist. Im Workshop selbst wurden einige bereits bestehende Lösungen präsentiert, Erfahrungen mit Containern im HPC-Umfeld ausgetauscht und zukünftige Verbesserungsansätze diskutiert.
Da dieser Workshop aus einem laufenden Projekt entstand, fanden sich schnell über 60 interessierte Teilnehmer*innen und neun Vorträge. Diese sind auf der Workshopseite verlinkt.
HPC Certification for the German HPC Community
Am Dienstagnachmittag, 14.12.2021, folgte der von Julian Kunkel und Anja Gerbes (ZIH, TU Dresden) gemeinsam organisierte Workshop “HPC Certification for the German HPC Community”. Dieser wurde im Rahmen dies HPC Certification Forum (HPCCF) organisiert. Das HPCCF definiert Kompetenzen (Skills), die HPC-Anwender*innen haben sollten um erfolgreich und effizient HPC-Systeme nutzen zu können. Dabei entwickelt das Forum keine eigenen Trainings(-materialien) sondern unterstützt vielmehr die bestehenden Ausbildungsstätten, um ultimativ ein Zertifizierungsprogramm zur Verfügung zu stellen, dass es ebendiesen ermöglicht ein transparentes und quantifizierbares Programm zu erstellen, das für Nutzer*innen vergleichbar ist.
Das Ziel des Workshops war dabei, die Möglichkeiten der Kollaboration zwischen dem HPCCF und den deutschen Rechenzentren. Das HPCCF unterstützt die HPC-Community und ist gleichermaßen darauf angewiesen, dass das Zertifizierungsprogramm von der gesamten HPC-Community ge- und unterstützt wird. Entsprechend waren alle an der HPC-Lehre und den HPC-Trainings interessierte als Teilnehmer*innen willkommen.
Insgesamt nahmen an diesem Workshop 20 Interessierte teil und trugen zu der wertvollen Diskussion bei. Dabei zeigte sich, dass einige Rechenzentren bereits standardmäßig HPCCF Skills bei Ihren Kursbeschreibungen angeben. Wir arbeiten bei der GWDG darauf hin, ebenfalls die Kompetenzen und Lernziele der einzelnen Kurse genau zu spezifizieren. Außerdem wurde die gemeinsame Erstellung eines Standards und einer Schnittstelle (z.B. REST), die für den Austausch von Trainingsinformationen genutzt werden kann, angeregt. So können Trainings von allen Anbietern (z.B. Gauß-Allianz, NHR, PRACE) wirklich transparent verglichen werden, da bei allen die gleichen Informationen angegeben werden, und gleichzeitig wird der Informationsfluss zwischen den Institutionen vereinfacht.
Auch dieser Workshop wurde aufgezeichnet und die Folien der Vorträge sowie die Videos sind auf der Workshopseite verlinkt.
Security Workshop
Am Donnerstag, 16.12.2021, folgte der von Tim Ehlers und Vanessa End organisierte “Security Workshop”. In diesem Workshop ging es um Sicherheitsfragen rund um den Clusterbetrieb. Erfahrungen mit Einbrüchen, Umgang mit Sicherheitsupdates, Design von Sicherheitsbarrieren, Konfiguration der Systeme um einerseits den Einbruch zu verhindern oder zumindest zu erschweren und andererseits Forensik zu ermöglichen, denn alle Rechenzentren haben ein gemeinsames Problem: Hacker schaffen es immer wieder eine legale Userid zu ergattern. Bei HPC Zentren ist das besonders problematisch, da sie jedem Nutzer den Zugang auf Login-Maschinen gewähren, über die sie zum einen verwundbar werden durch mögliche Lücken auf diesen Maschinen und zum anderen der Nutzer von dort Zugang zum gesamten Cluster bekommt.
Dieser Workshop wurde von ca. 25 Teilnehmer*innen besucht, die sich über bestehende Sicherheitskonzete, bekannte (und bereits ausgenutzte) Sicherheitslücken und aktuelle Probleme austauschten. Durch die Vorträge wurde das Sicherheitsbewusstsein im Rahmen des Logins von Admins und Usern sowie im Umgang mit Containern auf HPC-Systemen geschärft. Die Live-Demonstration von Konsequenzen bestimmter Konfigurationen und der Bericht über einen echten Einbruch haben die Notwendigkeit der Maßnahmen nochmals hervorgehoben. Im Rahmen dieses Vortrags wurden auch Konfigurationen, die die Forensik nach einem Einbruch erleichtern, und Forensiktools, die Admins im normalen Alltag nciht nutzen, in der Community geteilt und bekannt gemacht. Insgesamt hat der rege Austausch zu einer Stärkung der Community geführt. Auch hier sind die Folien der Vorträge auf der Workshopseite zu finden.
Data Lakes
Der Data Lakes Workshop bildete am Freitagnachmittag den Abschluss der GWDG Workshop-Woche. Er richtete sich gleichermaßen an Forschende sowie an Administrator*innen, um sich über die Pläne und vorhandenen Services im Bereich der High-Performance Data Analytics, Big Data Analytics, und allgemein zu wissenschaftlichem Datenmanagement auszutauschen.
Kern der Problematik liegt darin, dass durch verbesserte Messsysteme von Wissenschaftler*innen in kürzester Zeit eine enorme Menge an Daten aufgenommen werden können. Diese Daten gilt es einerseits kosteneffizient zu speichern, sie aber auch zur Verarbeitung auf lokalen HPC-Systemen zur Verfügung zu stellen. Zusätzlich sollen diese Daten ptimalerweise noch in Cloudumgebungen verfügbar sein, da spezielle Hardware, wie GPUs (Graphikprozessoren) oder TPUs (Tensorprozessoren), dort oftmals früher als im lokalen Rechenzentrum nutzbar sind. Die flexible Migration und Bereitstellung der Daten im sogenannten “Data Lake” spielt eine Schlüsselrolle in der Datenanalyse, da sich die Daten für die Nutzer*innen in einer konsistenten und einheitlichen Darstellung zeigen.
Während der angeregten Diskussionen zu den Vorträgen, wurde insbesondere die Organisation der Metadaten besprochen. Hierzu wurde in der Use Case Präsentation von Mark Greiner die Wichtigkeit dargestellt, dass diese Unabhängig von den gesammelten Daten einer übergeordnenten Governance folgen muss. Ziel dabei ist es, ein integriertes Forschungsdatenmanagement Institutsweit zur Verfügung zu stellen, in welchem die Daten und Prozesse der einzelnen Arbeitsgruppen standardisiert gemanaged werden. Hierdurch werden Analysen möglich, bzw. vereinfacht die sich mehrerer, ansonsten isolierter Datenquellen bedienen. Zwei verschiedene Vorschläge eines solchen Metadatenmanagements wurden danach von Hendrik Nolte und Alfred Schlaucher vorgestellt. Diese wurden durch Diskussionen zur praktischen Umsetzung begleitet. Andreas Knüpfer hatte in seinem Vortrag nicht nur das generelle Wachstum der Forschungsdaten beschrieben, sondern ist insbesondere auf die Problematik der Datenduplizierung eingegangen.
Auch für diesen Workshop befinden sich die Folien, soweit verfügbar, auf der Workshopseite.
Organisation
Wie eingangs erwähnt, werden hier noch weitere Details zur Organisation des Workshops ausgeführt. In dem dedizierten BBB-Workshopraum hat ein festes Team alle Rechte, während alle weiteren Teilnehmer*innen ohne erweiterte Rechte den Raum betreten. Den Vortragenden wurde dann von einem Mitglied des Moderattionsteams jeweils die Präsentationsrechte gegeben. Um einen durchgehenden Austausch zu ermöglichen, konnten Teilnehmer*innen während der Vorträge aufkommende Fragen in den Chat schreiben, die dann vom Moderationsteam gesammelt und am Ende des Vortrags besprochen wurden.
Die Vortragenden hatten vorab die Möglichkeit den Vortrag bzw. die entsprechenden Einstellungen zu testen. Hierfür wurden zwei Termine zur Verfügung gestellt, in denen jeweils ein*e Moderator*in der GWDG online war und die Vortragenden sich dazu schalten konnten. Dieses Angebot wurde von einigen Vortragenden dankend angenommen und vereinfachte so den Ablauf der einzelnen Workshops. Da keine formelle Registrierung von den Teilnehmer*innen nötig war, haben wir für kurzentschlossene den Link zum BBB-Raum ca eine Stunde vor Beginn auf der Workshopseite gepostet und nach Beginn wieder gelöscht. Dies erschien uns als der praktikablere Weg, als noch kurz vor Beginn des Workshops kurzfristige Anmeldungen zu prüfen.
Die Präsentationen der Workshops wurden datenschutzkonform aufgezeichnet. Dies wurde sowohl vorher angekündigt, als auch die explizite Genehmigung beim Zutritt zum Workshopraum erfragt. Die aufgenommen Vorträge wurden auf den Webseiten der Workshops zur Verfügung gestellt. Die Diskussionen und Vorstellungsrunden sind nicht Bestandteil der Veröffentlichung. Außerdem wurden die Folien der Vorträge – sofern zur Verfügung gestellt – auf den Workshopseiten bereitgestellt.
Nachlese
Insgesamt war die erste GWDG Workshop-Woche ein großer Erfolg. Wir konnten Teilnehmer*innen nicht nur aus bereits bestehenden Projekten und Kooperationen, sondern auch Externe für die Themen interessieren und zusammen bringen.
Die vorbereitenden BBB-Sessions wurden gut angenommen und sollen in Zukunft weiterhin angeboten werden. Ebenso die Entscheidung, einen dedizierten Workshopraum zu erstellen hat sich arbeitserleichternd herausgestellt. Zwei Moderator*innen im Raum zu haben ist insbesondere dann notwendig, wenn eine*r der beiden auch einen Vortrag hält, aber auch sonst nicht von Nachteil. Wir uns darauf, die Workshops ab jetzt auf der von der GWDG neu eingerichteten Indico Plattform organisieren zu können.