„Sofja“ – das neue HPC-Cluster des CIDBN

Am 1. März 2023 wurde das neue HPC-Cluster des Göttingen Campus Instituts für Dynamik biologischer Netzwerke (CIDBN) unter dem Namen „Sofja“ in Betrieb genommen. Neben den obligatorischen auf Performance fokussierten Benchmarks wurden im Rahmen der Ausschreibung zusätzlich eine Reihe von Nachhaltigkeitsaspekten explizit einbezogen. Das HPC-Cluster – ein weiteres von der GWDG gehostetes System – wird über seine Laufzeit mit Strom ausschließlich regenerativen Ursprungs betrieben.

DAS CIDBN 

Über das Institut

Das Göttingen Campus Institut für Dynamik biologischer Netzwerke (CIDBN) [1] ist eine zentrale wissenschaftliche Einrichtung der Georg-August-Universität Göttingen, die gemeinsam von der Universität und der Universitätsmedizin sowie dem Max-Planck-Institut für Dynamik und Selbstorganisation getragen wird, mit Beteiligung der Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG) und des Deutschen Primatenzentrums (DPZ).

Zu den Aufgaben des CIDBN gehört es [2], die theoriegeleitete Erforschung der Dynamik biologischer Netzwerke voranzutreiben und neue Forschungsstrategien zu entwickeln, die computergestützte, mathematische und experimentelle Ansätze integrieren, und diese schließlich durch transdisziplinäre Forschungsprojekte am Göttingen Campus und darüber hinaus zu etablieren. Sein Ziel ist es, damit einen Grundstein für die Expansion der Simulations- und Datenwissenschaft am Göttingen Campus zu legen und die Nachwuchsförderung im Bereich der interdisziplinären Erforschung biologischer Netzwerke zu unterstützen.

HPC im CIDBN

Die Inbetriebnahme des CIDBN-eigenen HPC-Clusters stellt sicher, dass die für die Forschung des Instituts nötigen Simulationen, Berechnungen und Auswertungen experimenteller Daten durchgeführt werden können. Darüber hinaus ermöglicht das HPC-Cluster die Weiterentwicklung der verwendeten Algorithmen, Codepflege, Performanceoptimierung und Parallelisierung inklusive nötiger Skalierungstests unter Realbedingungen und lässt dabei eine Priorisierung gegenüber anderen Routineberechnungen zu. Ziel ist sowohl die effizientere Nutzung der Rechnerressourcen in Produktionsläufen, als auch die Vorbereitung für Projekte auf größeren Rechnern wie den NHR-Systemen „Emmy“ und „Grete“. Für die kommenden Jahre bildet das HPC-Cluster somit die Basis für die Fortentwicklung des High-Performance Computing (HPC) im CIDBN.

DAS HPC-CLUSTER

Überblick

Der Auftrag für das Cluster wurde an die Firma SVA System Vertrieb Alexander GmbH vergeben, die einen Aufbau aus Server- und Storagesystemen der Firma Dell mit AMD-Prozessoren angeboten hat. Es handelt sich dabei um

  • 2 Zugangsknoten
  • 30 Compute-Knoten (insgesamt 840 Cores)
  • Mellanox HDR100-InfiniBand-Netzwerk
  • Mehr als 500 TiB lokaler Storage für ein BeeGFS-Scratchdateisystem, davon mehr als 100 TiB als NVMe

Technische Details

Die leistungsstarken Cluster-Komponenten sind in Tabelle 1 dargestellt. Das System ist in zwei Racks untergebracht (siehe Abbildungen 1, 2 und 3), wovon das eine mit 486 kg und das andere mit 631 kg Hardware bestückt ist. Die elektrische Leistung der Hardware beträgt 19.060 W bzw. 15.414 W. Am Standort in der ehemaligen FMZ der Universität waren hinsichtlich der Kühlleistung die Vorgaben der GWDG zu berücksichtigen. Entsprechend wurden die Racks bei der Ausschreibung spezifiziert.

Dem Cluster ist ein Switch vorgelagert, der nach außen die Verknüpfung mit dem GWDG-Backbone-Netzwerk über zwei 100-Gbps-Ethernet-Verbindungen herstellt. An diesem Switch sind nach innen die redundant ausgelegten Ethernet-InfiniBand-

ANZAHL KOMPONENTE SPEZIFIKATIONEN
2 Zugangsknoten

Dell PowerEdge R6515

1 x AMD-EPYC 7713P 2,0 GHz 64 Cores; 512 GB RAM; 480 GB SSD; Mellanox ConnectX-5 2 Ports 10/25 GbE

SFP28-Adapter; Mellanox ConnectX-6 1 Port HDR100 QSFP56 InfiniBand-Adapter

30 Rechenknoten

Dell PowerEdge R6525

2 x AMD-EPYC 7763 2,45 GHz 64 Cores; 512 GB RAM; 480 GB SSD; Mellanox ConnectX-6 1 Port HDR100

QSFP56 InfiniBand-Adapter

2 Gatewayserver
Dell PowerEdge R6515
1 x AMD-EPYC 7232P 3,1 GHz 8 Cores; 64 GB RAM; 480 GB SSD; Mellanox ConnectX-6 1 Port HDR100 QSFP56

InfiniBand-Adapter

3 Fileserver
Dell PowerEdge R7525
2 x AMD-EPYC 75F3 2,95 GHz 32 Cores; 512 GB RAM; 16 x 7,68 TB NVMe; 2 x Mellanox ConnectX-6 1 Port HDR

VPI InfiniBand-Adapter

2 Storagesystem Dell EMC ME4084 84 x 4 TB-SAS Hard Drives
1 Infiniband-Switch
40-Anschluss Mellanox Quantum QM8700
40 x HDR InfiniBand QSFP56

Tabelle 1: Cluster-Komponenten

1_ Außenansicht der beiden Racks

Gatewayserver mit 2 x 100-Gbps-Ethernet-Ports angebunden. Über diese Server wird der Remote-Zugriff vom GWDG-Netzwerk auf das BeeGFS-Storage-System des Clusters ermöglicht. Die Zugangsknoten sind jeweils durch redundante 25-Gbps-Ethernetverbindungen direkt am selben Switch angeschlossen. Sämtliche Zugangs-, Compute- und Storageknoten sind über je einen IB-HDR100-Port an den InfiniBand-HDR-Switch angebunden. Die Verbindung der Compute-, Zugangs-, Storage- und Gatewayknoten erfolgt jeweils mit zwei 1-Gbps/RJ45-Ports an einen von zwei Management Switches. Die Management-Switches sind über jeweils zwei 10-Gbps-Uplink-Ports mit dem dem Cluster vorgelagerten Switch verbunden.

2_Rückansicht eines der Racks mit geöffneter Rückwand

Der Name des Clusters

„Ich heiße, also bin ich.“ Das gilt für alle großen Dinge, weshalb auch das Cluster des CIDBN nun einen Namen bekommen hat. Zur Namensfindung hat das CIDBN ein zweistufiges Verfahren gewählt. In einem ersten Schritt hatte das CIDBN auf seiner Webseite öffentlich zu Vorschlägen für einen Namen aufgerufen. Zusammen mit dem Vorschlag sollte auch eine erklärende Beschreibung abgegeben werden. Aus den eingereichten Vorschlägen wurden im Vorstand des CIDBN drei ausgewählt, unter denen in einer zweiten öffentlichen Abstimmung mehrheitlich für den Namen „Sofja“ gestimmt worden ist.

Dies geschieht zu Ehren von Sofja Vasilyejna Kovalevskaja, die 1874 als zweite Frau in Göttingen promoviert worden ist. Bemerkenswert ist, dass die Universität Göttingen zu dieser Zeit die Fle- xibilität hatte, dies zu ermöglichen. In ihrer Dissertation setzte sie sich mit partiellen Differentialgleichungen auseinander. Diese Klasse von Gleichungen spielt auch in der Modellierung dynamischer Systeme eine Rolle, so dass hier wiederum ein Bogen zu den Forschungsfeldern geschlagen wird, in denen das CIDBN sich bewegt.

Pandemieeffekte

Die COVID-19-Pandemie hat sich leider auch auf die Beschaffung des Clusters ausgewirkt. Lieferschwierigkeiten bei einzelnen Komponenten haben den Aufbau des Systems verzögert.

3_Rückseitige Verkabelung

AUSSCHREIBUNG

 Nachhaltigkeit in der Ausschreibung

Bei der Ausschreibung für ein solches System gibt es feste Limits, die durch Budgets für Investition und laufenden Betrieb oder auch durch technische Voraussetzungen – wie beispielsweise die verfügbare Kühlleistung – vorgegeben sind. Innerhalb dieser Parameter kann mithilfe von Benchmarks die Performance des Systems bestimmt werden, wodurch ein solches System technisch und wirtschaftlich optimiert wird. Als festes Limit sei hier die Maßgabe, den vorab als maximal zulässig definierten Stromverbrauch nicht zu überschreiten, genannt.

Nach wie vor werden bei der Gewinnung von Rohstoffen und der Erzeugung von Energie in zu hohem Maße sowohl Menschen als auch die Umwelt ausgebeutet. Es war daher nur zeitgemäß, sich hier verantwortungsbewusst zu verhalten und die Ausschreibung in Hinblick auf Fairness- und Umweltkriterien zu gestalten. Für das CIDBN ist das Thema Nachhaltigkeit auch in der For- schungsinfrastruktur entscheidend.

Sozialverträgliche Beschaffungsstandards

Folglich wurde bei der Beschaffung des Systems das Thema sozialverträglicher Beschaffungsstandards explizit zu einem Auswahlkriterium gemacht. Dabei wurde u. a. gefordert, dass sich die Bieter verpflichten, im Sinne der OECD-Leitlinien zur Förderung verantwortungsvoller Lieferketten für Minerale aus Konfliktund Hochrisikogebieten [3], entsprechende Sorgfaltspflichten zu ergreifen, einzuhalten und zu dokumentieren.

Ferner sollten die Arbeits- und Sozialstandards der Internationalen Arbeitsorganisation (ILO) [4] bei der Herstellung der Komponenten eingehalten werden. Diesbezügliche Aussagen waren ebenfalls in der Ausschreibung gefordert.

Die Ausschreibung für das System war unter diesen Gesichtspunkten ein Pilotversuch und die Kriterien waren nicht standardisiert. Jede Ausschreibung ist z. B. bei der Formulierung geeigneter Kriterien individuell, doch gerade wegen der schieren Menge an Details wäre eine zumindest universitätsweite Standardisierung wünschenswert. Zukünftige Beschaffungen, nicht nur auf den HPC-Bereich beschränkt, mögen das aufgreifen und noch weiter verfeinern.

Zum Thema Nachhaltigkeit in Ausschreibungen sei hier exemplarisch auf Veröffentlichungen wie Leitlinien das Beschaffungsamtes des BMI [5] bzw. bei Beispielen [6] auf WEED – Weltwirtschaft, Ökologie & Entwicklung e. V. [7] verwiesen.

BETRIEB 

Betriebskonzept

Bei der Konzeption des Clusters waren die spezifischen Anforderungen des CIDBN gegen die möglichen Hostingvarianten der GWDG, die sich im Wesentlichen in der Integrationstiefe in die HPC-Umgebung der GWDG respektive des Scientific Compute Clusters (SCC) unterscheiden, abzuwägen. Von Seiten des CIDBN spielten dabei u. a. folgende Aspekte eine Rolle:

  • Ein für dieses Cluster dediziertes Scratchdateisystem macht es unabhängig von der weiteren HPC-Umgebung der
  • Die Integration in das bestehende Batchsystem bei gleichzeitiger Freiheit bei der Festlegung der Limits für Jobs auf dem Cluster ermöglicht die zuverlässige
  • Ein zur HPC-Umgebung der GWDG identisches Betriebssystem erleichtert die Portabilität von
  • CIDBN-weit genutzte Software ist auch ohne Root-Zugang
  • Der Zugang ist auf Nutzer*innen beschränkbar, die das CIDBN

Das System ist mithin keine isolierte Insel, geht aber auch nicht vollständig in der HPC-Umgebung der GWDG auf. Damit war der Betrieb in der HPC-Umgebung mit Integration in die bestehenden Netze die Variante der Wahl. Betriebssystem, Standardsoftware und Slurm als Batchsystem sind identisch zum lokalen Scientific Compute Cluster, wodurch der Administrationsaufwand gering gehalten wird.

Grüner Strom

Nachhaltigkeit in der Spitzenforschung bedeutet beim Betrieb des HPC-Systems dessen Klimaneutralität. Darum wird das CIDBN über den Lieferanten der Universität Göttingen Strom beziehen, der ausschließlich aus erneuerbaren Energien stammt. Dieser Naturstrom unter dem „Grüner Strom Label“ fördert den Bau regenerativer Anlagen über ein Teil des Geldes unmittelbar und ermöglicht so deren Ausbau. Auch diese Option sollte bei zukünftigen Beschaf- fungen schon in der Planungsphase berücksichtigt werden.

LINKS

 

Anmerkung: Alle Links wurden zuletzt am 27.03.2023 aufgerufen.

Kategorien

Archive

--