Die datengetriebene Wissenschaft erfordert nicht nur schnelle Speichersysteme, sondern auch Strategien zur effizienten Verwaltung dieser Daten in und zwischen Rechenzentren. Big-Data-Tools können den Bedarf an der Suche nach Daten auf der Grundlage benutzerspezifischer Metadaten befriedigen. Es gibt jedoch einen ganzen Zoo von Tools, und kein einziges Tool kann alle Anforderungen erfüllen, die ein HPC-System in einem Rechenzentrum benötigt. Data Lakes zum Beispiel sind ein sinnvoller Ansatz, aber es gibt auch alternative Konzepte und Tools, die in Betracht gezogen werden müssen. Eine einheitliche und konsistente Sicht auf die Millionen von Daten auf HPC-Systemen und deren effiziente Verarbeitung ist erforderlich, um die Verwertbarkeit zu maximieren und segmentierte Datensilos zwischen Nutzern oder Projekten zu verhindern.

Projektziele

Ziel des Projekts ist es, den Stand der Praxis von Datenmanagementkonzepten an NHR-Zentren kritisch zu untersuchen und gemeinsame Entwicklungen und Schulungen für den Bereich des Datenmanagements voranzutreiben. Wir erweitern die bisherigen Aktivitäten zur Nutzung von Data Lakes für HPC-Systeme um eine breite datenzentrische Sichtweise, die letztlich den Datenaustausch zwischen den Zentren fördern soll. Über einen Zeitraum von einem Jahr werden wir im Projekt a) Methoden zur effizienten Datenverarbeitung in NHR-Zentren untersuchen und entwickeln. Insbesondere werden die Eignung und Leistungsfähigkeit bestehender (allgemeiner und domänenspezifischer) Forschungsdatenmanagementlösungen für HPC-Systeme untersucht. b) Entwicklung eines Konzepts für den Datenaustausch zwischen Zentren. Dabei geht es um Leistungsaspekte des Datentransfers mit Schwerpunkt auf Netzwerktests zwischen Zentren mit Erprobung von Werkzeugen und Optimierungen sowie um organisatorische Aspekte, z. B. Benutzeridentitätsmanagement und die Genehmigung von Daten für die Transfers. c) Untersuchung der Leistung von Speichersystemen und deren Vergleich zwischen den Zentren. Ziel ist es, die bisher durchgeführten Tests mit HPC-Dateisystemen und Objektspeichersystemen zu erweitern und Erfahrungen und Leistungsergebnisse innerhalb des NHR auszutauschen. d) Bildung von Communities und Erstellung von Schulungsmaterial für typische Anwendungsfälle. Für die vorgenannten Bemühungen organisieren wir Workshops und erstellen Schulungsmaterial für die NHR-Zentren.

Die Rolle der GWDG

Die GWDG ist die Projektleiter:In und führt die einzelnen Aufgaben in enger Kooperation mit den Partner:Innen durch.

Projekt Partner

  • Zuse Institute Berlin
  • Technische Universität Dresden (TUD)
  • RWTH Aachen

Open Monthly Meetings

Wir haben ein monatliches Jour Fixe jeden dritten Dienstag eines Monats um 15 Uhr in BBB: https://meet.gwdg.de/b/hen-ogm-ktx-b7l Jeder ist herzlich willkommen!

Acknowledgements

Wir bedanken uns für die Finanzierung durch „Nationales Hochleistungsrechnen“ im Rahmen des Projekts „Large Scale Data Management“.

Deliverables 2024

Storage Report 2024

Data-Intensive Projects User Cheat-Sheet

Deliverables 2023

Data Management Systems Report 2023

Data Transfer Report Report 2023

Storage Report 2023

Deliverables 2022

Storage Report

Kontakt

Hendrik Nolte

Laufzeit

01.01.2023 - 30.6.2024

Förderung

NHR Zukunftsprojekte