Eine fehler-tolerante Umgebung für peta-scale MPI-Löser Mit der zunehmenden Größe eines HPC-Systems steigt die statistische Wahrscheinlichkeit für Hardwareausfälle stark an. Damit massiv parallele Simulationsprogramme auch auf Peta- und künftigen Exa-Flopsystemen stabil laufen können, ist die Entwicklung von Fehlertoleranzmechanismen auf System- und Anwendungsebene zwingend erforderlich. Das FETOL-Projekt erarbeitet Lösungsansätze, welche innovative, hierarchische Diagnostik- und Recovery-Mechanismen mit
vertretbarem zusätzlichen Ressourcen- und Rechenzeitaufwand
kombinieren und so Fehlertoleranz für ausgewählte Ausfallszenarien erreichen. Das MPI-Programmierparadigma bleibt dabei weitgehend erhalten, um Eingriffe in die Kern-Algorithmen und Datenstrukturen bestehender Anwendungen zu beschränken. Ausgewählte Codes aus den Bereichen Computational Fluid Dynamics (CFD) und Molekulardynamik (MD) sowie Standard-HPC-Cluster dienen als Demonstrationsplattform für die prototypischen Entwicklungen auf Anwendungs- und Middleware-/Systemsoftware-Ebene.
Zentrale Aufgabenpakete des RRZE/der Professur für Höchstleistungsrechnen sind: (1) Bereiststellung, Konfiguration und Betrieb einer Clustertestumgebung, (2) Untersuchung und Optimierung der Checkpoint-Restart-Eigenschaften sowie der Fehlertoleranz von Molekulardynamik-Simulationen. Ferner wirkt das RRZE mit bei (a) den Tests der Jobmanager-Software und (b) Optimierung der CFD-Anwendungen.
Die gewonnenen Erkenntnisse sollen in Lehrveranstaltungen
einfließen, über das Kompetenznetzwerk für technisch-wissenschaftliches Hoch- und Höchstleistungsrechnen in
Bayern (KONWIHR) sowie über die Gauss-Allianz verbreitet und beim Betrieb der RRZE-Produktionsclusters ausgenutzt werden.
| Projektleitung: Prof. Dr. Gerhard Wellein
Beteiligte: Dipl.-Inf. Michael Meier, Dr. Thomas Zeiser
Stichwörter: HPC, Fehlertoleranz, Höchstleistungsrechner
Laufzeit: 1.6.2011 - 31.5.2014
Förderer: Bundesministerium für Bildung und Forschung
Mitwirkende Institutionen: Institut für rechnergestützte Modellierung im Bauingenieurwesen Höchstleistungsrechenzentrum Stuttgart NEC Deutschland GmbH Platform Comuting GmbH Professur für Biomechanik, Universität Duisburg-Essen
Kontakt: Wellein, Gerhard Telefon 09131 85 28136, Fax 09131 302941, E-Mail: gerhard.wellein@fau.de
|