UnivIS
Informationssystem der Friedrich-Alexander-Universität Erlangen-Nürnberg © Config eG 
FAU Logo
  Sammlung/Stundenplan    Modulbelegung Home  |  Rechtliches  |  Kontakt  |  Hilfe    
Suche:      Semester:   
 Lehr-
veranstaltungen
   Personen/
Einrichtungen
   Räume   Forschungs-
bericht
   Publi-
kationen
   Internat.
Kontakte
   Examens-
arbeiten
   Telefon &
E-Mail
 
 
 Darstellung
 
Druckansicht

 
 
Einrichtungen >> Technische Fakultät (TF) >> Department Informatik (INF) >> Professur für Höchstleistungsrechnen >>
Eine fehler-tolerante Umgebung für peta-scale MPI-Löser

Mit der zunehmenden Größe eines HPC-Systems steigt die statistische Wahrscheinlichkeit für Hardwareausfälle stark an. Damit massiv parallele Simulationsprogramme auch auf Peta- und künftigen Exa-Flopsystemen stabil laufen können, ist die Entwicklung von Fehlertoleranzmechanismen auf System- und Anwendungsebene zwingend erforderlich. Das FETOL-Projekt erarbeitet Lösungsansätze, welche innovative, hierarchische Diagnostik- und Recovery-Mechanismen mit vertretbarem zusätzlichen Ressourcen- und Rechenzeitaufwand kombinieren und so Fehlertoleranz für ausgewählte Ausfallszenarien erreichen. Das MPI-Programmierparadigma bleibt dabei weitgehend erhalten, um Eingriffe in die Kern-Algorithmen und Datenstrukturen bestehender Anwendungen zu beschränken. Ausgewählte Codes aus den Bereichen Computational Fluid Dynamics (CFD) und Molekulardynamik (MD) sowie Standard-HPC-Cluster dienen als Demonstrationsplattform für die prototypischen Entwicklungen auf Anwendungs- und Middleware-/Systemsoftware-Ebene.
Zentrale Aufgabenpakete des RRZE/der Professur für Höchstleistungsrechnen sind: (1) Bereiststellung, Konfiguration und Betrieb einer Clustertestumgebung, (2) Untersuchung und Optimierung der Checkpoint-Restart-Eigenschaften sowie der Fehlertoleranz von Molekulardynamik-Simulationen. Ferner wirkt das RRZE mit bei (a) den Tests der Jobmanager-Software und (b) Optimierung der CFD-Anwendungen. Die gewonnenen Erkenntnisse sollen in Lehrveranstaltungen einfließen, über das Kompetenznetzwerk für technisch-wissenschaftliches Hoch- und Höchstleistungsrechnen in Bayern (KONWIHR) sowie über die Gauss-Allianz verbreitet und beim Betrieb der RRZE-Produktionsclusters ausgenutzt werden.
Projektleitung:
Prof. Dr. Gerhard Wellein

Beteiligte:
Dipl.-Inf. Michael Meier, Dr. Thomas Zeiser

Stichwörter:
HPC, Fehlertoleranz, Höchstleistungsrechner

Laufzeit: 1.6.2011 - 31.5.2014

Förderer:
Bundesministerium für Bildung und Forschung

Mitwirkende Institutionen:
Institut für rechnergestützte Modellierung im Bauingenieurwesen
Höchstleistungsrechenzentrum Stuttgart
NEC Deutschland GmbH
Platform Comuting GmbH
Professur für Biomechanik, Universität Duisburg-Essen

Kontakt:
Wellein, Gerhard
Telefon 09131 85 28136, Fax 09131 302941, E-Mail: gerhard.wellein@fau.de
UnivIS ist ein Produkt der Config eG, Buckenhof