Potential der Intel Many Integrated Core Architektur für die Flussmodellierung — Codes UnTRIM und Telemac

Jacek A. Jankowski

This technical report (in German) concerns the assessment of porting feasibility of codes UnTRIM2 and Telemac to the Intel Xeon Phi, i.e. MIC (Many Integrated Cores) architecture. German abstract follows.
Zusammenfassung: In der Einführung werden die Aspekte der heterogenen Rechnerarchitekturen mit der besonderen Berücksichtigung von Beschleunigern zusammen mit den gängigen Programmiermethoden beschrieben. Auf dieser Basis werden die Eigenschaften des neuen Intel Xeon Phi Prozessors vorgestellt, der in der heute gegebenen Form eine neue Art von Beschleuniger ist. Es werden die Eigenschaften der Systemsoftware, Programmiertechniken und existierende Entwicklungswerkzeuge diskutiert. Es werden genaue Spezifikationen für die verwendete Hardware geliefert.

Nach dieser Einführung werden die getroffenen Annahmen und die minimalen Anpassungen notwendig für die Untersuchung der Leistungsfähigkeit des Xeon Phi Prozessors für den Code von UnTRIM2 – und für einen Vergleich auch mit den deutlich älteren Codes Telemac3D und Telemac2D – erortert. Der Code von UnTRIM2 wurde unverändert, nur mit modifizierten Compilereinstellungen, Makefiles, Umgebungsvariablen für OpenMP und MPI und Laufskripten angewendet. Genauso für Telemac3D und Telemac2D, bei denen zusätzlich noch einige Fehler im Code teilweise beseitigt werden mussten. Bei allen Einstellungen hat man sich an die allgemeinen Empfehlungen der Firma Intel für numerische Programme orientiert, die sich auch nach rudimentären Tests als korrekt erwiesen haben. Es handelt sich hier also um eine Voruntersuchung im Sinne einer sog. “naiven Portierung” der o.g. Codes ohne eine gezielte Optimierung zu wagen.

Die Programme wurden auf der Xeon Phi Karte (60 Rechenkerne) alleine in dem sog. nativen Modus ausgeführt und die Rechenzeiten mit den Resultaten aus einem two-socket CPU-basierten System (zwei Xeon Prozessoren im Tandem, je mit 8 Rechenkernen) verglichen – d.h. mit einem System, welches im Sinne des Energieverbrauchs und des aktuellen Preises ähnlich ist.

Bei allen Beispielen zeite sich, dass die besten erzielten Rechenzeiten mit einem Xeon Phi um ein Vielfaches (3-6 Mal) schlechter waren, als auf dem entsprechenden CPU-System. Es wurden dabei auch rudimentäre Untersuchungen für die Autovektorisierung der Programme gemacht. Es zeigte sich hiermit, dass obwohl die Portierung der älteren Codes auf die Xeon Phi mit Intel Entwicklungswerkzeugen ausgesprochen einfach ist, die Programme suboptimal ausgeführt werden. Diese Resultate sind konsistent mit Ergebnissen von anderen naiven Portierungen komplexer Codes für die MIC-Architektur.

Anschliessend wird das Potential der angezielten Optimierung der untersuchten Codes diskutiert, insbesondere im Hinblick auf die Hardwareanforderungen und bekannten Entwicklungspläne der Firma Intel. Von allen Codes hat UnTRIM, bzw. der grundlegende Algorithmus oder die bereits existierenden Nachfolgeprogramme die besten Aussichten.

A BAW internal technical report. Available locally.

There exist a presentation concerning the UnTRIM code only.

Reference: Jankowski, Jacek A. (2013) Potential der Intel Many Integrated Core Architektur für die Flussmodellierung — Codes UnTRIM und Telemac. Interner Bericht, BAW Karlsruhe.