Verlustbehaftete Kompression von Klimadaten mit Machine Learning

  • Neue Technologien wie GPU-Booster, haben zu einem dramatischen Anstieg der Rechenleistung von HPC-Zentren geführt. Gekoppelt mit neuen Klimamodellen, welche die Rechenleistung dank verbessertem internem Aufbau besser ausnutzen, führte diese Entwicklung dazu, dass sich der Engpass weg von der Lösung der Differentialgleichungen der Modelle hin zur Speicherung der Ergebnisse verschoben hat.

    Im Rahmen dieser Arbeit soll der Einsatz von Maschine Learning (ML) Algorithmen für die Entwicklung neuartiger Kompressionsalgorithmen für strukturierte Gleitkommazahlen wie Klimadaten untersucht und prototypisch implementiert werden. Die Klimawissenschaften bieten aufgrund der hohen Datenmenge (aktuell ca. 800 TiB Speicherverbrauch beim SCC) die ideale Grundlage für die Erprobung von verschiedenen maschinellen Lernverfahren.

    Ein erster Prototyp basierend auf einem Convolutional Autoencoder wurde bereits entwickelt und getestet. Bei einer relativ großen Fehlertoleranz erreicht der Algorithmus einen bis zu viermal größeren Kompressionsfaktor als der aktuelle Stand der Technik. Bei kleineren Fehlertoleranzen arbeitet der Algorithmus nicht mehr so effizient und der Abstand zur Stand der Technik wird kleiner. Mögliche Verbesserungen, welche im Rahmen dieser Arbeit untersucht werden könnten:
     

    - Die Integration von Vegetationsinformationen in den Deconvolutional Layern des Autoencoders

    - Die Einbindung von verwandten Variablen als Channels in die Convolutional Layern

    - Der Einsatz von 4D Convolutional Networks

    - Der Einsatz von Entropie-basierten Zielfunktionen
     

    Der Beginn der Arbeit ist ab sofort möglich.


    Aufgaben:

    - Einarbeitung in die Datenformate netCDF und HDF5.

    - Evaluation von ML-Verfahren für die Vorhersage von Datenpunkten (z.B. supervised, unsupervised, reinforcement learning).

    - Engineering der Kodierungspipeline bzgl. Performance und Kompressionsfaktor.


    Voraussetzungen:

    - Masterstudent/-in der Informatik, Informationswirtschaft oder Wirtschaftinformatik

    - Programmiererfahrung in Python


    Wünschenswerte Fähigkeiten:

    - Idealerweise erste Erfahrungen beim Einsatz von ML-Verfahren (idealerweise mit Tensorflow)
    - Erfahrungen in weiteren Programmiersprachen wie C++ oder Rust

     

    Ansprechpartner:
    Dr. Uğur Çayoğlu