Institut für Theoretische Informatik, Algorithmik II

Verlustfreie Kompression von Klimadaten mit Machine Learning

  • Der Einsatz von neuen Technologien, wie GPU-Boostern, haben zu einem dramatischen Anstieg der Rechenleistung von HPC-Zentren geführt. Diese Entwicklung gekoppelt mit neuen Klimamodellen, welche die Rechenleistung dank verbessertem internem Aufbau besser auslasten können, führt dazu, dass sich der Engpass weg von der Lösung der Differentialgleichungen der Modellrechnungen hin zur eigentlichen Speicherung der Variablen verschiebt.

    Im Rahmen dieser Arbeit soll der Einsatz von Maschine Learning (ML) Algorithmen für die Entwicklung neuartiger Kompressionsalgorithmen für strukturierte Gleitkommazahlen wie Klimadaten untersucht und prototypisch implementiert werden. Die Klimawissenschaften bieten aufgrund der hohen Datenmenge die ideale Grundlage für die Erprobung von verschiedenen maschinellen Lernverfahren. Das IMK ist mit ca. 800 TiB an Daten das größte Institut am KIT, welches die Ressourcen vom SCC verwendet. Das erleichtert den Einsatz und die Erprobung von allen drei Arten von ML-Verfahren: Supervised, Unsupervised sowie Reinforcement Learning.

    Das Ziel ist es ein vorhersagebasierendes Kompressionsverfahren zu entwickeln. Hierbei werden die Datenpunkte im Datensatz einzeln durchlaufen und eine Vorhersage für den aktuellen Wert getroffen. Danach wird die Differenz (auch Residuum genannt) zwischen der Vorhersage und dem wahren Wert berechnet. Diese Differenz wird schließlich kodiert und gespeichert. Mit Hilfe des Vorhersageverfahrens, der Traversierungsstrategie und dem Residuum können die Daten verlustfrei rekonstruiert werden. Je genauer die Vorhersage ist, desto geringer ist die Differenz und damit auch die finale Dateigröße. Maschinelle Lernverfahren können bei der Entwicklung von neuen Traversierungsstrategien und besseren Vorhersageverfahren helfen.
     

    Der Beginn der Arbeit ist ab sofort möglich.
     

    Aufgaben

    • Einarbeitung in die Datenformate netCDF und HDF5.
    • Evaluation von ML-Verfahren für die Vorhersage von Datenpunkten (z.B. supervised, unsupervised, reinforcement learning).
    • Engineering der Codierungspipeline bzgl. Performance und Kompression.
       

    Voraussetzungen

    • Masterstudent/-in der Informatik, Informationswirtschaft oder Wirtschaftinformatik
    • Programmiererfahrung in Python
       

    Wünschenswerte Fähigkeiten

    • Idealerweise erste Erfahrungen beim Einsatz von ML-Verfahren
    • Erfahrungen in weiteren Programmiersprachen wie C++ oder Rust

       

    Kontakt

    Dr. Uğur Çayoğlu