Scalable String and Suffix Sorting: Algorithms, Techniques, and Tools

  • Autor:

    Timo Bingmann

  • Quelle:

     

    Dissertation (2017)
    Institut für Theoretische Informatik

  • Datum: Juli 2018

Abstract

Die vorliegende Dissertation behandelt zwei grundlegende Sortierprobleme: Sortieren von Zeichenketten und Sortieren aller Suffixe eines Texts. Der erste Teil betrachtet paralleles Sortieren von Zeichenketten auf Mehrkernrechnern mit gemeinsam genutztem Speicher, der zweite Teil ein neues Verfahren zum Sortieren von Suffixen im Externspeicher und der dritte Teil Sortieren von Suffixen auf verteilen Parallelrechnersysteme mit dem neuen algorithmischen Framework Thrill.

Das Sortieren von Zeichenketten oder Vektoren unterschiedet sich von Sortieren von Zahlen durch die zusätzliche Komponentenstruktur der Schlüssel, die systematisch ausgenutzt werden muss um teure Operationen auf den ganzen Objekten zu vermeiden. Wir betrachten dabei Eingaben die in den gemeinsamen Speicher einer modernen Mehrkernmaschine passen. Große Mengen von Zeichenketten werden beispielsweise sortiert bei der Konstruktion von Datenbankindices, beim Sortieren von Suffixen, oder um hochdimensionale geometrische Daten anzuordnen.

Als vorbereitende Arbeit für den Entwurf von parallelen Sortieralgorithmen für Zeichenketten diskutieren wir zuerst hochentwickelte Varianten der bestehenden sequentiellen Basisalgorithmen und führen eine umfangreiche experimentelle Auswertung dieser durch. Darüber hinaus berichten wir von einer quantitativen Untersuchung der parallelen Speicherbandbreiten und -latenz in modernen Mehrkernsystemen.

Mit dem Wissen aus dieser Vorarbeit entwickeln wir als ersten Algorithmus String Sample Sort, der eine Anpassung von Samplesort für Zeichenketten ist und präsentieren dessen optimierte Version Super Scalar String Sample Sort. Dieser neue Algorithmus ist leicht zu parallelisieren, benötigt O(D / w + n log n) erwartete Zeit, nutzt die Cache-Hierarchie effektiv, verwendet Parallelität auf Wort- und Anweisungsebene und vermeidet teure Fehlvorhersagen von Verzweigungen. Seine Parallelisierung namens Parallel Super Scalar String Sort (pS5) verwendet ein freiwilliges Lastbalanceverfahren und ist in unseren Experimenten der insgesamt leistungsfähigste Algorithmus für Mehrkernrechner mit einem Sockel.

Für Plattformen mit non-uniform memory access (NUMA) entwerfen wir einen Hybridansatz, in dem zuerst pS5 auf jedem NUMA-Knoten unabhängig voneinander ausgeführt wird und dann gemeinsam die vorsortierten Zeichenkettenfolgen zusammen gemischt werden. Um die Zusammenführung durch ein Array der längsten gemeinsamen Präfixe (LCP) zu beschleunigen, präsentieren wir einen neuen LCP-beschleunigten Mehrwege-Mischalgorithmus (multiway merge), der auf einem Turnierbaum basiert. Der Mischalgorithmus wird darüber hinaus auch verwendet, um einen eigenständigen LCP-beschleunigten K-Wege-Mischsortieralgorithmus (multiway mergesort) zu entwerfen. Dieser läuft in O(D + n log n + n/K) Zeit und profitiert von langen gemeinsamen Präfixen in der Eingabe.

Kurz gesagt, schlagen wir sowohl Sortieralgorithmen auf Basis von Mehrwege-Verteilen mit String Sample Sort als auch von Mehrwege-Mischen mit LCP-beschleunigten Merge und Mergesort vor und optimieren und parallelisieren beide Ansätze. Darüber hinaus entwickeln wir auch Parallelisierungen von Multikey Quicksort und Radix Sort und führen eine umfangreiche experimentelle Analyse auf sechs Maschinen und sieben Eingaben durch. Auf allen Instanzen, außer zufälligen Zeichenketten und URLs, erreicht pS5 höhere Geschwindigkeiten auf modernen Mehrkernrechnern mit einem Sockel als unsere Multikey-Quicksort- und Radix-Sort-Parallelisierungen, die bereits besser sind als alle bestehenden Verfahren. Auf Mehrsockel-NUMA-Rechnern war der Hybridansatz bestehend aus pS5 und LCP-beschleunigten Mehrwege-Mischen auf den meisten Instanzen am schnellsten.

Danach konzentrieren wir uns auf das Sortieren der Suffixe eines Text, welches auch Suffix-Array-Konstruktion genannt wird. Das Suffix-Array ist eines der beliebtesten Textindizes und dient zur Beschleunigung des Suchen nach Teilzeichenfolgen in DNA- oder Textkorpora, wird in Kompressionsverfahren verwendet werden und ist die Grundlage für viele komplexe String-Algorithmen. Wenn das Suffix-Array um das LCP-Array und weitere zusätzliche Tabellen ergänzt wird, kann diese Kombination den Suffix-Tree in einer Vielzahl von String-Algorithmen ersetzen. Unser Ziel sind schnelle und skalierbare Suffix-Sortieralgorithmen, um große Suffix-Arrays für reale Eingaben zu generieren. Als Einführung präsentieren wir zunächst einen kurzen Überblick über die Prinzipien und Geschichte von Suffix-Sortieralgorithmen.

Unser erster Beitrag zu diesem Gebiet ist eSAIS, der erste Suffix-Sortieralgorithmus für Externspeicher, der das induzierte Sortierprinzip (induced sorting) verwendet. Seine zentrale Schleife ist eine elegante Neuformulierung dieses Prinzips mittels einer Prioritätswarteschlange für Externspeicher. Unsere theoretische Analyse zeigt, dass eSAIS höchstens Sort(17 n) + Scan(9 n) I/O-Volumen erfordert. eSAIS wird daraufhin um die gleichzeitige Konstruktion des LCP-Array während der Suffix-Sortierung erweitert. Dies ergibt die erste Implementierung eines vollständig externen Suffix- und LCP-Array-Konstruktionsalgorithmus in der Literatur. Unsere Experimente zeigen, dass eSAIS um einen Faktor zwei schneller ist als DC3, dem bisher besten Suffix-Sortierverfahren für Externspeicher. Nach unserer ersten Veröffentlichung von eSAIS zeigten viele weitere Autoren Interesse an dem Thema, und wir besprechen ihre Beiträge und Verbesserungen.

Um die Verfahren auf noch größere Eingaben zu skalieren, betrachten wir dann Suffix-Sortierverfahren für verteilten Parallelrechnersysteme. Hierzu präsentieren wir zuerst das neue verteilte Big-Data-Framework Thrill, mit dessen Hilfe komplexe Algorithmen für solch hochleistungsfähige Systeme leichter entworfen und programmiert werden können. Das zentrale Konzept von Thrill ist ein verteiltes unveränderbares Array (DIA), das nahezu beliebige C++ Objekte enthalten kann und transparent auf dem Cluster verteilt liegt. Es ist jedoch kein direkter Zugriff möglich. Statt dessen können DIAs nur mittels eines kleinen Satzes von skalierbaren Primitiven wie Map, Reduce und Sort manipuliert werden. Diese werden als verteilt-externe Basisalgorithmen implementiert und in C++ template Klassen gekapselt. Die Basisalgorithmen können mit anwendungsspezifischen Funktoren parametrisiert und effizient zu größeren Anwendungen gekoppelt werden. Unser Thrill-Prototyp wird anhand von fünf Mikro-Benchmarks mit den populären Frameworks Apache Spark und Apache Flink auf bis zu 16 Maschinen in der AWS Elastic Compute Cloud evaluiert. Thrill ist schneller als die anderen Frameworks in allen Benchmarks und für jede Anzahl von Maschinen.

Als Fallstudie implementieren wir dann fünf Suffix-Sortieralgorithmen mit Thrill. Drei basieren auf Präfixverdopplung und zwei sind Varianten des linearen difference cover Algorithmus DC. Die Implementierung dieser komplexen Algorithmen demonstriert die Ausdruckskraft der von Thrill bereitgestellten skalierbaren Primitiven. Darüber hinaus sind sie die ersten verteilten externen Suffix-Sortierer, die in der Literatur vorgestellt werden. Wir vergleichen sie experimentell mit zwei von Hand erstellten MPI-Implementierungen und mit den schnellsten nicht verteilten sequentiellen Suffix-Sortierern. Unsere Ergebnisse zeigen, dass mit Thrill implementierte Algorithmen mit MPI-Programmen konkurrieren können und dass sie aufgrund der automatischen Verwendung von externem Speicher auf größere Eingaben skalieren. Darüber hinaus können diese Implementierungen von zukünftigen Verbesserungen in Thrill so wie Fehlertoleranz oder spezialisierten Sortieralgorithmen profitieren.