/ / Wie wirkt sich die Komprimierung auf einen MapReduce-Job aus? - Hadoop, Mapreduce

Wie wirkt sich die Komprimierung auf einen MapReduce-Job aus? - Hadoop, Mapreduce

Folgendes wurde in einem Whitepaper von Microsoft dokumentiert:

Die Komprimierung hilft, wenn die Eingabequelldateien sehr groß sind (z. B. über 500 GB) und MapReduce-Jobs wiederholt mit den gleichen Eingabedaten ausgeführt werden sollen.

Also sollten wir Komprimierung verwenden wenn die Eingabedateien sehr groß sind, da es Festplatten-I / O und Netzwerkbandbreite spart.

Aber ich kann nicht verstehen, wie "MapReduce läuftJob wiederholt gegen die gleichen Eingabedaten "hilft bei der Leistung der Komprimierung und Dekomprimierung? Komprimierung sollte dieselbe Leistung haben, auch wenn die Daten jedes Mal anders sind.

Antworten:

0 für die Antwort № 1

Ich denke, es hängt davon ab, welche Komprimierungslogik verwendet wird, um die Dateien zu komprimieren. Im Folgenden finden Sie die Informationen, die ich im Internet gefunden habe.

http://comphadoop.weebly.com/

Dateikomprimierung bringt zwei wichtige Vorteile: ein. es reduziert den Platzbedarf für Dateien, b. Es beschleunigt die Datenübertragung über das Netzwerk oder von oder von der Festplatte. Bei großen Datenmengen können beide Einsparungen erheblich sein. Daher lohnt es sich, die Verwendung der Komprimierung in Hadoop genau zu betrachten.

Gründe zu komprimieren: a) Daten werden meist gespeichert und nicht häufig verarbeitet. Es ist ein übliches DWH-Szenario. In diesem Fall kann Platzeinsparung viel bedeutender als Verarbeitungsaufwand sein b) Kompressionsfaktor ist sehr hoch und davon sparen wir eine Menge IO. c) Dekompression ist sehr schnell (wie Snappy) und davon haben wir einen kleinen Gewinn mit wenig Preis d) Daten sind bereits komprimiert angekommen

Gründe nicht zu komprimieren:

a) Komprimierte Daten sind nicht teilbar. Beachten Sie, dass viele moderne Formate mit Block-Level-Komprimierung erstellt werden, um Splitting und andere partielle Verarbeitung der Dateien zu ermöglichen. b) Daten werden im Cluster erstellt, und die Komprimierung benötigt erhebliche Zeit. Zu beachten ist, dass Komprimierung in der Regel sehr viel CPU-intensiver als Dekomprimierung ist.

Alle Kompressionsalgorithmen weisen einen Raum / Zeit aufKompromiss: schnellere Komprimierungs- und Dekomprimierungsgeschwindigkeiten gehen in der Regel auf Kosten geringerer Platzeinsparungen. Das heißt, schnellere Komprimierung (in Bezug auf die Zeit) bedeutet, dass Dateien relativ größer sind (nicht viel Vorteil auf Platz). Langsamere Komprimierung heißt, die komprimierten Dateien sind sehr klein. 2. Gemeinsames Eingabeformat

verschiedene Kompressionsformate