Aide à la programmation, réponses aux questions / Hadoop / Quel est l'effet de la compression sur un travail MapReduce? - hadoop, mapreduce

Quel est l'effet de la compression sur un travail MapReduce? - hadoop, mapreduce

Les éléments suivants ont été documentés dans un livre blanc de Microsoft:

La compression est utile si les fichiers source en entrée sont très volumineux (plus de 500 Go, par exemple) et que vous souhaitez exécuter des tâches MapReduce à plusieurs reprises avec les mêmes données en entrée.

Donc, nous devrions utiliser la compression si les fichiers d'entrée sont très volumineux, car il enregistre les E / S du disque et la bande passante du réseau.

Mais je ne comprends pas comment "exécuter un MapReducetravail répété contre les mêmes données d'entrée "aidera à la compression et à la décompression? La compression devrait avoir les mêmes performances même si les données sont différentes à chaque fois.

Réponses:

0 pour la réponse № 1

Je pense que cela dépend du type de logique de compression utilisé pour compresser les fichiers. Voici les informations que j'ai trouvées sur internet.

http://comphadoop.weebly.com/

La compression de fichier apporte deux avantages majeurs: une. il réduit l'espace nécessaire pour stocker des fichiers, b. il accélère le transfert de données sur le réseau, vers ou depuis un disque. Lorsque vous traitez de gros volumes de données, ces deux économies peuvent être considérables. Il est donc utile d'examiner attentivement la manière d'utiliser la compression dans Hadoop.

Raisons pour compresser: a) Les données sont principalement stockées et ne sont pas traitées fréquemment. C'est le scénario habituel de DWH. Dans ce cas, le gain de place peut être beaucoup plus important que le temps système nécessaire au traitement. b) Le facteur de compression est très élevé et nous économisons ainsi beaucoup d’IO. c) La décompression est très rapide (comme Snappy) et nous avons un gain à petit prix d) Les données déjà arrivées sont compressées

Raisons pour ne pas compresser:

a) Les données compressées ne sont pas divisibles. Il faut noter que de nombreux formats modernes sont construits avec une compression au niveau du bloc pour permettre la division et tout autre traitement partiel des fichiers. b) Les données sont créées dans le cluster et la compression prend beaucoup de temps. Il faut noter que la compression nécessite généralement beaucoup plus de ressources processeur que la décompression.

Tous les algorithmes de compression présentent un espace / tempsCompromis: des vitesses de compression et de décompression plus rapides se font généralement aux dépens d'économies d'espace moins importantes. Cela signifie que la compression plus rapide (en termes de temps) signifie que les fichiers sont relativement volumineux (ce qui ne représente pas un avantage considérable en termes d'espace). Une compression plus lente signifie que les fichiers compressés sont très petits. 2. Format d'entrée commun

divers formats de compression