/ / Link pipeline crunch spark avec application spark commençant par l'instance SparkSession - apache-spark, apache-crunch

Pipeline d'étincelle de liaison avec l'application d'allumage commençant par l'instance de SparkSession - apache-spark, apache-crunch

Le pipeline Crunch peut avoir un contexte Java spark commeparamètre, mais si l'application spark commence par l'instance SparkSession (car le programme spark Java inclut Datasets et nécessite sparkSQL). Comment puis-je ajouter une autre couche d'abstraction (pipeline de crunch) sur l'application d'étincelle dans un tel cas?

Réponses:

0 pour la réponse № 1

Vous avez probablement un malentendu sur les concepts. Le pipeline des étincelles dans Crunch consiste essentiellement à faire en sorte que Crunch exécute votre code dans Spark Engine au lieu du moteur MapReduce. Les abstractions d’Apache Crunch (PCollections) constituent une abstraction de haut niveau par rapport aux tâches MapReduce et aux pipelines Spark.