Le pipeline Crunch peut avoir un contexte Java spark commeparamètre, mais si l'application spark commence par l'instance SparkSession (car le programme spark Java inclut Datasets et nécessite sparkSQL). Comment puis-je ajouter une autre couche d'abstraction (pipeline de crunch) sur l'application d'étincelle dans un tel cas?
Réponses:
0 pour la réponse № 1Vous avez probablement un malentendu sur les concepts. Le pipeline des étincelles dans Crunch consiste essentiellement à faire en sorte que Crunch exécute votre code dans Spark Engine au lieu du moteur MapReduce. Les abstractions d’Apache Crunch (PCollections) constituent une abstraction de haut niveau par rapport aux tâches MapReduce et aux pipelines Spark.