Aide à la programmation, réponses aux questions / Étincelle apache / Link pipeline crunch spark avec application spark commençant par l'instance SparkSession - apache-spark, apache-crunch

Pipeline d'étincelle de liaison avec l'application d'allumage commençant par l'instance de SparkSession - apache-spark, apache-crunch

Le pipeline Crunch peut avoir un contexte Java spark commeparamètre, mais si l'application spark commence par l'instance SparkSession (car le programme spark Java inclut Datasets et nécessite sparkSQL). Comment puis-je ajouter une autre couche d'abstraction (pipeline de crunch) sur l'application d'étincelle dans un tel cas?

Réponses:

0 pour la réponse № 1

Vous avez probablement un malentendu sur les concepts. Le pipeline des étincelles dans Crunch consiste essentiellement à faire en sorte que Crunch exécute votre code dans Spark Engine au lieu du moteur MapReduce. Les abstractions d’Apache Crunch (PCollections) constituent une abstraction de haut niveau par rapport aux tâches MapReduce et aux pipelines Spark.

questions connexes

Comment mettre à jour une instance existante de SparkSession ou en créer une nouvelle dans spark-shell? - scala, apache-spark, apache-spark-sql

Intellisense dans Intellij avec les bibliothèques d'étincelles - scala, apache-spark, intellij-idea

package spark-java comment utiliser Spark de Scala? - scala, spark-java

Erreur lors de l'instanciation de 'org.apache.spark.sql.hive.HiveSessionState': sur un serveur Linux - scala, hadoop, apache-spark, hive

Méthodes Dataframe dans le projet SBT - scala, apache-spark, sbt

comprendre la dépendance de maven - maven, apache-spark

JAVA: SparkConf ne peut pas être converti en SparkContext - java, hadoop, apache-spark

Nouveau dans Spark et Spark SQL avec Java - java, apache-spark, apache-spark-sql, migration de données, bigdata

comment obtenir le nombre de jours entre deux champs java.sql.timestamp dans scala - java, scala, apache-spark, apache-spark-sql, sql-timestamp

Installation d'étincelle Apache et db_metastore - apache-spark

apache spark bluemix impossible - apache-spark, ibm-cloud

Apache Spark ne voit pas tout le bélier de mes machines - apache-spark, google-compute-engine, apache-spark-mllib

Comment tuer une tâche d'allumage si l'identifiant de l'application est connu? - apache-spark, datastax-enterprise

Spark sql row_number ou numéro de séquence? - apache-spark, apache-spark-sql

Accéder à l'interface Web de Spark à partir d'un ordinateur distant (à la maison)? - apache-spark

Quelle est la différence entre SparkSession.catalog et SparkSession.sessionState.catalog? - apache-spark, apache-spark-sql

Soumission de travaux Python à déclencher à distance - Apache-spark, pyspark

Si Hadoop est déjà installé, devrais-je télécharger Apache Spark WITH Hadoop ou WITHOUT Hadoop? - apache-spark, hadoop, hadoop3

Pourquoi Spark détecte-t-il 8 cœurs, alors que j'en ai seulement 4? - apache-spark, cpu-core, webui

Peut-on accéder à DataFrame depuis différentes sessions SparkSession? - apache-spark, apache-spark-sql, spark-dataframe