Aiuto nella programmazione, risposte alle domande / Hadoop / Oozie e Spark Integration - hadoop, apache-spark, oozie

Integrazione di Oozie e Spark - hadoop, apache-spark, oozie

Oozie versione 4.2.0 supporta l'azione Spark che viene eseguita come lavoro Spark, è possibile condividere l'RDD tra l'azione, ad es. la mia unica azione leggerà il file ed eseguirà alcune trasformazioni e creerà un RDD, dite rdd1 e quindi salvate (Spark Action) in HDFS, ora è possibile che un'altra azione di oozie richieda rdd1 ed esegua alcune trasformazioni e azioni.

Quanto sopra è possibile attraverso una singola classe di driver Spark ma sto cercando una soluzione oozie in quanto la classe del driver Spark sarà molto complicata per un flusso di lavoro complesso.

Grazie in anticipo per la risposta.

Saluti, Gouranga Basak

risposte:

0 per risposta № 1

Una soluzione potrebbe essere utilizzata spark jobserver utilizzare lo stesso contesto spark in più lavori.

Un'altra soluzione potrebbe essere l'utilizzo Tachyon fare fondamentalmente ciò che hai descritto sopra e memorizzare il risultato intermedio in tachyon, che lo tiene in memoria per quando il lavoro successivo lo usa.

Tuttavia, il modo migliore per farlo è molto probabileper refactoring la pipeline in modo che possa essere eseguita nello stesso contesto, o semplicemente affrontare il colpo di prestazioni. Puoi salvare un rdd in hdf e ricaricarlo di nuovo usando:

# In job 1
rdd.saveAsObjectFile("path")

# In job 2
sc.objectFile[MyClass]("path")

domande correlate

Collega l'app Spring Boot alla dashboard di Oozie: spring-boot, oozie

Come catturare l'emissione di scintille di oozie - scala, apache-spark, oozie

Un coordinatore di oozie può rieseguire saltando alcune azioni - oozie, oozie-coordinator

C'è qualche azione Oozie per eliminare i log di Oozie del cluster MapR? - oozie, oozie-coordinator, mapr

user lib jar precedenza su oozie share lib in spark action - java, apache-spark, jvm, classloader, oozie

Il flusso di lavoro di Oozie con le applicazioni spark riporta la memoria esaurita - hadoop, apache-spark, memoria, flusso di lavoro, oozie

Qual è il vantaggio dell'utilizzo di CDH (cloudera)? [chiuso] - hadoop, bigdata, apache-spark, cloudera, cloudera-cdh

Aggiungi Spark a Oozie ha condiviso lib - hadoop, apache-spark, oozie

Come attivare i lavori di Oozie in condizioni particolari? - hadoop, mapreduce, flume, oozie

Creazione distro di Oozie fallita - hadoop, oozie

lavori al lavoro in stallo con pyspark e oozie - hadoop, pyspark, oozie

Utilizzo di JobControl nell'azione Oozie Java: hadoop, oozie

Apache Oozie non è riuscito a caricare ShareLib - hadoop, oozie

Come progettare il lavoro distcp usando hue-oozie - hadoop, oozie, hue

File keytab: /path/a.keytab non esiste - hadoop, oozie

Esecuzione di Spark2 da Oozie (CDH) - hadoop, apache-spark, cloudera, oozie, cloudera-cdh

aggiungendo più vasi in azione Oozie-Spark - apache-spark, oozie, hortonworks-data-platform, oozie-coordinator, oozie-workflow

Aggiungendo il percorso python di python in oozie - apache-spark, pyspark, oozie

Spark e proprietà-file remoti - apache-spark, oozie

Spark-java multithreading vs esecuzione di singoli lavori spark - apache-spark, apache-spark-sql, apache-spark-2.0