/ / Aggiunta del percorso Python di Python in oozie - apache-spark, pyspark, oozie

Aggiungendo il percorso python di python in oozie - apache-spark, pyspark, oozie

Sto cercando di eseguire un semplice script python su Oozieusando la tonalità. Utilizzo i pacchetti anaconda installati, quindi aggiungo anche il gestore Cloudera, configurazione spark (frammento di configurazione avanzato del servizio Spark (valvola di sicurezza) per spark-conf / spark-env.sh)

if [ -z "${PYSPARK_PYTHON}" ]; then
export PYSPARK_PYTHON=/opt/cloudera/parcels/Anaconda/bin/python
fi

Quando si esegue il lavoro, ho un errore python ImportError: nessun modulo chiamato pandas.io.json , il che significa che PYSPARK_PYTHON non sembra prendere quello di anaconda.

Ho provato ad aggiungere argomenti con

PYSPARK_PYTHON=/opt/cloudera/parcels/Anaconda/bin/python

sull'azione scintilla via tonalità, ma non sembra funzionare.

Se eseguo gli script tramite CLI e spark-submit funziona. Se eseguo altri script Python su Oozie tramite Hue (senza pacchetti da anaconda) funziona.

Cosa mi manca? : /

risposte:

2 per risposta № 1

Quando si usa spark tramite Oozie, è necessario dire quali variabili di ambiente devono essere impostate sul contenitore di avvio (quello che avvia la sessione spark).

Prova ad aggiungere una nuova proprietà di spark action con la chiave oozie.launcher.mapred.child.env e valore PYSPARK_PYTHON=/opt/cloudera/parcels/Anaconda/bin/python e dovrebbe funzionare come previsto.