/ / Súbor zostavy Spark bol nahraný aj napriek nastaveniu spark.yarn.conf - hadoop, apache-spark, hdfs, priadza

Súbor zostavy Spark bol odovzdaný napriek nastaveniu spark.yarn.conf - hadoop, apache-spark, hdfs, priadza

Podávam úlohy skupine Spark, ktorá beží na priadzepoužívajúc iskry, ktoré niekedy prechádzajú pomerne pomalým pripojením. Aby sa zabránilo odovzdaniu súpravy 156 MB iskier pre každú úlohu, nastavila som možnosť konfigurácie spark.yarn.jar do súboru na HDFS. Nevyhýba sa to však odosielaniu, ale skôr sa preberá súbor z adresára HDFS Spark a skopíruje ho do adresára aplikácie:

$:~/spark-1.4.0-bin-hadoop2.6$ bin/spark-submit --class MyClass --master yarn-cluster --conf spark.yarn.jar=hdfs://node-00b/user/spark/share/lib/spark-assembly.jar my.jar
[...]
15/07/06 21:25:43 INFO yarn.Client: Uploading resource hdfs://node-00b/user/spark/share/lib/spark-assembly.jar -> hdfs://nameservice1/user/XXX/.sparkStaging/application_1434986503384_0477/spark-assembly.jar

Očakával som, že montážny súbor by mal byť skopírovaný do HDFS, ale v skutočnosti sa zdá byť stiahnutý a nahraný znova, čo je do značnej miery kontraproduktívne. Akékoľvek náznaky?

odpovede:

3 pre odpoveď č. 1

Obe HDFS musia byť rovnaké. Pozrite si príslušné kódy tu:

https://github.com/apache/spark/blob/37bf76a2de2143ec6348a3d43b782227849520cc/yarn/src/main/scala/org/apache/spark/deploy/yarn/Client.scala#L1308

https://github.com/apache/spark/blob/master/yarn/src/main/scala/org/apache/spark/deploy/yarn/Client.scala#L1308

Akýkoľvek dôvod, prečo nemôžete mať jiskrovú zostavu s jiskrom na nameservice1 HDFS?