/ / Spark монтаж файл, качени въпреки spark.yarn.conf се определя - hadoop, apache-искра, hdfs, прежда

Файлът за монтаж на Spark е качен въпреки настройката spark.yarn.conf - hadoop, apache-spark, hdfs, прежда

Аз изпращам работа на клостер на Spark, който се движи с преждиизползвайки понякога с помощта на искрата чрез относително бавна връзка. За да избегнете качването на файла 156MB искра за всяко задание, зададох опцията за конфигуриране spark.yarn.jar към файла на HDFS. Това обаче не избягва качването, а по-скоро отнема файла за сглобяване от директорията HDFS Spark и го копира в директорията на приложението:

$:~/spark-1.4.0-bin-hadoop2.6$ bin/spark-submit --class MyClass --master yarn-cluster --conf spark.yarn.jar=hdfs://node-00b/user/spark/share/lib/spark-assembly.jar my.jar
[...]
15/07/06 21:25:43 INFO yarn.Client: Uploading resource hdfs://node-00b/user/spark/share/lib/spark-assembly.jar -> hdfs://nameservice1/user/XXX/.sparkStaging/application_1434986503384_0477/spark-assembly.jar

Очаквах файлът на монтажа да бъде копиран в HDFS, но всъщност изглежда да бъде изтеглена и качи отново, което е доста контрапродуктивно. Някакви намеци за това?

Отговори:

3 за отговор № 1

И двата HDFS трябва да са еднакви. Вижте съответните кодове тук:

https://github.com/apache/spark/blob/37bf76a2de2143ec6348a3d43b782227849520cc/yarn/src/main/scala/org/apache/spark/deploy/yarn/Client.scala#L1308

https://github.com/apache/spark/blob/master/yarn/src/main/scala/org/apache/spark/deploy/yarn/Client.scala#L1308

Някаква причина, поради която не можеш да имаш бурканче за монтиране на искра на nameservice1 HDFS вместо това?