Аз изпращам работа на клостер на Spark, който се движи с преждиизползвайки понякога с помощта на искрата чрез относително бавна връзка. За да избегнете качването на файла 156MB искра за всяко задание, зададох опцията за конфигуриране spark.yarn.jar
към файла на HDFS. Това обаче не избягва качването, а по-скоро отнема файла за сглобяване от директорията HDFS Spark и го копира в директорията на приложението:
$:~/spark-1.4.0-bin-hadoop2.6$ bin/spark-submit --class MyClass --master yarn-cluster --conf spark.yarn.jar=hdfs://node-00b/user/spark/share/lib/spark-assembly.jar my.jar
[...]
15/07/06 21:25:43 INFO yarn.Client: Uploading resource hdfs://node-00b/user/spark/share/lib/spark-assembly.jar -> hdfs://nameservice1/user/XXX/.sparkStaging/application_1434986503384_0477/spark-assembly.jar
Очаквах файлът на монтажа да бъде копиран в HDFS, но всъщност изглежда да бъде изтеглена и качи отново, което е доста контрапродуктивно. Някакви намеци за това?
Отговори:
3 за отговор № 1И двата HDFS трябва да са еднакви. Вижте съответните кодове тук:
Някаква причина, поради която не можеш да имаш бурканче за монтиране на искра на nameservice1 HDFS вместо това?