Помощ при програмиране, отговори на въпроси / Hadoop / Spark монтаж файл, качени въпреки spark.yarn.conf се определя - hadoop, apache-искра, hdfs, прежда

Файлът за монтаж на Spark е качен въпреки настройката spark.yarn.conf - hadoop, apache-spark, hdfs, прежда

Аз изпращам работа на клостер на Spark, който се движи с преждиизползвайки понякога с помощта на искрата чрез относително бавна връзка. За да избегнете качването на файла 156MB искра за всяко задание, зададох опцията за конфигуриране spark.yarn.jar към файла на HDFS. Това обаче не избягва качването, а по-скоро отнема файла за сглобяване от директорията HDFS Spark и го копира в директорията на приложението:

$:~/spark-1.4.0-bin-hadoop2.6$ bin/spark-submit --class MyClass --master yarn-cluster --conf spark.yarn.jar=hdfs://node-00b/user/spark/share/lib/spark-assembly.jar my.jar
[...]
15/07/06 21:25:43 INFO yarn.Client: Uploading resource hdfs://node-00b/user/spark/share/lib/spark-assembly.jar -> hdfs://nameservice1/user/XXX/.sparkStaging/application_1434986503384_0477/spark-assembly.jar

Очаквах файлът на монтажа да бъде копиран в HDFS, но всъщност изглежда да бъде изтеглена и качи отново, което е доста контрапродуктивно. Някакви намеци за това?

Отговори:

3 за отговор № 1

И двата HDFS трябва да са еднакви. Вижте съответните кодове тук:

https://github.com/apache/spark/blob/37bf76a2de2143ec6348a3d43b782227849520cc/yarn/src/main/scala/org/apache/spark/deploy/yarn/Client.scala#L1308

https://github.com/apache/spark/blob/master/yarn/src/main/scala/org/apache/spark/deploy/yarn/Client.scala#L1308

Някаква причина, поради която не можеш да имаш бурканче за монтиране на искра на nameservice1 HDFS вместо това?

Свързани въпроси

искрата предава прежда-клъстер с - jars не работи? - java, hadoop, apache-spark, прежда, обладър-cdh

Защо само няколко възли работят в apache искра върху преждата? - java, hadoop, apache-spark, прежда

Структурираният стрийминг на рестартирането на драйвера на kafka не успее с грешки при преименуване на файловете на HDFS, тъй като вече съществува нов файл с имена - hdfs, apache-kafka, spark-streaming

Инсталиране на искра на hadoop - hadoop, apache-spark, монтаж

Spark: Неизвестна / неподдържана param грешка при настройка conf.yarn.jar - hadoop, apache-spark, прежда

Каква е ползата от използването на CDH (cloudera)? [затворен] - хайоп, bigdata, apache-spark, cloudera, cloudera-cdh

Има ли официалния начин да се поддържат както Spark 1.6.2 и 2.0.0 на Hadoop прежда 2.7.2 клъстер? - хайоп, апаш-искра, прежда

Защо стартирането на искра с принтер-клиент се провали с "java.lang.ClassNotFoundException: org.apache.hadoop.fs.FSDataInputStream"? - хайоп, апаш-искра, прежда

Инсталиране на искри на прежди от хадопад - баш, хаоп, апаш-искра, прежда

Spark2 набор от данни <ред> saveAsTable не актуализира HIVE метаданни - apache-spark, кошер, hadoop2

Apache Spark: Филтри за прежди Анализ - apache-spark, hdfs, logstash, прежда, искра

Искра на прежда: Как да се предотврати множество искри работа е планирано - apache-искра, прежда

Как да зададете динамично разпределение на Cloudera 5 в YARN? - apache-spark, прежда, облака-cdh

Spark executor на прежда-клиент не приема конвертор за конфигурация на сървъра. - Apache-spark, прежда

Подготовка за работа с Python, за да предизвикате дистанция - apache-spark, pyspark

Само една искра изпратена позволи да се изпълнява в искра прежда клъстер среда - apache-искра, ресурси, клъстер-компютри, прежди, разпределени-изчислителни

С колко запалителни възли трябва да използвам Mesos или прежди? - apache-spark, прежда, месо

Spark sql работи, но изглежда, че без мениджър на клъстера е възможно? - apache-spark

Running Spark 2 на HDP 2.4 - Apache-spark, прежда, hortonworks-data-platform

Защо трябва да продължавам да пускам отново искровите услуги между работите с искри? - apache-spark, pyspark, искра-информационна рамка