Pomoc pri programovaní, odpovede na otázky / Hadoop / Súbor zostavy Spark bol nahraný aj napriek nastaveniu spark.yarn.conf - hadoop, apache-spark, hdfs, priadza

Súbor zostavy Spark bol odovzdaný napriek nastaveniu spark.yarn.conf - hadoop, apache-spark, hdfs, priadza

Podávam úlohy skupine Spark, ktorá beží na priadzepoužívajúc iskry, ktoré niekedy prechádzajú pomerne pomalým pripojením. Aby sa zabránilo odovzdaniu súpravy 156 MB iskier pre každú úlohu, nastavila som možnosť konfigurácie spark.yarn.jar do súboru na HDFS. Nevyhýba sa to však odosielaniu, ale skôr sa preberá súbor z adresára HDFS Spark a skopíruje ho do adresára aplikácie:

$:~/spark-1.4.0-bin-hadoop2.6$ bin/spark-submit --class MyClass --master yarn-cluster --conf spark.yarn.jar=hdfs://node-00b/user/spark/share/lib/spark-assembly.jar my.jar
[...]
15/07/06 21:25:43 INFO yarn.Client: Uploading resource hdfs://node-00b/user/spark/share/lib/spark-assembly.jar -> hdfs://nameservice1/user/XXX/.sparkStaging/application_1434986503384_0477/spark-assembly.jar

Očakával som, že montážny súbor by mal byť skopírovaný do HDFS, ale v skutočnosti sa zdá byť stiahnutý a nahraný znova, čo je do značnej miery kontraproduktívne. Akékoľvek náznaky?

odpovede:

3 pre odpoveď č. 1

Obe HDFS musia byť rovnaké. Pozrite si príslušné kódy tu:

https://github.com/apache/spark/blob/37bf76a2de2143ec6348a3d43b782227849520cc/yarn/src/main/scala/org/apache/spark/deploy/yarn/Client.scala#L1308

https://github.com/apache/spark/blob/master/yarn/src/main/scala/org/apache/spark/deploy/yarn/Client.scala#L1308

Akýkoľvek dôvod, prečo nemôžete mať jiskrovú zostavu s jiskrom na nameservice1 HDFS?

Súvisiace otázky

jiskra-predložiť priadze-klastra s - jars nefunguje? - java, hadoop, apache-spark, priadza, clouddera-cdh

Prečo len málo uzlov pracuje v apache spark na priadze? - java, hadoop, apache-spark, priadza

Štruktúrovaná streamingová reštartovanie ovládača kafka zlyhá pri premenovaní súborov HDFS, pretože už existuje nový názov súboru - hdfs, apache-kafka, spark-streaming

Inštalácia iskra na hasoop - hadoop, apache-spark, inštalácia

Spark: Neznáma / nepodporovaná chyba param pri nastavovaní conf.yarn.jar - hadoop, apache-spark, priadza

Aký je prínos použitia CDH (cloudera)? [zatvorené] - hadoop, bigdata, apache-spark, cloudera, cloudera-cdh

Existuje oficiálny spôsob, ako podporiť Spark 1.6.2 a 2.0.0 na zhluku priadze Hadoop 2.7.2? - hadoop, apache-spark, priadza

Prečo spúšťa spark-shell s priadzou-klient zlyhá s "java.lang.ClassNotFoundException: org.apache.hadoop.fs.FSDataInputStream"? - hadoop, apache-spark, priadza

Inštalácia iskier na priadze Hadoop - bash, hadoop, apache-spark, priadza

Spark2 Dataset <riadok> saveAsTable neaktualizoval HIVE metadáta - apache-spark, úľa, hadoop2

Apache Spark: protokoly priadze Analýza - apache-spark, hdfs, logstash, priadza, jiskra

Spark na priadze: Ako zabrániť naplánovaniu viacerých jiskrových úloh - apache-spark, priadza

Ako nastaviť dynamické priradenie na Cloudera 5 v YARN? - apache-spark, priadza, clouddera-cdh

Spravodajský sprievodca na priadze-klient nepodporuje konfiguráciu počtu vykonávacích jadier. - apache-spark, priadza

Python podanie práce na iskrenie z diaľky - apache-spark, pyspark

Iba jedno iskrenie bolo povolené spustiť v prostredí clusteru priadze - apache-spark, zdroje, cluster-computing, priadza, distribuované výpočty

S koľkými zapaľovacími uzlami by som mal používať Mesos alebo priadzu? apache-spark, priadza, mesos

Spark sql funguje, ale zdá sa, že bez manažéra klastrov, je to možné? - apache-spark

Beh Spark 2 na HDP 2.4 - Apache-iskra, priadza, hortonworks-data-platforma

Prečo musím pokračovať v reštartovaní služieb iskier medzi jiskrami? - apache-spark, pyspark, scénový dátový rámec