प्रोग्रामिंग, सवालों के जवाब में मदद करें / Hadoop स्पार्क असेंबली फ़ाइल स्पार्क के बावजूद अपलोड की गई ।yarn.conf सेट किया जा रहा है - हडूप, अपाचे-स्पार्क, एचडीएफएस, यार्न

Spark.yarn.conf सेट होने के बावजूद स्पार्क असेंबली फ़ाइल अपलोड की गई - हडूप, अपाचे-स्पार्क, एचडीएफएस, यार्न

मैं यार्न पर चलने वाले स्पार्क क्लस्टर को नौकरी सौंपता हूंकभी-कभी अपेक्षाकृत धीमी कनेक्शन के माध्यम से स्पार्क-सबमिट का उपयोग करना। प्रत्येक काम के लिए 156 एमबी स्पार्क-असेंबली फ़ाइल अपलोड करने से बचने के लिए, मैंने कॉन्फ़िगरेशन विकल्प सेट किया spark.yarn.jar HDFS पर फाइल करने के लिए। हालाँकि, यह अपलोड से बचता नहीं है, बल्कि HDFS स्पार्क डायरेक्टरी से असेंबली फाइल को ले जाता है और इसे एप्लिकेशन डायरेक्टरी में कॉपी करता है:

$:~/spark-1.4.0-bin-hadoop2.6$ bin/spark-submit --class MyClass --master yarn-cluster --conf spark.yarn.jar=hdfs://node-00b/user/spark/share/lib/spark-assembly.jar my.jar
[...]
15/07/06 21:25:43 INFO yarn.Client: Uploading resource hdfs://node-00b/user/spark/share/lib/spark-assembly.jar -> hdfs://nameservice1/user/XXX/.sparkStaging/application_1434986503384_0477/spark-assembly.jar

मैं उम्मीद कर रहा था कि असेंबली फाइल को एचडीएफएस के भीतर कॉपी किया जाना चाहिए, लेकिन वास्तव में यह फिर से डाउनलोड और अपलोड किया गया लगता है जो काफी प्रति-उत्पादक है। उस पर कोई संकेत?

उत्तर:

जवाब के लिए 3 № 1

दोनों HDFS को एक ही सिस्टम होना चाहिए। प्रासंगिक कोड यहां देखें:

https://github.com/apache/spark/blob/37bf76a2de2143ec6348a3d43b782227849520cc/yarn/src/main/scala/org/apache/spark/deploy/yarn/Client.scala#L1308

https://github.com/apache/spark/blob/master/yarn/src/main/scala/org/apache/spark/deploy/yarn/Client.scala#L1308

किसी भी कारण से आप इसके बजाय nameervice1 HDFS पर स्पार्क असेंबली जार कर सकते हैं?

संबंधित सवाल

स्पार्क-सबमिट यार्न-क्लस्टर के साथ -जर्स काम नहीं करता है? - जावा, हडूप, अपाचे-स्पार्क, यार्न, क्लौडेरा-सीडीएच

यार्न पर अपाचे स्पार्क में केवल कुछ नोड्स क्यों काम करते हैं? - जावा, हडूप, अपाचे-स्पार्क, यार्न

संरचित स्ट्रीमिंग काफ्का ड्राइवर रिलांच एचडीएफएस फ़ाइल नाम बदलने वाली त्रुटियों के साथ विफल रहता है क्योंकि नई नाम फ़ाइल पहले से मौजूद है - hdfs, apache-kafka, स्पार्क-स्ट्रीमिंग

हडूप - हडूप, अपाचे-स्पार्क, इंस्टॉलेशन पर स्पार्क इंस्टॉल करना

स्पार्क: conf.yarn.jar - हैडअप, अपाचे-स्पार्क, यार्न सेट करते समय अज्ञात / असमर्थित परम त्रुटि

सीडीएच (क्लौडेरा) का उपयोग करने का क्या फायदा है? [बंद] - हडूप, बिगडाटा, अपाचे-स्पार्क, क्लौडेरा, क्लौडेरा-सीडीएच

क्या हैडोप यार्न 2.7.2 क्लस्टर पर स्पार्क 1.6.2 और 2.0.0 दोनों का समर्थन करने का कोई आधिकारिक तरीका है? - हडूप, अपाचे-स्पार्क, यार्न

यार्न-क्लाइंट के साथ स्पार्क-खोल लॉन्च क्यों करता है "java.lang.ClassNotFoundException: org.apache.hadoop.fs.FSDataInputStream" के साथ विफल रहता है? - हडूप, अपाचे-स्पार्क, यार्न

हडोप यार्न - बाश, हडूप, अपाचे-स्पार्क, यार्न पर स्पार्क इंस्टॉलेशन

स्पार्क 2 डेटासेट <पंक्ति> saveAsTable ने HIV मेटाडेटा अपडेट नहीं किया - अपाचे-स्पार्क, हाइव, हैडोप 2

अपाचे स्पार्क: यार्न लॉग विश्लेषण - अपाचे-स्पार्क, एचडीएफएस, लॉगस्टैश, यार्न, स्पार्क-स्ट्रीमिंग

यार्न पर स्पार्क: कई स्पार्क नौकरियों को निर्धारित करने के लिए कैसे करें - अपाचे-स्पार्क, यार्न

यार्न में क्लौडेरा 5 पर गतिशील आवंटन कैसे सेट करें? - अपाचे-स्पार्क, यार्न, क्लौडेरा-सीडीएच

यार्न-क्लाइंट पर स्पार्क निष्पादक निष्पादक कोर गिनती कॉन्फ़िगरेशन नहीं लेता है। - अपाचे-स्पार्क, यार्न

पाइथन नौकरी सबमिशन दूरस्थ रूप से स्पार्क करने के लिए - अपाचे-स्पार्क, pyspark

स्पार्क-यार्न क्लस्टर पर्यावरण में चलाने के लिए केवल एक स्पार्क-सबमिट की अनुमति है - अपाचे-स्पार्क, संसाधन, क्लस्टर-कंप्यूटिंग, यार्न, वितरित-कंप्यूटिंग

मेसो या यार्न का उपयोग करने के लिए मुझे कितने स्पार्क नोड्स चाहिए? - अपाचे-स्पार्क, यार्न, मेसोस

स्पार्क एसक्यूएल काम कर रहा है, लेकिन ऐसा लगता है कि बिना किसी क्लस्टर मैनेजर के, यह संभव है? - अपाचे-स्पार्क

एचडीपी 2.4 पर स्पार्क 2 चलाना - अपाचे-स्पार्क, यार्न, हॉर्टनवर्क-डेटा-प्लेटफॉर्म

मुझे स्पार्क नौकरियों के बीच स्पार्क सेवाओं को पुनरारंभ करना क्यों है? - अपाचे-स्पार्क, पाइस्पार्क, स्पार्क-डेटाफ्रेम