मैं विभिन्न साइटों पर अपाचे स्पार्क क्लस्टर के लिए एक टोपोलॉजी चुनने की कोशिश कर रहा हूं। क्या स्पार्क के पास खुद की जागरूकता क्षमताएं हैं?
उदाहरण के लिए ओरेगन और पेनांग में श्रमिकों के साथ एक क्लस्टर मान लें।
अब एक आवेदन जमा करते समय, जो लोड करता हैओरेगन से डेटा इसे संसाधित करता है और इसे ओरेगन में वापस बचाता है। क्या ओरेगन के श्रमिकों को प्राथमिकता दी जाएगी (यदि वे स्वतंत्र हैं)? हेवन "टी ने इस विषय के बारे में प्रलेखन पाया।
उत्तर:
जवाब के लिए 2 № 1जैसा कि यहां वर्णित है https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-data-locality.html
स्पार्क डेटा स्थानीयता, उर्फ डेटा प्लेसमेंट पर निर्भर करता हैया डेटा के लिए निकटता स्रोत, जहां डेटा स्थित है, जहां स्पार्क नौकरियों को संवेदनशील बनाता है। इसलिए यह महत्वपूर्ण है कि स्पार्क को Hadoop YARN क्लस्टर पर चलाया जाए अगर डेटा एचडीएफएस से आता है। डेटा सिस्टम स्वयं भू-जागरूक हो सकता है जैसे कैसेंड्रा: क्या स्पार्क डेटा इलाके का उपयोग करता है? http://www.slideshare.net/RussellSpitzer/spark-cassandralocality