/ / Hat Apache Funke Geo-Bewusstsein? - Apache-Spark, Spark-Datenrahmen

Hat Apache Funke Geo-Bewusstsein? - Apache-Spark, Spark-Datenrahmen

Ich versuche, eine Topologie für Apache-Funken-Cluster über verschiedene Standorte hinweg zu wählen. Hat Spark seine eigenen Awareness-Fähigkeiten?

Nehmen Sie zum Beispiel einen Cluster mit Arbeitern in Oregon und Penang an.

Jetzt beim Absenden einer Anwendung, die lädtDaten von Oregon verarbeiten es und speichern es zurück nach Oregon. Werden Oregon-Arbeiter bevorzugt (wenn sie frei sind)? Haven fand keine Dokumentation zu diesem Thema.

Antworten:

2 für die Antwort № 1

Wie hier beschrieben https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-data-locality.html

Spark stützt sich auf Datenlokalisierung, auch bekannt als Datenplatzierungoder Nähe zu Daten Quelle, die Spark-Jobs für die Position der Daten empfindlich macht. Es ist daher wichtig, dass Spark auf dem Hadoop YARN-Cluster ausgeführt wird wenn die Daten von HDFS stammen. Das Datensystem selbst kann geo-bewusst sein, z.B. Kassandra: Verwendet Spark Datenlokalität? http://www.slideshare.net/RussellSpitzer/spark-cassandralocality