Aiuto nella programmazione, risposte alle domande / Scintilla di Apache / Cosa sono le variabili di trasmissione? Quali problemi risolvono? - Apache-Spark

Quali sono le variabili di trasmissione? Quali problemi risolvono? - apache-spark

Sto esaminando la guida alla programmazione Spark che dice:

Le variabili di trasmissione consentono al programmatore di mantenere una variabile di sola lettura memorizzata nella cache su ogni macchina anziché inviarne una copia con le attività.

Considerando quanto sopra, quali sono i casi d'uso delle variabili di trasmissione? Quali problemi risolvono le variabili di trasmissione?

Quando creiamo una variabile di trasmissione come di seguito, il riferimento alla variabile, eccolo qui broadcastVar disponibile in tutti i nodi del cluster?

val broadcastVar = sc.broadcast(Array(1, 2, 3))

Per quanto tempo queste variabili sono disponibili nella memoria dei nodi?

risposte:

29 per risposta № 1

Se si dispone di un enorme array a cui si accedeSpark Closures, ad esempio alcuni dati di riferimento, questo array verrà spedito a ciascun nodo spark con chiusura. Ad esempio, se si dispone di un cluster di 10 nodi con 100 partizioni (10 partizioni per nodo), questo array verrà distribuito almeno 100 volte (10 volte per ciascun nodo).

Se si utilizza la trasmissione, questa verrà distribuita una volta per nodo utilizzando un protocollo p2p efficiente.

val array: Array[Int] = ??? // some huge array
val broadcasted = sc.broadcast(array)

E alcuni RDD

val rdd: RDD[Int] = ???

In questo caso l'array verrà spedito con chiusura ogni volta

rdd.map(i => array.contains(i))

e con la trasmissione otterrai enormi vantaggi in termini di prestazioni

rdd.map(i => broadcasted.value.contains(i))

domande correlate

Intellisense in Intellij con librerie di scintille - scala, apache-spark, intellij-idea

valore collectAsMap non è un membro di org.apache.spark.rdd.RDD - scala, apache-spark

scintilla da scala 2.10.4 a 2.11 - scala, eclipse-plugin, apache-spark, apache-spark-sql

Problemi di installazione di Spark - python-3.x, apache-spark, pyspark

Come BroadcastHashJoin funziona perfettamente nella scintilla? - unisciti, apache-spark

Nuovo a Spark e Spark SQL con Java: java, apache-spark, apache-spark-sql, data-migration, bigdata

Come trasmettere una grande variabile al disco locale di ciascun nodo in Spark - hadoop, apache-spark, broadcast

Come unire due tavoli - grandi e piccoli - in modo efficace? - hadoop, apache-spark

Usare le raccolte java nei programmi spark - apache-spark

broadcast () più volte lo stesso df. È memorizzato nella cache? - apache-spark, apache-spark-sql, spark-dataframe

Impossibile ottenere broadcast_4_piece0 di broadcast_4 in Spark Streaming - apache-spark, spark-streaming

Quando si esegue il mahout spark-itemsimilarity sta dando un errore? - apache-spark, mahout, mahout-recommender

apache spark bluemix impossibile - apache-spark, ibm-cloud

Apache Spark non vede tutta la ram delle mie macchine - apache-spark, google-compute-engine, apache-spark-mllib

Come si uccide un lavoro spark se è noto l'ID dell'applicazione? - apache-spark, datastax-enterprise

La scintilla di Apache non dà risultati corretti - apache-spark, apache-spark-sql

Perché abbiamo bisogno di due diversi file conf nella scintilla? - apache-spark

Accedi a WebUI di Spark dal computer remoto (casa)? - apache-spark

Eccezione Spark UDF quando si accede alla variabile di trasmissione - apache-spark, broadcast, udf, notserializableexception

Perché Spark rileva 8 core, quando ne ho solo 4? - apache-spark, cpu-core, webui