/ / per quanto tempo gli RDD possono essere mantenuti in scintilla - apache-spark, persistenza, spark-streaming, rdd

per quanto tempo gli RDD possono essere mantenuti in scintilla - apache - scintilla, persistenza, scintilla-streaming, rdd

Ho scritto un programma in cui sto persistendoil RDD all'interno del flusso di scintilla in modo che una volta che il nuovo RDD provenga da un flusso di scintilla, posso unire gli RDD precedentemente memorizzati nella cache con quello nuovo. C'è un modo per impostare il tempo di vita per questo RDD persistente, in modo che possa essere sicuro di non unirmi agli RDD che ho già ottenuto nell'ultimo ciclo di streaming.

Sarebbe anche bello se qualcuno potesse spiegare e puntare su come funziona una volta la persistenza in RDD, come quando ottengo gli RDD persistenti dal contesto di scintille, come posso unire questi RDD ai miei RDD attuali.

risposte:

1 per risposta № 1

In Spark Streaming, il time-to-live di un RDD generato dal processo di streaming è controllato da spark.cleaner.ttl configurazione. Il valore predefinito è infinito, ma per poter avere alcun effetto, dobbiamo anche impostare spark.streaming.unpersist a false, in modo che Spark streaming "lascia vivere" gli RDD generati.

Si noti che non è possibile alcun ttl per-RDD.