/ / durante cuánto tiempo se pueden conservar los RDD en la chispa: apache-spark, persistence, spark-streaming, rdd

¿Cuánto tiempo pueden persistir los RDD en chispa? apache-spark, persistence, spark-streaming, rdd

He escrito un programa donde persistoel RDD dentro de la corriente de chispa para que una vez que el nuevo RDD provenga de la corriente de chispa pueda unir los RDD previamente almacenados en caché con el nuevo. ¿Hay alguna manera de establecer el tiempo de vida para estos RDD persistentes, de modo que pueda asegurarme de no unirme a los RDD que ya obtuve en el último ciclo de transmisión?

También sería genial si alguien puede explicar y señalar cómo una vez que funciona la persistencia en los RDD, como cuando obtengo los RDD persistentes del contexto de chispa, ¿cómo puedo unirme a estos RDD en mis RDD actuales?

Respuestas

1 para la respuesta № 1

En Spark Streaming, el tiempo de vida de un RDD generado por el proceso de Streaming es controlado por spark.cleaner.ttl configuración. El valor predeterminado es infinito, pero para que surta efecto, también debemos establecer spark.streaming.unpersist a falso, para que la transmisión de Spark "deje vivir" los RDD generados.

Tenga en cuenta que no hay ttl por RDD posible.