Ayuda en la programación, respuestas a preguntas / Apache Kafka / cómo procesar mejor la enorme historia de datos en el tema kafka mediante el uso de chispa de flujo - apache-kafka, chispa de flujo

cómo procesar mejor la enorme historia de datos en el tema kafka mediante el uso de la transmisión de chispa - apache-kafka, la transmisión de chispa

Estoy experimentando un problema para iniciar la transmisión de chispas en un tema kafka realmente grande, ya hay alrededor de 150 millones de datos en este tema y el tema está creciendo súper rápido.

Cuando traté de iniciar la transmisión de chispas y leerdatos del principio de este tema configurando el parámetro kafka ("auto.offset.reset" -> "el más pequeño"), siempre intenta finalizar el procesamiento de todos los 150 millones de datos en el primer lote y devolver un "java.lang.OutOfMemoryError: El límite de sobrecarga del GC superó "error. Sin embargo, no hay mucho cálculo en esta aplicación de flujo de chispas.

¿Puedo tener una manera de procesar los datos del historial en este tema en los primeros lotes pero no todos en el primer lote?

Muchas gracias de antemano! James

Respuestas

1 para la respuesta № 1

Puede controlar la velocidad de lectura de la entrada de kafka con la siguiente configuración de chispa spark.streaming.kafka.maxRatePerPartition .

Puede configurarlo dando la cantidad de documentos que desea procesar por lote.

sparkConf.set("spark.streaming.kafka.maxRatePerPartition","<docs-count>")

Por encima del proceso de configuración <docs-count>*<batch_interval> Registros por lote.

Puedes encontrar más información sobre la configuración anterior aquí.

preguntas relacionadas

Conexión de la transmisión de Spark a la entrada de los streamsets - streaming, streaming de chispa, streamsets

Lea más temas de Kafka que la cantidad de núcleos de CPU: scala, apache-spark, apache-kafka, spark-streaming

Cómo usar el consumidor Kafka en chispa - scala, apache-spark, apache-kafka, kafka-consumer-api

Spark / Spark Streaming en producción sin HDFS - scala, apache-spark, hdfs, spark-streaming

Unirse a la transmisión basada en la clave - Spark / Kafka - scala, apache-spark, apache-kafka

Spark Streaming Kafka caída del consumo de consumo directo - scala, amazon-web-services, apache-spark, apache-kafka, spark-streaming

Spark Streaming con Kafka en Scala - scala, apache-spark, apache-kafka

Análisis de registros web para Spark Streaming - análisis, apache-kafka, chispa

cómo juntar los datos de kafka - java, apache-kafka

¿Cómo leer los registros del archivo en kafka? - apache, apache-kafka, chispas, kafka-producer-api

Transmisión de chispas + rendimiento de kafka - apache-spark, apache-kafka

¿Por qué el nuevo flujo directo de Kafka en Spark Streaming toma un conjunto de temas? - apache-spark, apache-kafka, spark-streaming

Procesamiento en orden en Spark Streaming - apache-spark, spark-streaming

Velocidad de entrada cero en la transmisión de archivos Spark: apache-spark, spark-stream

por qué solo puedo ver una transmisión de chispa kafkaReceiver - apache-spark, apache-kafka, spark-streaming

funcionalidad de transmisión de chispas tiempo de envío de chispas a través de excepciones: apache-spark, pyspark, spark-streaming, spark-dataframe, akka-stream

¿Por qué los ejecutores de transmisión de chispas comienzan en un momento diferente? - apache-spark, spark-streaming, línea de tiempo

Kafka no puede recibir mensajes con el nuevo ID de grupo: apache-spark, apache-kafka

predicar empuje a kafka con chispa de transmisión. Filtre qué registros se leerán de kafka a nivel de kafka - apache-kafka, chispa streaming

Kafka Consumer no consume mensajes de todas las particiones: apache-kafka, kafka-consumer-api