Hilfe bei der Programmierung, Antworten auf Fragen / Apache Kafka / wie man die riesigen History-Daten im Kafka-Thema mit Hilfe von Spark-Streaming besser verarbeiten kann - apache-kafka, spark-streaming

wie man die riesigen History-Daten im Kafka-Thema mit Hilfe von Spark-Streaming besser verarbeiten kann - apache-kafka, spark-streaming

Ich habe gerade ein Problem, Funkenströme auf einem wirklich großen Kafka-Thema zu starten, es gibt bereits 150 Millionen Daten in diesem Thema und das Thema wächst super schnell.

Als ich versuchte, Funken zu strömen und zu lesenDaten vom Anfang dieses Themas, indem Sie kafka Parameter ("auto.offset.reset" -> "kleinste") setzen, es immer versuchen, alle 150 Millionen Datenverarbeitung im ersten Stapel zu beenden und einen "java.lang.OutOfMemoryError: GC Overhead Limit überschritten "Fehler. Es gibt nicht viel Berechnung in dieser Funkenstrom-App obwohl.

Kann ich die Verlaufsdaten in diesem Thema in den ersten mehreren Stapeln verarbeiten, aber nicht alle im ersten Stapel?

Vielen Dank im Voraus! James

Antworten:

1 für die Antwort № 1

Sie können die Spark-Kafka-Eingangsleserate mit der folgenden Funkenkonfiguration steuern spark.streaming.kafka.maxRatePerPartition .

Sie können dies konfigurieren, indem Sie angeben, wie viele Dokumente pro Stapel verarbeitet werden sollen.

sparkConf.set("spark.streaming.kafka.maxRatePerPartition","<docs-count>")

Über dem Konfigurationsprozess <docs-count>*<batch_interval> Datensätze pro Batch.

Sie können mehr Informationen über die obige Konfiguration finden Hier.

Verwandte Fragen

Verbinden von Spark-Streams mit Streaming-Eingaben - Streaming, Spark-Streaming, Streamsets

Lesen Sie mehr Kafka-Themen als die Anzahl der CPU-Kerne - Scala, Apache-Spark, Apache-Kafka, Spark-Streaming

Wie benutzt man Kafka Konsumenten in Spark - Scala, Apache - Spark, Apache - Kafka, Kafka - Consumer - Api

Spark / Spark Streaming in der Produktion ohne HDFS - scala, apache-spark, hdfs, spark-streaming

Registriere Streaming basierend auf Schlüssel - Spark / Kafka - Scala, Apache-Spark, Apache-Kafka

Spark Streaming Kafka direkte Konsumkonsum Geschwindigkeitsabfall - Scala, Amazon-Web-Services, Apache-Spark, Apache-Kafka, Funken-Streaming

Spark Streaming mit Kafka in Scala - Scala, Apache-Funke, Apache-Kafka

Web-Protokolle, die nach Spark-Streaming suchen - Parsing, Apache-Kafka, Spark-Streaming

wie man die daten von kafka zusammensetzt - java, apache-kafka

Wie liest man Protokolle aus einer Datei in kafka? - Apache, Apache-Kafka, Funkenströmung, Kafka-Produzent-Api

Spark Streaming + Kafka-Durchsatz - Apache-Funke, Apache-Kafka

Warum nimmt der neue Kafka Direct Stream im Spark Streaming eine Reihe von Themen auf? - Apache-Funke, Apache-Kafka, Funkenströmung

In-Order-Verarbeitung in Spark Streaming - Apache-Spark, Spark-Streaming

Zero Input Rate im Spark-Datei-Streaming - Apache-Spark, Spark-Streaming

warum kann ich nur einen Funken sehen, der kafkaReceiver sprüht - Apache-Funke, Apache-Kafka, Funkenströmung

Funke-Streaming-Funktionalität Zeit für das Einreichen von Funken durch Ausnahme - Apache-Spark, Pyspark, Spark-Streaming, Spark-Dataframe, Akka-Stream

Warum starten Sprink-Streaming-Executors zu unterschiedlichen Zeiten? - Apache-Funke, Funkenströmung, Timeline

Funke kann Nachricht von Kafka mit neuer groupId nicht erhalten - Apache-Funke, Apache-Kafka

Prädikat Push zu Kafka mit Funken Streaming. Filtern Sie, welche Datensätze von Kafka auf Kafka-Ebene gelesen werden - Apache-Kafka, Spark-Streaming

Kafka Consumer konsumiert keine Nachrichten von allen Partitionen - apache-kafka, kafka-consumer-api