Помощ при програмиране, отговори на въпроси / Apache kafka / как да обработим по-добре огромните исторически данни в темата на kafka, използвайки spark streaming - apache-kafka, spark-streaming

как по-добре да обработваме огромните данни от историята в темата на кафка, използвайки искра стрийминг - apache-kafka, искра

Изпитвам проблем, който трябва да започне да се превърне в искрена струна на наистина голяма тема за кафка, има около 150 милиона данни в тази тема и темата се разраства бързо.

Когато се опитах да стартирам искри и да четаданни от началото на тази тема, като зададете параметър kafka ("auto.offset.reset" -> "най-малък"), той винаги се опитва да завърши всичките 150 милиона обработка на данни в първия пакет и да върне "java.lang.OutOfMemoryError: Превишен е лимитът на GC за режима на натоварване. Въпреки това не е много изчисление в тази ап искра поток все пак.

Мога ли да имам начин да обработя историческите данни в тази тема в първите няколко партиди, но не всички в първата партида?

Букет от благодарности предварително! Джеймс

Отговори:

1 за отговор № 1

Можете да контролирате скоростта на четене на искровата кафка при следваща конфигурация на искри spark.streaming.kafka.maxRatePerPartition .

Можете да конфигурирате това, като посочите колко документа искате да обработите за всяка партида.

sparkConf.set("spark.streaming.kafka.maxRatePerPartition","<docs-count>")

Над процеса на конфигуриране <docs-count>*<batch_interval> записи на партида.

Можете да намерите повече информация за по-горе config тук.

Свързани въпроси

Свързването на потока от Spark към streamsets - поточно предаване, поток от искри, поточни потоци

Прочетете повече Кафка теми от броя на процесорите - скала, apache-spark, apache-kafka, искра

Как да използваме Kafka потребител в искра - скала, apache-spark, apache-kafka, kafka-consumer-api

Spark / Spark стрийминг в производството без HDFS - скала, apache-spark, hdfs, искра

Присъединете се към стрийминг на базата на ключ - Spark / Kafka - скала, apache-spark, apache-kafka

Spark Streaming Kafka директна потребителска консумация на скорост - scala, amazon-web-services, apache-spark, apache-kafka, искра

Spark Streaming с Кафка в Скала - скала, apache-spark, apache-kafka

уеб дневници за синхронизиране за Spark Streaming - синхронизиране, apache-kafka, искра-стрийминг

как да сложим данните от kafka заедно - java, apache-kafka

Как да четат дневници от файл в kafka? - apache, apache-kafka, искра, кафка-производител-api

Spark streaming + пропускателна способност на кафка - apache-spark, apache-kafka

Защо новият поток на Kafka Direct в Spark Streaming взема набор от теми? - apache-spark, apache-kafka, поток от искри

Обработка в заявка в Spark Streaming - apache-spark, поток от искри

Ниво на нулево въвеждане в потока от файлове на Spark - apache-spark, поток от искри

защо мога само да видя една искра стрийминг kafkaReceiver - apache-spark, apache-kafka, искра стрийминг

искри-спринк, pyspark, искра-стрийминг, искра-dataframe, akka-stream

Защо искри стрийминг изпълнители започват в различно време? - Apache-spark, поток от искри, времева линия

искра не може да получи съобщение от Кафка с нова група - apache-spark, apache-kafka

предикат тласък към кафка с искра стрийминг. Филтрирайте какви записи трябва да бъдат прочетени от kafka на ниво kafka - apache-kafka, поток от искри

Kafka Consumer не консумира съобщения от всички дялове - apache-kafka, kafka-consumer-api