Aide à la programmation, réponses aux questions / Étincelle apache / un exécutant fonctionnant beaucoup plus longtemps que tous les autres dans la tâche de transmission par flux spark - apache-spark, apache-kafka, spark-streaming

un exécutant fonctionnant beaucoup plus longtemps que tous les autres dans la tâche de diffusion en continu - apache-spark, apache-kafka, spark-streaming

entrer la description de l'image ici

Je suis en train d’intégrer le flux en continu avec kafka, dans l’une des étapes, un exécutant est beaucoup plus lent que l’autre ..

vous pouvez trouver dans l'image, h10.zw dure 2,6 min et le "temps de la tâche" est de 52 min, ce qui est beaucoup plus long que les autres exécuteurs Mais la taille de lecture aléatoire / taille d’écriture aléatoire est identique à celle des autres.

Je me demande quel est le "temps de la tâche"? Que fait l'exécuteur h10.zw? Comment équilibrer la durée d'exécution de tous les exécuteurs afin d'éviter une distorsion temporelle?

Réponses:

1 pour la réponse № 1

Cela peut, en fonction de votre traitement exact, être dû à biais de données. Essayer exécution spéculative et changer votre partitionnement en petites partitions. Cela devrait aider à déterminer si tel est le cas.

questions connexes

Connexion de la diffusion en continu à un ensemble de flux en entrée - streaming, spark-streaming, flux

Lisez plus de sujets sur Kafka que le nombre de cœurs de processeur - scala, apache-spark, apache-kafka, spark-streaming

Comment utiliser consommateur Kafka dans spark - scala, apache-spark, apache-kafka, kafka-consumer-api

Spark / Spark Streaming en production sans HDFS - scala, apache-spark, hdfs, spark-streaming

Comment enregistrer Receiver [] avec Kryo? - scala, apache-spark

Spark Streaming avec Kafka dans Scala - scala, apache-spark, apache-kafka

Comment utiliser Kafka en tant que flux pour Apache Spark avec Scala 2.11? - scala, apache-spark, apache-kafka

analyse des journaux Web pour Spark Streaming - analyse, apache-kafka, spark-streaming

Qu'est-ce que la colonne Taille d'entrée dans l'interface utilisateur Web indique? - apache-spark, spark-streaming

Spark streaming + débit de kafka - apache-spark, apache-kafka

Taux d'entrée nul dans le flux de fichiers Spark - apache-spark, spark-streaming

combien de temps les RDD peuvent-ils être persistés dans spark - apache-spark, persistance, spark-streaming, rdd

pourquoi je ne vois qu'une étincelle en streaming kafkaReceiver - apache-spark, apache-kafka, spark-streaming

fonctionnalité de diffusion par étincelle durée de présentation par étincelle par exception - apache-spark, pyspark, diffusion en continu, spark-dataframe, akka-stream

Pourquoi étinceler les exécuteurs de streaming commencent à une heure différente - apache-spark, spark-streaming, chronologie

Exécution du problème d'onglet / tâche de l'exécuteur - apache-spark, spark-streaming

prédiquez push à kafka avec spark streaming. Filtrez les enregistrements à lire à partir de kafka au niveau kafka

DSE Spark Streaming + Kafka NoSuchMethodError - apache-kafka, cassandra-2.0, consommation courante

Kafka Consumer ne consomme pas les messages de toutes les partitions - apache-kafka, kafka-consumer-api

comment mieux traiter les énormes données historiques du sujet kafka en utilisant le streaming par étincelle - apache-kafka, spark-streaming