/ / un exécutant fonctionnant beaucoup plus longtemps que tous les autres dans la tâche de transmission par flux spark - apache-spark, apache-kafka, spark-streaming

un exécutant fonctionnant beaucoup plus longtemps que tous les autres dans la tâche de diffusion en continu - apache-spark, apache-kafka, spark-streaming

entrer la description de l'image ici

Je suis en train d’intégrer le flux en continu avec kafka, dans l’une des étapes, un exécutant est beaucoup plus lent que l’autre ..

vous pouvez trouver dans l'image, h10.zw dure 2,6 min et le "temps de la tâche" est de 52 min, ce qui est beaucoup plus long que les autres exécuteurs Mais la taille de lecture aléatoire / taille d’écriture aléatoire est identique à celle des autres.

Je me demande quel est le "temps de la tâche"? Que fait l'exécuteur h10.zw? Comment équilibrer la durée d'exécution de tous les exécuteurs afin d'éviter une distorsion temporelle?

Réponses:

1 pour la réponse № 1

Cela peut, en fonction de votre traitement exact, être dû à biais de données. Essayer exécution spéculative et changer votre partitionnement en petites partitions. Cela devrait aider à déterminer si tel est le cas.