Das Laden eines Datenrahmens, der 2 Minuten auf Spark-Shell dauerte, dauert für immer in Zeppelin, wobei ein einzelner Knoten-Master mit emr-5.0.0 ausgeführt wird
Antworten:
0 für die Antwort № 1Während Spark-Shell konnte meine Abfrage auf der vorherigen Edition Hardware (M1-Medium) ausführen, benötigt Zeppelin Speicher optimierte Hardware (r3.2xlarge), um praktisch die gleiche Abfrage, auf den gleichen Daten!
0 für die Antwort № 2
Offensichtlich besteht ein Unterschied darin, wie die Aufgaben erstellt und ausgeführt werden, wenn Abfragen zwischen verschiedenen Kontexten ausgeführt werden. Wenn Sie Ihren Code einfügen, können wir vielleicht den Unterschied sehen.
Ich kann Ihnen sagen, dass, wenn Sie eine Sparkshell ausführen, vs eine Spark-submit, gibt es geringfügige Unterschiede in, wie die Kontexte eingerichtet sind.