/ / Das Laden eines Datenrahmens, der 2 Minuten auf Spark-Shell dauerte, dauert ewig in Zeppelin - emr, amazon-emr

Das Laden eines Datenrahmens, der 2 Minuten auf Spark-Shell dauerte, dauert ewig in Zeppelin - emr, amazon-emr

Das Laden eines Datenrahmens, der 2 Minuten auf Spark-Shell dauerte, dauert für immer in Zeppelin, wobei ein einzelner Knoten-Master mit emr-5.0.0 ausgeführt wird

Antworten:

0 für die Antwort № 1

Während Spark-Shell konnte meine Abfrage auf der vorherigen Edition Hardware (M1-Medium) ausführen, benötigt Zeppelin Speicher optimierte Hardware (r3.2xlarge), um praktisch die gleiche Abfrage, auf den gleichen Daten!


0 für die Antwort № 2

http://mail-archives.apache.org/mod_mbox/incubator-zeppelin-users/201505.mbox/%3CCAD7JkQGRTbk4k6_d=wJrfCPEmXSJMpeN=jZOuxMVdUcH-RfO1w@mail.gmail.com%3E

Offensichtlich besteht ein Unterschied darin, wie die Aufgaben erstellt und ausgeführt werden, wenn Abfragen zwischen verschiedenen Kontexten ausgeführt werden. Wenn Sie Ihren Code einfügen, können wir vielleicht den Unterschied sehen.

Ich kann Ihnen sagen, dass, wenn Sie eine Sparkshell ausführen, vs eine Spark-submit, gibt es geringfügige Unterschiede in, wie die Kontexte eingerichtet sind.