Hilfe bei der Programmierung, Antworten auf Fragen / Emr / Das Laden eines Datenrahmens, der 2 Minuten auf Spark-Shell dauerte, dauert ewig in Zeppelin - emr, amazon-emr

Das Laden eines Datenrahmens, der 2 Minuten auf Spark-Shell dauerte, dauert ewig in Zeppelin - emr, amazon-emr

Das Laden eines Datenrahmens, der 2 Minuten auf Spark-Shell dauerte, dauert für immer in Zeppelin, wobei ein einzelner Knoten-Master mit emr-5.0.0 ausgeführt wird

Antworten:

0 für die Antwort № 1

Während Spark-Shell konnte meine Abfrage auf der vorherigen Edition Hardware (M1-Medium) ausführen, benötigt Zeppelin Speicher optimierte Hardware (r3.2xlarge), um praktisch die gleiche Abfrage, auf den gleichen Daten!

0 für die Antwort № 2

http://mail-archives.apache.org/mod_mbox/incubator-zeppelin-users/201505.mbox/%3CCAD7JkQGRTbk4k6_d=wJrfCPEmXSJMpeN=jZOuxMVdUcH-RfO1w@mail.gmail.com%3E

Offensichtlich besteht ein Unterschied darin, wie die Aufgaben erstellt und ausgeführt werden, wenn Abfragen zwischen verschiedenen Kontexten ausgeführt werden. Wenn Sie Ihren Code einfügen, können wir vielleicht den Unterschied sehen.

Ich kann Ihnen sagen, dass, wenn Sie eine Sparkshell ausführen, vs eine Spark-submit, gibt es geringfügige Unterschiede in, wie die Kontexte eingerichtet sind.

Verwandte Fragen

Verarbeiten Sie große Textdateien mit Zeppelin und Spark - Scala, Apache-Spark, Apache-Zeppelin, Bigdata

Wie kann ich einen Datenrahmen in Zeppelin / Spark / Scala schön drucken? - Scala, Apache-Funke, Apache-Zeppelin

Konvertieren Pandas Datenrahmen zu RDD in Zeppelin - Python, Apache-Spark, Apache-Zeppelin

Verwenden von pyspark im Zeppelin mit python3 auf Spark 2.1.0 - Python-3.x, Apache-Spark, Pyspark, Python-3.5, Apache-Zeppelin

Versuchen, ein Glas und eine externe Klasse zu laden - mysql, jdbc, Apache-Funke, Apache-Zeppelin

Apache Zeppelin Konfiguration mit Spark - Linux, Ubuntu, Apache-Spark, Apache-Zeppelin

Fehler beim Importieren einiger Visualisierungs-Heliumpakete in Zeppelin - Highcharts, Npm, Apache-Zeppelin

Was ist Apache Zeppelin? [geschlossen] - Hadoop, Apache-Funke, Bigdata, Apache-Zeppelin

ZEPPELIN: Konnte Hauptklasse org.apache.zeppelin.server.ZeppelinServer nicht finden oder laden - Hadoop, Apache-Zeppelin

Problem beim Zugriff auf den Zeppelin-Kontext im Apache Livy Interpreter für Zeppelin - Apache-Zeppelin, livy

Problem beim Hinzufügen von Abhängigkeiten von lokalen Repository in Apache Livy Interpreter für Zeppelin - Apache-Zeppelin, Livy

Funken Datenrahmen Union Datenrahmen in Spark-Solr - Apache-Funken, Solr, Apache-Spark-Sql, Spark-Datenframe

Wie man Kontinuität des Zusammenhangs zwischen benachbarten Zeppelin-Zellen - Apache-Funke, Apache-Zeppelin - erhält

Zeppelin - Spark 1.6 Probleme mit Abhängigkeiten - Apache-Spark, Apache-Zeppelin

Es ist nicht möglich, Apache Zeppelin mit DSE Cassandra Analytics-Knoten zu verbinden - Apache-Spark

Wie installiere ich Zeppeling richtig und lade PySpark? - Apache-Funke, Pyspark, Apache-Zeppelin

DSE VM von Datastax Das Cassandra-Spark-Tutorial erhält in Jupyter einen "toten Kernel" -Fehler - apache-spark, datastax-enterprise

Wie man spark.driver.memory für Spark / Zeppelin auf EMR setzt - apache-funke, emr, amazon-emr, apache-zeppelin

Zugriff verweigert S3-Datei von Zeppelin installiert auf EMR - Amazon-Web-Services, Amazon-S3, Apache-Spark, Emr, Apache-Zeppelin

Wie installiert man Apache Zeppelin auf bestehenden Apache Spark Standalone-Cluster - Amazon-Web-Services, Apache-Spark, Big Data, Apache-Spark-SQL, Apache-Zeppelin