Hilfe bei der Programmierung, Antworten auf Fragen / Python Konvertieren Pandas Datenrahmen zu RDD in Zeppelin - Python, Apache-Spark, Apache-Zeppelin

Konvertieren Pandas Datenrahmen zu RDD in Zeppelin - Python, Apache-Spark, Apache-Zeppelin

Ich bin neu in Zeppelin und ich verstehe Dinge, die ich nicht verstehe.

Ich habe eine Tabelle von einer db mit Python heruntergeladen,dann möchte ich es in eine RDD konvertieren. Aber ich habe den Fehler, dass die Tabelle nicht gefunden wird. Ich denke, es ist ein Problem, die Tische mit anderen Dolmetschern zu gründen, aber ich weiß es nicht wirklich ... Ich habe es versucht Dies und Dies Frage aber immer noch nicht arbeiten, sie erstellen die DF direkt mit Funken. Jede Hilfe wäre so nützlich :)

 %python
engine = create_engine(
"mysql+mysqlconnector://...")
df = pd.read_sql(query, engine)

%spark
val sqlContext = new org.apache.spark.sql.SQLContext(sc)

import sqlContext.implicits._
df=df.registerTempTable("df")

val df = sqlContext.sql("SELECT * from df LIMIT 5")
df.collect().foreach(println)

Antworten:

2 für die Antwort № 1

Die Konvertierung eines Pandas DataFrame in einen Spark DataFrame ist recht einfach:

%python
import pandas

pdf = pandas.DataFrame([[1, 2]]) # this is a dummy dataframe

# convert your pandas dataframe to a spark dataframe
df = sqlContext.createDataFrame(pdf)

# you can register the table to use it across interpreters
df.registerTempTable("df")

# you can get the underlying RDD without changing the interpreter
rdd = df.rdd

Um es mit scala spark zu holen, müssen Sie nur folgendes tun:

%spark
val df = sqlContext.sql("select * from df")
df.show()
// +---+---+
// |  0|  1|
// +---+---+
// |  1|  2|
// +---+---+

Sie können auch die zugrunde liegende rdd erhalten:

val rdd = df.rdd

Verwandte Fragen

Verarbeiten Sie große Textdateien mit Zeppelin und Spark - Scala, Apache-Spark, Apache-Zeppelin, Bigdata

Wie kann ich einen Datenrahmen in Zeppelin / Spark / Scala schön drucken? - Scala, Apache-Funke, Apache-Zeppelin

Installation von R auf Apache Zeppelin - r, Apache, Apache-Zeppelin

Verwenden von pyspark im Zeppelin mit python3 auf Spark 2.1.0 - Python-3.x, Apache-Spark, Pyspark, Python-3.5, Apache-Zeppelin

Apache Zeppelin Konfiguration mit Spark - Linux, Ubuntu, Apache-Spark, Apache-Zeppelin

Integration von Zeppelin 0.7.2: java.lang.IllegalArgumentException: Die Befehlszeile darf nicht null sein - ignite, apache-zeppelin

Fehler beim Importieren einiger Visualisierungs-Heliumpakete in Zeppelin - Highcharts, Npm, Apache-Zeppelin

Was ist Apache Zeppelin? [geschlossen] - Hadoop, Apache-Funke, Bigdata, Apache-Zeppelin

ZEPPELIN: Konnte Hauptklasse org.apache.zeppelin.server.ZeppelinServer nicht finden oder laden - Hadoop, Apache-Zeppelin

Das Laden eines Datenrahmens, der 2 Minuten auf Spark-Shell dauerte, dauert ewig in Zeppelin - emr, amazon-emr

Problem beim Zugriff auf den Zeppelin-Kontext im Apache Livy Interpreter für Zeppelin - Apache-Zeppelin, livy

Problem beim Hinzufügen von Abhängigkeiten von lokalen Repository in Apache Livy Interpreter für Zeppelin - Apache-Zeppelin, Livy

Zeppelin z. Funktionsdokumentation - Apache-Zeppelin

Funken Datenrahmen Union Datenrahmen in Spark-Solr - Apache-Funken, Solr, Apache-Spark-Sql, Spark-Datenframe

Zeppelin - Spark 1.6 Probleme mit Abhängigkeiten - Apache-Spark, Apache-Zeppelin

Es ist nicht möglich, Apache Zeppelin mit DSE Cassandra Analytics-Knoten zu verbinden - Apache-Spark

Wie installiere ich Zeppeling richtig und lade PySpark? - Apache-Funke, Pyspark, Apache-Zeppelin

Apache Zeppelin nicht laden libmesos.so - Apache-Funke, Mesos, Mesosphäre, Apache-Zeppelin

Wie man spark.driver.memory für Spark / Zeppelin auf EMR setzt - apache-funke, emr, amazon-emr, apache-zeppelin

Wie installiert man Apache Zeppelin auf bestehenden Apache Spark Standalone-Cluster - Amazon-Web-Services, Apache-Spark, Big Data, Apache-Spark-SQL, Apache-Zeppelin