Pomoc w programowaniu, odpowiedzi na pytania / Pyton / Konwertuj ramkę danych pandy na RDD w zeppelinie - python, apache-spark, apache-zeppelin

Konwertuj ramkę danych pandy na RDD w zeppelinie - python, apache-spark, apache-zeppelin

Jestem nowy w Zeppelin i mam rzeczy, których po prostu nie rozumiem.

Pobrałem tabelę z bazy danych z pythonem,następnie chciałbym przekonwertować go na RDD. Ale mam błąd, że tabela nie została znaleziona. Myślę, że istnieje problem z założeniem tabel utworzonych z udziałem innych tłumaczy, ale nie wiem tak naprawdę ... próbowałem to i to pytanie, ale nadal nie działa, oni tworzą df bezpośrednio z iskry. Każda pomoc byłaby tak przydatna :)

 %python
engine = create_engine(
"mysql+mysqlconnector://...")
df = pd.read_sql(query, engine)

%spark
val sqlContext = new org.apache.spark.sql.SQLContext(sc)

import sqlContext.implicits._
df=df.registerTempTable("df")

val df = sqlContext.sql("SELECT * from df LIMIT 5")
df.collect().foreach(println)

Odpowiedzi:

2 dla odpowiedzi № 1

Konwersja DataFrame Pand do Spark DataFrame jest całkiem prosta:

%python
import pandas

pdf = pandas.DataFrame([[1, 2]]) # this is a dummy dataframe

# convert your pandas dataframe to a spark dataframe
df = sqlContext.createDataFrame(pdf)

# you can register the table to use it across interpreters
df.registerTempTable("df")

# you can get the underlying RDD without changing the interpreter
rdd = df.rdd

Aby pobrać go za pomocą iskry scala, musisz wykonać następujące czynności:

%spark
val df = sqlContext.sql("select * from df")
df.show()
// +---+---+
// |  0|  1|
// +---+---+
// |  1|  2|
// +---+---+

Możesz również pobrać bazowy plik rdd:

val rdd = df.rdd

Powiązane pytania

Przetwarzaj duży plik tekstowy za pomocą Zeppelin i Spark - scala, apache-spark, apache-zeppelin, bigdata

Jak mogę wydrukować ramkę danych w Zeppelin / Spark / Scala? - scala, apache-spark, apache-zeppelin

Instalacja R na Apache Zeppelin - r, Apache, Apache-Zeppelin

Używanie pyspark w Zeppelin z python3 na Spark 2.1.0 - python-3.x, apache-spark, pyspark, python-3.5, apache-zeppelin

Konfiguracja Apache Zeppelin ze Spark - linux, ubuntu, apache-spark, apache-zeppelin

Integracja Zeppelin 0.7.2: java.lang.IllegalArgumentException: Linia poleceń nie może mieć wartości zerowej - zapłon, apache-zeppelin

Błąd podczas importowania niektórych wizualizacyjnych pakietów helowych w Zeppelin - highcharts, npm, apache-zeppelin

Co to jest zeppelin Apache? [zamknięty] - hadoop, apache-iskra, bigdata, apache-zeppelin

ZEPPELIN: Nie można znaleźć lub załadować głównej klasy org.apache.zeppelin.server.ZeppelinServer - hadoop, apache-zeppelin

Ładowanie ramki danych, która trwała 2 minuty w trybie Spark-shell, trwa wiecznie w Zeppelin - emr, amazon-emr

Problem z dostępem do kontekstu zeppelina w Apache Livy Interpreter for Zeppelin - apache-zeppelin, livy

Problem z dodawaniem zależności z lokalnego repozytorium do Apache Livy Interpreter for Zeppelin - apache-zeppelin, livy

Zeppelin z. dokumentacja funkcji - apache-zeppelin

iskierna ramka danych ramek danych w iskrze-iskrze - apache-iskra, solr, apache-iskr-sql, iskra-ramka danych

Zeppelin - problemy z Spark 1.6 z zależnościami - apache-spark, apache-zeppelin

Nie można połączyć Apache Zeppelin z węzłami DSE Cassandra Analytics - apache-spark

Jak poprawnie zainstalować Zeppeling i załadować PySpark? - apache-spark, pyspark, apache-zeppelin

Apache Zeppelin nie ładuje libmesos.so - apache-spark, mesos, mesosphere, apache-zeppelin

Jak ustawić spark.driver.memory dla Spark / Zeppelin na EMR - apache-spark, emr, amazon-emr, apache-zeppelin

Jak zainstalować Apache Zeppelin na istniejącym już samodzielnym klastrze Apache Spark - amazon-web-services, apache-spark, bigdata, apache-spark-sql, apache-zeppelin