Допомога у програмуванні, відповіді на питання / Python / Конвертувати фрейми даних у пандах у RDD у цеппеліні - python, apache-spark, apache-zeppelin

Перетворення pandas dataframe в RDD в ціппелін - python, apache-spark, apache-ceppelin

Я новачок у Zeppelin і я є речі, які я просто не розумію.

Я завантажив таблицю з db з python,тоді я хотів би перетворити його в RDD. Але я отримав помилку, що таблиця не знайдена. Я думаю, що існує проблема створення таблиць, створених з іншими перекладачами, але я дійсно не знаю ... Я спробував це і це питання, але все ще не працювати, вони створюють DF безпосередньо з іскрою. Будь-яка допомога буде настільки корисним :)

 %python
engine = create_engine(
"mysql+mysqlconnector://...")
df = pd.read_sql(query, engine)

%spark
val sqlContext = new org.apache.spark.sql.SQLContext(sc)

import sqlContext.implicits._
df=df.registerTempTable("df")

val df = sqlContext.sql("SELECT * from df LIMIT 5")
df.collect().foreach(println)

Відповіді:

2 для відповіді № 1

Перетворення DataFrame у папку DataFrame у Spark є досить прямим:

%python
import pandas

pdf = pandas.DataFrame([[1, 2]]) # this is a dummy dataframe

# convert your pandas dataframe to a spark dataframe
df = sqlContext.createDataFrame(pdf)

# you can register the table to use it across interpreters
df.registerTempTable("df")

# you can get the underlying RDD without changing the interpreter
rdd = df.rdd

Щоб отримати його з іскрою scala, вам потрібно буде лише зробити наступне:

%spark
val df = sqlContext.sql("select * from df")
df.show()
// +---+---+
// |  0|  1|
// +---+---+
// |  1|  2|
// +---+---+

Ви також можете отримати базовий rdd:

val rdd = df.rdd

Схожі запитання

Процес великий текстовий файл із застосуванням Zeppelin та Spark-scala, apache-spark, apache-ceppelin, bigdata

Як я можу досить роздрукувати диск даних в Zeppelin / Spark / Scala? - скала, апаче-іскрі, апаче-цеппелін

Встановлення R на Apache Zeppelin - r, apache, apache-цеппелін

Використання pyspark в Zeppelin з python3 на Spark 2.1.0 - python-3.x, apache-іскр, pyspark, python-3.5, apache-ceppelin

Конфігурація Apache Zeppelin з Spark - Linux, Ubuntu, Apache-Іскра, Apache-Цеппелін

Інтеграція Zeppelin 0.7.2: java.lang.IllegalArgumentException: командний рядок не може бути ігнорувати, apache-цеппелін

Помилка імпорту пакетів візуалізації гелію в Zeppelin - highcharts, npm, apache-zeppelin

Що таке апаче цеппелін? [закрито] - хадооп, апаче-искрова, bigdata, апаче-цеппелін

ZEPPELIN: Не вдається знайти або завантажити основний клас org.apache.zeppelin.server.ZeppelinServer - хадоп, апаче-цеппелін

Завантаження інформаційного каркасу, який займає 2 хвилини на Spark-shell, триває вічно в Zeppelin-Emr, Amazon-Emr

Проблема доступу до циппелінового контексту в Apache Livy Interpreter for Zeppelin - apache-ceppelin, livy

Проблема додавання залежностей з локального сховища в Apache Livy Interpreter для Zeppelin - apache-ceppelin, livy

Zeppelin z. Функція документації - apache-цеппелін

іскровий цифровий фрейм об'єднання даних в spark-solr - apache-spark, solr, apache-spark-sql, spark-dataframe

Zeppelin - Spark 1.6 видає проблеми з залежністю - apache-spark, apache-zeppelin

Не вдається з'єднати Apache Zeppelin з вузлами DSE Cassandra Analytics - apache-spark

Як правильно встановити Zeppeling і завантажити PySpark? - апач-іскрі, піскар, апаче-цеппелін

Apache Zeppelin не завантажує libmesos.so - apache-іскрі, мезо, мезосфері, апаче-цеппелін

Як встановити spark.driver.memory для Spark / Zeppelin на EMR - apache-spark, emr, amazon-emr, apache-ceppelin

Як встановити Apache Zeppelin на існуючий кластер Apache Spark - amazon-web-сервіси, apache-spark, bigdata, apache-spark-sql, apache-zeppelin