Ayuda en la programación, respuestas a preguntas / Pitón / Convertir el marco de datos pandas a RDD en zeppelin - python, apache-spark, apache-zeppelin

Convierta el marco de datos pandas a RDD en zeppelin - python, apache-spark, apache-zeppelin

Soy nuevo en Zeppelin y hay cosas que simplemente no entiendo.

He descargado una tabla de un db con python,entonces, me gustaría convertirlo en un RDD. Pero tengo el error de que la tabla no se encuentra. Creo que hay un problema al encontrar las tablas creadas con otros intérpretes, pero no sé realmente ... Lo intenté con esta y esta pregunta, pero todavía no funciona, crean el df directamente con chispa. Cualquier ayuda sería muy útil :)

 %python
engine = create_engine(
"mysql+mysqlconnector://...")
df = pd.read_sql(query, engine)

%spark
val sqlContext = new org.apache.spark.sql.SQLContext(sc)

import sqlContext.implicits._
df=df.registerTempTable("df")

val df = sqlContext.sql("SELECT * from df LIMIT 5")
df.collect().foreach(println)

Respuestas

2 para la respuesta № 1

Convertir un DataFrame de Pandas en un DataFrame de Spark es bastante sencillo:

%python
import pandas

pdf = pandas.DataFrame([[1, 2]]) # this is a dummy dataframe

# convert your pandas dataframe to a spark dataframe
df = sqlContext.createDataFrame(pdf)

# you can register the table to use it across interpreters
df.registerTempTable("df")

# you can get the underlying RDD without changing the interpreter
rdd = df.rdd

Para obtenerlo con Scala Spark, solo tendrás que hacer lo siguiente:

%spark
val df = sqlContext.sql("select * from df")
df.show()
// +---+---+
// |  0|  1|
// +---+---+
// |  1|  2|
// +---+---+

También puede obtener el rdd subyacente:

val rdd = df.rdd

preguntas relacionadas

Procese archivos de texto grandes utilizando Zeppelin y Spark - scala, apache-spark, apache-zeppelin, bigdata

¿Cómo puedo imprimir un marco de datos en Zeppelin / Spark / Scala? - scala, apache-spark, apache-zeppelin

Instalación de R en Apache Zeppelin - r, apache, apache-zeppelin

Uso de pyspark en Zeppelin con python3 en Spark 2.1.0 - python-3.x, apache-spark, pyspark, python-3.5, apache-zeppelin

Configuración de Apache Zeppelin con Spark - linux, ubuntu, apache-spark, apache-zeppelin

Integración de Zeppelin 0.7.2: java.lang.IllegalArgumentException: la línea de comandos no puede ser nula - encender, apache-zeppelin

Error al importar algunos paquetes de visualización de helio en Zeppelin - highcharts, npm, apache-zeppelin

¿Qué es el apache zepelín? [cerrado] - hadoop, apache-spark, bigdata, apache-zeppelin

ZEPPELIN: No se pudo encontrar o cargar la clase principal org.apache.zeppelin.server.ZeppelinServer - hadoop, apache-zeppelin

Cargar un Dataframe que tomó 2 minutos en Spark-shell se está demorando para siempre en Zeppelin - emr, amazon-emr

Problema al acceder al contexto de zepelín en Apache Livy Interpreter for Zeppelin - apache-zeppelin, livy

Problema al agregar dependencias del Repositorio local a Apache Livy Interpreter para Zeppelin - apache-zeppelin, livy

Zepelín z. documentación de la función - apache-zepelín

marco de datos de la unión del dataframe de chispa en spark-solr - apache-spark, solr, apache-spark-sql, spark-dataframe

Zeppelin - Spark 1.6 problemas con las dependencias - apache-spark, apache-zeppelin

No se puede conectar Apache Zeppelin con nodos DSE Cassandra Analytics - apache-spark

¿Cómo instalar correctamente Zeppeling y cargar PySpark? - apache-spark, pyspark, apache-zeppelin

Apache Zeppelin no carga libmesos.so - apache-spark, mesosphere, mesosphere, apache-zeppelin

Cómo configurar spark.driver.memory para Spark / Zeppelin en EMR - apache-spark, emr, amazon-emr, apache-zeppelin

Cómo instalar Apache Zeppelin en un clúster independiente Apache Spark - amazon-web-services, apache-spark, bigdata, apache-spark-sql, apache-zeppelin