Ajuda na programação, respostas a perguntas / Python / Converter pandas dataframe para RDD no zeppelin - python, apache-spark, apache-zeppelin

Converta pandas dataframe para RDD em zeppelin - python, apache-spark, apache-zeppelin

Eu sou novo para Zeppelin e eu há coisas que eu simplesmente não entendo.

Eu baixei uma tabela de um banco de dados com python,então, eu gostaria de convertê-lo em um RDD. Mas eu recebi o erro que a tabela não foi encontrada. Eu acho que há um problema em criar as tabelas criadas com outros intérpretes, mas eu realmente não sei ... Eu tentei com esta e esta pergunta, mas ainda não funciona, eles criam o df diretamente com faísca. Qualquer ajuda seria tão útil :)

 %python
engine = create_engine(
"mysql+mysqlconnector://...")
df = pd.read_sql(query, engine)

%spark
val sqlContext = new org.apache.spark.sql.SQLContext(sc)

import sqlContext.implicits._
df=df.registerTempTable("df")

val df = sqlContext.sql("SELECT * from df LIMIT 5")
df.collect().foreach(println)

Respostas:

2 para resposta № 1

A conversão de um DataFrame do Pandas em um DataFrame do Spark é bastante direta:

%python
import pandas

pdf = pandas.DataFrame([[1, 2]]) # this is a dummy dataframe

# convert your pandas dataframe to a spark dataframe
df = sqlContext.createDataFrame(pdf)

# you can register the table to use it across interpreters
df.registerTempTable("df")

# you can get the underlying RDD without changing the interpreter
rdd = df.rdd

Para buscá-lo com scala spark você só precisa fazer o seguinte:

%spark
val df = sqlContext.sql("select * from df")
df.show()
// +---+---+
// |  0|  1|
// +---+---+
// |  1|  2|
// +---+---+

Você também pode obter o rdd subjacente:

val rdd = df.rdd

Perguntas relacionadas

Processo de arquivo de texto grande usando Zeppelin e Spark - scala, apache-faísca, apache-zeppelin, bigdata

Como posso imprimir um quadro de dados no Zeppelin / Spark / Scala? - scala, apache-faísca, apache-zeppelin

Instalando o R no Apache Zeppelin - r, apache, apache-zeppelin

Usando o pyspark no Zeppelin com python3 no Spark 2.1.0 - python-3.x, apache-spark, pyspark, python-3.5, apache-zeppelin

Configuração do Apache Zeppelin com Spark - linux, ubuntu, apache-spark, apache-zeppelin

Integração do Zeppelin 0.7.2: java.lang.IllegalArgumentException: A linha de comando não pode ser nula - ignite, apache-zeppelin

Erro ao importar alguns pacotes de visualização de hélio no Zeppelin - highcharts, npm, apache-zeppelin

O que é o apache zeppelin? [fechado] - hadoop, apache-faísca, bigdata, apache-zeppelin

ZEPPELIN: Não foi possível localizar ou carregar a classe principal org.apache.zeppelin.server.ZeppelinServer - hadoop, apache-zeppelin

Carregar um Dataframe que demorou 2 minutos no Spark-shell está demorando muito no Zeppelin - emr, amazon-emr

Problema no acesso ao contexto do zeppelin no Apache Livy Interpreter para Zeppelin - apache-zeppelin, livy

Problema ao adicionar dependências do Repositório local ao Apache Livy Interpreter for Zeppelin - apache-zeppelin, livy

Zepelim z. documentação da função - apache-zeppelin

faísca dataframe união dataframe em faísca-faísca - apache-faísca, solr, apache-spark-sql, faísca-dataframe

Zeppelin - Spark 1.6 questões com dependências - apache-spark, apache-zeppelin

Não é possível conectar o Apache Zeppelin com os nós do DSE Cassandra Analytics - apache-spark

Como instalar corretamente o Zeppeling e carregar o PySpark? - apache-faísca, pyspark, apache-zeppelin

Apache Zeppelin não carrega libmesos.so - apache-spark, mesos, mesosfera, apache-zeppelin

Como definir spark.driver.memory para Spark / Zeppelin em EMR - apache-faísca, emr, amazon-emr, apache-zeppelin

Como instalar o Apache Zeppelin no cluster autônomo existente do Apache Spark - amazon-web-services, apache-spark, bigdata, apache-spark-sql, apache-zeppelin