Aide à la programmation, réponses aux questions / Scala / Apache Spark comment ajouter une nouvelle colonne de la liste / du tableau à un cadre de données Spark

Apache Spark comment ajouter une nouvelle colonne de list / array à Spark dataframe - scala, apache-spark, spark-dataframe

J'utilise Apache Spark 2.0 Dataframe / Dataset API Je souhaite ajouter une nouvelle colonne à mon cadre de données à partir de Liste de valeurs. Ma liste a le même nombre de valeurs que dataframe.

val list = List(4,5,10,7,2)
val df   = List("a","b","c","d","e").toDF("row1")

Je voudrais faire quelque chose comme:

val appendedDF = df.withColumn("row2",somefunc(list))
df.show()
// +----+------+
// |row1 |row2 |
// +----+------+
// |a    |4    |
// |b    |5    |
// |c    |10   |
// |d    |7    |
// |e    |2    |
// +----+------+

Pour toutes les idées que je serais reconnaissant, mon cadre de données contient en réalité plus de colonnes.

Réponses:

5 pour la réponse № 1

Vous pouvez le faire comme ceci:

import org.apache.spark.sql.Row
import org.apache.spark.sql.types._

// create rdd from the list
val rdd = sc.parallelize(List(4,5,10,7,2))
// rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[31] at parallelize at <console>:28

// zip the data frame with rdd
val rdd_new = df.rdd.zip(rdd).map(r => Row.fromSeq(r._1.toSeq ++ Seq(r._2)))
// rdd_new: org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] = MapPartitionsRDD[33] at map at <console>:32

// create a new data frame from the rdd_new with modified schema
spark.createDataFrame(rdd_new, df.schema.add("new_col", IntegerType)).show
+----+-------+
|row1|new_col|
+----+-------+
|   a|      4|
|   b|      5|
|   c|     10|
|   d|      7|
|   e|      2|
+----+-------+

4 pour la réponse № 2

Ajouter pour compléter: le fait que l'entrée list (qui existe dans la mémoire du pilote) a la même taille que le DataFrame suggère qu'il s'agisse d'un petit DataFrame pour commencer - vous pouvez donc envisager collect()le zing, zipper avec listet reconverti en DataFrame si besoin:

df.collect()
.map(_.getAs[String]("row1"))
.zip(list).toList
.toDF("row1", "row2")

Cela ne sera pas plus rapide, mais si les données sont vraiment petites, elles pourraient être négligeables et le code est (sans doute) plus clair.

questions connexes

Comment interroger la présence d'un élément dans une colonne Spark Dataframe contenant un ensemble? - sql, scala, apache-spark, spark-dataframe

Transformation de dataframe (préparation des données) dans scaque apache scala - scala, join, apache-spark, multi-label-classification

Essayer d'exécuter une requête spark sql depuis un UDF - scala, hadoop, apache-spark, apache-spark-sql, spark-dataframe

Harmonic Mean sur les Spark DataFrames dans Scala - scala, apache-spark, apache-spark-sql

extraire le numéro de la semaine de dataframe spark scala - scala, apache-spark, spark-dataframe

Plusieurs nullValues dans spark csv - scala, csv, apache-spark

Intellisense dans Intellij avec les bibliothèques d'étincelles - scala, apache-spark, intellij-idea

package spark-java comment utiliser Spark de Scala? - scala, spark-java

Convertir spark DataFrame en MlLib Matrix - scala, apache-spark, spark-dataframe, apache-spark-mllib

spark de scala 2.10.4 à 2.11 - scala, eclipse-plugin, apache-spark, apache-spark-sql

Scala Spark Dataframe - Compter le nombre de chaînes pour chaque ligne dans une colonne de tableau - scala, apache-spark, apache-spark-sql, databricks

Comment filtrer les données Spark si une colonne est membre d'une autre colonne - scala, apache-spark, apache-spark-sql, spark-dataframe

comment obtenir le nombre de jours entre deux champs java.sql.timestamp dans scala - java, scala, apache-spark, apache-spark-sql, sql-timestamp

Spark DataFrame groupBy et l'agrégation génèrent NegativeArraySizeException - exception, apache-spark, dataframe

Spark: comment modifier un tableau de données datarframe Array [String] en RDD [Array [String]] - tableaux, analyses, apache-spark

Colonne Dataframe avec deux noms différents - apache-spark, apache-spark-sql

Apache Spark ne voit pas tout le bélier de mes machines - apache-spark, google-compute-engine, apache-spark-mllib

Différence informatique entre Spark DataFrames - apache-spark

Peut-on accéder à DataFrame depuis différentes sessions SparkSession? - apache-spark, apache-spark-sql, spark-dataframe

Ho pour lire ".gz" fichier compressé en utilisant spark DF ou DS? - apache-spark, apache-spark-sql, étincelle-dataframe, gzip, apache-spark-dataset