/ / Apache Spark comment ajouter une nouvelle colonne de la liste / du tableau à un cadre de données Spark

Apache Spark comment ajouter une nouvelle colonne de list / array à Spark dataframe - scala, apache-spark, spark-dataframe

J'utilise Apache Spark 2.0 Dataframe / Dataset API Je souhaite ajouter une nouvelle colonne à mon cadre de données à partir de Liste de valeurs. Ma liste a le même nombre de valeurs que dataframe.

val list = List(4,5,10,7,2)
val df   = List("a","b","c","d","e").toDF("row1")

Je voudrais faire quelque chose comme:

val appendedDF = df.withColumn("row2",somefunc(list))
df.show()
// +----+------+
// |row1 |row2 |
// +----+------+
// |a    |4    |
// |b    |5    |
// |c    |10   |
// |d    |7    |
// |e    |2    |
// +----+------+

Pour toutes les idées que je serais reconnaissant, mon cadre de données contient en réalité plus de colonnes.

Réponses:

5 pour la réponse № 1

Vous pouvez le faire comme ceci:

import org.apache.spark.sql.Row
import org.apache.spark.sql.types._

// create rdd from the list
val rdd = sc.parallelize(List(4,5,10,7,2))
// rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[31] at parallelize at <console>:28

// zip the data frame with rdd
val rdd_new = df.rdd.zip(rdd).map(r => Row.fromSeq(r._1.toSeq ++ Seq(r._2)))
// rdd_new: org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] = MapPartitionsRDD[33] at map at <console>:32

// create a new data frame from the rdd_new with modified schema
spark.createDataFrame(rdd_new, df.schema.add("new_col", IntegerType)).show
+----+-------+
|row1|new_col|
+----+-------+
|   a|      4|
|   b|      5|
|   c|     10|
|   d|      7|
|   e|      2|
+----+-------+

4 pour la réponse № 2

Ajouter pour compléter: le fait que l'entrée list (qui existe dans la mémoire du pilote) a la même taille que le DataFrame suggère qu'il s'agisse d'un petit DataFrame pour commencer - vous pouvez donc envisager collect()le zing, zipper avec listet reconverti en DataFrame si besoin:

df.collect()
.map(_.getAs[String]("row1"))
.zip(list).toList
.toDF("row1", "row2")

Cela ne sera pas plus rapide, mais si les données sont vraiment petites, elles pourraient être négligeables et le code est (sans doute) plus clair.