Používam rozhranie Apache Spark 2.0 Dataframe / Dataset API Chcem pridať nový stĺpec do môjho dátového rámca zo zoznamu hodnôt. Môj zoznam má rovnaký počet hodnôt ako daný dátový rámec.
val list = List(4,5,10,7,2)
val df = List("a","b","c","d","e").toDF("row1")
Chcel by som urobiť niečo ako:
val appendedDF = df.withColumn("row2",somefunc(list))
df.show()
// +----+------+
// |row1 |row2 |
// +----+------+
// |a |4 |
// |b |5 |
// |c |10 |
// |d |7 |
// |e |2 |
// +----+------+
Pre akékoľvek nápady by som bol rád, môj dataframe v skutočnosti obsahuje viac stĺpcov.
odpovede:
5 pre odpoveď č. 1Môžete to urobiť takto:
import org.apache.spark.sql.Row
import org.apache.spark.sql.types._
// create rdd from the list
val rdd = sc.parallelize(List(4,5,10,7,2))
// rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[31] at parallelize at <console>:28
// zip the data frame with rdd
val rdd_new = df.rdd.zip(rdd).map(r => Row.fromSeq(r._1.toSeq ++ Seq(r._2)))
// rdd_new: org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] = MapPartitionsRDD[33] at map at <console>:32
// create a new data frame from the rdd_new with modified schema
spark.createDataFrame(rdd_new, df.schema.add("new_col", IntegerType)).show
+----+-------+
|row1|new_col|
+----+-------+
| a| 4|
| b| 5|
| c| 10|
| d| 7|
| e| 2|
+----+-------+
4 pre odpoveď č. 2
Pridanie pre úplnosť: skutočnosť, že vstup list
(ktorý existuje v pamäti ovládača) má rovnakú veľkosť ako DataFrame
naznačuje, že ide o malý dátový rámec, ktorý by ste mohli zvážiť collect()
- to je zips list
, a konverziu späť na a DataFrame
V prípade potreby:
df.collect()
.map(_.getAs[String]("row1"))
.zip(list).toList
.toDF("row1", "row2")
To nebude rýchlejšie, ale ak sú údaje naozaj malé, môže to byť zanedbateľné a kód je (pravdepodobne) jasnejší.