Pomoc pri programovaní, odpovede na otázky / Scala / Apache Spark ako pridať nový stĺpec zo zoznamu / poľa do Spark dataframe - scala, apache-spark, spark-dataframe

Apache Spark ako pridať nový stĺpec zo zoznamu / poľa do Spark dataframe - scala, apache-spark, spark-dataframe

Používam rozhranie Apache Spark 2.0 Dataframe / Dataset API Chcem pridať nový stĺpec do môjho dátového rámca zo zoznamu hodnôt. Môj zoznam má rovnaký počet hodnôt ako daný dátový rámec.

val list = List(4,5,10,7,2)
val df   = List("a","b","c","d","e").toDF("row1")

Chcel by som urobiť niečo ako:

val appendedDF = df.withColumn("row2",somefunc(list))
df.show()
// +----+------+
// |row1 |row2 |
// +----+------+
// |a    |4    |
// |b    |5    |
// |c    |10   |
// |d    |7    |
// |e    |2    |
// +----+------+

Pre akékoľvek nápady by som bol rád, môj dataframe v skutočnosti obsahuje viac stĺpcov.

odpovede:

5 pre odpoveď č. 1

Môžete to urobiť takto:

import org.apache.spark.sql.Row
import org.apache.spark.sql.types._

// create rdd from the list
val rdd = sc.parallelize(List(4,5,10,7,2))
// rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[31] at parallelize at <console>:28

// zip the data frame with rdd
val rdd_new = df.rdd.zip(rdd).map(r => Row.fromSeq(r._1.toSeq ++ Seq(r._2)))
// rdd_new: org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] = MapPartitionsRDD[33] at map at <console>:32

// create a new data frame from the rdd_new with modified schema
spark.createDataFrame(rdd_new, df.schema.add("new_col", IntegerType)).show
+----+-------+
|row1|new_col|
+----+-------+
|   a|      4|
|   b|      5|
|   c|     10|
|   d|      7|
|   e|      2|
+----+-------+

4 pre odpoveď č. 2

Pridanie pre úplnosť: skutočnosť, že vstup list (ktorý existuje v pamäti ovládača) má rovnakú veľkosť ako DataFrame naznačuje, že ide o malý dátový rámec, ktorý by ste mohli zvážiť collect()- to je zips list, a konverziu späť na a DataFrame V prípade potreby:

df.collect()
.map(_.getAs[String]("row1"))
.zip(list).toList
.toDF("row1", "row2")

To nebude rýchlejšie, ale ak sú údaje naozaj malé, môže to byť zanedbateľné a kód je (pravdepodobne) jasnejší.

Súvisiace otázky

Ako zistiť prítomnosť prvku vo vnútri stĺpca Spark Dataframe, ktorý obsahuje sadu? - sql, scala, apache-spark, spark-dataframe

Transformácia dátového rámca (príprava dát) v apache scala scala - scala, join, apache-spark, multilabel-klasifikácia

Pokúšame sa spustiť spark sql dotaz z UDF - scala, hadoop, apache-spark, apache-spark-sql, spark-dataframe

Harmonické znamená Spark DataFrames v Scale - scala, apache-spark, apache-spark-sql

extrahovať číslo týždňa z dátového scénu scala scala - scala, apache-spark, spark-dataframe

Viacnásobné nullValues v spark csv - scala, csv, apache-spark

Intellisense v Intellij s knižnicami iskier - scala, apache-spark, intellij-idea

spark-java balík, ako používať Spark od spoločnosti Scala? - scala, java java

Konvertujte spark DataFrame na MlLib Matrix - scala, apache-spark, spark-dataframe, apache-spark-mllib

iskra z scala 2.10.4 na 2.11 - scala, eclipse-plugin, apache-spark, apache-spark-sql

Scala Spark Dataframe - Počet reťazcov pre každý riadok v stĺpci array - scala, apache-spark, apache-spark-sql, databricks

Ako filtrovať Spark dataframe, ak je jeden stĺpec členom iného stĺpca - scala, apache-spark, apache-spark-sql, spark-dataframe

ako získať počet dní medzi dvoma java.sql.timestamp poľa v scala - java, scala, apache-spark, apache-spark-sql, sql-timestamp

Spark DataFrame groupBy a agregácia je hádzanie NegativeArraySizeException - výnimka, apache-spark, dataframe

Spark: ako zmeniť dátový rámec Array [String] na RDD [Array [String]] - pole, scala, apache-spark

Stĺpec Dataframe s dvoma rôznymi názvami - apache-spark, apache-spark-sql

Apache Spark nevidí všetko, čo robia z mojich strojov - apache-spark, google-compute-engine, apache-spark-mllib

Výpočetný rozdiel medzi Spark DataFrames - apache-spark

Môžem získať DataFrame z rôznych SparkSessions? - apache-spark, apache-spark-sql, spark-dataframe

Ho prečítať komprimovaný súbor ".gz" pomocou spark DF alebo DS? - apache-spark, apache-spark-sql, spark-dataframe, gzip, apache-spark-dataset