Hilfe bei der Programmierung, Antworten auf Fragen / Scala / Spark 2.0 impliziter Encoder, mit fehlender Spalte umgehen, wenn der Typ Option [Seq [String]] (Skala) - Scala, Apache-Spark, Apache-Spark-Datensatz ist

Spark 2.0 impliziter Encoder, befassen sich mit fehlender Spalte, wenn Typ ist Option [Seq [String]] (Scala) - Scala, Apache-Funke, Apache-Spark-Datensatz

Ich habe Probleme beim Codieren von Daten, wenn einige Spalten vom Typ Option [Seq [String]] in unserer Datenquelle fehlen. Idealerweise möchte ich, dass die fehlenden Spaltendaten mit gefüllt werden None.

Szenario:

Wir haben einige Parkett-Dateien, die wir lesen, die haben Spalte1 aber nicht Spalte2.

Wir laden die Daten aus diesen Parkettdateien in ein Dataset, und wirf es als MyType.

case class MyType(column1: Option[String], column2: Option[Seq[String]])

sqlContext.read.parquet("dataSource.parquet").as[MyType]

org.apache.spark.sql.AnalysisException: kann nicht aufgelöst werden "column2"angegebene Eingabespalten: [Spalte1];

Gibt es eine Möglichkeit, das Dataset mit column2-Daten als zu erstellen None?

Antworten:

4 für die Antwort № 1

In einfachen Fällen können Sie ein Anfangsschema angeben, das eine Übermenge der erwarteten Schemas darstellt. Zum Beispiel in Ihrem Fall:

val schema = Seq[MyType]().toDF.schema

Seq("a", "b", "c").map(Option(_))
.toDF("column1")
.write.parquet("/tmp/column1only")

val df = spark.read.schema(schema).parquet("/tmp/column1only").as[MyType]
df.show

+-------+-------+
|column1|column2|
+-------+-------+
|      a|   null|
|      b|   null|
|      c|   null|
+-------+-------+

df.first

MyType = MyType(Some(a),None)

Dieser Ansatz kann sein ein bisschen zerbrechlich Also sollten Sie SQL-Literale verwenden, um die Lücken zu füllen:

spark.read.parquet("/tmp/column1only")
// or ArrayType(StringType)
.withColumn("column2", lit(null).cast("array<string>"))
.as[MyType]
.first

MyType = MyType(Some(a),None)

Verwandte Fragen

Dataframe Transformation (Datenaufbereitung) in Apache Spark Scala - Scala, Join, Apache-Spark, Multilabel-Klassifikation

Kompatible Scala-Version für Spark 2.2.0? - Scala, Apache-Funke

Spark SQL - generischer Dataset-Reader - Scala, Apache-Spark, Apache-Spark-SQL, Apache-Spark-Datensatz

Parallele Sammlung in Spark-Scala-Shell - Scala, Apache-Funke

org.apache.spark.ml.feature.IDF Fehler - Scala, Apache-Funke, Apache-Spark-mllib

Intellisense in Intellij mit Funkenbibliotheken - Scala, Apache-Spark, Intellij-Idee

Spark-Java-Paket wie Spark von Scala zu verwenden? - Scala, Funken-Java

scala generic encoder für spark case class - scala, generika, apache-spark, apache-spark-sql, scala-generics

Spark-Fehler: Nicht unterstützte literale Typklasse sql.catalyst.expressions.GenericRowWithSchema - scala, apache-spark, spark-dataframe

Funken von Scala 2.10.4 bis 2.11 - Scala, Eclipse-Plugin, Apache-Funke, Apache-Spark-Sql

Codieren Sie eine ADT / versiegelte Merkmalhierarchie in Spark DataSet-Spalte - Scala, Apache-Spark, Dataset

Ich erhalte einen java.lang.NoClassDefFoundError, wenn ich versuche, das Wortzählungsbeispiel in Spark auszuführen - scala, apache-spark

Verwenden Sie eine Methode in einer UDF-Funktion Spark Scala - Scala, Apache-Funke, Apache-Spark-Sql, Spark-Datenframe, UDF

Kann Scala Breeze Library aus Groovy-Code verwendet werden? - Java, Scala, Groovy, Apache-Spark, Scala-Brise

Spark SQL-Anführungszeichen Fehler - Java, SQL, Scala, Apache-Funke, Apache-Spark-SQL

Kann eine CSV-Datei mit GraphX in Java in ein Diagramm konvertiert werden - Java, Scala, Apache-Spark

Fehler beim Ausführen der Spark-App mit dem Spark-Cassandra-Anschluss - Cassandra, Apache-Spark, Spark-Cassandra-Anschluss

ClassNotFoundException beim Versuch, das SparkPi-Beispiel auszuführen - apache-spark, scala-2.10

Kann auf DataFrame von verschiedenen SparkSessions zugegriffen werden? - Apache-Funke, Apache-Spark-Sql, Spark-Datenrahmen

Ho, um ".gz" komprimierte Datei zu lesen, die Funken DF oder DS verwendet? - apache-spark, apache-spark-sql, Spark-Datenframe, gzip, Apache-Spark-Datensatz