Ajuda na programação, respostas a perguntas / Scala / Encoder implícito Spark 2.0, lide com a coluna ausente quando o tipo for Option [Seq [Seqüência]] (scala) - scala, apache-spark, conjunto de dados de apache-spark

O codificador implícito do Spark 2.0, trata da coluna ausente quando o tipo é Option [Seq [String]] (scala) - scala, apache-spark, conjunto de dados de apache-spark

Eu estou tendo alguns problemas codificando dados quando algumas colunas que são do tipo Option [Seq [String]] estão faltando em nossa fonte de dados. Idealmente, eu gostaria que os dados da coluna faltantes fossem preenchidos com None.

Cenário:

Nós temos alguns arquivos de parquete que estamos lendo em que têm coluna1 mas não coluna2.

Nós carregamos os dados desses arquivos de parquete em um Datasete lançá-lo como MyType.

case class MyType(column1: Option[String], column2: Option[Seq[String]])

sqlContext.read.parquet("dataSource.parquet").as[MyType]

org.apache.spark.sql.AnalysisException: não é possível resolver "column2"dadas colunas de entrada: [coluna1];

Existe uma maneira de criar o Dataset com dados column2 como None?

Respostas:

4 para resposta № 1

Em casos simples, você pode fornecer um esquema inicial que é um superconjunto de esquemas esperados. Por exemplo, no seu caso:

val schema = Seq[MyType]().toDF.schema

Seq("a", "b", "c").map(Option(_))
.toDF("column1")
.write.parquet("/tmp/column1only")

val df = spark.read.schema(schema).parquet("/tmp/column1only").as[MyType]
df.show

+-------+-------+
|column1|column2|
+-------+-------+
|      a|   null|
|      b|   null|
|      c|   null|
+-------+-------+

df.first

MyType = MyType(Some(a),None)

Essa abordagem pode ser um pouco frágil então, em geral, você deve usar literais SQL para preencher os espaços em branco:

spark.read.parquet("/tmp/column1only")
// or ArrayType(StringType)
.withColumn("column2", lit(null).cast("array<string>"))
.as[MyType]
.first

MyType = MyType(Some(a),None)

Perguntas relacionadas

Transformação de dataframe (preparação de dados) em scala de faísca do apache - scala, join, apache-spark, classificação de multicamadas

Versão Scala compatível para o Spark 2.2.0? - scala, apache-faísca

Spark SQL - leitor de conjunto de dados genérico - scala, apache-spark, apache-spark-sql e apache-spark-dataset

Paralelizar coleção em shell de scala de faísca - scala, apache-faísca

erro org.apache.spark.ml.feature.IDF - scala, apache-spark, apache-spark-mllib

IntelliSense em Intellij com bibliotecas de faíscas - scala, apache-spark, intellij-idea

pacote spark-java como usar o Spark do Scala? - scala, faísca-java

codificador genérico scala para classe de caixa de faísca - scala, genéricos, apache-faísca, apache-spark-sql, scala-genéricos

Erro de ignição: classe de tipo literal não suportada sql.catalyst.expressions.GenericRowWithSchema - scala, apache-spark, spark-dataframe

faísca de scala 2.10.4 para 2.11 - scala, eclipse-plugin, apache-faísca, apache-spark-sql

Codifique uma hierarquia de traços ADT / selada na coluna Spark DataSet - scala, apache-spark, dataset

Eu recebo um java.lang.NoClassDefFoundError quando tento executar o exemplo de contagem de palavras em Spark - scala, apache-spark

Use um método dentro de uma função UDF Spark Scala - scala, apache-faísca, apache-spark-sql, spark-dataframe, udf

A biblioteca Scala Breeze pode ser usada a partir do código Groovy? - java, scala, groovy, apache-faísca, scala-brisa

Erro de citação única do Spark SQL - java, sql, scala, apache-faísca, apache-spark-sql

Um arquivo CSV pode ser convertido em gráfico usando GraphX em Java - java, scala, apache-spark

Erro ao executar o aplicativo spark usando o conector spark-cassandra - cassandra, apache-spark, spark-cassandra-connector

ClassNotFoundException ao tentar executar o exemplo do SparkPi - apache-spark, scala-2.10

O DataFrame pode ser acessado a partir de diferentes SparkSessions? - apache-faísca, apache-spark-sql, spark-dataframe

Ho para ler arquivo comprimido “.gz” usando spark DF ou DS? - apache-faísca, apache-spark-sql, faísca-dataframe, gzip, apache-spark-dataset