Ajuda na programação, respostas a perguntas / Scala / remover coluna duplicada do dataframe usando scala - scala, apache-spark, dataframe

remover coluna duplicada do dataframe usando scala-scala, apache-spark, dataframe

Eu preciso remover uma coluna do dataframe. Tendo @ coluna no mesmo nome. (Precisa remover apenas um e precisa do outro para uso posterior).

input:

sno age psk psk

1 12 a4 a4

output:

sno age psk

1 12 a4

Respostas:

0 para resposta № 1

RDD é o caminho (mas você precisa saber o índice da coluna das colunas duplicadas para remover colunas duplicadas de volta para dataframe)

Se você tem dataframe com colunas duplicadas como

+---+---+---+---+
|sno|age|psk|psk|
+---+---+---+---+
|1  |12 |a4 |a4 |
+---+---+---+---+

Você sabe que os dois últimos índices da coluna são duplicados.

O próximo passo é ter nomes de colunas com duplicatas removidas e formar schema

val columns = df.columns.toSet.toArray
val schema = StructType(columns.map(name => StructField(name, StringType, true)))

Parte vital é converter o dataframe para rdd e remova o índice de coluna necessário (aqui é o quarto)

val rdd = df.rdd.map(row=> Row.fromSeq(Seq(row(0).toString, row(1).toString, row(2))))

O passo final é converter o rdd para dataframe usando schema

sqlContext.createDataFrame(rdd, schema).show(false)

o que deveria lhe dar

+---+---+---+
|sno|age|psk|
+---+---+---+
|1  |12 |a4 |
+---+---+---+

Espero que a resposta seja útil

Perguntas relacionadas

Como consultar a presença de um elemento dentro de uma coluna do Dataframe do Spark que contém um conjunto? - sql, scala, apache-spark, spark-dataframe

Consultas SQL em RDD - sql, scala, apache-spark

Usando o método DataFrame e 'where ()' que seleciona linhas onde A é maior que 5 ou B é maior que 5 - spark-dataframe

Transformação de dataframe (preparação de dados) em scala de faísca do apache - scala, join, apache-spark, classificação de multicamadas

Tentando executar uma consulta sql spark a partir de uma UDF - scala, hadoop, apache-faísca, apache-spark-sql, spark-dataframe

Spark: valor médio não é um membro de Array [Any] - scala, apache-spark

A função unix_timestamp () altera hora em scala spark - scala, dataframe, spark-dataframe, unix-timestamp

Média harmônica em quadros de dados do Spark em Scala - scala, apache-spark, apache-spark-sql

extrair o número da semana de dataframe spark scala - scala, apache-spark, spark-dataframe

Qual é a diferença entre df.select () e df.agg ()? - scala, apache-faísca, apache-spark-sql, spark-dataframe

Converter o DataFrame de ignição para MlLib Matrix - scala, apache-faísca, faísca-dataframe, apache-spark-mllib

faísca de scala 2.10.4 para 2.11 - scala, eclipse-plugin, apache-faísca, apache-spark-sql

redefina o dataframe da coluna para as linhas em scala - scala, apache-spark, pivot, spark-dataframe

Scala Spark Dataframe - Conte o número de strings para cada linha em uma coluna de matriz - scala, apache-spark, apache-spark-sql, databricks

Como filtrar o dataframe do Spark se uma coluna for membro de outra coluna - scala, apache-spark, apache-spark-sql, spark-dataframe

Scala: Para verificar se o Timstamp atual é maior que uma coluna de carimbo de data e hora no meu dataframe - scala, apache-spark

Erro de citação única do Spark SQL - java, sql, scala, apache-faísca, apache-spark-sql

Selecionando a chave do mapa como coluna no dataframe em faísca - apache-spark, spark-dataframe

Diferença de computação entre Spark DataFrames - apache-spark

O DataFrame pode ser acessado a partir de diferentes SparkSessions? - apache-faísca, apache-spark-sql, spark-dataframe