Допомога у програмуванні, відповіді на питання / Скала / видалити дублікат стовпця з файлу dataframe за допомогою scala - scala, apache-spark, dataframe

видаліть дублікат стовпця з інформаційного фрейма за допомогою scala-scala, apache-spark, dataframe

Мені потрібно видалити один стовпець з кадру даних. Маючи @ стовпець з тим же ім'ям. (Потрібно видалити лише один, а інший - для подальшого використання).

input:

sno age psk psk

1 12 a4 a4

output:

sno age psk

1 12 a4

Відповіді:

0 для відповіді № 1

RDD є шлях (але потрібно знати індекс стовпців повторюваних стовпців для видалення повторюваних стовпців dataframe)

Якщо у вас є dataframe з дубльованими стовпцями як

+---+---+---+---+
|sno|age|psk|psk|
+---+---+---+---+
|1  |12 |a4 |a4 |
+---+---+---+---+

Ви знаєте, що індекс двох останніх стовпців є дублікатами.

Наступний крок полягає в тому, щоб ви мали назви стовпців з видаленими дублікатами та форму schema

val columns = df.columns.toSet.toArray
val schema = StructType(columns.map(name => StructField(name, StringType, true)))

Життєва частина полягає в перетворенні dataframe до rdd і видалити необхідний індекс стовпця (тут це 4-й)

val rdd = df.rdd.map(row=> Row.fromSeq(Seq(row(0).toString, row(1).toString, row(2))))

Остаточним кроком є перетворення rdd до dataframe використовуючи schema

sqlContext.createDataFrame(rdd, schema).show(false)

які повинні дати вам

+---+---+---+
|sno|age|psk|
+---+---+---+
|1  |12 |a4 |
+---+---+---+

Я сподіваюся, що відповідь корисна

Схожі запитання

Як запросити наявність елемента всередині колонці "Іскра", яка містить набір? - sql, scala, apache-spark, spark-dataframe

SQL-запити в RDD-sql, scala, apache-spark

Використовуючи метод DataFrame і 'where ()', який виділяє рядки, де A більше 5 або B, більше 5 - іскровий кадр даних

Трансформація даних (підготовка даних) в apache іскрі scala - scala, join, apache-spark, multilabel-classification

Спроба виконати запит іскрового SQL з UDF - scala, hasoop, apache-spark, apache-spark-sql, spark-dataframe

Іскра: значення означає не є членом масиву [Any] - scala, apache-spark

функція unix_timestamp () змінює годину в іскорці scala - scala, dataframe, spark-dataframe, unix-timestamp

Гармоніка середні на Dataframes Spark в Scala - scala, apache-spark, apache-spark-sql

витягувати номер тижня з іскрового scala scala, scala, apache-spark, spark-dataframe

У чому різниця між df.select () і df.agg ()? - scala, apache-spark, apache-spark-sql, spark-dataframe

Перетворення іскровий DataFrame в MlLib Matrix - scala, apache-іскр, spark-dataframe, apache-spark-mllib

Іскра від scala 2.10.4 до 2.11 - scala, eclipse-plugin, apache-spark, apache-spark-sql

переформатувати кадр даних з стовпця до рядків у scala - scala, apache-іскрі, стрижневі, іскрові-dataframe

Scala Spark Dataframe - кількість рядків для кожного рядка в стовпці масиву - scala, apache-spark, apache-spark-sql, databricks

Як фільтрувати фрейм даних Spark, якщо один стовпець є членом іншого стовпця - scala, apache-spark, apache-spark-sql, spark-dataframe

Scala: для перевірки поточної Timstamp більше, ніж стовпчик тимчасової мітки у моєму кадрі даних - scala, apache-spark

Іскрова SQL однакові помилки кодування - java, sql, scala, apache-spark, apache-spark-sql

Вибір ключової карти як стовпця в рамці даних в іскрі - апач-іскрі, іскри-dataframe

Обчислювальна різниця між Spark DataFrames - apache-spark

Чи може доступний DataFrame з різних SparkSessions? - apache-spark, apache-spark-sql, spark-dataframe