Pomoc w programowaniu, odpowiedzi na pytania / Iskierka Apache / Jak korzystać z tablic nazw kolumn agaisnt wiersz danych w funkcji mapowania i utworzyć nowy DF - apache-spark, apache-spark-sql, spark-dataframe

Jak korzystać z tablic nazw kolumn, aby wyświetlać rząd danych w funkcji mapy i tworzyć nowe DF - apache-spark, apache-spark-sql, spark-dataframe

Mam DataFrame z 200 kolumn, z których stworzyłem Array df.columns,

podczas iteracji przez ramkę danych df, jak powiedzieć wierszowi, aby wybrać tylko kolumny z wiersza i utworzyć nową ramkę danych.

val df = df1.join.df2

val colNames = df.columns

df.map {  row =>

**val createnewDF = (row(colNames)**


}

Jak utworzyć poniższą linię?

**val createnewDF = (row(colNames)**

Odpowiedzi:

0 dla odpowiedzi № 1

Jeśli zamierzasz wybrać tylko ograniczoną liczbę columns od twojego złączonego dataframe następnie musisz utworzyć array nazw kolumn i ich użycia select metoda jako

val colNames = Array("col1", "col2", "col4")
import org.apache.spark.sql.functions._
val createnewdf = df.select(colNames.map(col): _*)

df.columns wybierze wszystkie nazwy kolumn w array i nie widzę żadnego zastosowania wyboru kolumn wewnątrz pętli dataframe rows jak to dataframe już ma wszystkie kolumny.

Co więcej, możesz zmienić wartości wybranych kolumn w pętli wierszy. Ale pętla dataframe rows nie jest zalecane, chyba że wbudowana funkcja nie jest zdefiniowany.

Powiązane pytania

W jaki sposób zapytać o obecność elementu w kolumnie kolumny danych Iskru, która zawiera zestaw? - sql, scala, apache-spark, spark-dataframe

Transformacja danych (przygotowanie danych) w scale spark scala - scala, join, apache-spark, multilabel-classification

Spark: wartość średnia nie jest członkiem Array [Any] - scala, apache-spark

wyodrębnij liczbę tygodniową z modelu iskry scala - scala, apache-spark, spark-dataframe

Wiele wartości null w iskrze csv - scala, csv, apache-spark

Konwertuj iskrę DataFrame na MlLib Matrix - scala, apache-spark, spark-dataframe, apache-spark-mllib

Apache Spark, jak dołączyć nową kolumnę z listy / tablicy do karty danych Spark - scala, apache-spark, spark-dataframe

Scala Spark Dataframe - Policz liczbę łańcuchów dla każdego wiersza w kolumnie tablicy - scala, apache-spark, apache-spark-sql, databricks

Jak filtrować ramkę danych Spark, jeśli jedna kolumna jest członkiem innej kolumny - scala, apache-spark, apache-spark-sql, spark-dataframe

Jak utworzyć LablePoint z DataFrame bezpośrednio bez kodowania twardego każdego indeksu kolumny ramki danych? - scala, iskierka apache, iskra-ramka danych, apache-spark-mllib

Spark: jak zmienić ramkę danych Array [String] na RDD [Array [String]] - tablice, scala, apache-spark

broadcast () wiele razy ten sam df. Czy jest buforowany? - apache-spark, apache-spark-sql, spark-dataframe

Kolumna Dataframe o dwóch różnych nazwach - apache-spark, apache-spark-sql

Wybór klucza mapy jako kolumny w ramce danych w iskrze - iskiernik apache, iskiernik-ramka danych

Apache Spark nie widzi całego barana moich maszyn - apache-spark, google-compute-engine, apache-spark-mllib

Obliczeniowa różnica między Spark DataFrames - apache-spark

Spark-ramka danych dodająca nowy problem z kolumną - Strukturalne przesyłanie strumieniowe - apache-iskierka, strumieniowanie o strukturze iskrownika

Czy można uzyskać dostęp do DataFrame z różnych SparkSessions? - apache-spark, apache-spark-sql, spark-dataframe

Ho, aby odczytać skompresowany plik ".gz" za pomocą iskry DF lub DS? - apache-spark, apache-spark-sql, spark-dataframe, gzip, apache-spark-dataset

jak zrobić aktualizację w tabeli w iskrowym SQL? - apache-spark-sql, hiveql