Pomoc w programowaniu, odpowiedzi na pytania / Scala / Jak filtrować ramkę danych Spark, jeśli jedna kolumna jest członkiem innej kolumny - scala, apache-spark, apache-spark-sql, spark-dataframe

Jak filtrować ramkę danych Spark, jeśli jedna kolumna jest członkiem innej kolumny - scala, apache-spark, apache-spark-sql, spark-dataframe

Mam ramkę danych z dwiema kolumnami (jeden ciąg i jeden ciąg znaków):

root
|-- user: string (nullable = true)
|-- users: array (nullable = true)
|    |-- element: string (containsNull = true)

Jak mogę filtrować ramkę danych tak, aby wynikowa ramka danych zawierała tylko te wiersze user jest w users?

Odpowiedzi:

5 dla odpowiedzi № 1

Oczywiście, jest to możliwe i nie tak trudne. Aby to osiągnąć, możesz użyć UDF.

import org.apache.spark.sql.functions._
import org.apache.spark.sql.types._

val df = sc.parallelize(Array(
("1", Array("1", "2", "3")),
("2", Array("1", "2", "2", "3")),
("3", Array("1", "2"))
)).toDF("user", "users")

val inArray = udf((id: String, array: scala.collection.mutable.WrappedArray[String]) => array.contains(id), BooleanType)

df.where(inArray($"user", $"users")).show()

Wynik to:

+----+------------+
|user|       users|
+----+------------+
|   1|   [1, 2, 3]|
|   2|[1, 2, 2, 3]|
+----+------------+

9 dla odpowiedzi nr 2

Szybki i prosty:

import org.apache.spark.sql.functions.expr

df.where(expr("array_contains(users, user)")

Powiązane pytania

W jaki sposób zapytać o obecność elementu w kolumnie kolumny danych Iskru, która zawiera zestaw? - sql, scala, apache-spark, spark-dataframe

Stosując metodę DataFrame i metodę "where ()", która wybiera wiersze, w których A jest większe niż 5 lub B, jest większe niż 5 - iskrobezpieczna ramka danych

Transformacja danych (przygotowanie danych) w scale spark scala - scala, join, apache-spark, multilabel-classification

Spark: wartość średnia nie jest członkiem Array [Any] - scala, apache-spark

Średnia harmoniczna na Spark DataFrames w Scala - scala, apache-spark, apache-spark-sql

wyodrębnij liczbę tygodniową z modelu iskry scala - scala, apache-spark, spark-dataframe

Wiele wartości null w iskrze csv - scala, csv, apache-spark

Intellisense w Intellij z bibliotekami iskrowymi - scala, apache-spark, intellij-idea

pakiet iskrow-java jak używać Sparka ze Scala? - scala, iskra-java

Konwertuj iskrę DataFrame na MlLib Matrix - scala, apache-spark, spark-dataframe, apache-spark-mllib

Apache Spark, jak dołączyć nową kolumnę z listy / tablicy do karty danych Spark - scala, apache-spark, spark-dataframe

iskrzenie ze scala 2.10.4 do 2.11 - scala, wtyczka eclipse, apache-spark, apache-spark-sql

Scala Spark Dataframe - Policz liczbę łańcuchów dla każdego wiersza w kolumnie tablicy - scala, apache-spark, apache-spark-sql, databricks

jak uzyskać liczbę dni między dwoma polami java.sql.timestamp w scala - java, scala, apache-spark, apache-isc-sql, sql-timestamp

Spark błąd pojedynczego zapytania SQL - java, sql, scala, apache-spark, apache-spark-sql

Spark: jak zmienić ramkę danych Array [String] na RDD [Array [String]] - tablice, scala, apache-spark

Kolumna Dataframe o dwóch różnych nazwach - apache-spark, apache-spark-sql

Obliczeniowa różnica między Spark DataFrames - apache-spark

Czy można uzyskać dostęp do DataFrame z różnych SparkSessions? - apache-spark, apache-spark-sql, spark-dataframe

Ho, aby odczytać skompresowany plik ".gz" za pomocą iskry DF lub DS? - apache-spark, apache-spark-sql, spark-dataframe, gzip, apache-spark-dataset