Hilfe bei der Programmierung, Antworten auf Fragen / Sql / Scala: Spark sqlKontextabfrage - sql, hadoop, apache-spark, apache-spark-sql, parkett

Scala: Spark sqlKontextabfrage - sql, hadoop, apache-spark, apache-spark-sql, parkett

Ich habe nur 3 Ereignisse (3. Spalte) 01, 02, 03 in meiner Datei.

Das Schema ist unixTimestamp | id | eventType | date1 | date2 | date3

639393604950|1001|01|2015-05-12 10:00:18|||
639393604950|1002|01|2015-05-12 10:04:18|||
639393604950|1003|01|2015-05-12 10:05:18|||
639393604950|1001|02||2015-05-12 10:40:18||
639393604950|1001|03|||2015-05-12 19:30:18|
639393604950|1002|02|2015-05-12 10:04:18|||

Wie füge ich in sqlContext die Daten nach ID zusammen? Ich erwarte dies für die ID 1001:

639393604950|1001|01|2015-05-12 10:00:18|2015-05-12 10:40:18|2015-05-12 19:30:18|

Hier ist meine Abfrage, die angepasst werden muss:

val events = sqlContext.sql("SELECT id, max(date1), max(date2), max(date3) " +
"FROM parquetFile group by id, date1, date2, date3")
events.collect().foreach(println)

Antworten:

2 für die Antwort № 1

SELECT id, max(date1), max(date2), max(date3) FROM parquetFile group by id

0 für die Antwort № 2

Die Art und Weise, wie Daten generiert werden, sieht aus, als ob das Schema in der Datei verwirrend ist. Das Problem ist, dass alle Daten im Feld Datum1 mit unterschiedlichen Ereignistypen ausgefüllt sind. Daher müssen wir es beheben.

select id, ts, max(d1),max(d2),max(d3)
from (select id, ts,
case when eventtype="01" then date1 else null end d1,
case when eventtype="02" then date1 else null end d2,
case when eventtype="03" then date1 else null end d3
from table1
) x group by id,ts

Natürlich gruppiert dies ID und TS zusammen, wie in der Antwort erwartet.

Verwandte Fragen

Der Versuch, eine Spark-SQL-Abfrage von einem UDF auszuführen - Scala, Hadoop, Apache-Spark, Apache-Spark-Sql, Spark-Datenframe

Scala Error: value registerTempTable ist kein Mitglied von org.apache.spark.sql.SchemaRDD - scala, apache-spark, apache-spark-sql, Parkett

Intellisense in Intellij mit Funkenbibliotheken - Scala, Apache-Spark, Intellij-Idee

Spark-Java-Paket wie Spark von Scala zu verwenden? - Scala, Funken-Java

Wert toDF ist kein Mitglied org.apache.spark.rdd.RDD - scala, apache-spark, spark-dataframe

Funken von Scala 2.10.4 bis 2.11 - Scala, Eclipse-Plugin, Apache-Funke, Apache-Spark-Sql

Lesen von TSV in Spark Datarame mit Scala API - scala, apache-spark

Nicht in der Lage, JSON aus HDFS mit SchemaRDD.saveToES () in Elasticsearch-hadoop zu indexieren - json, scala, elasticsearch, apache-spark, apache-spark-sql

Spark SQL - Wie schreibt man DataFrame in eine Textdatei? - Java, Apache-Funken-Sql

Spark SQL-Anführungszeichen Fehler - Java, SQL, Scala, Apache-Funke, Apache-Spark-SQL

Welchen Nutzen hat CDH (Cloudera)? [geschlossen] - Hadoop, Bigdata, Apache-Funke, Cloudera, Cloudera-Cdh

Gibt es eine offizielle Möglichkeit, Spark 1.6.2 und 2.0.0 auf Hadoop Garn 2.7.2 Cluster zu unterstützen? - Hadoop, Apache-Spark, Garn

NoSuchMethodError: org.apache.spark.sql.SQLContext.applySchema - Hadoop, Apache-Funke, Apache-Spark-SQL

Speichern von Avro-Daten im ORC-Format in HDFS ohne Verwendung von HIVE - Hadoop, Apache-Spark, Avro, Ork

Apache Spark Installation und db_metastore - Apache-Spark

Spark DataFrame - Apache-Funke, Spark-Datenframe

Lesen Sie Parkett in den Spark-Datensatz und ignorieren Sie fehlende Felder [duplizieren] - Apache-Spark, Apache-Spark-Sql, Parkett, Apache-Spark-Datensatz, Apache-Spark-2.0

Spark Write zu S3 Storage Option - Apache-Funke, Amazon-s3

Spark S3 liest gibt NullPointerException - Amazon-s3, Apache-Funke

ist Parquet Prädikat Pushdown funktioniert auf S3 mit Spark nicht EMR? - Amazon-S3, Apache-Spark, Parkett