Pomoc w programowaniu, odpowiedzi na pytania / Sql / Scala: Spark sql Zapytanie kontekstowe - sql, hadoop, apache-spark, apache-spark-sql, parkiet

Scala: Spark sqlContext query - sql, hadoop, apache-spark, apache-spark-sql, parquet

Mam tylko 3 zdarzenia (3. kolumna) 01, 02, 03 w moim pliku.

schemat to unixTimestamp | id | eventType | date1 | date2 | date3

639393604950|1001|01|2015-05-12 10:00:18|||
639393604950|1002|01|2015-05-12 10:04:18|||
639393604950|1003|01|2015-05-12 10:05:18|||
639393604950|1001|02||2015-05-12 10:40:18||
639393604950|1001|03|||2015-05-12 19:30:18|
639393604950|1002|02|2015-05-12 10:04:18|||

w sqlContext, jak scalić dane według identyfikatora? Spodziewam się tego dla identyfikatora 1001:

639393604950|1001|01|2015-05-12 10:00:18|2015-05-12 10:40:18|2015-05-12 19:30:18|

Oto moje zapytanie, które należy dostosować:

val events = sqlContext.sql("SELECT id, max(date1), max(date2), max(date3) " +
"FROM parquetFile group by id, date1, date2, date3")
events.collect().foreach(println)

Odpowiedzi:

2 dla odpowiedzi № 1

SELECT id, max(date1), max(date2), max(date3) FROM parquetFile group by id

0 dla odpowiedzi nr 2

Sposób, w jaki dane są generowane, wygląda na to, że schemat w pliku jest mylący. Problemem jest to, że wszystkie daty są wypełniane w polu date1, z różnymi typami zdarzeń. Dlatego musimy to naprawić.

select id, ts, max(d1),max(d2),max(d3)
from (select id, ts,
case when eventtype="01" then date1 else null end d1,
case when eventtype="02" then date1 else null end d2,
case when eventtype="03" then date1 else null end d3
from table1
) x group by id,ts

oczywiście grupuje to id i ts razem, zgodnie z oczekiwaniami w odpowiedzi.

Powiązane pytania

Próba wykonania zapytania sql sql z UDF - scala, hadoop, apache-spark, apache-spark-sql, spark-dataframe

Błąd Scala: wartość registerTempTable nie jest członkiem org.apache.spark.sql.SchemaRDD - scala, apache-spark, apache-spark-sql, parquet

Intellisense w Intellij z bibliotekami iskrowymi - scala, apache-spark, intellij-idea

pakiet iskrow-java jak używać Sparka ze Scala? - scala, iskra-java

wartość toDF nie jest członkiem org.apache.spark.rdd.RDD - scala, apache-spark, spark-dataframe

iskrzenie ze scala 2.10.4 do 2.11 - scala, wtyczka eclipse, apache-spark, apache-spark-sql

Czytanie TSV w Spark Dataframe z Scala API - scala, apache-spark

Nie można zindeksować JSON z HDFS za pomocą SchemaRDD.saveToES () w Elasticsearch-hadoop - json, scala, elasticsearch, apache-spark, apache-spark-sql

Spark SQL - Jak napisać DataFrame do pliku tekstowego? - java, apache-spark-sql

Spark błąd pojedynczego zapytania SQL - java, sql, scala, apache-spark, apache-spark-sql

Jaka jest korzyść z używania CDH (cloudera)? [zamknięty] - hadoop, bigdata, apache-iskra, cloudera, cloudera-cdh

Czy istnieje oficjalny sposób na obsługę zarówno Spark 1.6.2, jak i 2.0.0 w klastrze Hadoop 2.7.2? - hadoop, iskra apache, przędza

NoSuchMethodError: org.apache.spark.sql.SQLContext.applySchema - hadoop, apache-spark, apache-spark-sql

Przechowywanie danych avro w formacie ORC w HDFS bez użycia HIVE - hadoop, apache-spark, avro, orc

Instalacja iskry Apache i db_metastore - apache-spark

Spark DataFrame - apache-spark, spark-dataframe

Odczytaj parkiet w iskrowym zbiorze danych ignorując brakujące pola [duplikat] - apache-spark, apache-spark-sql, parquet, apache-spark-dataset, apache-spark-2.0

Spark Write do S3 Storage Option - apache-spark, amazon-s3

Spark s3 read daje NullPointerException - amazon-s3, iskrę apache

to jest przesuwanie predykatów parkietu na S3 przy użyciu Spark non EMR? - amazon-s3, iskierka apache, parkiet