प्रोग्रामिंग, सवालों के जवाब में मदद करें / Sql / स्काला: स्पार्क sqlContext क्वेरी - sql, hadoop, apache-spark, apache-spark-sql, parquet

स्काला: स्पार्क sqlContext क्वेरी - sql, hadoop, apache- स्पार्क, अपाचे-स्पार्क-sql, लकड़ी की छत

मेरी फ़ाइल में केवल 3 ईवेंट (तृतीय स्तंभ) 01, 02, 03 हैं।

स्कीमा unixTimestamp है | id | EventType | date1 | date2 | date3

639393604950|1001|01|2015-05-12 10:00:18|||
639393604950|1002|01|2015-05-12 10:04:18|||
639393604950|1003|01|2015-05-12 10:05:18|||
639393604950|1001|02||2015-05-12 10:40:18||
639393604950|1001|03|||2015-05-12 19:30:18|
639393604950|1002|02|2015-05-12 10:04:18|||

sqlContext में, मैं आईडी द्वारा डेटा का विलय कैसे करूँ? मैं आईडी 1001 के लिए यह उम्मीद कर रहा हूं:

639393604950|1001|01|2015-05-12 10:00:18|2015-05-12 10:40:18|2015-05-12 19:30:18|

यहाँ मेरी क्वेरी को समायोजित करने की आवश्यकता है:

val events = sqlContext.sql("SELECT id, max(date1), max(date2), max(date3) " +
"FROM parquetFile group by id, date1, date2, date3")
events.collect().foreach(println)

उत्तर:

जवाब के लिए 2 № 1

SELECT id, max(date1), max(date2), max(date3) FROM parquetFile group by id

जवाब के लिए 0 № 2

जिस तरह से डेटा उत्पन्न होता है, ऐसा लगता है कि फ़ाइल में स्कीमा भ्रामक है। समस्या यह है कि सभी तिथियां तारीख 1 क्षेत्र में अलग-अलग घटनाओं के प्रकार के साथ आबादी में हैं। इसलिए, हमें इसे ठीक करने की आवश्यकता है।

select id, ts, max(d1),max(d2),max(d3)
from (select id, ts,
case when eventtype="01" then date1 else null end d1,
case when eventtype="02" then date1 else null end d2,
case when eventtype="03" then date1 else null end d3
from table1
) x group by id,ts

बेशक, यह समूह आईडी और टीएस एक साथ, जैसा कि उत्तर में अपेक्षित है।

संबंधित सवाल

एक यूडीएफ - स्काला, हडूप, अपाचे-स्पार्क, अपाचे-स्पार्क-एसक्यूएल, स्पार्क-डेटाफ्रेम से स्पार्क एसक्यूएल क्वेरी निष्पादित करने का प्रयास कर रहा है

स्कैला त्रुटि: मान रजिस्टर TempTable org.apache.spark.sql.SchemaRDD का सदस्य नहीं है - स्कैला, अपाचे-स्पार्क, अपाचे-स्पार्क-एसक्यूएल, लकड़ी की छत

स्पार्क पुस्तकालयों के साथ इंटेलिज में इंटेलिजेंस - स्कैला, अपाचे-स्पार्क, इंटेलिज-विचार

स्पार्क-जावा पैकेज कैसे स्पाला से स्पार्क का उपयोग करें? - स्कैला, स्पार्क-जावा

मूल्य toDF सदस्य नहीं है org.apache.spark.rdd.RDD - स्कैला, अपाचे-स्पार्क, स्पार्क-डेटाफ्रेम

स्कैला से स्पार्क 2.10.4 से 2.11 - स्कैला, एक्लिप्स-प्लगइन, अपाचे-स्पार्क, अपाचे-स्पार्क-एसक्यूएल

स्काला एपीआई के साथ स्पार्क डेटाफ्रेम में टीएसवी पढ़ना - स्कैला, अपाचे-स्पार्क

Elasticsearch-hadoop - json, scala, elasticsearch, apache-spark, apache-spark-sql में SchemaRDD.saveToES () का उपयोग करके JSFS से JSON को अनुक्रमणित करने में असमर्थ

स्पार्क एसक्यूएल - टेक्स्ट फ़ाइल में डेटाफ्रेम कैसे लिखें? - जावा, अपाचे-स्पार्क-एसक्यूएल

स्पार्क एसक्यूएल एकल उद्धरण त्रुटि - जावा, एसक्यूएल, स्कैला, अपाचे-स्पार्क, अपाचे-स्पार्क-एसक्यूएल

सीडीएच (क्लौडेरा) का उपयोग करने का क्या फायदा है? [बंद] - हडूप, बिगडाटा, अपाचे-स्पार्क, क्लौडेरा, क्लौडेरा-सीडीएच

क्या हैडोप यार्न 2.7.2 क्लस्टर पर स्पार्क 1.6.2 और 2.0.0 दोनों का समर्थन करने का कोई आधिकारिक तरीका है? - हडूप, अपाचे-स्पार्क, यार्न

NoSuchMethodError: org.apache.spark.sql.SQLContext.applySchema - hadoop, apache-spark, apache-spark-sql

एचडीएफएस में ओआरसी प्रारूप में एवीआर डेटा संग्रहित करने के साथ HIVE - हैडूप, अपाचे-स्पार्क, एवरो, ओआरसी

अपाचे स्पार्क स्थापना और db_metastore - अपाचे-स्पार्क

स्पार्क डेटाफ्रेम - अपाचे-स्पार्क, स्पार्क-डेटाफ्रेम

लापता क्षेत्रों को अनदेखा करते हुए स्पार्क डेटासेट में लकड़ी की छत पढ़ें [डुप्लिकेट] - अपाचे-स्पार्क, अपाचे-स्पार्क-एसक्यूएल, लकड़ी की छत, अपाचे-स्पार्क-डेटासेट, अपाचे-स्पार्क-2.0

स्पार्क एस 3 स्टोरेज विकल्प को लिखें - अपाचे-स्पार्क, अमेज़ॅन-एस 3

स्पार्क एस 3 पढ़ता है NullPointerException - अमेज़ॅन-एस 3, अपाचे-स्पार्क देता है

स्पार्क गैर ईएमआर का उपयोग कर एसक्वेट पर पुशडाउन भविष्यवाणी पुशडाउन काम करता है? - अमेज़ॅन-एस 3, अपाचे-स्पार्क, लकड़ी की छत