प्रोग्रामिंग, सवालों के जवाब में मदद करें / अपाचे स्पार्क / अपाचे स्पार्क - पेयर आरडीडी [बंद] में समान कुंजी / मूल्य जोड़ी को कैसे गिनें - अपाचे-स्पार्क, आरडीडी

अपाचे स्पार्क - पैयरड आरडीडी [बंद] में समान कुंजी / मूल्य जोड़ी की गणना कैसे करें - अपाचे-स्पार्क, आरडीडी

मेरे पास है rdd प्रकार के RDD[(String, String)], मुझे आउटपुट चाहिए RDD[(String, String, Int)] कहा पे int समान सेटों की गणना की जाएगी। उदा:

इनपुट RDD:

java, perl
.Net, php
java, perl

आउटपुट RDD:

java, perl, 2
.Net, php, 1

मैंने जोड़ने की कोशिश की Int (1 के रूप में) में Input RDD, तो अब Input RDD हो जाता है:

[(String, String, Int)] कहा पे Int 1 है

परंतु t.reduceByKey((a,b,c) => (a,b,c)) त्रुटि दे रहा है।

उत्तर:

उत्तर № 1 के लिए 1

आप दो मानों को जोड़कर एक नई कुंजी बना सकते हैं और फिर नीचे दिए गए शो के रूप में जोड़ सकते हैं:

lines = sc.parallelize(["java, perl", ".Net, php", "java, perl"])
splitted = lines.map(lambda l: l.split(","))
processed = splitted.map(lambda l: (l[0] + "," + l[1], 1))
reduced = processed.reduceByKey(lambda a, b: a+b)

या बस पूरी पंक्ति को "कुंजी" मानें:

lines = sc.parallelize(["java, perl", ".Net, php", "java, perl"])
processed = lines.map(lambda l: (l, 1))
reduced = processed.reduceByKey(lambda a, b: a + b)

आउटपुट:

>>> lines.collect()
["java, perl", ".Net, php", "java, perl"]
>>> reduced.collect()
[(".Net, php", 1), ("java, perl", 2)]

संपादित करें:

आप डेटा को प्रारूपित करने और उपयोग करने के लिए एक फ़ंक्शन को परिभाषित कर सकते हैं map परिवर्तन:

def formatter(line):
skills = line[0].split()
return skills[0], skills[1], line[1]

threecols = reduced.map(formatter)

संबंधित सवाल

org.apache.spark.ml.feature.IDF त्रुटि - स्कैला, अपाचे-स्पार्क, अपाचे-स्पार्क-मेलिब

स्पार्क पुस्तकालयों के साथ इंटेलिज में इंटेलिजेंस - स्कैला, अपाचे-स्पार्क, इंटेलिज-विचार

इंटेलीज - स्कैला, अपाचे-स्पार्क, इंटेलिज-विचार, एसबीटी के साथ काम कर रहे अपाचे स्पार्क को प्राप्त करने का प्रयास

मुझे java.lang मिलता है। NoClassDefFoundError जब मैं स्पार्क - स्कैला, अपाचे-स्पार्क में शब्द गणना उदाहरण चलाने की कोशिश करता हूं

स्पार्क मेवेन निर्भरता समझ - मेवेन, अपाचे-स्पार्क

जावा के साथ स्पार्क और स्पार्क एसक्यूएल के लिए नया - जावा, अपाचे-स्पार्क, अपाचे-स्पार्क-एसक्यूएल, डाटा माइग्रेशन, बिगडाटा

सीडीएच (क्लौडेरा) का उपयोग करने का क्या फायदा है? [बंद] - हडूप, बिगडाटा, अपाचे-स्पार्क, क्लौडेरा, क्लौडेरा-सीडीएच

स्पार्क सत्र उदाहरण के साथ स्पार्क एप्लिकेशन के साथ लिंक क्रंच स्पार्क पाइपलाइन - अपाचे-स्पार्क, अपाचे-क्रंच

अपाचे स्पार्क स्थापना और db_metastore - अपाचे-स्पार्क

अपाचे स्पार्क ब्लूमिक्स असंभव - अपाचे-स्पार्क, आईबीएम-क्लाउड

अपाचे स्पार्क को मेरी मशीनों के सभी रैम नहीं दिखते हैं - अपाचे-स्पार्क, google-compute-engine, apache-spark-mllib

अपाचे स्पार्क- बिगडाटा [बंद] - अपाचे-स्पार्क, बिगडाटा

आवेदन आईडी ज्ञात होने पर स्पार्क नौकरी को कैसे मारें? - अपाचे-स्पार्क, डेटास्टैक्स-एंटरप्राइज़

स्पार्क एसक्यूएल row_number या अनुक्रम संख्या? - अपाचे-स्पार्क, अपाचे-स्पार्क-एसक्यूएल

रिमोट कंप्यूटर (होम) से स्पार्क का वेबयूआई एक्सेस करें? - अपाचे-स्पार्क

स्पार्क स्ट्रीमिंग निष्पादक अलग-अलग समय क्यों शुरू करते हैं? - अपाचे-स्पार्क, स्पार्क-स्ट्रीमिंग, टाइमलाइन

क्या pyspark में apache-ignite rdd कार्यान्वयन का उपयोग करना संभव है? - अपाचे-स्पार्क, पाइस्पार्क, आग लगाना

स्पार्क 8 कोर का पता लगाने क्यों है, जब मेरे पास केवल 4 है? - अपाचे-स्पार्क, सीपीयू-कोर, वेबूई

स्पार्क डीएफ या डीएस का उपयोग कर संपीड़ित फ़ाइल ".gz" पढ़ने के लिए हो? - अपाचे-स्पार्क, अपाचे-स्पार्क-एसक्यूएल, स्पार्क-डेटाफ्रेम, जीजीआईपी, अपाचे-स्पार्क-डेटासेट

मौजूदा अपाचे स्पार्क स्टैंडअलोन क्लस्टर पर अपाचे ज़ेपेल्लिन को कैसे इंस्टॉल करें - अमेज़ॅन-वेब-सेवाएं, अपाचे-स्पार्क, बिगडाटा, अपाचे-स्पार्क-एसक्यूएल, अपाचे-ज़ेपेल्लिन