Pomoc pri programovaní, odpovede na otázky / Apache iskru / Apache Spark - Ako spočítať podobný pár kľúč / hodnota v spárovanom RDD [zatvorené] - apache-spark, rdd

Apache Spark - Ako započítať podobný pár kľúča / hodnoty v spárovanom RDD [closed] - apache-spark, rdd

mám rdd typu RDD[(String, String)], Chcem výstup RDD[(String, String, Int)] kde int bude počet podobných súborov. napr .:

Vstup RDD:

java, perl
.Net, php
java, perl

Výstup RDD:

java, perl, 2
.Net, php, 1

Snažil som sa pridať Int (ako 1) v Input RDD, Tak teraz Input RDD sa stáva:

[(String, String, Int)] kde Int je 1.

ale t.reduceByKey((a,b,c) => (a,b,c)) dáva chybu.

odpovede:

1 pre odpoveď č. 1

Nový kľúč môžete vytvoriť spojením dvoch hodnôt a potom pridať nasledujúcim spôsobom:

lines = sc.parallelize(["java, perl", ".Net, php", "java, perl"])
splitted = lines.map(lambda l: l.split(","))
processed = splitted.map(lambda l: (l[0] + "," + l[1], 1))
reduced = processed.reduceByKey(lambda a, b: a+b)

Alebo jednoducho považujte celý riadok za „kľúčový“:

lines = sc.parallelize(["java, perl", ".Net, php", "java, perl"])
processed = lines.map(lambda l: (l, 1))
reduced = processed.reduceByKey(lambda a, b: a + b)

Výkon:

>>> lines.collect()
["java, perl", ".Net, php", "java, perl"]
>>> reduced.collect()
[(".Net, php", 1), ("java, perl", 2)]

EDIT:

Môžete definovať funkciu na formátovanie údajov a použitie súboru map transformácia:

def formatter(line):
skills = line[0].split()
return skills[0], skills[1], line[1]

threecols = reduced.map(formatter)

Súvisiace otázky

org.apache.spark.ml.feature.IDF chyba - scala, apache-spark, apache-spark-mllib

Intellisense v Intellij s knižnicami iskier - scala, apache-spark, intellij-idea

Snažím sa Apache Spark pracovať s IntelliJ - scala, apache-spark, intellij-idea, sbt

Mám java.lang.NoClassDefFoundError, keď sa pokúšam spustiť príklad počtu slov v Spark - scala, apache - spark

Spoznávanie závislosti na jave maven - maven, apache-spark

Nové funkcie Spark a Spark SQL s Java - java, apache-spark, apache-spark-sql, migrácia dát, bigdata

Aký je prínos použitia CDH (cloudera)? [zatvorené] - hadoop, bigdata, apache-spark, cloudera, cloudera-cdh

Prepojenie potrubia s iskrovou spojkou s aplikáciou iskier začínajúcou inštanciou SparkSession - apache-spark, apache-crunch

Inštalácia zapaľovania Apache a db_metastore - apache-spark

Apache spark bluemix nemožné - apache-spark, ibm-cloud

Apache Spark nevidí všetko, čo robia z mojich strojov - apache-spark, google-compute-engine, apache-spark-mllib

Apache spark- bigdata [zatvorené] - apache-spark, bigdata

Ako zabiť úlohu iskra, ak je známa id aplikácie? - apache-spark, datastax-enterprise

Spark sql číslo riadku alebo poradové číslo? - apache-spark, apache-spark-sql

Zdieľať aplikáciu Web Spark zo vzdialeného počítača (doma)? - apache-spark

Prečo sa začínajú spúšťať streamingové exekútori v inom čase? - apache-spark, streaming s jiskrami, časová os

Je možné použiť pachpark implementáciu apache-ignite rdd? - apache-spark, pyspark, zapáliť

Prečo detekuje Spark 8 jadier, keď mám iba 4? - apache-spark, cpu-core, webui

Ho prečítať komprimovaný súbor ".gz" pomocou spark DF alebo DS? - apache-spark, apache-spark-sql, spark-dataframe, gzip, apache-spark-dataset

Ako nainštalovať Apache Zeppelin na existujúci samostatný cluster Apache Spark - amazon-web-services, apache-spark, bigdata, apache-spark-sql, apache-zeppelin