Pomoc w programowaniu, odpowiedzi na pytania / Iskierka Apache / Apache Spark - Jak liczyć podobną parę klucz / wartość w sparowanym RDD [zamknięte] - apache-spark, rdd

Apache Spark - Jak zliczyć podobną parę klucz / wartość w sparowanym RDD [zamknięty] - apache-spark, rdd

mam rdd typu RDD[(String, String)], Chcę wynik RDD[(String, String, Int)] gdzie int będzie liczyć podobne zestawy. na przykład:

Wejściowe RDD:

java, perl
.Net, php
java, perl

Wyjściowy RDD:

java, perl, 2
.Net, php, 1

Próbowałem dodać Int (jak 1) w Input RDD, Więc teraz Input RDD staje się:

[(String, String, Int)] gdzie Int jest 1.

Ale t.reduceByKey((a,b,c) => (a,b,c)) daje błąd.

Odpowiedzi:

1 dla odpowiedzi № 1

Możesz utworzyć nowy klucz, łącząc dwie wartości, a następnie dodaj jak pokazano poniżej:

lines = sc.parallelize(["java, perl", ".Net, php", "java, perl"])
splitted = lines.map(lambda l: l.split(","))
processed = splitted.map(lambda l: (l[0] + "," + l[1], 1))
reduced = processed.reduceByKey(lambda a, b: a+b)

Lub po prostu traktuj całą linię jako „klucz”:

lines = sc.parallelize(["java, perl", ".Net, php", "java, perl"])
processed = lines.map(lambda l: (l, 1))
reduced = processed.reduceByKey(lambda a, b: a + b)

Wydajność:

>>> lines.collect()
["java, perl", ".Net, php", "java, perl"]
>>> reduced.collect()
[(".Net, php", 1), ("java, perl", 2)]

EDYTOWAĆ:

Możesz zdefiniować funkcję formatowania danych i użyj map transformacja:

def formatter(line):
skills = line[0].split()
return skills[0], skills[1], line[1]

threecols = reduced.map(formatter)

Powiązane pytania

org.apache.spark.ml.feature.IDF error - scala, apache-spark, apache-spark-mllib

Intellisense w Intellij z bibliotekami iskrowymi - scala, apache-spark, intellij-idea

Próbujesz zmusić Apache Spark do pracy z IntelliJ - scala, apache-spark, intellij-idea, sbt

Dostaję java.lang.NoClassDefFoundError gdy próbuję uruchomić przykład liczenia słów w Spark - scala, apache-spark

Zrozumienie zależności między iskrowcami - maven, apache-spark

Nowość w Spark i Spark SQL z Javą - java, apache-spark, apache-spark-sql, migracja danych, bigdata

Jaka jest korzyść z używania CDH (cloudera)? [zamknięty] - hadoop, bigdata, apache-iskra, cloudera, cloudera-cdh

Link iskierki z iskrowym crunchem zaczynającym się od instancji SparkSession - apache-spark, apache-crunch

Instalacja iskry Apache i db_metastore - apache-spark

Apache iskry bluemix impossible - apache-spark, ibm-cloud

Apache Spark nie widzi całego barana moich maszyn - apache-spark, google-compute-engine, apache-spark-mllib

Apache isc-bigdata [zamknięty] - apache-spark, bigdata

Jak zabić zadanie iskier, jeśli identyfikator aplikacji jest znany? - apache-spark, datastax-enterprise

Spark sql numer_wiersza lub numer kolejny? - apache-spark, apache-spark-sql

Uzyskaj dostęp do webUI Sparka ze zdalnego komputera (do domu)? - iskierka apache

Dlaczego iskrowiące executory strumieniowe zaczynają się w innym czasie? - iskierka apache, strumień iskier, oś czasu

Czy jest możliwe użycie implementacji rdd apache-ignite w pyspark? - iskierka apache, pyspark, zapłon

Dlaczego Spark wykrywa 8 rdzeni, kiedy mam tylko 4? - apache-iskra, cpu-rdzenie, webui

Ho, aby odczytać skompresowany plik ".gz" za pomocą iskry DF lub DS? - apache-spark, apache-spark-sql, spark-dataframe, gzip, apache-spark-dataset

Jak zainstalować Apache Zeppelin na istniejącym już samodzielnym klastrze Apache Spark - amazon-web-services, apache-spark, bigdata, apache-spark-sql, apache-zeppelin