Допомога у програмуванні, відповіді на питання / Іспака Апачі / Apache Spark - Як рахувати подібну пару ключів / значень у парному RDD [закрито] - apache-spark, rdd

Apache Spark - Як розрахувати подібну пару ключ / значення в парному RDD [closed] - apache-spark, rdd

я маю rdd типу RDD[(String, String)], Я хочу вихід RDD[(String, String, Int)] де int буде рахуватися подібних наборів. напр .:

RDD введення:

java, perl
.Net, php
java, perl

Вихід RDD:

java, perl, 2
.Net, php, 1

Я спробував додати Int (як 1) в Input RDD, Так що тепер Input RDD стає:

[(String, String, Int)] де Int є 1

Але t.reduceByKey((a,b,c) => (a,b,c)) дає помилку.

Відповіді:

1 для відповіді № 1

Ви можете створити новий ключ, з'єднавши два значення, а потім додати як показ нижче:

lines = sc.parallelize(["java, perl", ".Net, php", "java, perl"])
splitted = lines.map(lambda l: l.split(","))
processed = splitted.map(lambda l: (l[0] + "," + l[1], 1))
reduced = processed.reduceByKey(lambda a, b: a+b)

Або просто трактуйте весь рядок як "ключ":

lines = sc.parallelize(["java, perl", ".Net, php", "java, perl"])
processed = lines.map(lambda l: (l, 1))
reduced = processed.reduceByKey(lambda a, b: a + b)

Вихід:

>>> lines.collect()
["java, perl", ".Net, php", "java, perl"]
>>> reduced.collect()
[(".Net, php", 1), ("java, perl", 2)]

EDIT:

Ви можете визначити функцію для форматування даних та використання map перетворення:

def formatter(line):
skills = line[0].split()
return skills[0], skills[1], line[1]

threecols = reduced.map(formatter)

Схожі запитання

Помилка org.apache.spark.ml.feature.IDF - scala, apache-spark, apache-spark-mllib

IntelliSense у Intellijі з іскровими бібліотеками - скала, апач-іскр, intellij-ідея

Спробуйте отримати Apache Spark, що працює з IntelliJ - scala, apache-spark, intellij-idea, sbt

Я отримую java.lang.NoClassDefFoundError, коли я намагаюся запустити приклади підрахунку слів у Spark-scala, apache-spark

Іскра мозкового розуміння залежності - Maven, Apache-Іскра

Нові для Spark і Spark SQL з Java - java, apache-spark, apache-spark-sql, data-migration, bigdata

Яка перевага використання CDH (cloudera)? [закрито] - хадооп, bigdata, apache-іскри, cloudera, cloudera-cdh

З'єднувати іскровий трубопровід із іскровим застосуванням, починаючи з екземпляра SparkSession - апач-іскри, apache-crunch

Іспанська установка Apache і db_metastore - apache-іскр

apache іскри bluemix неможливо - apache-іскри, ibm-cloud

Apache Spark не бачить весь баран моїх машин - apache-spark, google-compute-engine, apache-spark-mllib

Apache іскр-bigdata [closed] - apache-іскр, bigdata

Як вбити іскрове завдання, якщо відомий ідентифікатор програми? - апач-іскр, датастакс-підприємство

Іскра sql row_number або порядковий номер? - apache-spark, apache-spark-sql

Доступ до веб-інтерфейсу Spark від веб-вузла з віддаленого комп'ютера (вдома)? - апач-іскрі

Чому іскра поточні виконавці починають у різний час? - апачі-іскри, іскрові потоки, шкала часу

Чи можна використовувати apache-ignite rdd реалізацію в pyspark? - апач-іскрі, писпарк, запалити

Чому Іскр виявляє 8 ядер, коли у мене всього 4? - апачі-іскри, процесорні ядра, веббу

Хо, щоб прочитати ".gz" стиснутий файл, використовуючи іскрові DF або DS? - apache-іскр, apache-spark-sql, spark-dataframe, gzip, apache-spark-data set

Як встановити Apache Zeppelin на існуючий кластер Apache Spark - amazon-web-сервіси, apache-spark, bigdata, apache-spark-sql, apache-zeppelin