Помощ при програмиране, отговори на въпроси / Апаш искра / Персонализирано разделяне в Pyspark - apache-spark, pyspark, rdd

Празно разделяне в Pyspark - apache-spark, pyspark, rdd

Опитвам се да създам персонализиран дял в задание за искра, като използвам PySpark, че имаме следните данни

 x = sc.parallelize([["a1","a2",0], ["b1","b2",0], ["c1","c2",1], ["d1","d2",1], ["e1","e2",1], ["f1","f2",2]])

Бих искал да се разделят въз основа на третия елемент на списъка ..Без е код, който аз се опитвам, но тя завършва с грешка "Твърде много стойности, за да Разопаковане"

rdd = x.partitionBy(3,lambda x: int(x[2])).collect()

По-долу е точната грешка, която получавам

ValueError: too many values to unpack
org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRDD.scala:193)
at org.apache.spark.api.python.PythonRunner$$anon$1.<init>(PythonRDD.scala:234)
at org.apache.spark.api.python.PythonRunner.compute(PythonRDD.scala:152)
at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:63)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)
at org.apache.spark.api.python.PairwiseRDD.compute(PythonRDD.scala:390)

очакваното производство

[[["a1","a2",0], ["b1","b2",0]], [["c1","c2",1], ["d1","d2",1], ["e1","e2",1]], [["f1","f2",2]]]

Отговори:

1 за отговор № 1

Както @Himaprasoon вече посочи, можете да разделите само на двойки K-V, във вашата ситуация можете да опитате

rdd = x.keyBy(lambda row: int(row[2])).partitionBy(3)

rdd.values().glom().collect()

което дава :

[[["a1", "a2", 0], ["b1", "b2", 0]],
[["c1", "c2", 1], ["d1", "d2", 1], ["e1", "e2", 1]],
[["f1", "f2", 2]]]

Свързани въпроси

Как да конвертирате ArrayType в DenseVector в PySpark DataFrame? - питън, apache-spark, pyspark, apache-spark-mllib, apache-spark-ml

превръщането на пандата в израз на pyspark - питън, панда, apache-spark, групово, pyspark

Как мога да конвертирам pyspark.sql.dataframe.DataFrame обратно в sql таблица в бележника на databricks - python, sql, apache-spark, pyspark, databricks

Pyspark, инициализираща искра по програмиране: IllegalArgumentException: липсващ ресурс за приложение - python, pyspark

Не можа да се свърже с Mongo от pyspark - python, mongodb, pyspark

Транспониране в Pyspark Dataframe - панда, pyspark, искра-данниframe

как да преместите инсталацията на pyspark - macos, pyspark

Обучение на нелинеен SVC модел, използващ Pyspark - машинно обучение, pyspark, bigdata, svm, apache-spark-mllib

Как да конвертирате json в pyspark dataframe (по-бързо изпълнение) [дубликат] - json, pyspark, spark-dataframe, pyspark-sql

Как да заредите зависимости в IPython Notebook - csv, apache-spark, pyspark, jupyter-notebook, pyspark-sql

Намиране и премахване на съответстващи стойности на колони в pyspark - apache-spark, pyspark, spark-dataframe, pyspark-sql

Спарк просто не започва - apache-spark, pyspark

Прочетете RC файла pyspark 2.0.0 от S3 с дялове - apache-spark, amazon-s3, pyspark, spark-dataframe, rc

Конвертиране на колоната за данни от Spark от струна до дата - apache-spark, spark-dataframe

Възможно ли е да се използва apache-ignite rdd изпълнение в pyspark? - Apache-spark, pyspark, запали

Получавам IllegalArgumentException при създаването на SparkSession - apache-spark, pyspark, pyspark-sql

pyspark: NameError: името "spark" не е дефинирано - apache-spark, машинно обучение, pyspark, разпределени компютри, apache-spark-ml

Подготовка за работа с Python, за да предизвикате дистанция - apache-spark, pyspark

Тип преобразуване на PySpark безопасна колона - apache-spark, pyspark

PySpark + преносим компютър - apache-spark, pyspark