/ / Паралелізувати колекцію в іскоркій шкалі scala - scala, apache-spark

Паралелізуйте збірку в іскровий шкалі scala - scala, apache-spark

Я намагаюсь паралелізувати кортеж і отримати помилку нижче. Будь ласка, дайте мені знати, що це помилка в синтаксисі нижче введіть опис зображення тут

Дякую

Відповіді:

1 для відповіді № 1

Метод розпаралелювання потребує послідовності. Кожен елемент у серії буде один запис.

def parallelize[T](seq: Seq[T],
numSlices: Int = defaultParallelism)
(implicit arg0: ClassTag[T]): RDD[T]

У вашому прикладі потрібно додати Seq, щоб обернути Tuple, і в цьому випадку RDD має лише ONE запис

scala> val rdd = sc.parallelize(Seq(("100", List("5", "-4", "2", "NA", "-1"))))
rdd: org.apache.spark.rdd.RDD[(String, List[String])] = ParallelCollectionRDD[2] at parallelize at <console>:24

scala> rdd.count
res4: Long = 1