Sto cercando di parallelizzare la tupla e ottenere l'errore di seguito. Per favore fatemi sapere che è l'errore nella sintassi di seguito
Grazie
risposte:
1 per risposta № 1Il metodo parallelizza richiede un Seq. Ogni articolo nel seq sarà un record.
def parallelize[T](seq: Seq[T],
numSlices: Int = defaultParallelism)
(implicit arg0: ClassTag[T]): RDD[T]
Nel tuo esempio, devi aggiungere un Seq per avvolgere la Tupla, e in questo caso l'RDD ha solo UN record
scala> val rdd = sc.parallelize(Seq(("100", List("5", "-4", "2", "NA", "-1"))))
rdd: org.apache.spark.rdd.RDD[(String, List[String])] = ParallelCollectionRDD[2] at parallelize at <console>:24
scala> rdd.count
res4: Long = 1