/ / Parallelizza la collezione nella shell di scintilla scala - scala, apache-spark

Parallelamente la collezione in scafo di scintilla scala - scala, apache-scintilla

Sto cercando di parallelizzare la tupla e ottenere l'errore di seguito. Per favore fatemi sapere che è l'errore nella sintassi di seguito inserisci la descrizione dell'immagine qui

Grazie

risposte:

1 per risposta № 1

Il metodo parallelizza richiede un Seq. Ogni articolo nel seq sarà un record.

def parallelize[T](seq: Seq[T],
numSlices: Int = defaultParallelism)
(implicit arg0: ClassTag[T]): RDD[T]

Nel tuo esempio, devi aggiungere un Seq per avvolgere la Tupla, e in questo caso l'RDD ha solo UN record

scala> val rdd = sc.parallelize(Seq(("100", List("5", "-4", "2", "NA", "-1"))))
rdd: org.apache.spark.rdd.RDD[(String, List[String])] = ParallelCollectionRDD[2] at parallelize at <console>:24

scala> rdd.count
res4: Long = 1