Помощ при програмиране, отговори на въпроси / Scala / Преобразуване на DataFrame на Spark в RDD [Vector] - скала, apache-spark, spark-dataframe, apache-spark-mllib

Конвертиране на DataFrame на Spark в RDD [Vector] - скала, apache-spark, spark-dataframe, apache-spark-mllib

Когато се опитвах да превърна Спарк DataFrame в РСР [org.apache.spark.mllib.linalg.Vector] използвайки следния код:

import org.apache.spark.sql.Row
import org.apache.spark.mllib.linalg.Vectors

val df = sqlContext.createDataFrame(
Seq((0.1, 0.2, 0.4))
).toDF("t1", "t2", "t3")

df.rdd.map{ case Row(row: Seq[_]) =>
Vectors.dense(row.asInstanceOf[Seq[Double]].toArray)
}.collect

Получих съобщение за грешка по следния начин:

scala.MatchError: [0.1,0.2,0.4] (of class org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema)

Тогава опитах друг метод:

df.content.rdd.map{ case row =>
Vectors.dense(row.toSeq.toArray.map{
x => x.asInstanceOf[Double]
})
}.collect

Тя работи добре.

Докато първият метод е въведен в официалната версия на Spark-2.2.0-SNAPSHOT при преобразуване ред в Array [Двойна], не проработи.

Може ли някой да разбере причината?

Отговори:

2 за отговор № 1

Тези два метода не правят същото. В първия случай се опитвате да се съпротивлявате Row с един ArrayType колона. Тъй като вашият вход съдържа три колони MatchException е очакван резултат. Това може да работи само ако събирате например колони като масив

df.select(array(df.columns.map(col(_)): _*)).rdd.map {
case Row(xs: Seq[Double @unchecked]) => xs
}

или

df.select(array(df.columns.map(col(_)): _*)).rdd.map(_.getSeq[Double](0))

Във втория случай преобразувате ред към Seq[Any] който ви дава последователност от полеви стойности.

Свързани въпроси

Трансформация на данните (подготовка на данни) в apache scala scala - scala, join, apache-spark, multilabel-класификация

Импулсен внос на елемента на пакета mllib - скала, apache-spark, apache-spark-mllib

Множество nullValues в искра csv - scala, csv, apache-spark

грешка org.apache.spark.ml.feature.IDF - скала, apache-spark, apache-spark-mllib

Intellisense в Intellij с искрови библиотеки - scala, apache-spark, intellij-idea

пакет искра-ява как да използвате Spark от Scala? - скала, искра-ява

Конвертиране на искра DataFrame в MlLib Matrix - скала, apache-spark, spark-dataframe, apache-spark-mllib

искра от скала 2.10.4 до 2.11 - скала, затъмнение-плъгин, apache-spark, apache-spark-sql

toBreeze Spark функция скала - скала, apache-искра, бриз

Как е логистичната регресия паралелизирана в Spark? - скала, apache-spark, машинно обучение, apache-spark-mllib

Има ли начин да се свържете sparkR с MLlib библиотека? - r, apache-spark, sparkr

Използвайки рутинни процедури MLLib на spark с пандеми за данни - python, apache-spark, pyspark, apache-spark-mllib

Изчисляване на косинусовото сходство. Java - java, apache-spark, cosine-similarity

Може ли Библиотеката Scala Breeze да бъде използвана от Groovy код? - ява, скала, groovy, apache-spark, scala-breeze

Spark: как да промените масива на масива [String] на RDD [Array [String]] - масиви, скала, apache-spark

Apache Spark не вижда целия овен на моите машини - apache-spark, google-compute-engine, apache-spark-mllib

Изчисляване на разликата между Spark DataFrames - apache-spark

Може ли DataFrame да бъде достъпен от различни SparkSessions? - apache-spark, apache-spark-sql, искра-информационна рамка

Spark.ml DataFrame съдържащ SparseVector - apache-spark, apache-spark-mllib

Ho да прочетете ".gz" компресиран файл, използвайки искра DF или DS? - apache-spark, apache-spark-sql, spark-dataframe, gzip, apache-spark-dataset