Допомога у програмуванні, відповіді на питання / Скала / Перетворити DataFrame Іскри в RDD [Вектор] - scala, apache-іскр, іскр-dataframe, apache-spark-mllib

Перетворення DataFrame Іскри в RDD [Vector] - scala, apache-іскр, spark-dataframe, apache-spark-mllib

Коли я намагався перетворити Іскра DataFrame в RDD [org.apache.spark.mllib.linalg.Vector] використовуючи наступний код:

import org.apache.spark.sql.Row
import org.apache.spark.mllib.linalg.Vectors

val df = sqlContext.createDataFrame(
Seq((0.1, 0.2, 0.4))
).toDF("t1", "t2", "t3")

df.rdd.map{ case Row(row: Seq[_]) =>
Vectors.dense(row.asInstanceOf[Seq[Double]].toArray)
}.collect

Я отримав таке повідомлення про помилку:

scala.MatchError: [0.1,0.2,0.4] (of class org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema)

Потім я спробував інший метод:

df.content.rdd.map{ case row =>
Vectors.dense(row.toSeq.toArray.map{
x => x.asInstanceOf[Double]
})
}.collect

Це спрацювало добре.

Поки перший метод був введений в офіційна версія Spark-2.2.0-SNAPSHOT при конвертації рядок в Масив [подвійний], це не спрацювало.

Чи може хто-небудь зрозуміти причину?

Відповіді:

2 для відповіді № 1

Ці два способи не роблять те ж саме. У першому випадку ви намагаєтеся зіставити з a Row з одним ArrayType колонка Оскільки ваш вхід містить три стовпці MatchException очікуваний результат. Це може працювати, тільки якщо ви збираєте стовпці як масив, наприклад

df.select(array(df.columns.map(col(_)): _*)).rdd.map {
case Row(xs: Seq[Double @unchecked]) => xs
}

або

df.select(array(df.columns.map(col(_)): _*)).rdd.map(_.getSeq[Double](0))

У другому випадку ви перетворюєте рядок на Seq[Any] яка дає вам послідовність значень поля.

Схожі запитання

Трансформація даних (підготовка даних) в apache іскрі scala - scala, join, apache-spark, multilabel-classification

Іскрове імпортування пакета mllib - scala, apache-spark, apache-spark-mllib

Кілька nullValues в іскра csv - scala, csv, apache-іскр

Помилка org.apache.spark.ml.feature.IDF - scala, apache-spark, apache-spark-mllib

IntelliSense у Intellijі з іскровими бібліотеками - скала, апач-іскр, intellij-ідея

spark-java пакет, як використовувати Spark від Scala? - скала, іскр-ява

Перетворення іскровий DataFrame в MlLib Matrix - scala, apache-іскр, spark-dataframe, apache-spark-mllib

Іскра від scala 2.10.4 до 2.11 - scala, eclipse-plugin, apache-spark, apache-spark-sql

Функція toBreeze Spark scala - скала, апач-іскрі, вітерець

Як логістична регресія розпаралелюється в Іскра? - scala, apache-spark, машинного навчання, apache-spark-mllib

Чи є спосіб підключення sparkR з бібліотекою MLlib? - r, apache-іскр, sparkr

Використання імітаційних процедур MLLib з файлами даних pandas - python, apache-spark, pyspark, apache-spark-mllib

Обчислимо косинус подібність іскри java-java, апаче-іскри, косинусоподібність

Чи можна використовувати бібліотеку Scala Breeze з коду Groovy? - java, scala, groovy, apache-искря, scala-breeze

Іскра: як змінити масив файлу Array [String] на RDD [Array [String]] - масиви, scala, apache-spark

Apache Spark не бачить весь баран моїх машин - apache-spark, google-compute-engine, apache-spark-mllib

Обчислювальна різниця між Spark DataFrames - apache-spark

Чи може доступний DataFrame з різних SparkSessions? - apache-spark, apache-spark-sql, spark-dataframe

Spark.ml DataFrame, що містить SparseVector - apache-іскр, apache-spark-mllib

Хо, щоб прочитати ".gz" стиснутий файл, використовуючи іскрові DF або DS? - apache-іскр, apache-spark-sql, spark-dataframe, gzip, apache-spark-data set