Помощ при програмиране, отговори на въпроси / Питон Как да конвертирате ArrayType в DenseVector в PySpark DataFrame? - питон, apache-spark, pyspark, apache-spark-mllib, apache-spark-ml

Как да конвертирате ArrayType в DenseVector в PySpark DataFrame? - питън, apache-spark, pyspark, apache-spark-mllib, apache-spark-ml

Аз получавам следната грешка, опитвайки се да изградя ML Pipeline:

pyspark.sql.utils.IllegalArgumentException: "requirement failed: Column features must be of type org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7 but was actually ArrayType(DoubleType,true)."

мой features колона съдържа масив от стойности с плаваща запетая. Това звучи като аз трябва да конвертирате тези към някакъв вид на вектор (това не е рядко, така че DenseVector?). Има ли начин да направите това директно на DataFrame или трябва да конвертирате в RDD?

Отговори:

13 за отговор № 1

Можете да използвате UDF:

udf(lambda vs: Vectors.dense(vs), VectorUDT())

В импортиране на Spark <2.0:

from pyspark.mllib.linalg import Vectors, VectorUDT

В импортиране на Spark 2.0+:

from pyspark.ml.linalg import Vectors, VectorUDT

Моля, имайте предвид, че тези класове не са съвместими въпреки идентичното изпълнение.

Възможно е също така да се извличат отделни елементи и да се сглобяват VectorAssembler, Ако се приеме, че се въвежда колона за въвеждане features:

from pyspark.ml.feature import VectorAssembler

n = ... # Size of features

assembler = VectorAssembler(
inputCols=["features[{0}]".format(i) for i in range(n)],
outputCol="features_vector")

assembler.transform(df.select(
"*", *(df["features"].getItem(i) for i in range(n))
))

Свързани въпроси

Импулсен внос на елемента на пакета mllib - скала, apache-spark, apache-spark-mllib

Конвертиране на DataFrame на Spark в RDD [Vector] - скала, apache-spark, spark-dataframe, apache-spark-mllib

Конвертиране на искра DataFrame в MlLib Matrix - скала, apache-spark, spark-dataframe, apache-spark-mllib

Импортиране на PMML файл в MLlib - python, apache-spark-mllib, pmml

Как мога да конвертирам pyspark.sql.dataframe.DataFrame обратно в sql таблица в бележника на databricks - python, sql, apache-spark, pyspark, databricks

Как да конвертирате sql sql dataframe в измамен масив? - питън, масиви, изображение, apache-spark, dataframe

Използвайки рутинни процедури MLLib на spark с пандеми за данни - python, apache-spark, pyspark, apache-spark-mllib

Какви линии трябва да добавя към spark-defaults.conf, за да може да използва Phoenix от pyspark? - python, pyspark, hortonworks-платформа за данни, Phoenix

Инсталационни проблеми на Spark - python-3.x, apache-spark, pyspark

ParamGridBuilder в PySpark не работи с LinearRegressionSGD - машинно обучение, pyspark, линейна регресия, apache-spark-mllib, apache-spark-ml

Изчисляване на косинусовото сходство. Java - java, apache-spark, cosine-similarity

Празно разделяне в Pyspark - apache-spark, pyspark, rdd

Apache Spark не вижда целия овен на моите машини - apache-spark, google-compute-engine, apache-spark-mllib

Как да използвате дългото потребителско име в PySpark ALS - apache-spark, pyspark, apache-spark-mllib

Прочетете RC файла pyspark 2.0.0 от S3 с дялове - apache-spark, amazon-s3, pyspark, spark-dataframe, rc

Конвертиране на колоната за данни от Spark от струна до дата - apache-spark, spark-dataframe

Възможно ли е да се използва apache-ignite rdd изпълнение в pyspark? - Apache-spark, pyspark, запали

pyspark: NameError: името "spark" не е дефинирано - apache-spark, машинно обучение, pyspark, разпределени компютри, apache-spark-ml

Тип преобразуване на PySpark безопасна колона - apache-spark, pyspark

PySpark + преносим компютър - apache-spark, pyspark