プログラミングの助け、質問への回答 / Python /パンダデータフレームでsparkのMLLibルーチンを使う - python、apache-spark、pyspark、apache-spark-mllib

pandasデータフレームでのsparkのMLLibルーチンの使用 - python、apache-spark、pyspark、apache-spark-mllib

かなり大きなデータセット（〜20GB）が保存されていますPandas / PyTables HDFStoreとしてディスクを作成し、ランダムフォレストとブーストツリーを実行します。私のローカルシステムでそれをやろうとすることは永遠にかかります、それで私は私がアクセスして代わりにMLLibルーチンを使用する火花クラスターにそれを遠ざけることを考えていました。

私はパンダデータフレームをロードすることができましたがスパークデータフレームとして、MLLibルーチンでこれを使用する方法について少し混乱しています。MLLibにはあまり慣れていないので、LabeledPointデータ型のみを受け入れるようです。

サポートされている型に変換することにより、直接または間接的にMLLibアルゴリズムへの入力としてデータフレームを使用する方法（パンダまたはスパーク）を説明するアイデア/ポインタ/コードをいただければ幸いです。

ありがとう。

回答：

回答№1は1

あなたは DataFrame 〜に RDD[LabeledPoint]。注意してください LabeledPoint ちょうど (label: Double, features: Vector)。各行から値を取得するマッピングルーチンを考えます。

val rdd = df.map { row =>
new LabeledPoint(row(0), DenseVector(row.getDouble(1),..., row.getDouble(n)))
}

これにより、 RDD[LabeledPoint] あなたは RandomForest.trainRegressor(...)、例えば。を見てください DataFrame API 詳細については。

SparkのDataFrameをRDDに変換する[Vector] - scala、apache-spark、spark-dataframe、apache-spark-mllib

org.apache.spark.ml.feature.IDFエラー - scala、apache-spark、apache-spark-mllib

スパークDataFrameをMlLibマトリックスに変換する - scala、apache-spark、spark-dataframe、apache-spark-mllib

Sparkでロジスティック回帰はどのように並列化されていますか？ - scala、apache-spark、機械学習、apache-spark-mllib

sparkRとMLlibライブラリを接続する方法はありますか？ - r、apache-spark、sparkr

MLlibでのPMMLファイルのインポート - python、apache-spark-mllib、pmml

PyFark DataFrameでArrayTypeをDenseVectorに変換するには？ - python、apache-spark、pyspark、apache-spark-mllib、apache-spark-ml

PySparkのPCA解析 - python、apache-spark、apache-spark-mllib、pca、apache-spark-ml

spark sqlデータフレームをnumpy配列に変換するには？ - Python、配列、numpy、apache-spark、dataframe

LinearRegressionModelのmavenリポジトリ - maven、apache-spark、apache-spark-mllib

PySparkのParamGridBuilderは、機械学習、pyspark、線形回帰、apache-spark-mllib、apache-spark-mlのLinearRegressionSGDでは動作しません

ストリーミングKmeans Spark Java - java、scala、spark-streaming、k-means、apache-spark-mllib

コサイン類似度の計算spark java - java、apache-spark、コサイン類似度

GroovyコードからScala Breezeライブラリを使用できますか？ - java、scala、groovy、apache-spark、scala-breeze

Spark MLLibのKmeans ++のinitializationStepsパラメータは正確に何ですか？ - apache-spark、pyspark、apache-spark-sql、apache-spark-mllib

Apache Sparkは私のマシンのすべてのRAMを表示しません - apache-spark、google-compute-engine、apache-spark-mllib

PySpark ALSで長いユーザIDを使用する方法 - apache-spark、pyspark、apache-spark-mllib

pysparkでapache-ignite rdd実装を使用することは可能ですか？ - apache-spark、pyspark、ignite

SparseVectorを含むSpark.ml DataFrame - apache-spark、apache-spark-mllib

pandasデータフレームでのsparkのMLLibルーチンの使用 - python、apache-spark、pyspark、apache-spark-mllib

回答：

関連する質問