Pomoc w programowaniu, odpowiedzi na pytania / Scala / Przyspiesz wspólne filtrowanie dużych zbiorów danych w Spark MLLib - scala, apache-spark, apache-spark-mllib, wspólne filtrowanie

Przyspiesz wspólne filtrowanie dużego zestawu danych w Spark MLLib - scala, apache-spark, apache-spark-mllib, wspólne filtrowanie

Korzystam z faktoryzacji macierzy MLlibpolecaj produkty użytkownikom. Mam na myśli dużą niejawną matrycę interakcji M = 20 milionów użytkowników i N = 50 000 elementów. Po szkoleniu modelu chcę uzyskać krótką listę (np. 200) zaleceń dla każdego użytkownika. próbowałem recommendProductsForUsers w MatrixFactorizationModel ale jest bardzo bardzo powolna (trwała 9 godzin, ale wciąż daleko od końca.) Testuję z 50 executorami, każdy z pamięcią 8g. Można się tego spodziewać, ponieważ recommendProductsForUsers trzeba obliczyć wszystkie M*N interakcje użytkownika z przedmiotami i uzyskiwanie najwyższego poziomu dla każdego użytkownika.

Spróbuję użyć większej liczby executorów, ale z tego, co widziałem w szczegółach aplikacji w Spark UI, wątpię, że może to skończyć się w ciągu kilku godzin lub nawet, gdy mam 1000 wykonawców (po 9 godzinach nadal jest to flatmap tutaj https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/mllib/recommendation/MatrixFactorizationModel.scala#L279-L289, 10000 zadań ogółem i tylko ~ 200 zakończonych) Czy są jeszcze inne rzeczy, które mogę dostroić, aby przyspieszyć proces rekomendacji, zwiększając liczbę wykonawców?

Oto przykładowy kod:

val data = input.map(r => Rating(r.getString(0).toInt, r.getString(1).toInt, r.getLong(2))).cache
val rank = 20
val alpha = 40
val maxIter = 10
val lambda = 0.05
val checkpointIterval = 5
val als = new ALS()
.setImplicitPrefs(true)
.setCheckpointInterval(checkpointIterval)
.setRank(rank)
.setAlpha(alpha)
.setIterations(maxIter)
.setLambda(lambda)
val model = als.run(ratings)
val recommendations = model.recommendProductsForUsers(200)
recommendations.saveAsTextFile(outdir)

Odpowiedzi:

1 dla odpowiedzi № 1

@ Jack Lei: Czy znalazłeś odpowiedź na to pytanie? Ja sam próbowałem kilku rzeczy, ale tylko trochę pomogłem.

Na przykład: próbowałem

javaSparkContext.setCheckpointDir("checkpoint/");

Pomaga to uniknąć wielokrotnego obliczania pomiędzy.

Próbowano także dodawać więcej pamięci na pamięć wykonawczą i napowietrzną

--conf spark.driver.maxResultSize=5g --conf spark.yarn.executor.memoryOverhead=4000

Powiązane pytania

Spark import członka pakietu mllib - scala, apache-spark, apache-spark-mllib

Konwertuj DataFrame Sparka na RDD [Vector] - scala, iskra apache, iskra-ramka danych, apache-spark-mllib

scala.MatchError: null on iskra RDDs - scala, apache-spark, rdd, apache-spark-mllib, wspólne filtrowanie

Pole "element" nie istnieje przy użyciu rurociągu Spark MLlib dla ALS - scala, apache-spark, apache-spark-mllib

org.apache.spark.ml.feature.IDF error - scala, apache-spark, apache-spark-mllib

Konwertuj iskrę DataFrame na MlLib Matrix - scala, apache-spark, spark-dataframe, apache-spark-mllib

toBreeze Spark funkcja scala - scala, apache-spark, breeze

W jaki sposób regresja logistyczna jest zrównoleglona w Sparku? - scala, apache-spark, uczenie maszynowe, apache-spark-mllib

Czy istnieje sposób na połączenie sparkR z biblioteką MLlib? - r, apasz-iskra, iskra

Importuj plik PMML w MLlib - python, apache-spark-mllib, pmml

Używanie procedur MLLib iskry z pandami - frameworki, python, apache-spark, pyspark, apache-spark-mllib

Apache Spark, ALS Przykład rekomendacji w dokumentacji ma dodatkową kolumnę, której nie znam - python, apache-spark, pyspark, apache-spark-mllib, engine rekomendacji

repozytorium dla LinearRegressionModel - maven, apache-spark, apache-spark-mllib

Streaming Kmeans Spark JAVA - java, scala, spark-streaming, k-znaczy, apache-spark-mllib

Obliczaj podobieństwo cosinusa iskra java - java, apache-iskra, podobieństwo cosinusów

Czy biblioteka Scala Breeze może być używana z kodu Groovy? - java, scala, groovy, apache-spark, scala-breeze

Nie można uzyskać dostępu do Scala private val with reflection - java, scala, reflection

Apache Spark nie widzi całego barana moich maszyn - apache-spark, google-compute-engine, apache-spark-mllib

Odzyskaj ukryte czynniki z modelu rozkładu matrycy pyspark - apache-spark, pyspark, collaborative-filtering

Spark.ml DataFrame zawierający SparseVector - apache-spark, apache-spark-mllib