Нещодавно я помітив, що є деякіобговорення запуску алгоритмів Mahout на Spark замість MapReduce. Однак я не міг знайти для цього жодної документації. Чи може хтось мені сказати, чи можна запускати алгоритми Mahout на Spark? Якщо так, чи є обмеження на алгоритми, які ми можемо запускати?
Відповіді:
2 для відповіді № 1Так, mahout зараз працює на Spark (тобто новій версії v0.10.0)
Алгоритми, наявні на різних двигунах, документовані тут.
Вони доступні на Spark:
Mahout Поширений BLAS. API розподіленої рядкової матриці з R і Matlab як оператори. Поширені ALS, SPCA, SSVD, тонкий QR. Схожість Аналіз. Спільне фільтрування на основі користувачів / предметів. Наївний Байєс Класифікація. Стохастичний СВД. PCA (через Stochastic SVD). QR Розкладання. RowS similarityJob.
Ось один з алгоритмів, який можна використовувати:
mahout spark-itemsimilarity
-i /mnt/similarity/input
-o /mnt/similarity/output
--master yarn-client
-D:spark.executor.instances=10
-D:spark.executor.cores=8