Наскоро забелязах, че има някоидискусии за изпълнението на Mahout алгоритми върху Spark вместо MapReduce. Въпреки това не можах да намеря някаква документация за това.Може ли някой да ми каже дали е възможно да се изпълняват Mahout алгоритми за Spark? Ако е така, има ли някакво ограничение на алгоритми, че можем да тичам?
Отговори:
2 за отговор № 1Да, махут сега работи на Spark (т.е. новата версия v0.10.0).
Представените алгоритми за различните двигатели са документирани тук.
Те са достъпни на Spark:
Mahout разпределени BLAS. Distributed Row Matrix API с R и Matlab като оператори. Разпределени ALS, SPCA, SSVD, thin-QR. сходство Анализ. Съвместно филтриране, базирано на потребители / артикули. Naive Bayes Класификация. Стохастичен SVD. PCA (чрез стохастичен SVD). QR Разлагане. RowSimilarityJob.
Ето един от алгоритмите, които могат да се използват:
mahout spark-itemsimilarity
-i /mnt/similarity/input
-o /mnt/similarity/output
--master yarn-client
-D:spark.executor.instances=10
-D:spark.executor.cores=8