/ Как да управлявате Mahout на Spark - хаоп, apache - spark, mahout

Как да управлявате Mahout на Spark - хаоп, apache-spark, mahout

Наскоро забелязах, че има някоидискусии за изпълнението на Mahout алгоритми върху Spark вместо MapReduce. Въпреки това не можах да намеря някаква документация за това.Може ли някой да ми каже дали е възможно да се изпълняват Mahout алгоритми за Spark? Ако е така, има ли някакво ограничение на алгоритми, че можем да тичам?

Отговори:

2 за отговор № 1

Да, махут сега работи на Spark (т.е. новата версия v0.10.0).

Представените алгоритми за различните двигатели са документирани тук.

Те са достъпни на Spark:

Mahout разпределени BLAS. Distributed Row Matrix API с R и Matlab като оператори. Разпределени ALS, SPCA, SSVD, thin-QR. сходство Анализ. Съвместно филтриране, базирано на потребители / артикули. Naive Bayes Класификация. Стохастичен SVD. PCA (чрез стохастичен SVD). QR Разлагане. RowSimilarityJob.

Ето един от алгоритмите, които могат да се използват:

mahout spark-itemsimilarity           
-i /mnt/similarity/input       
-o /mnt/similarity/output      
--master yarn-client           
-D:spark.executor.instances=10 
-D:spark.executor.cores=8