Допомога у програмуванні, відповіді на питання / Іспака Апачі / Кластеризація Spark KMeans: отримайте кількість вибірки, присвоєної кластеру - apache-spark, pyspark, cluster-аналіз, k-означає, apache-spark-mllib

Клавіатура Spark KMeans: отримати номер зразка, присвоєний кластеру - apache-іскр, pyspark, кластерний аналіз, k-засоби, apache-spark-mllib

Я використовую Spark Mlib для кластеризації kmeans. У мене є набір векторів, з яких я хочу визначити найімовірніший центр кластера. Тож я проведу тренування кластеризації kmeans на цьому наборі та виберу кластер із найбільшою кількістю присвоєних йому векторів.

Тому мені потрібно знати кількість векторівприсвоюється кожному кластеру після тренування (тобто KMeans.run (...)). Але я не можу знайти спосіб отримати цю інформацію з результату KMeanModel. Мені, мабуть, потрібно бігти predict на всіх навчальних векторах і підраховуйте мітку, яка виявляється найбільше.

Чи є інший спосіб зробити це?

Дякую

Відповіді:

2 для відповіді № 1

Ви маєте рацію, ця інформація не надається моделлю, і вам потрібно запустити predict. Ось приклад цього робити паралельно (Spark v. 1.5.1):

 from pyspark.mllib.clustering import KMeans
from numpy import array
data = array([0.0,0.0, 1.0,1.0, 9.0,8.0, 8.0,9.0, 10.0, 9.0]).reshape(5, 2)
data
# array([[  0.,   0.],
#       [  1.,   1.],
#       [  9.,   8.],
#       [  8.,   9.],
#       [ 10.,   9.]])

k = 2 # no. of clusters
model = KMeans.train(
sc.parallelize(data), k, maxIterations=10, runs=30, initializationMode="random",
seed=50, initializationSteps=5, epsilon=1e-4)

cluster_ind = model.predict(sc.parallelize(data))
cluster_ind.collect()
# [1, 1, 0, 0, 0]

cluster_ind є RDD тієї самої кардинальності з нашоюпочаткові дані, і це показує, до якого кластеру належить кожна точка даних. Отже, у нас є два кластери: один з 3 точками (кластер 0) і один з 2 точками (кластер 1). Зауважте, що ми використовували метод прогнозування паралельно (тобто на RDD) - collect() тут використовується лише для наших демонстраційних цілей, і він не потрібен у "реальній" ситуації.

Тепер ми можемо отримати розміри кластерів

 cluster_sizes = cluster_ind.countByValue().items()
cluster_sizes
# [(0, 3), (1, 2)]

З цього ми можемо отримати максимальний індекс & розмір кластера як

 from operator import itemgetter
max(cluster_sizes, key=itemgetter(1))
# (0, 3)

тобто наш найбільший кластер - це кластер 0, розмір 3 точок даних, який можна легко перевірити, перевіривши cluster_ind.collect() вище.

Схожі запитання

Іскрове імпортування пакета mllib - scala, apache-spark, apache-spark-mllib

Іскра структурована потокова 2.2 і k-засоби - scala, apache-іскр, k-засоби, apache-spark-mllib

об'єднайте два різних типи RDD - scala, apache-spark, apache-spark-mllib

Використання імітаційних процедур MLLib з файлами даних pandas - python, apache-spark, pyspark, apache-spark-mllib

Запуск групування KMeans в PySpark - pyspark, k-means, apache-spark-mllib

Потокове відтворення Kmeans Spark JAVA - java, scala, spark-streaming, k-means, apache-spark-mllib

Яка перевага використання CDH (cloudera)? [закрито] - хадооп, bigdata, apache-іскри, cloudera, cloudera-cdh

Який саме параметр ініціалізації кроків у Kmeans ++ в Spark MLLib? - apache-іскр, pyspark, apache-spark-sql, apache-spark-mllib

Apache Spark не бачить весь баран моїх машин - apache-spark, google-compute-engine, apache-spark-mllib

Чи існує джерело аварії? - апач-іскр, іскри-dataframe

Іскра / S3 Імпортування даних - apache-іскр, вулик, піспарк

Доступ до веб-інтерфейсу Spark від веб-вузла з віддаленого комп'ютера (вдома)? - апач-іскрі

Чи можна використовувати apache-ignite rdd реалізацію в pyspark? - апач-іскрі, писпарк, запалити

pyspark: NameError: ім'я 'spark' не визначено - apache-іскрі, машинознавство, pyspark, розподілені обчислення, apache-spark-ml

Підтвердження роботи Python для іскри віддалено - apache-іскри, pyspark

Чому Іскр виявляє 8 ядер, коли у мене всього 4? - апачі-іскри, процесорні ядра, веббу

Ініціалізація моделі StreamingKmeans із статичними навчальними даними - apache-іскр, искові потоки, k-засоби, apache-spark-mllib

Іскрова-подавати Передача файлів з локального на кластер - apache-spark-1.3

Як встановити Apache Zeppelin на існуючий кластер Apache Spark - amazon-web-сервіси, apache-spark, bigdata, apache-spark-sql, apache-zeppelin

Різні результати на моєму ноутбуці та в кластері - Amazon-web-сервіси, apache-spark, k-tools, apache-spark-mllib