/ / Clustering K-significa algoritmo per set di dati allungati - machine-learning, cluster-analysis, k-means

Clustering K-significa algoritmo per set di dati allungati - machine-learning, cluster-analysis, k-means

Ho fatto domande mentre programmavo l'algoritmo K-means in Matlab. Perché K-significa algoritmo non adatto per classificare il set di dati allungato?

risposte:

-1 per risposta № 1

Se si osserva la funzione obiettivo e si scala l'asse x per 10, diventa 100 volte più importante.

Sui dati "allungati", la dimensione "lunga" ha la maggior parte dell'effetto sul risultato, gli altri tendono ad essere ignorati.

Poiché k-means è un algoritmo non supervisionato, non può imparare i pesi per contrastarlo. Classificatori come SVM lineari o alberi decisionali possono farlo, e quindi non hanno questo problema.


-1 per risposta № 2

In genere, disegna alcune linee spesse su una carta. Puoi davvero rappresentare ognuno con un singolo punto? In che modo i singoli punti forniscono informazioni sull'orientamento?

K-means assegna ciascun datapoint a ciascuno più vicino baricentro. Questo per dire che per ogni centroide c, tutti i punti che la loro distanza da c è più piccolo (in confronto a tutti gli altri centroidi) sarà assegnato a c. E, poiché la superficie di una (iper) sfera è dentroInfatti, tutti i punti con distanza inferiore o uguale a qualche valore da un centro, penso che sia facile vedere come i cluster risultanti tendono ad essere sferici. (Per essere precisi, i kmean praticamente creano a Diagramma di Voronoi nello spazio vettoriale)

Tuttavia, i cluster allungati non soddisfano necessariamente il requisito che tutti i loro punti siano più vicini al loro "centro di massa" rispetto al centro di qualche altro cluster.


-3 per risposta № 3

È difficile scegliere un punto centrale del cluster di init in un set di dati allungato, ma ha un forte effetto sul risultato. Potresti ottenere risultati diversi quando scegli diversi punti.

In questo caso otterrai un solo risultato quando scegli 3 punti init:

inserisci la descrizione dell'immagine qui

Ma è diverso nel set di dati allungato.