/ / Valutazione del clustering: matlab, cluster-analysis

Valutazione del clustering: matlab, cluster-analysis

Diciamo che ho un dataset etichettato per esserecluster (l'etichetta serve per identificare ogni dato a cui appartiene anche il cluster). Ora, se avessi usato un algoritmo di clustering in Matlab (kmeans, ...) come potrei sapere se un'istanza è in cluster correttamente o meno. Sapendo che lasciamo dire a quanti km ha raggruppato l'istanza di uno dei set di dati per essere nei cluster 2 ma i dati etichettati dicono che appartiene al cluster 1. Tuttavia, il cluster 2 nel dataset etichettato potrebbe essere lo stesso di un cluster nelle etichette previste (ma avere diverso invertito nomi sia previsti che etichettati). Cosa suggerisci?

Grazie in anticipo.

risposte:

0 per risposta № 1

Se ho capito bene, stai cercando di confrontare iletichette di "verità di base" con quella trovata dal tuo algoritmo e hanno il problema che potrebbero essere raggruppate correttamente, ma con etichette diverse. Se è giusto, puoi provare grp2idx su entrambi i vettori di etichette, dato che sembra assegnare il primo cluster, trova l'etichetta "1" e il successivo "2" e così via.

Modificare: grp2idx non lo fa, semplicemente cambia le etichette con le più piccole possibili, ma grp2idx ([2 1 2 2 3]) diventa [2 1 2 2 3], quindi non le ordina diversamente. Ad esempio, si potrebbe prendere l'output di grp2idx su entrambi i vettori di etichette, sottrarli e per ogni valore univoco del vettore dell'etichetta la differenza dovrebbe essere la stessa.


0 per risposta № 2

Wikipedia discute diversi approcci.

Un certo numero di misure sono adattate dalle variantiutilizzato per valutare i compiti di classificazione. Invece di contare il numero di volte in cui una classe è stata assegnata correttamente a un singolo punto di dati (noto come veri positivi), tali metriche di conteggio delle coppie valutano se ciascuna coppia di punti di dati che è realmente nello stesso cluster si prevede che sia nello stesso grappolo.

Le metriche di conteggio delle coppie risolvono il problema di dover abbinare i cluster alle classi, osservando un accordo su cosa è "uguale" e cosa è "diverso".