/ / Inter-Cluster a Intra-Cluster vzdialenosti - cluster-analýza

Inter-Cluster a intra-Cluster vzdialenosti - analýza klastrov

Zistil som nasledujúce vzorce pre vzdialenosti medzi klastrami a vnútryklusmi a nie som si istý, či rozumiem, ako fungujú.

tu zadajte popis obrázku

Vzdialenosť medzi klastrami

tu zadajte popis obrázku

Nemali by ste mať vyššie uvedené vzorce?

Inter-klastra a vnútri klastra:

tu zadajte popis obrázku tu zadajte popis obrázku

Prečo existuje index j od N + 1? A nie od 1 do N2?

Ktorý z nich je ten správny? Alebo existujú ekvivalenty? Alebo by som mal ísť na vzdialenosť medzi centroidmi pre vzdialenosť medzi klastrami? Zdá sa to pomerne jednoduché. A čo vzdialenosť v rámci klastra?

Nájdem vzorce pre wikipedu http://en.wikipedia.org/wiki/Cluster_analysis#Internal_evaluation ešte ťažšie pochopiteľné.

Musím vypočítať tieto vzdialenosti, aby somsprávne skupiny farieb, aby sme vytvorili zmenšenú paletu farieb, takže si myslím, že čím presnejšie sú tieto vzdialenosti, tým presnejšie je to zoskupenie (vzorec namiesto vzdialenosti medzi vzdialenosťou centroidov pre medzikus) .Vektory sú trojrozmerné ( Komponenty RGB).

odpovede:

2 pre odpoveď č. 1

Veľa algoritmov skutočne nepoužíva vzdialenosť.

k-prostriedky sa napríklad minimalizujú odchýlka, čo je súčet štvorcov, ktoré tu vidíte. Teraz súčet štvorcov je štvorcovú euklidovskú vzdialenosť, takže sa dá tvrdiťtento algoritmus sa tiež snaží minimalizovať euklidovské vzdialenosti; ale "prirodzená" formulácia algoritmu nevyužíva euklidovské vzdialenosti, ale súčet štvorcov, ak sa nemýlim, to isté platí pre zoskupenie Ward, že by ste mali vypočítať to pomocou rozptylu, nie euklidovskej vzdialenosti.

Všimnite si, že ak minimalizujete z ^ 2 a z nemôže byť negatívny, potom ste tiež minimalizovali z.

Pozri tiež: https://stats.stackexchange.com/questions/95793/is-there-an-advantage-to-squaring-dissimilarities-when-using-ward-clustering