/ / MST na Kompletný graf na zhlukovanie (pre kosinusovú podobnosť) - graf, nlp, analýza klastrov, minimálny rozložený strom

MST na Kompletný graf na zhlukovanie (pre kosinusovú podobnosť) - graf, nlp, analýza klastrov, minimálna veľkosť stromu

Musím zhlukovať (povedzme, že sú uvedené ako parameter k),slová (že i uložiť do zoznamu poľa) podľa ich kosinusovej podobnosti. Všetky moje slová som uložil ako vertexy v zozname v kompletnom, váženom, a neorientovaný graf (ktorý používa súvislosť zoznam), a dať ich cosine podobnosti hodnoty na okrajoch. Ako chápem, potrebujem použiť klastrovací algoritmus MST (Kruskals Algorithm). Avšak, pretože môj graf je kompletný graf a MST používa pre pripojené grafy, som nejaký zmätok, ako ho použiť na kompletný graf? Alebo robím zle pomocou úplného grafu? Toto je môj zoznam slov:

 [directors, producers, film, movie, black, white, man, woman, person, man, young, woman, science, fiction, thrilling, realistic, lovely, stunning, criminals, zombies, father, son, girlfriend, boyfriend, nurse, soldier, professor, college]

A musím ich zhromaždiť MST tak, že ak k (počet klastrov) je 2, bude to takto (2 klastre podľa ich podobností):

boyfriend,college,father,girlfriend,man,nurse,person,professor,son,woman,young
criminals,directors,fiction,film,lovely,movie,producers,science,stunning,thrilling,zombies

Akýkoľvek tip alebo pomoc je ocenený.Vďaka vopred.

odpovede:

1 pre odpoveď č. 1

Štandardné je používať na úplných grafoch minimálne rozložené stromy.

Najčastejšie zistíte, že zložitosť behu je pre tento prípad zvlášť. Možno budete chcieť skontrolovať, či Prim je rýchlejšie ako Kruskal na úplnom grafe.

Klastrovanie s minimálnym rozpínacím stromom je tiežznáme ako zhlukovanie s jedným odkazom a rýchly SLINK algoritmus úzko súvisí s primárnym MST algoritmom, ale výstupný formát je vhodnejší pre zhlukovanie.