/ / Efektywne grupowanie podobnych liczb razem [duplikat] - algorytm, matematyka, agnostyka językowa, statystyki, analiza skupień

Efektywne grupowanie podobnych liczb razem [duplikat] - algorytm, matematyka, agnostyka językowa, statystyki, analiza skupień

Możliwe duplikaty:
Klasterowanie macierzy numer 1D

Mam tablicę liczb takich jak [1, 20, 300, 45, 5, 60, 10, 270, 3]. Jaki jest skuteczny algorytm grupowania tych liczb w oparciu o bliskość? W tym przypadku spodziewałbym się czegoś takiego [1, 3, 5], [20, 45, 60] i [270, 300].

Odpowiedzi:

2 dla odpowiedzi № 1

Najtrudniejszą częścią tego, o co pytasz, jest faktyczne zdefiniowanie bliskości. Czego można się spodziewać od wyjścia [5,10,15,20]? Czy byłyby to te same grupy, co dla [500,1000,1500,2000]?

Co powiesz na [1,2,3,5,7,8,9]? Czy powinna istnieć jedna grupa lub trzy? (lub dwa?).
Co powiesz na [1,2,3,5,7,8,9,1075,4000]? Czy 1075 i 4000 są zgrupowane razem? Czy grupy mniejszych liczb zmieniają się o większe liczby w próbie?

To pytanie jest zadawane przez całą dziedzinę uczenia maszynowego: Analiza klastra Być może to powiązane pytanie pomoże?

Myślę, że chcesz K-oznacza grupowanie (pomocny w połączeniu z pokrewnym pytaniem), ale musisz wiedzieć, ile grup chcesz podzielić swoje dane, aby z niego skorzystać.


2 dla odpowiedzi nr 2

To może być ogromny zamęt, ale możesz chcieć zajrzeć hierarchiczne algorytmy klastrowania. Algorytmy te grupują wartości w ahierarchia, z której możesz łatwo wyodrębnić najlepsze k skupiska. Klastrowanie aglomeracyjne jest prawdopodobnie najłatwiejszym z tych podejść do wdrożenia i z doświadczenia ma tendencję do tworzenia bardzo dobrych klastrów.

Mam nadzieję że to pomoże!