/ / Jak określić klaster nie ma znaczenia w klastrze internetowym? - uczenie maszynowe, eksploracja danych, analiza skupień

Jak określić klaster nie ma znaczenia w klastrze internetowym? - uczenie maszynowe, eksploracja danych, analiza skupień

Łączę strumień danych w czasie rzeczywistym, więcejdokładnie strumień Twittera. Gdy punkty danych (tweety) przybywają ze strumienia, punkt jest przypisywany do najbardziej podobnego do niego klastra. Podczas grupowania śledzę rozmiary wszystkich klastrów w czasie, a gdy tylko rozmiar klastra osiągnie średnią wszystkich rozmiarów, deklaruję ten klaster jako znaczący lub modulujący klaster. Nie mogę jednak znaleźć sposobu, aby zadeklarować, że klaster ten nie jest trendowy lub nie ma znaczenia, jeśli jego rozmiar pozostaje statyczny przez pewien czas, ponieważ jeśli pozostanie statyczny, oznacza to, że ludzie nie wysyłają tweetów na ten temat, ale jego rozmiar nadal będzie powyżej średniej, a więc pozostanie klastrem trendów, nawet jeśli nie jest.

Jednym ze sposobów myślenia o rozwiązaniu tego problemu jestprzez zadeklarowanie parametru okresu na około 10 minut, aby sprawdzić, czy jego rozmiar pozostaje taki sam, to deklaruję go jako nie zwiększający, a więc usuwam go z listy trendów.

Zastanawiam się, czy istnieje lepsze podejście do obsługi tego problemu niż parametr okresu lub nawet sposób decydowania o parametrze okresu?

Odpowiedzi:

0 dla odpowiedzi № 1

To całkowicie zależy od twojej aplikacji, jaka jest właściwa zasada, aby zapomnieć o starych klastrach.

Nie ma ogólnej zasady, którą moglibyśmy się podzielić. Niektórzy ludzie będą chcieli utrzymywać klaster w nieskończoność, inni mają elementy wieku i rozpadu klastra, gdy zmniejszy się on poniżej wielkości progowej. I najwyraźniej chcesz o tym zapomnieć, gdy już nie będzie rosnąć.

To zależy od ciebie, co chcesz modelować.