/ / k-oznacza grupowanie za pomocą iskry Mlib - apache-iskra, uczenie maszynowe, eksploracja danych, k-średnich, klasyfikacja tekstu

k-sposoby klastrowanie za pomocą iskry Mlib - apache-iskra, uczenie maszynowe, eksploracja danych, k-średnie, klasyfikacja tekstu

Chcę wykonać K oznacza klastrowanie na zbiorze danych jak poniżej

(OA, mobileNO, tekst są nagłówkami csv)

OA | mobileNO | Tekst
575756 | 918050173932 | sekhar dodał (a) zdjęcie. Zobacz to na https://fb.com/l/
RM-444555 | 91879225717 | Domino Kup 1 pizzę i odbierz 1 za darmo
VM-OLAMNY | 919160281882 | Dodano rs.10 podczas jazdy kabiną OLA

tak jak powyżej mam ogromny zbiór danych, jak mogę zebrać dane i znaleźć ukryte w nich wzorce. (np. Który OA wysyła wiadomości związane z kabiną, które OA wysyła powiadomienia fb itp.)

Muszę uzyskać klastry OA w oparciu o tekst, który wysyłają

klaster 1: Klaster OA związany z kabiną 2: powiadomienia fb itp

Czy klastrowanie K-środkami działa tylko na danych numerycznych?

Odpowiedzi:

0 dla odpowiedzi № 1

k-środki działa niezawodnie tylko ciągłe zmienne numeryczne.

Jest ku temu powód: na innych danych, oznaczać nie ma znaczenia, więc k-średnie klastry nie mają znaczenia.