/ / Clusterowanie tytułów stron WWW na podstawie ich znaczenia - python, nlp, cluster-analysis

Grupowanie tytułów stron internetowych na podstawie ich znaczenia - python, nlp, cluster-analysis

Przejrzałem to połączyć. Podany tutaj kod nie może grupować tematów takich jak:

    "Number theory",
"Finite field",
"Rational number",
"Continued fraction representation",
"Floating point",
"Mughal architecture"

Wszyscy byli w tym samym skupisku. Co powinienem zrobić, aby tematy matematyczne znalazły się w jednym klastrze, a inne w ich odpowiednich klastrach?

Odpowiedzi:

0 dla odpowiedzi № 1

Powinieneś podawać teksty artykułów do algorytmu grupowania. Same tytuły są zbyt rzadkie, po prostu nie zawierają wystarczającej ilości informacji, aby móc wykonać niezbędne statystyki.


0 dla odpowiedzi nr 2

Załóżmy, że te tytuły były w języku, którego nie znasz, jak byś kontynuował?

Bez dodatkowych informacji, przed którym stoi program komputerowy. Nie ma szansy, aby to naprawić!

Więc musisz albo

  • dodać dodatkowe informacje podobieństwo słów, np. oparty na WordNet

  • dodaj więcej tekstu, na przykład pełne artykuły