/ / Clustering einer Textdatei in Gruppen und Themen in Python - Python, Clusteranalyse, Text-Mining, Feature-Extraktion, Textanalyse

Clustering einer Textdatei in Gruppen und Themen in Python - Python, Cluster-Analyse, Text-Mining, Feature-Extraktion, Text-Analyse

Ich bin neu in Text Mining und habe eine sehr große Textdatei, in der jede Zeile eine Überprüfung eines Elements (einen Satz) darstellt.

Ich möchte sowohl die Gruppen als auch dieThemen, die in den Bewertungen vorhanden sind. Meine Frage ist also, welche Funktionen, Gruppen und Themen meine Daten haben. Könnte die Häufigkeit des Auftretens jedes Wortes als Merkmal verwendet werden? Müssen wir jede Zeile (Review) als Dokument betrachten, dann müssen wir die Reviews zusammenfassen? Ich frage mich auch, ob die Anzahl der Gruppen oder Themen bereits bekannt sein sollte, da bei einem unbeaufsichtigten Algorithmus die Anzahl der Cluster ein bekannter Parameter sein soll.

Meine zweite Frage ist, wie ich das bearbeiten kann k-bedeutet Clustering-Code um die Gruppen und die zu finden NMF-Code um Themen zu finden, die meine reviews.txt-Datei verwenden.

Antworten:

2 für die Antwort № 1

Erstens können Sie, wie in den Kommentaren vorgeschlagen, die Grundlagen eines guten Buches über Text-Mining oder das Abrufen von Informationen abrufen. Meine Vorschläge sind: Einführung in den Informationsabruf.

Versuchen Sie nun, Ihre Fragen kurz zu beantworten:

// Meine Frage ist, was die Features sind // - Wie bei den meisten Text-Mining-Problemen könnten in Ihrem Fall Features in jedem Satz Begriffe (Wörter) sein. Sie können die Häufigkeitsfrequenzen abschätzen und verwenden TF-IDF Repräsentation, eine sehr beliebte Art der Repräsentation von Dokumenten.

// groups // - Da jeder Satz eine individuelle Überprüfung darstellt, können Sie jeden Satz als kleines Dokument betrachten und verwenden Dokument-Clustering um die Gruppen zu identifizieren.

// Themen meiner Daten? // - Ja, da gibt es etwas, was man nennt Themenmodellierung, die Ihnen helfen, die Themen in einer Dokumentensammlung zu identifizieren. Aber nicht sicher, ob es auf Ihr Problem zutrifft.

// Müssen wir jede Zeile (Review) als Dokument betrachten, dann müssen wir die Reviews zusammenfassen? // - Ja.

// Ich frage mich auch, ob die Anzahl der Gruppen oderDas Thema sollte im Vorhinein bekannt sein, da in einem nicht überwachten Algorithmus die Anzahl der Cluster ein bekannter Parameter sein sollte.// - Dies ist nicht der Fall. Viele Clustering-Algorithmen erwarten kein Vorwissen über Nein. von Clustern, wie z hierarchisches Clustering, Affinitätsausbreitung. Auch für Algorithmen, die das Nein erwarten. von Clustern gibt es a Anzahl der Möglichkeiten um das vorherzusagen.