/ / POS-Tagging - NLTK-Python - Python, nltk

POS-Tagging - NLTK- Python - Python, nltk

Ich möchte benutzen word_tokenize, pos_tag, FreqDist. Ich möchte nicht alles herunterladen nltk als Standard. Ich möchte benutzen nltk.download(info_or_id=""). Welche Optionen sollte ich einsetzen? info_or_id um das POS-Tagging und seine Häufigkeit zu erhalten. POS-Kennzeichnung - Penn Treebank POS.

Antworten:

0 für die Antwort № 1

Wenn Sie die Korpora betrachten http://www.nltk.org/nltk_data/ Jede Beschreibung enthält ihre ID, z. braun, wordnet, book_grammars. Welche Sie auswählen, hängt von Ihrer Anwendung ab. Suchen Sie nach einer markierten Korpora, z. Brown beinhaltet POS, man muss sich jeden ansehen, nehme ich an, um zu sehen. Baumbank erwähnt Penn Baumbank (id Baumbank), auch Sinica Baumbank (id sinica_treebank) http://www.nltk.org/howto/corpus.html


0 für die Antwort № 2

Ihre Frage verwirrt die nltk sich mit nltk_data. Sie können nicht wirklich nur einen Teil der nltk herunterladen(Sie könnten es jedoch manuell zuschneiden, wenn Sie Platz sparen möchten). Aber ich denke, Sie versuchen zu vermeiden, alle nltk-Daten herunterzuladen. Wie @barny schrieb, können Sie die IDs verschiedener Ressourcen sehen, wenn Sie die interaktive öffnen nltk.download() Fenster.

  1. Um den Baumkorb-Tagger verwenden zu können, benötigen Sie seine eingelegten Trainingstischenicht der Baumkorpus); Sie finden sie auf der Registerkarte "Modelle" unter der ID maxent_treebank_pos_tagger. (Daher: nltk.download("maxent_treebank_pos_tagger").

  2. Das FreqDist Klasse hat oder braucht kein trainiertes Modell.

  3. Auch nicht word_tokenize, die einen Satz als eine einzige Zeichenfolge nimmt und in Worte aufteilt. Sie benötigen jedoch wahrscheinlich das Modell für sent_tokenize, der einen längeren Text in Sätze aufteilt. Das wird vom "Punkt" -Satz-Tokenizer gehandhabt, und Sie können das Modell mit herunterladen nltk.download("punkt").

PS. Für den allgemeinen Gebrauch empfehle ich, alles aus der Sammlung "Bücher" herunterzuladen, d. H. nltk.download("book"). Es ist nur ein Bruchteil der Gesamtsumme, und Sie können die meisten Dinge tun, ohne von Zeit zu Zeit zu krabbeln, um herauszufinden, was fehlt.