/ / NLTK andere Sprache POS-Tagger - Python, Nlp, Nltk

NLTK andere Sprache POS Tagger - Python, Nlp, Nltk

Ich benutze das Nltk-Modul in Python und ich versuche, dies für das POS-Tagging verschiedener Sprachen zu verwenden.

Es gibt viele Informationen darüber, wie man trainiertIhren eigenen POS-Tagger in verschiedenen Sprachen - gibt es eine Datenbank mit wirklich robusten, gut gebauten und getesteten NLTK-POS-Taggern für verschiedene Sprachen? (Es ist sehr einfach, POS-Tagger mit dem Beizmodul zu exportieren)

Antworten:

4 für die Antwort № 1

Sie finden robuste und gut gebaute und getestete NLTK Corpora bei http://www.nltk.org/nltk_data/

Sie können andere Korpora finden, aber diese sind die besten


3 für die Antwort № 2

Wenn Sie nicht nur NLTK verwenden, können Sie unser robustes und sprachunabhängiges POS-Tagging-Toolkit ausprobieren RDRPOSTagger.

(Lizenz: GPLv2; Programmiersprache: Python & Java)

RDRPOSTagger erhält eine schnelle Leistung sowohl im Lern- als auch im Tagging-Prozess. Darüber hinaus erzielt RDRPOSTagger eine sehr wettbewerbsfähige Genauigkeit im Vergleich zum Stand der Technik.

Aktualisiert am 18/11/2015: Veröffentlichung der Version 1.2 mit verbesserter Tagging-Genauigkeit, insbesondere in morphologisch reichen Sprachen. Siehe Versuchsergebnisse einschließlich der Leistungsgeschwindigkeit und der Markierungsgenauigkeit in dieses Papier.

RDRPOSTagger unterstützt vortrainierte POS undmorphologische Kennzeichnungsmodelle für Bulgarisch, Tschechisch, Niederländisch, Englisch, Französisch, Deutsch, Hindi, Italienisch, Portugiesisch, Spanisch, Schwedisch, Thailändisch und Vietnamesisch. RDRPOSTagger unterstützt auch die vortrainierten Universal POS-Tagging-Modelle für 40 Sprachen.


1 für die Antwort № 3

Von dem, was ich weiß, gibt es keine solche Datenbank von robusten gut gebauten und getesteten POS-Taggern. Ich denke aber, es ist eine gute Idee.

Ich habe selbst ein paar Taggers ausprobiert. Für einen großen englischen Korpus habe ich verwendet: http://gmb.let.rug.nl/

Für Spanisch habe ich das in NLTK enthaltene verwendet (cess_esp)

from nltk.corpus import cess_esp as cess

Für das schnelle Training einfacher Tagger können Sie NLTK Trainer ausprobieren:

https://nltk-trainer.readthedocs.org/en/latest/train_tagger.html