/ / NLTK inny język POS tagger - python, nlp, nltk

NLTK inny język POS tagger - python, nlp, nltk

Korzystam z modułu nltk w python i próbuję użyć tego do POS tagowania różnych języków.

Istnieje wiele informacji o tym, jak trenowaćwłasny tagger POS w różnych językach - czy istnieje baza naprawdę solidnych, dobrze zbudowanych i przetestowanych taggerów NLTK POS dla różnych języków? (Eksportowanie znaczników POS za pomocą modułu pikle jest dość łatwe)

Odpowiedzi:

4 dla odpowiedzi № 1

Możesz znaleźć solidne i dobrze zbudowane i przetestowane NLTK Corpora na http://www.nltk.org/nltk_data/

Możesz znaleźć inne korporacje, ale te są najlepsze


3 dla odpowiedzi № 2

Jeśli nie jest ścisłe korzystanie tylko z NLTK, możesz wypróbować nasz solidny i niezależny od języka zestaw narzędzi do znakowania POS RDRPOSTagger.

(Licencja: GPLv2; Język programowania: Python i Java)

RDRPOSTagger uzyskuje szybką wydajność zarówno w procesie uczenia się, jak i tagowania. Ponadto RDRPOSTagger osiąga bardzo wysoką konkurencyjność w porównaniu z najnowszymi osiągnięciami.

Zaktualizowano 18.11.2015: wydanie wersji 1.2 z poprawioną dokładnością znakowania, szczególnie w morfologicznie bogatych językach. Zobacz wyniki eksperymentalne, w tym szybkość i dokładność tagowania w ten papier.

RDRPOSTagger obsługuje wstępnie przeszkolony POS imorfologiczne modele tagujące dla bułgarskiego, czeskiego, holenderskiego, angielskiego, francuskiego, niemieckiego, hindi, włoskiego, portugalskiego, hiszpańskiego, szwedzkiego, tajskiego i wietnamskiego. RDRPOSTagger obsługuje również wstępnie wyszkolone modele tagowania Universal POS dla 40 języków.


1 dla odpowiedzi nr 3

Z tego, co wiem, nie ma takiej bazy solidnych, dobrze zbudowanych i przetestowanych znaczników POS. Myślę jednak, że to dobry pomysł.

Sam spróbowałem kilku taggerów. Dla dużego angielskiego korpusu, którego użyłem: http://gmb.let.rug.nl/

W przypadku hiszpańskiego użyłem tego, który jest zawarty w NLTK (cess_esp)

from nltk.corpus import cess_esp as cess

Aby szybko trenować prostych taggerów, możesz sprawdzić trenera NLTK:

https://nltk-trainer.readthedocs.org/en/latest/train_tagger.html