Korzystam z modułu nltk w python i próbuję użyć tego do POS tagowania różnych języków.
Istnieje wiele informacji o tym, jak trenowaćwłasny tagger POS w różnych językach - czy istnieje baza naprawdę solidnych, dobrze zbudowanych i przetestowanych taggerów NLTK POS dla różnych języków? (Eksportowanie znaczników POS za pomocą modułu pikle jest dość łatwe)
Odpowiedzi:
4 dla odpowiedzi № 1Możesz znaleźć solidne i dobrze zbudowane i przetestowane NLTK Corpora na http://www.nltk.org/nltk_data/
Możesz znaleźć inne korporacje, ale te są najlepsze
3 dla odpowiedzi № 2
Jeśli nie jest ścisłe korzystanie tylko z NLTK, możesz wypróbować nasz solidny i niezależny od języka zestaw narzędzi do znakowania POS RDRPOSTagger.
(Licencja: GPLv2; Język programowania: Python i Java)
RDRPOSTagger uzyskuje szybką wydajność zarówno w procesie uczenia się, jak i tagowania. Ponadto RDRPOSTagger osiąga bardzo wysoką konkurencyjność w porównaniu z najnowszymi osiągnięciami.
Zaktualizowano 18.11.2015: wydanie wersji 1.2 z poprawioną dokładnością znakowania, szczególnie w morfologicznie bogatych językach. Zobacz wyniki eksperymentalne, w tym szybkość i dokładność tagowania w ten papier.
RDRPOSTagger obsługuje wstępnie przeszkolony POS imorfologiczne modele tagujące dla bułgarskiego, czeskiego, holenderskiego, angielskiego, francuskiego, niemieckiego, hindi, włoskiego, portugalskiego, hiszpańskiego, szwedzkiego, tajskiego i wietnamskiego. RDRPOSTagger obsługuje również wstępnie wyszkolone modele tagowania Universal POS dla 40 języków.
1 dla odpowiedzi nr 3
Z tego, co wiem, nie ma takiej bazy solidnych, dobrze zbudowanych i przetestowanych znaczników POS. Myślę jednak, że to dobry pomysł.
Sam spróbowałem kilku taggerów. Dla dużego angielskiego korpusu, którego użyłem: http://gmb.let.rug.nl/
W przypadku hiszpańskiego użyłem tego, który jest zawarty w NLTK (cess_esp)
from nltk.corpus import cess_esp as cess
Aby szybko trenować prostych taggerów, możesz sprawdzić trenera NLTK:
https://nltk-trainer.readthedocs.org/en/latest/train_tagger.html