Pomoc w programowaniu, odpowiedzi na pytania / Pyton / NLTK inny język POS tagger - python, nlp, nltk

NLTK inny język POS tagger - python, nlp, nltk

Korzystam z modułu nltk w python i próbuję użyć tego do POS tagowania różnych języków.

Istnieje wiele informacji o tym, jak trenowaćwłasny tagger POS w różnych językach - czy istnieje baza naprawdę solidnych, dobrze zbudowanych i przetestowanych taggerów NLTK POS dla różnych języków? (Eksportowanie znaczników POS za pomocą modułu pikle jest dość łatwe)

Odpowiedzi:

4 dla odpowiedzi № 1

Możesz znaleźć solidne i dobrze zbudowane i przetestowane NLTK Corpora na http://www.nltk.org/nltk_data/

Możesz znaleźć inne korporacje, ale te są najlepsze

3 dla odpowiedzi № 2

Jeśli nie jest ścisłe korzystanie tylko z NLTK, możesz wypróbować nasz solidny i niezależny od języka zestaw narzędzi do znakowania POS RDRPOSTagger.

(Licencja: GPLv2; Język programowania: Python i Java)

RDRPOSTagger uzyskuje szybką wydajność zarówno w procesie uczenia się, jak i tagowania. Ponadto RDRPOSTagger osiąga bardzo wysoką konkurencyjność w porównaniu z najnowszymi osiągnięciami.

Zaktualizowano 18.11.2015: wydanie wersji 1.2 z poprawioną dokładnością znakowania, szczególnie w morfologicznie bogatych językach. Zobacz wyniki eksperymentalne, w tym szybkość i dokładność tagowania w ten papier.

RDRPOSTagger obsługuje wstępnie przeszkolony POS imorfologiczne modele tagujące dla bułgarskiego, czeskiego, holenderskiego, angielskiego, francuskiego, niemieckiego, hindi, włoskiego, portugalskiego, hiszpańskiego, szwedzkiego, tajskiego i wietnamskiego. RDRPOSTagger obsługuje również wstępnie wyszkolone modele tagowania Universal POS dla 40 języków.

1 dla odpowiedzi nr 3

Z tego, co wiem, nie ma takiej bazy solidnych, dobrze zbudowanych i przetestowanych znaczników POS. Myślę jednak, że to dobry pomysł.

Sam spróbowałem kilku taggerów. Dla dużego angielskiego korpusu, którego użyłem: http://gmb.let.rug.nl/

W przypadku hiszpańskiego użyłem tego, który jest zawarty w NLTK (cess_esp)

from nltk.corpus import cess_esp as cess

Aby szybko trenować prostych taggerów, możesz sprawdzić trenera NLTK:

https://nltk-trainer.readthedocs.org/en/latest/train_tagger.html

Powiązane pytania

Błąd importu NLTK - windows, python-2.7, 64bit, nltk

Jak mogę używać CRF w NLTK? - python, nltk, crf

Python NLTK Tagging AssertionError - python, nltk

from nltk import WhitespaceTokenizer daje ImportError: Brak modułu o nazwie nltk - python, nltk

POS tagging - NLTK-Python - python, nltk

Jak miałbym kategoryzować zdania według czasu (teraźniejszego, przeszłego, przyszłego itd.)? - python, nlp, gramatyka, nltk

Stanford NLP: Jak zdobyć kawałki - python, regex, nltk, stanford-nlp

Instalowanie danych pakietu narzędzi języka naturalnego - python, python-2.7

Docker: Pobierz wszystko z nltk w Dockerfile - python, docker, nltk

Jak przetestować domyślną dokładność klocków NLTK NER na własnym korpusie? - python, nltk

Oznaczanie Unicode w Pythonie NLTK - python, nltk, python-3.4

Przetwarzanie języka naturalnego przy użyciu nltk [closed] - python, nlp, nltk, stanford-nlp

Wykrywanie języka - python

W NLTK pos_tag, dlaczego "cześć" jest sklasyfikowana jako rzeczownik? - python, nlp, nltk

Błąd krytyczny podczas instalacji nltk - python, installer, nltk, fatal-error, qgis

Metody w python - python, nltk

Potrzebujesz pomocy, ręcznie instalując nltk - python, nlp, nltk

Jak wydrukować znaczniki w pythonie - python-2.7, nltk

Python NLTK jak zwiększyć FreqDist? - nltk

Określić język treści witryny - język-agnostykę