NLTK друг език POS tagger - python, nlp, nltk

Аз съм с nltk модул в Python и аз се опитвам да го използвам за POS маркиране на различни езици.

Има много информация за това как да трениратевашият собствен POS tagger на различни езици - има ли база данни с наистина здрави добре изработени и тествани NLTK POS tagger за различни езици? (Изключително лесно е да се изнасят POS маркери с помощта на моралния модул)

Отговори:

4 за отговор № 1

Можете да намерите здрава и добре изградена и тествана NLTK Corpora в http://www.nltk.org/nltk_data/

Може да намерите други корпуси, но те са най-добри


3 за отговор № 2

Ако не е строго да използвате само NLTK, можете да изпробвате нашата солидна и независима от езика POS toolkit RDRPOSTagger.

(Лиценз: GPLv2; Език за програмиране: Python & Java)

RDRPOSTagger получава бързи резултати при процеса на обучение и маркиране. В допълнение, RDRPOSTagger постига много конкурентна точност в сравнение с най-съвременните резултати.

Updated 18/11/2015: версия 1.2 с подобрена точност на маркиране, особено на морфологично богати езици. Вижте експерименталните резултати, включително скоростта на изпълнение и точността на маркирането в тази хартия.

RDRPOSTagger поддържа предварително обучени POS иморфологични марки за български, чешки, холандски, английски, френски, немски, хинди, италиански, португалски, испански, шведски, тайландски и виетнамски. RDRPOSTagger също така поддържа предварително обучените модели за POS маркиране за 40 езика.


1 за отговор № 3

От това, което знам, няма такава база данни за надеждни добре изградени и тествани POS маркери. Мисля, че е добра идея.

Опитах сам няколко маркера. За голям английски корпус, който съм използвал: http://gmb.let.rug.nl/

За испански аз използвах този, включен в NLTK (cess_esp)

from nltk.corpus import cess_esp as cess

За бързо обучение на прости маркери можете да проверите NLTK Trainer:

https://nltk-trainer.readthedocs.org/en/latest/train_tagger.html