Аз съм с nltk модул в Python и аз се опитвам да го използвам за POS маркиране на различни езици.
Има много информация за това как да трениратевашият собствен POS tagger на различни езици - има ли база данни с наистина здрави добре изработени и тествани NLTK POS tagger за различни езици? (Изключително лесно е да се изнасят POS маркери с помощта на моралния модул)
Отговори:
4 за отговор № 1Можете да намерите здрава и добре изградена и тествана NLTK Corpora в http://www.nltk.org/nltk_data/
Може да намерите други корпуси, но те са най-добри
3 за отговор № 2
Ако не е строго да използвате само NLTK, можете да изпробвате нашата солидна и независима от езика POS toolkit RDRPOSTagger.
(Лиценз: GPLv2; Език за програмиране: Python & Java)
RDRPOSTagger получава бързи резултати при процеса на обучение и маркиране. В допълнение, RDRPOSTagger постига много конкурентна точност в сравнение с най-съвременните резултати.
Updated 18/11/2015: версия 1.2 с подобрена точност на маркиране, особено на морфологично богати езици. Вижте експерименталните резултати, включително скоростта на изпълнение и точността на маркирането в тази хартия.
RDRPOSTagger поддържа предварително обучени POS иморфологични марки за български, чешки, холандски, английски, френски, немски, хинди, италиански, португалски, испански, шведски, тайландски и виетнамски. RDRPOSTagger също така поддържа предварително обучените модели за POS маркиране за 40 езика.
1 за отговор № 3
От това, което знам, няма такава база данни за надеждни добре изградени и тествани POS маркери. Мисля, че е добра идея.
Опитах сам няколко маркера. За голям английски корпус, който съм използвал: http://gmb.let.rug.nl/
За испански аз използвах този, включен в NLTK (cess_esp)
from nltk.corpus import cess_esp as cess
За бързо обучение на прости маркери можете да проверите NLTK Trainer:
https://nltk-trainer.readthedocs.org/en/latest/train_tagger.html