/ / Vytrhávanie nejakého textu pomocou stanford-nlp - stanford-nlp

Chunking nejaký text s stanford-nlp-stanford-nlp

Používam stanfordské jadro NLP a pomocou tohto riadku načítam niektoré moduly na spracovanie textu:

props.put("annotators", "tokenize, ssplit, pos, lemma, ner, parse, dcoref");

Existuje modul, ktorý môžem načítať, aby roztrhol text?

Alebo nejaký návrh s alternatívnym spôsobom, ako využiť stanfordské jadro na zničenie nejakého textu?

Ďakujem

odpovede:

5 pre odpoveď č. 1

Myslím, že výstup syntaktického analyzátora sa dá použiť na získanie blokov NP. Pozrite sa na bezkonkurenčné zastúpenie na internete Web Stanford Parser ktorý poskytuje vzorový výstup.


5 pre odpoveď № 2

Na použitie chunkingu so Stanford NLP môžete použiť nasledujúce balíčky:

  • YamCha: NP-chunker na báze SVM, použiteľný aj na označovanie POS, NER atď. C / C ++ open source. Vyhral CoNLL 2000 zdieľanú úlohu. (Menej automatické ako špecializované POS značkovače pre koncového používateľa.)
  • Phrase Chunker od Mark Greenwood: Reimplementácia jazyka Java z Ramshaw a Marcus (1995).
  • fnTBL: Rýchla a flexibilná implementácia vzdelávania založeného na transformácii v C ++. Zahŕňa POS značkovače, ale aj NP chunking a všeobecné chunking modely.

zdroj: http://www-nlp.stanford.edu/links/statnlp.html#NPchunk