Používam stanfordské jadro NLP a pomocou tohto riadku načítam niektoré moduly na spracovanie textu:
props.put("annotators", "tokenize, ssplit, pos, lemma, ner, parse, dcoref");
Existuje modul, ktorý môžem načítať, aby roztrhol text?
Alebo nejaký návrh s alternatívnym spôsobom, ako využiť stanfordské jadro na zničenie nejakého textu?
Ďakujem
odpovede:
5 pre odpoveď č. 1Myslím, že výstup syntaktického analyzátora sa dá použiť na získanie blokov NP. Pozrite sa na bezkonkurenčné zastúpenie na internete Web Stanford Parser ktorý poskytuje vzorový výstup.
5 pre odpoveď № 2
Na použitie chunkingu so Stanford NLP môžete použiť nasledujúce balíčky:
- YamCha: NP-chunker na báze SVM, použiteľný aj na označovanie POS, NER atď. C / C ++ open source. Vyhral CoNLL 2000 zdieľanú úlohu. (Menej automatické ako špecializované POS značkovače pre koncového používateľa.)
- Phrase Chunker od Mark Greenwood: Reimplementácia jazyka Java z Ramshaw a Marcus (1995).
- fnTBL: Rýchla a flexibilná implementácia vzdelávania založeného na transformácii v C ++. Zahŕňa POS značkovače, ale aj NP chunking a všeobecné chunking modely.
zdroj: http://www-nlp.stanford.edu/links/statnlp.html#NPchunk