Pomoc pri programovaní, odpovede na otázky / NLP / Zabránenie tomu, aby tokeny obsahovali priestor v Stanford CoreNLP - nlp, stanford-nlp, tokenize

Zabránenie tomu, aby tokeny obsahovali medzery v Stanforde CoreNLP - nlp, stanford-nlp, tokenize

Existuje možnosť v Stanford CoreNLP"s tokenizer aby ste zabránili tomu, aby tokeny obsahovali medzeru?

Napr. ak je veta „môj telefón je 617 1555-6644“, mal by byť reťazec „617 1555“ do dvoch rôznych tokenov.

Som si vedomý tejto možnosti normalizeSpace:

normalizeSpace: Či už sú nejaké medzery v žetónoch (telefónne čísla, zlomky premenené na U + 00A0 (nerozbitný priestor). Je nebezpečné vypnúť toto pre väčšinu nášho softvéru Stanford NLP, ktorý nepoužíva žiadne medzery v žetónoch.

ale nechcem, aby tokeny obsahovali akýkoľvek priestor vrátane nerozbitného priestoru.

odpovede:

1 pre odpoveď č. 1

Môžete sa pokúsiť nastaviť tokenize.whitespace možnosť true, ale to sa prejaví vždy a iba na bielej ploche. Napríklad „it“ s už nebude znamenať tok „it“ s.

Súvisiace otázky

Pomenované subjekty: pokyny, ktoré sa týkajú názvov osôb - stanford-nlp, pomenovanie entity-recognition

V CoreNLP, čo je odlišné medzi štandardne generovanými stromami závislostí? - stanford-nlp

Zadajte parametre pre Stanford CoreNLP OpenIE z príkazového riadku - stanford-nlp

Stanford CoreNLP NER tréning zamrzne - stanford-nlp, pomenovanie-uznanie entity

Stanford CoreNLP, ako získať indexedWord od CoreLabel? - stanford-nlp

Ako spustiť stanford corenlp? - stanford-nlp

Vyberte jazykový model CoreNLP za behu - stanford-nlp

Inštalácia pytónového obalu pre Windows pre Stanford NLP? - python, obal, stanford-nlp

Chyba pripojenia pomocou nástroja Python wrapper pre nástroje StanNord CoreNLP v3.4.1 - python, stanford-nlp

Stanford CoreNLP napríklad na Arabský jazyk - nlp, stanford nlp, arabčina

Ako môžete reprodukovať demo stránky značky Stanford NLP? - nlp, stanford-nlp

Stanford NLP: identifikácia interpunkčnej chyby - nlp, stanford-nlp

NoClassDefFoundError pre Stanfordskú NLP knižnicu - java, ant, stanford-nlp, websphere-freedom, ibm-cloud

Model OpenIE sa nedá načítať pri použití verzie CoreNLP s otvoreným zdrojovým kódom - java, serializácia, nlp, stanford-nlp

Interpretácia výstupu Coreprel CoreNLP Coreference Resolution - java, nlp, stanford-nlp

Nainštalujte StanNord CoreNLP pomocou závislostí Maven: get - java, maven, nlp

Stanford NLP sentiment bežiaca chyba - java, stanford-nlp

Aké sú všetky jarové súbory, ktoré by som mal zahrnúť, aby som použil stanfordský analyzátor v mojom projekte? - java, parsovanie, nlp, stanford-nlp

Vydanie pomocou modelov parsovania StanNord CoreNLP - java, parsing, stanford-nlp

Nájdite modely v Stanforde NLP pre .NET - c #, .net, stanford-nlp