/ / Zabránenie tomu, aby tokeny obsahovali priestor v Stanford CoreNLP - nlp, stanford-nlp, tokenize

Zabránenie tomu, aby tokeny obsahovali medzery v Stanforde CoreNLP - nlp, stanford-nlp, tokenize

Existuje možnosť v Stanford CoreNLP"s tokenizer aby ste zabránili tomu, aby tokeny obsahovali medzeru?

Napr. ak je veta „môj telefón je 617 1555-6644“, mal by byť reťazec „617 1555“ do dvoch rôznych tokenov.

Som si vedomý tejto možnosti normalizeSpace:

normalizeSpace: Či už sú nejaké medzery v žetónoch (telefónne čísla, zlomky premenené na U + 00A0 (nerozbitný priestor). Je nebezpečné vypnúť toto pre väčšinu nášho softvéru Stanford NLP, ktorý nepoužíva žiadne medzery v žetónoch.

ale nechcem, aby tokeny obsahovali akýkoľvek priestor vrátane nerozbitného priestoru.

odpovede:

1 pre odpoveď č. 1

Môžete sa pokúsiť nastaviť tokenize.whitespace možnosť true, ale to sa prejaví vždy a iba na bielej ploche. Napríklad „it“ s už nebude znamenať tok „it“ s.