Existuje možnosť v Stanford CoreNLP"s tokenizer aby ste zabránili tomu, aby tokeny obsahovali medzeru?
Napr. ak je veta „môj telefón je 617 1555-6644“, mal by byť reťazec „617 1555“ do dvoch rôznych tokenov.
Som si vedomý tejto možnosti normalizeSpace
:
normalizeSpace: Či už sú nejaké medzery v žetónoch (telefónne čísla, zlomky premenené na U + 00A0 (nerozbitný priestor). Je nebezpečné vypnúť toto pre väčšinu nášho softvéru Stanford NLP, ktorý nepoužíva žiadne medzery v žetónoch.
ale nechcem, aby tokeny obsahovali akýkoľvek priestor vrátane nerozbitného priestoru.
odpovede:
1 pre odpoveď č. 1Môžete sa pokúsiť nastaviť tokenize.whitespace
možnosť true, ale to sa prejaví vždy a iba na bielej ploche. Napríklad „it“ s už nebude znamenať tok „it“ s.