/ / Empêcher les jetons de contenir un espace dans Stanford CoreNLP - nlp, stanford-nlp, tokenize

Empêcher les jetons de contenir un espace dans Stanford CoreNLP - nlp, stanford-nlp, tokenize

Y a-t-il une option dans Stanford CoreNLP"s tokenizer empêcher les jetons de contenir un espace?

Par exemple. si la phrase est "mon téléphone est 617 1555-6644", la sous-chaîne "617 1555" doit être en deux jetons différents.

Je suis conscient de l'option normalizeSpace:

normalizeSpace: Que des espaces dans les jetons (numéros de téléphone, les fractions soient convertis en U + 00A0 (espace insécable). Il est dangereux de désactiver cette option pour la plupart de nos logiciels de traitement de la PNL de Stanford, qui ne supposent aucun espace dans les jetons.

mais je ne veux pas que les jetons contiennent aucun espace, y compris un espace insécable.

Réponses:

1 pour la réponse № 1

Vous pouvez essayer de définir le tokenize.whitespace option à true, mais cela tokenize toujours et uniquement sur les espaces blancs. Par exemple, "it" s "ne sera plus symbolisé par" it "s".