Je suis interressé d'apprendre comment luceneconfigure pour différentes langues. Existe-t-il un moyen de savoir comment le tokenizer est configuré et quels caractères sont considérés comme faisant partie des mots et lesquels ne le sont pas?
Réponses:
0 pour la réponse № 1Lucene n'est pas configurée par défaut pour gérerlangues. C’est plutôt à vous de décider. Mon conseil serait d’indexer plusieurs langues dans différents champs de document, chacune pour une langue, et d’utiliser les analyseurs appropriés à chaque fois.
Donc, Lucene n’a pas de configuration par défaut pour cela, mais si vous utilisez Elasticsearch ou Solr, il y en a peut-être une. Utilisez-vous Lucene tout de suite?
Cordialement,