J'essaie actuellement d'inclure l'URL d'origine dans les données indexées pour chaque URL dans mon moteur de recherche (actuellement ElasticSearch).
J'ai vu dans cette question précédente ces métadonnées pourraient être transmises avec chaque graine, ce qui pourrait répondre à mes besoins. Cependant, j’utilise l’API REST pour créer ma liste de semenceset il semble que les métadonnées ne soient pas autorisées dans la seedUrls
paramètre.
Quelqu'un a-t-il essayé de faire cela avec l'API REST?
Y a-t-il un autre moyen d'y parvenir? Je pensais pouvoir écrire un IndexingFilter personnalisé pour ajouter l'URL d'origine dans le NutchDocument à indexer, mais à ce stade, l'URL d'origine n'est pas disponible à partir de ce que j'ai vu.
Merci d'avance!
Réponses:
1 pour la réponse № 1Pour le moment, l’API REST ne semble pasprise en charge de la gestion des métadonnées associées. Je pense que cela nécessite beaucoup d’efforts. Nous devons simplement gérer la charge utile JSON et personnaliser l’entité correspondante SeedUrl
tenir les métadonnées et bien sûr personnaliser le writeToSeedFile
méthode.
Bien que votre approche de l'écriture d'un IndexingFilter
ne fonctionnerait pas. Les URL de départ sont injectées au tout début du cycle de vie de l’exploration, et le IndexingFilter
ne sont responsables que du choix de ce qui est indexé dans votre stockage.