/ / Transmettez les métadonnées le long des urls de semences avec Nutch 1.X REST APi - nutch

Passez les métadonnées le long des URL de semences avec Nutch 1.X REST APi - nutch

J'essaie actuellement d'inclure l'URL d'origine dans les données indexées pour chaque URL dans mon moteur de recherche (actuellement ElasticSearch).

J'ai vu dans cette question précédente ces métadonnées pourraient être transmises avec chaque graine, ce qui pourrait répondre à mes besoins. Cependant, j’utilise l’API REST pour créer ma liste de semenceset il semble que les métadonnées ne soient pas autorisées dans la seedUrls paramètre.

Quelqu'un a-t-il essayé de faire cela avec l'API REST?

Y a-t-il un autre moyen d'y parvenir? Je pensais pouvoir écrire un IndexingFilter personnalisé pour ajouter l'URL d'origine dans le NutchDocument à indexer, mais à ce stade, l'URL d'origine n'est pas disponible à partir de ce que j'ai vu.

Merci d'avance!

Réponses:

1 pour la réponse № 1

Pour le moment, l’API REST ne semble pasprise en charge de la gestion des métadonnées associées. Je pense que cela nécessite beaucoup d’efforts. Nous devons simplement gérer la charge utile JSON et personnaliser l’entité correspondante SeedUrl tenir les métadonnées et bien sûr personnaliser le writeToSeedFile méthode.

Bien que votre approche de l'écriture d'un IndexingFilter ne fonctionnerait pas. Les URL de départ sont injectées au tout début du cycle de vie de l’exploration, et le IndexingFilter ne sont responsables que du choix de ce qui est indexé dans votre stockage.