/ / Nutch: récupère l'url de chaque url - java, nutch, web-crawler

Nutch: récupère l'url de graine de chaque URL - java, nutch, web-crawler

J'essaie de configurer Nutch en tant que robot d'exploration d'image et je pouvais déjà obtenir les URL de l'image après l'analyse. Maintenant, je veux obtenir l'URL de la graine de chaque URL de l'image, comment puis-je le faire? Je vous remercie!

Réponses:

0 pour la réponse № 1

Essayez de générer linkdb (index inversé) à partir des segments analysés et vous obtiendrez les URL "parents". Si l’URL a un parent, ce sera la graine de cette URL.
Lis ce et ce pour obtenir de l'aide sur les commandes.