Aide à la programmation, réponses aux questions / Java / Nutch: récupère l'url de chaque url - java, nutch, web-crawler

Nutch: récupère l'url de graine de chaque URL - java, nutch, web-crawler

J'essaie de configurer Nutch en tant que robot d'exploration d'image et je pouvais déjà obtenir les URL de l'image après l'analyse. Maintenant, je veux obtenir l'URL de la graine de chaque URL de l'image, comment puis-je le faire? Je vous remercie!

Réponses:

0 pour la réponse № 1

Essayez de générer linkdb (index inversé) à partir des segments analysés et vous obtiendrez les URL "parents". Si l’URL a un parent, ce sera la graine de cette URL.
Lis ce et ce pour obtenir de l'aide sur les commandes.

questions connexes

Comment analyser et récupérer XML sitemap nutch - xml, web-crawler, sitemap, nutch

Apache Nutch sur Windows - windows, cygwin, nutch

Nutch 1.13 crawl script ne fonctionne pas - Web-crawler, nutch

Nutch explore seulement quelques liens dans un domaine donné - web-crawler, nutch

Solr est-il nécessaire pour indexer les données analysées pour Nutch? - solr, lucene, nutch

Nutch 2.1 supporte-t-il toujours les segments de fichiers? - nutch

nutch crawl n'utilise pas toutes les entrées de seed.txt - nutch, web-crawler

Pourquoi nutch crée-t-il toujours le linkdb, même s'il n'est pas nécessaire de le récupérer? - nutch

Nutch. Implémentation .Net [fermé] - .net, nutch

Erreur d'exécution d'Apache nutch-2.2.1 - java, apache, hadoop, nutch

Mettre à jour Nutch pour récupérer le parent de chaque URL récupérée - java, nutch

Comment utiliser Apache Nutch via une application Java? - java, nutch

java web crawler [fermé] - java

Tutoriels MapReduce Nutch [fermé] - java, mapreduce, nutch

Comment obtenir un fichier HTML individuel à partir de «segments» que j'ai obtenus après le lancement de crwal dans Nutch? - java, linux, indexation, web-crawler, nutch

Comment créer un programme d'indexation personnalisé pour Apache Nutch 2.x? - apache, plugins, configuration, nutch

Error Nutch Aucun agent répertorié dans 'http.agent.name' - apache, web-crawler, nutch

Comment restreindre Apache Nutch 2.3.1 à l'analyse du contenu de l'histoire et non des barres latérales - apache, hadoop, web-crawler, sitemap, nutch

Apache Nutch crawler comment exclure les dossiers statiques comme; cgi-bin, images, css exclure du crawler nutch? - apache, hadoop, lucene, mapreduce, nutch

SolrIndexerJob: java.lang.RuntimeException: le travail a échoué: - apache, nutch