Aide à la programmation, réponses aux questions / Java / Comment obtenir un fichier HTML indivisuel à partir de «segments» que j'ai obtenus après crwal in nutch? - java, linux, indexation, web-crawler, nutch

Comment obtenir un fichier HTML individuel à partir de «segments» que j'ai obtenus après le lancement de crwal dans Nutch? - java, linux, indexation, web-crawler, nutch

Je suis nouveau à Nuth.J'ai utilisé Nutch pour explorer un domaine. Maintenant, j'ai besoin de récupérer tous les fichiers html correspondant au domaine dans un dossier distinct. procéder en ligne de commande.

Réponses:

0 pour la réponse № 1

Exécutez la commande suivante:

bin/nutch readseg -dump <segmentDir> <outputDir>

et remplacez segmentDir et outputDir par vos répertoires de segment et de sortie (sans "<")

questions connexes

Comment analyser et récupérer XML sitemap nutch - xml, web-crawler, sitemap, nutch

Nutch vs Solr Indexing - Solr, Lucene, Nutch

Solr est-il nécessaire pour indexer les données analysées pour Nutch? - solr, lucene, nutch

Les phrases comme documents dans Nutch - recherche, lucene, indexation, web-crawler, nutch

Erreur du chemin de l'embrayage - Nutch

Nutch 2.1 supporte-t-il toujours les segments de fichiers? - nutch

nutch crawl n'utilise pas toutes les entrées de seed.txt - nutch, web-crawler

Pourquoi nutch crée-t-il toujours le linkdb, même s'il n'est pas nécessaire de le récupérer? - nutch

Nutch. Implémentation .Net [fermé] - .net, nutch

Erreur d'exécution d'Apache nutch-2.2.1 - java, apache, hadoop, nutch

Mettre à jour Nutch pour récupérer le parent de chaque URL récupérée - java, nutch

Nutch: récupère l'url de graine de chaque URL - java, nutch, web-crawler

Comment utiliser Apache Nutch via une application Java? - java, nutch

java web crawler [fermé] - java

Tutoriels MapReduce Nutch [fermé] - java, mapreduce, nutch

Comment créer un programme d'indexation personnalisé pour Apache Nutch 2.x? - apache, plugins, configuration, nutch

Error Nutch Aucun agent répertorié dans 'http.agent.name' - apache, web-crawler, nutch

Comment restreindre Apache Nutch 2.3.1 à l'analyse du contenu de l'histoire et non des barres latérales - apache, hadoop, web-crawler, sitemap, nutch

Apache Nutch crawler comment exclure les dossiers statiques comme; cgi-bin, images, css exclure du crawler nutch? - apache, hadoop, lucene, mapreduce, nutch

SolrIndexerJob: java.lang.RuntimeException: le travail a échoué: - apache, nutch