/ / Comment obtenir un fichier HTML indivisuel à partir de «segments» que j'ai obtenus après crwal in nutch? - java, linux, indexation, web-crawler, nutch

Comment obtenir un fichier HTML individuel à partir de «segments» que j'ai obtenus après le lancement de crwal dans Nutch? - java, linux, indexation, web-crawler, nutch

Je suis nouveau à Nuth.J'ai utilisé Nutch pour explorer un domaine. Maintenant, j'ai besoin de récupérer tous les fichiers html correspondant au domaine dans un dossier distinct. procéder en ligne de commande.

Réponses:

0 pour la réponse № 1

Exécutez la commande suivante:

bin/nutch readseg -dump <segmentDir> <outputDir>

et remplacez segmentDir et outputDir par vos répertoires de segment et de sortie (sans "<")