/ / nutch crawl n’utilise pas toutes les entrées du fichier seed.txt - nutch, web-crawler

nutch crawl n'utilise pas toutes les entrées de seed.txt - nutch, web-crawler

J'utilise apache-nutch-1.6 et je peux réussir à explorer des sites Web. Mon problème est que toutes les entrées du fichier seed.txt ne sont pas utilisées. Cela dépend de quels sites sont à l'intérieur. Alors, y a-t-il un endroit où la limite est explorée? Aucun message d'erreur. Si je supprime un site, un autre site est analysé en profondeur, alors que si l'autre est présent, celui-ci est analysé et, à partir des autres sites, seuls les meilleurs sites que je souhaite ...

Réponses:

0 pour la réponse № 1

Configurez ceci correctement:

bin/nutch crawl $URLS -dir $CRAWL_LOC -depth 10 -topN 1000

Profondeur: Nutch va ramper jusqu'à ce niveau en profondeur

topN: dans chaque niveau, Nutch explorera ce nombre d'URL "s