/ / nutch crawl no usa todas las entradas en seed.txt - nutch, rastreador web

nutch crawl no usa todas las entradas en seed.txt - nutch, web-crawler

Estoy usando apache-nutch-1.6 y puedo rastrear con éxito los sitios web. Mi problema es que no se utilizan todas las entradas en el archivo seed.txt. Depende de que sitios se encuentren dentro. Entonces, ¿hay un límite de cuánto se arrastra? No hay mensaje de error. Solo si elimino un sitio, se rastreará profundamente otro sitio, y si el otro está allí, éste será rastreado y desde los otros sitios solo los sitios principales que creo ...

Respuestas

0 para la respuesta № 1

Configure esto correctamente:

bin/nutch crawl $URLS -dir $CRAWL_LOC -depth 10 -topN 1000

Profundidad: nutch se arrastrará hasta este nivel en profundidad

topN: en cada nivel, nutch rastreará este número de URL "s