/ / nutch crawl não usa todas as entradas em seed.txt - nutch, web-crawler

nutch crawl não usa todas as entradas em seed.txt - nutch, web-crawler

Estou usando o apache-nutch-1.6 e posso rastrear sites com êxito. Meu problema é que nem todas as entradas no arquivo seed.txt são usadas. Depende de quais sites estão dentro. Então, existe algum limite para quanto é rastreado? Nenhuma mensagem de erro. Apenas se eu excluir um site, outros sites serão rastreados profundamente, onde, se o outro estiver lá, esse será rastreado e, dos outros sites, apenas os sites principais que eu acredito ....

Respostas:

0 para resposta № 1

Configure isso corretamente:

bin/nutch crawl $URLS -dir $CRAWL_LOC -depth 10 -topN 1000

Profundidade: nutch vai subir até este nível em profundidade

topN: em cada nível, o nutch rastreará esse número de URLs