Estou usando o seguinte comando para rastrear uma única página com 788 links:
nutch crawl urls/ -dir crawls -depth 1 -topN 1000
O comando acima só consegue encontrar 72 urls! Aqui está a saída para
nutch readdb ./crawls/crawldb/ -stats
:
CrawlDb statistics start: ./crawls/crawldb/
Statistics for CrawlDb: ./crawls/crawldb/
TOTAL urls: 72
retry 0: 72
min score: 0.009
avg score: 0.026777778
max score: 1.279
status 1 (db_unfetched): 71
status 2 (db_fetched): 1
CrawlDb statistics: done
Minhas regex-urlfilter.txt
tem as configurações padrão e estou usando o Nutch 1.4.
Qualquer ajuda é apreciada.
Respostas:
1 para resposta № 1Eu tive um problema parecido. No meu caso a propriedade http.content.limit
era o problema. O valor padrão é "65536". Se a sua página for maior, ela será truncada e os links podem ser perdidos.