/ O rastreador / Nutch encontra apenas um subconjunto de links em uma determinada página? - java, web-crawler, nutch

O rastreador da Nutch encontra apenas um subconjunto de links em uma determinada página? - java, rastreador da web, nutch

Estou usando o seguinte comando para rastrear uma única página com 788 links:

nutch crawl urls/ -dir crawls -depth 1 -topN 1000

O comando acima só consegue encontrar 72 urls! Aqui está a saída para nutch readdb ./crawls/crawldb/ -stats:

CrawlDb statistics start: ./crawls/crawldb/

Statistics for CrawlDb: ./crawls/crawldb/

TOTAL urls: 72

retry 0:    72

min score:  0.009

avg score:  0.026777778

max score:  1.279

status 1 (db_unfetched):    71

status 2 (db_fetched):  1

CrawlDb statistics: done

Minhas regex-urlfilter.txt tem as configurações padrão e estou usando o Nutch 1.4.

Qualquer ajuda é apreciada.

Respostas:

1 para resposta № 1

Eu tive um problema parecido. No meu caso a propriedade http.content.limit era o problema. O valor padrão é "65536". Se a sua página for maior, ela será truncada e os links podem ser perdidos.