Ajuda na programação, respostas a perguntas / Java O rastreador / Nutch encontra apenas um subconjunto de links em uma determinada página? - java, web-crawler, nutch

O rastreador da Nutch encontra apenas um subconjunto de links em uma determinada página? - java, rastreador da web, nutch

Estou usando o seguinte comando para rastrear uma única página com 788 links:

nutch crawl urls/ -dir crawls -depth 1 -topN 1000

O comando acima só consegue encontrar 72 urls! Aqui está a saída para nutch readdb ./crawls/crawldb/ -stats:

CrawlDb statistics start: ./crawls/crawldb/

Statistics for CrawlDb: ./crawls/crawldb/

TOTAL urls: 72

retry 0:    72

min score:  0.009

avg score:  0.026777778

max score:  1.279

status 1 (db_unfetched):    71

status 2 (db_fetched):  1

CrawlDb statistics: done

Minhas regex-urlfilter.txt tem as configurações padrão e estou usando o Nutch 1.4.

Qualquer ajuda é apreciada.

Respostas:

1 para resposta № 1

Eu tive um problema parecido. No meu caso a propriedade http.content.limit era o problema. O valor padrão é "65536". Se a sua página for maior, ela será truncada e os links podem ser perdidos.

Perguntas relacionadas

Como analisar e buscar XML sitemap nutch - xml, rastreador da web, sitemap, nutch

Apache Nutch no Windows - windows, cygwin, nutch

ferramentas de rastreamento da Web que suportam a interação com sites de destino antes de começar a rastrear - rastreador da Web, nutch

Nutch está rastreando apenas alguns links em um determinado domínio - rastreador da Web, nutch

O Solr é necessário para indexar dados rastreados para o Nutch? - sol, lucene, nutch

Frases como documentos no Nutch - pesquisa, lucene, indexação, rastreador da Web, nutch

sites de rastreamento automático no nutch 1.4? - nutch, web-crawler

nutch crawl não usa todas as entradas em seed.txt - nutch, web-crawler

Por que o nutch sempre cria o linkdb, mesmo que não seja necessário buscar conteúdo? - nutch

Implementação Nutch .Net [fechado] - .net, nutch

Erro na execução do Apache nutch-2.2.1 - java, apache, hadoop, nutch

Atualize o Nutch para buscar o pai de todos os URLs buscados - java, nutch

Nutch: obtenha o URL de semente de cada URL - java, nutch, web-crawler

Como usar o Apache Nutch através de um aplicativo Java? - java, nutch

rastreador da web java [fechado] - java

Como obter arquivo html indivisual de "segmentos" que eu tenho depois de crwal in nutch? - java, linux, indexação, rastreador da web, nutch

Erro do HBase Nutch [Ljava.lang.StackTraceElement - apache, hbase, rastreador da Web, nutch

Erro Nutch Nenhum agente listado em 'http.agent.name' - apache, web-crawler, nutch

Como restringir o Apache Nutch 2.3.1 para rastrear conteúdo da história e não barras laterais - apache, hadoop, rastreador da Web, sitemap, nutch

Rastreador Apache Nutch como excluir pastas estáticas como; cgi-bin, imagens, css excluir do rastreador nutch? - apache, hadoop, lucene, mapreduce, nutch