/ / Apache Nutch crawler como excluir pastas estáticas como; cgi-bin, imagens, css excluir do rastreador nutch? - apache, hadoop, lucene, mapreduce, nutch

Rastreador Apache Nutch como excluir pastas estáticas como; cgi-bin, imagens, css excluir do rastreador nutch? - apache, hadoop, lucene, mapreduce, nutch

Quando executamos o rastreador, vemos pastas estáticasgostar; / cgi-bin, / images, / css etc. pop-up nos trabalhos do rastreador, queremos excluí-los do rastreamento (não que eles acabem no indexador) e não os queremos no indexador, mas como podemos excluí-los no rastreador para que ele não esteja ocupado com essas pastas estáticas? Qualquer ajuda é apreciada. Ajuda o desempenho, excluindo-os? como agora vemos, por algum motivo ou por outro. Esteira rolante Nutch 1.2, indexador Lucene.

Respostas:

0 para resposta № 1

Adicione regras de rejeição ao conf/regex-urlfilter.txt Arquivo.

-cgi-bin
-images
-css

Observe que isso deve ser adicionado antes da regra aceitar tudo, ou seja. +. no arquivo regex.