Quando executamos o rastreador, vemos pastas estáticasgostar; / cgi-bin, / images, / css etc. pop-up nos trabalhos do rastreador, queremos excluí-los do rastreamento (não que eles acabem no indexador) e não os queremos no indexador, mas como podemos excluí-los no rastreador para que ele não esteja ocupado com essas pastas estáticas? Qualquer ajuda é apreciada. Ajuda o desempenho, excluindo-os? como agora vemos, por algum motivo ou por outro. Esteira rolante Nutch 1.2, indexador Lucene.
Respostas:
0 para resposta № 1Adicione regras de rejeição ao conf/regex-urlfilter.txt
Arquivo.
-cgi-bin
-images
-css
Observe que isso deve ser adicionado antes da regra aceitar tudo, ou seja. +.
no arquivo regex.