/ / Apache Nutch crawler cómo excluir carpetas estáticas como; cgi-bin, images, css exclude from nutch crawler? - apache, hadoop, lucene, mapreduce, nutch

Rastreador Apache Nutch cómo excluir carpetas estáticas como; cgi-bin, images, css exclude from nutch crawler? - apache, hadoop, lucene, mapreduce, nutch

Cuando ejecutamos el rastreador vemos carpetas estáticas.me gusta; / cgi-bin, / images, / css, etc. emergente en los trabajos del rastreador, queremos excluirlos del rastreo (no es que terminen en el indexador) y no los queremos en el indexador, sino cómo podemos excluirlos en el rastreador por lo que no está ocupado con estas carpetas estáticas? Cualquier ayuda es apreciada. ¿Ayuda el rendimiento, excluyéndolos? Como ahora lo vemos, los busca por alguna razón u otra. Oruga Nutch 1.2, indexador Lucene.

Respuestas

0 para la respuesta № 1

Añadir reglas de rechazo a la conf/regex-urlfilter.txt archivo.

-cgi-bin
-images
-css

Tenga en cuenta que esto debe agregarse antes de aceptar la regla de todos, es decir. +. en el archivo regex.