/ / Apache Nutch crawler comment exclure des dossiers statiques comme; cgi-bin, images, css exclure de nutch crawler? - apache, hadoop, lucene, mapreduce, nutch

Apache Nutch crawler comment exclure les dossiers statiques comme; cgi-bin, images, css exclure du crawler nutch? - apache, hadoop, lucene, mapreduce, nutch

Quand nous courons le robot, nous voyons des dossiers statiquescomme; / cgi-bin, / images, / css etc. popup dans les travaux d'exploration, nous voulons les exclure de l'analyse (non pas qu'ils se retrouvent dans l'indexeur) et nous ne les voulons pas dans l'indexeur, mais comment nous pouvons les exclure dans le robot, il n'est donc pas occupé par ces dossiers statiques? Toute aide est appréciée. Est-ce que cela aide la performance, en les excluant? comme nous le voyons maintenant, il les récupère pour une raison ou une autre. Nutch crawler 1.2, Lucene indexer.

Réponses:

0 pour la réponse № 1

Ajouter des règles de rejet à la conf/regex-urlfilter.txt fichier.

-cgi-bin
-images
-css

Notez que ceci doit être ajouté avant la règle accepter tout, c'est-à-dire. +. dans le fichier regex.