Quando eseguiamo il crawler vediamo cartelle statichepiace; / cgi-bin, / images, / css ecc. popup nei lavori del crawler, vogliamo escluderli dalla scansione (non che finiscano nell'indicizzatore) e non li vogliamo nell'indicizzatore, ma come possiamo escluderli nel crawler quindi non è occupato con queste cartelle statiche? Qualsiasi aiuto è apprezzato. Aiuta le prestazioni, escludendole? come ora vediamo che li recupera per una ragione o per l'altra. Nutch crawler 1.2, indice di Lucene.
risposte:
0 per risposta № 1Aggiungi le regole di rifiuto al conf/regex-urlfilter.txt
file.
-cgi-bin
-images
-css
Nota che questo deve essere aggiunto prima della regola accept all ie. +.
nel file regex.