/ / Apache Nutch crawler come escludere cartelle statiche come; cgi-bin, immagini, css escludono dal crawl nutch? - apache, hadoop, lucene, mapreduce, nutch

Apache Nutch crawler come escludere cartelle statiche come; cgi-bin, immagini, css escludono dal crawl nutch? - apache, hadoop, lucene, mapreduce, nutch

Quando eseguiamo il crawler vediamo cartelle statichepiace; / cgi-bin, / images, / css ecc. popup nei lavori del crawler, vogliamo escluderli dalla scansione (non che finiscano nell'indicizzatore) e non li vogliamo nell'indicizzatore, ma come possiamo escluderli nel crawler quindi non è occupato con queste cartelle statiche? Qualsiasi aiuto è apprezzato. Aiuta le prestazioni, escludendole? come ora vediamo che li recupera per una ragione o per l'altra. Nutch crawler 1.2, indice di Lucene.

risposte:

0 per risposta № 1

Aggiungi le regole di rifiuto al conf/regex-urlfilter.txt file.

-cgi-bin
-images
-css

Nota che questo deve essere aggiunto prima della regola accept all ie. +. nel file regex.