/ / Prehľadávač Apache Nutch ako vylúčiť statické priečinky ako; cgi-bin, obrázky, css vylúčené z prehľadávača orieškov? - apache, hadoop, lucene, mapreduce, nutch

Apache Nutch prehľadávač, ako vylúčiť statické priečinky, ako je; cgi-bin, obrázky, css vylúčiť z orechového prehľadávača? apache, hadoop, lucene, mapreduce, nutch

Keď spustíme prehľadávač, vidíme statické priečinkyPáči sa mi to; / cgi-bin, / images, / css atď. v úlohách prehľadávača ich chceme vylúčiť z prehľadávania (nie že ich skončí v indexátore) a nechceme ich v indexátore, ale ako ich môžeme vylúčiť v prehľadávači, aby ho nezaberali tieto statické priečinky? Akákoľvek pomoc sa oceňuje. Pomáha to pri ich výkone? pretože teraz ich vidíme z nejakého dôvodu. Prehľadávač Nutch 1.2, Lucene indexer.

odpovede:

0 pre odpoveď č. 1

Pridajte pravidlá odmietnutia do conf/regex-urlfilter.txt súboru.

-cgi-bin
-images
-css

Upozorňujeme, že toto musí byť pridané pred prijatím pravidla pravidla, tj. +. v súbore regex.