/ / Сканер Apache Nutch як виключати статичні папки типу; cgi-bin, зображення, css виключити з горіхового сканера? - апаш, хадоп, люцен, картаредукція, горіх

Apache Nutch crawler як виключити статичні папки, як; cgi-bin, образи, css виключити з nutch гусеничний? - апаче, хадооп, люцене, картограф, лайчч

Під час запуску сканера ми бачимо статичні папкиподібно до; / cgi-bin, / images, / css і т.д. спливає в роботах сканерів, ми хочемо виключити їх із сканування (не те, що вони потрапляють в індексатор), і ми не хочемо, щоб вони були в індексаторі, але як ми можемо їх виключити в гусеничному режимі, щоб він не був зайнятий цими статичними папками? Будь-яка допомога вдячна. Чи допомагає це ефективності, виключаючи їх? як зараз ми бачимо, що це їх виходить з тих чи інших причин. Гусеничний навантажувач 1,2, люценовий індекс.

Відповіді:

0 для відповіді № 1

Додати правила відхилення до conf/regex-urlfilter.txt файл

-cgi-bin
-images
-css

Зауважте, що це потрібно додати до прийняття всіх правил, тобто. +. у файлі регулярних виразів.