/ / гайка сканування не використовує всі записи в seed.txt - гайка, веб-сканер

Повзання nutch не використовує всі записи в seed.txt - nutch, веб-сканері

Я використовую apache-nutch-1.6 і я можу успішно сканувати веб-сайти. Моя проблема полягає в тому, що використовуються не всі записи у файлі seed.txt. Це залежить від того, які сайти знаходяться всередині. Так чи є десь межа, скільки сканується? Немає повідомлення про помилку Просто якщо я видаляю один сайт, інші сайти глибоко скануються, де б не було іншого, цей сканується, а з інших сайтів - лише верхні сайти, які я скасовую ....

Відповіді:

0 для відповіді № 1

Налаштуйте це правильно:

bin/nutch crawl $URLS -dir $CRAWL_LOC -depth 10 -topN 1000

Глибина: горіх повзе до цього рівня в глибину

topN: на кожному рівні горіх буде сканувати цю кількість URL-адрес