Я використовую таку команду для сканування однієї сторінки з 788 посиланнями на ній:
nutch crawl urls/ -dir crawls -depth 1 -topN 1000
Вище наведена команда може знайти 72 URL-адреси! Ось вихідні дані для
nutch readdb ./crawls/crawldb/ -stats
:
CrawlDb statistics start: ./crawls/crawldb/
Statistics for CrawlDb: ./crawls/crawldb/
TOTAL urls: 72
retry 0: 72
min score: 0.009
avg score: 0.026777778
max score: 1.279
status 1 (db_unfetched): 71
status 2 (db_fetched): 1
CrawlDb statistics: done
Мій regex-urlfilter.txt
має налаштування за замовчуванням, і я використовую Nutch 1.4.
Будь-яка допомога цінується.
Відповіді:
1 для відповіді № 1У мене була подібна проблема. У моєму випадку власність http.content.limit
була проблема. Значення за замовчуванням - "65536". Якщо ваша сторінка більша, вона буде скорочена, а посилання можуть бути втрачені.