/ / Nutch crawler знаходить лише підмножину посилань на даній сторінці? - Java, веб-сканер, горіх

Сканер Nutch лише знаходить підмножину посилань на певній сторінці? - java, веб-сканер, nutch

Я використовую таку команду для сканування однієї сторінки з 788 посиланнями на ній:

nutch crawl urls/ -dir crawls -depth 1 -topN 1000

Вище наведена команда може знайти 72 URL-адреси! Ось вихідні дані для nutch readdb ./crawls/crawldb/ -stats:

CrawlDb statistics start: ./crawls/crawldb/

Statistics for CrawlDb: ./crawls/crawldb/

TOTAL urls: 72

retry 0:    72

min score:  0.009

avg score:  0.026777778

max score:  1.279

status 1 (db_unfetched):    71

status 2 (db_fetched):  1

CrawlDb statistics: done

Мій regex-urlfilter.txt має налаштування за замовчуванням, і я використовую Nutch 1.4.

Будь-яка допомога цінується.

Відповіді:

1 для відповіді № 1

У мене була подібна проблема. У моєму випадку власність http.content.limit була проблема. Значення за замовчуванням - "65536". Якщо ваша сторінка більша, вона буде скорочена, а посилання можуть бути втрачені.