Допомога у програмуванні, відповіді на питання / Java / Nutch crawler знаходить лише підмножину посилань на даній сторінці? - Java, веб-сканер, горіх

Сканер Nutch лише знаходить підмножину посилань на певній сторінці? - java, веб-сканер, nutch

Я використовую таку команду для сканування однієї сторінки з 788 посиланнями на ній:

nutch crawl urls/ -dir crawls -depth 1 -topN 1000

Вище наведена команда може знайти 72 URL-адреси! Ось вихідні дані для nutch readdb ./crawls/crawldb/ -stats:

CrawlDb statistics start: ./crawls/crawldb/

Statistics for CrawlDb: ./crawls/crawldb/

TOTAL urls: 72

retry 0:    72

min score:  0.009

avg score:  0.026777778

max score:  1.279

status 1 (db_unfetched):    71

status 2 (db_fetched):  1

CrawlDb statistics: done

Мій regex-urlfilter.txt має налаштування за замовчуванням, і я використовую Nutch 1.4.

Будь-яка допомога цінується.

Відповіді:

1 для відповіді № 1

У мене була подібна проблема. У моєму випадку власність http.content.limit була проблема. Значення за замовчуванням - "65536". Якщо ваша сторінка більша, вона буде скорочена, а посилання можуть бути втрачені.

Схожі запитання

Як проаналізувати та завантажити XML sitemap nutch - xml, веб-сканер, sitemap, nutch

Apache Nutch на Windows - вікна, cygwin, nutch

веб-сканування інструментів, які підтримують взаємодію з цільовими сайтами, перш ніж почати сканувати - веб-сканер, nutch

Nutch сканує лише декілька посилань у певному домені - веб-сканер, nutch

Чи потрібна Solr для індексації сканування даних для Nutch? - сол, люцен, латч

Вирок як документи в Nutch - пошук, lucene, індексація, веб-сканер, nutch

Автоматичне перезавантаження сайтів в nutch 1,4? - nutch, веб-сканер

Повзання nutch не використовує всі записи в seed.txt - nutch, веб-сканері

чому завжди потрібно створювати linkdb, навіть якщо це не потребує отримання контенту? - nutch

Nutch .Net реалізація [закрито] - .net, nutch

Помилка при виконанні Apache nutch-2.2.1 - java, apache, hadoop, nutch

Оновити Nutch для отримання батьківського коду всіх вилучених URL-адрес - java, nutch

Nutch: отримати URL-адреса насіння кожного url - java, nutch, web crawler

Як користуватися Apache Nutch через програму Java? - java, nutch

веб-сканер Java [закрито] - java

Як отримати індивідуальний html-файл з "сегментів", який я отримав після crwal в nutch? - java, linux, індексація, веб-сканер, nutch

Помилка HBase Nutch [Ljava.lang.StackTraceElement - apache, hbase, веб-сканер, nutch

Помилка Nutch Немає агенцій, перелічених у "http.agent.name" - apache, веб-сканер, nutch

Як обмежити Apache Nutch 2.3.1 для сканування вмісту сюжету, а не бічних панелей - apache, hasoop, веб-сканер, sitemap, nutch

Apache Nutch crawler як виключити статичні папки, як; cgi-bin, образи, css виключити з nutch гусеничний? - апаче, хадооп, люцене, картограф, лайчч