/ / Jak analizować i pobierać mapę witryny XML nutch - xml, web-crawler, sitemap, nutch

Jak parsować i pobierać XML sitemap - xml, web-crawler, sitemap, nutch

Gdy Nutch pobiera mapę witryny, nie pobiera wszystkich linków w tagu w mapie witryny.

Jaką opcję konfiguracji ustawiam, aby nutch indeksował i pobierał wszystkie linki wymienione w mapie witryny.

Odpowiedzi:

1 dla odpowiedzi № 1

Link ten znalazłem na Wiki Nutch
https://wiki.apache.org/nutch/SitemapFeature


0 dla odpowiedzi nr 2

Możesz zobaczyć problem holenderski.

Istnieje parser pracujący dla nutch sitemap tutaj