/ / nutch crawl nepoužíva všetky položky v seed.txt - nutch, web-crawler

Nutch crawl nepoužíva všetky položky v sekcii seed.txt - nutch, web-crawler

Používam apache-nutch-1.6 a môžem úspešne prehľadávať webové stránky. Môj problém je, že nie sú použité všetky položky v súbore seed.txt. Záleží na tom, ktoré stránky sú vo vnútri. Takže je tam kdekoľvek Limit, koľko sa plazí? Žiadne chybové hlásenie. Len ak zmažem jednu stránku, iné stránky sú hlboko prehľadávané, kdekoľvek, kde je ten druhý, je prehľadávaný a z iných lokalít sa zobrazujú iba tie najobľúbenejšie stránky.

odpovede:

0 pre odpoveď č. 1

Nakonfigurujte to správne:

bin/nutch crawl $URLS -dir $CRAWL_LOC -depth 10 -topN 1000

Hĺbka: nutch sa bude plaziť až do tejto úrovne do hĺbky

topN: v každej úrovni bude nutch prehľadávať tento počet url