Používam apache-nutch-1.6 a môžem úspešne prehľadávať webové stránky. Môj problém je, že nie sú použité všetky položky v súbore seed.txt. Záleží na tom, ktoré stránky sú vo vnútri. Takže je tam kdekoľvek Limit, koľko sa plazí? Žiadne chybové hlásenie. Len ak zmažem jednu stránku, iné stránky sú hlboko prehľadávané, kdekoľvek, kde je ten druhý, je prehľadávaný a z iných lokalít sa zobrazujú iba tie najobľúbenejšie stránky.
odpovede:
0 pre odpoveď č. 1Nakonfigurujte to správne:
bin/nutch crawl $URLS -dir $CRAWL_LOC -depth 10 -topN 1000
Hĺbka: nutch sa bude plaziť až do tejto úrovne do hĺbky
topN: v každej úrovni bude nutch prehľadávať tento počet url