/ / Nutch: získanie adresy url url - java, nutch, web-crawler

Nutch: získanie adresy url url - java, nutch, web-crawler

Snažím sa nakonfigurovať Nutch ako prehľadávač obrázkov a po prehliadaní by už mohol dostať adresu URL obrázka. Teraz chcem získať adresu url každého obrázku, ako to môžem urobiť? Ďakujem!

odpovede:

0 pre odpoveď č. 1

Snažte sa vytvoriť linkdb (invertovaný index) z indexovo prehľadávaných segmentov a môžete získať rodičov url. Ak má adresa url jeden rodič, potom to bude osivo tejto adresy URL.
prečítať toto a toto na pomoc pri príkazoch.