Mám nainštalovaný Nutch 1.10, nakonfigurovaný a pracujúci so skriptom crawl, ale snažím sa upgradovať na Nutch 1.13. Mám problémy dostať Nutch crawl skript pre prácu s Nutch v1.13.
To zvyčajne pracoval s v1.10
bin/crawl -i -D elastic.server.url=http://localhost:9300/search-index/ urls/ searchcrawl/ 2
Avšak, keď sa snažím s ním spustiť v1.13, dostanem
Usage: crawl [-i|--index] [-D "key=value"] [-w|--wait] [-s <Seed Dir>] <Crawl Dir> <Num Rounds>
-i|--index Indexes crawl results into a configured indexer
-D A Java property to pass to Nutch calls
-w|--wait NUMBER[SUFFIX] Time to wait before generating a new segment when no URLs
are scheduled for fetching. Suffix can be: s for second,
m for minute, h for hour and d for day. If no suffix is
specified second is used by default.
-s Seed Dir Path to seeds file(s)
Crawl Dir Directory where the crawl/link/segments dirs are saved
Num Rounds The number of rounds to run this crawl for
A ja nevidím nič v dokumentoch, ktoré sú iné ... chýba mi niečo? Ako môžem dostať crawl skript pre prácu s v1.13?
odpovede:
5 pre odpoveď č. 1Práve našiel odpoveď po lepšom vyhľadávaní.
Zdá sa, že v 1.14 skript bin / crawl teraz očakáva, že cesta k semenu bude predchádzať znakom -s
Funguje to: bin / crawl -i -D elastic.server.url =http://localhost:9300/search-index/ -s urls / searchcrawl / 2
- kohokoľvek iného