Pomoc pri programovaní, odpovede na otázky / Webový prehľadávač / Nutch 1.13 prechádzať skript nefunguje - web-crawler, nutch

Nutch 1.13 crawl script nefunguje - web-crawler, nutch

Mám nainštalovaný Nutch 1.10, nakonfigurovaný a pracujúci so skriptom crawl, ale snažím sa upgradovať na Nutch 1.13. Mám problémy dostať Nutch crawl skript pre prácu s Nutch v1.13.

To zvyčajne pracoval s v1.10

bin/crawl -i -D elastic.server.url=http://localhost:9300/search-index/ urls/ searchcrawl/  2

Avšak, keď sa snažím s ním spustiť v1.13, dostanem

Usage: crawl [-i|--index] [-D "key=value"] [-w|--wait] [-s <Seed Dir>] <Crawl Dir> <Num Rounds>
-i|--index  Indexes crawl results into a configured indexer
-D      A Java property to pass to Nutch calls
-w|--wait   NUMBER[SUFFIX] Time to wait before generating a new segment when no URLs
are scheduled for fetching. Suffix can be: s for second,
m for minute, h for hour and d for day. If no suffix is
specified second is used by default.
-s Seed Dir Path to seeds file(s)
Crawl Dir   Directory where the crawl/link/segments dirs are saved
Num Rounds  The number of rounds to run this crawl for

A ja nevidím nič v dokumentoch, ktoré sú iné ... chýba mi niečo? Ako môžem dostať crawl skript pre prácu s v1.13?

odpovede:

5 pre odpoveď č. 1

Práve našiel odpoveď po lepšom vyhľadávaní.

Zdá sa, že v 1.14 skript bin / crawl teraz očakáva, že cesta k semenu bude predchádzať znakom -s

Funguje to: bin / crawl -i -D elastic.server.url =http://localhost:9300/search-index/ -s urls / searchcrawl / 2

- kohokoľvek iného

Súvisiace otázky

Ako analyzovať a načítať XML Sitemap nutch - xml, web-crawler, sitemap, nutch

Apache Nutch na Windows - windows, cygwin, nutch

nástroje na prehľadávanie webu, ktoré podporujú interakciu s cieľovými webmi pred začatím indexového prehľadávania - webový prehľadávač, nutch

Nutch prechádza len niekoľko odkazov v danej doméne - webový prehľadávač, nutch

nutch vs solr indexovanie - solr, lucene, nutch

Je Solr potrebné na indexovanie indexovo prehľadaných údajov pre spoločnosť Nutch? - solr, lucene, nutch

Vety ako dokumenty v Nutch - hľadanie, lucene, indexovanie, web-crawler, nutch

Nutch 1.12 a elasticsearch 1.4.1 potreba výkonu - výkon, elasticsearch, web-crawler, nutch

automatické prehľadávanie stránok v Nutch 1.4? - orech, web-crawler

Nutch crawl nepoužíva všetky položky v sekcii seed.txt - nutch, web-crawler

Parameter Nutch numSlaves v indexovom prehľadávači - nutch, emr

prečo nutch vždy vytvára linkdb, aj keď to nie je potreba preberania obsahu? - orech

Nutch .Net implementácia [closed] - .net, nutch

Chyba pri vykonávaní Apache nutch-2.2.1 - java, apache, hadoop, nutch

Aktualizujte Nutch na načítanie rodičov každej naviazanej adresy URL - java, nutch

Nutch: získanie adresy url url - java, nutch, web-crawler

Ako získať indiviual html súbor z "segmentov", ktoré som dostal po crwal v nutch? - java, linux, indexovanie, web-crawler, nutch

Prehľadávač Nutch nájde iba podmnožinu odkazov na danej stránke? - java, web-crawler, nutch

Ako obmedziť Apache Nutch 2.3.1 na prehľadávanie obsahu príbehu a nie bočných pruhov - apache, hadoop, web-crawler, sitemap, nutch

Apache Nutch prehľadávač, ako vylúčiť statické priečinky, ako je; cgi-bin, obrázky, css vylúčiť z orechového prehľadávača? apache, hadoop, lucene, mapreduce, nutch