Ho installato Nutch 1.10, configurato e funzionante con lo script di ricerca per indicizzazione ma sto provando ad aggiornare a Nutch 1.13. Sto avendo problemi a far funzionare lo script di scansione Nutch con Nutch v1.13.
Questo di solito ha funzionato con la v1.10
bin/crawl -i -D elastic.server.url=http://localhost:9300/search-index/ urls/ searchcrawl/ 2
Tuttavia, quando provo a eseguire v1.13 con esso, ottengo
Usage: crawl [-i|--index] [-D "key=value"] [-w|--wait] [-s <Seed Dir>] <Crawl Dir> <Num Rounds>
-i|--index Indexes crawl results into a configured indexer
-D A Java property to pass to Nutch calls
-w|--wait NUMBER[SUFFIX] Time to wait before generating a new segment when no URLs
are scheduled for fetching. Suffix can be: s for second,
m for minute, h for hour and d for day. If no suffix is
specified second is used by default.
-s Seed Dir Path to seeds file(s)
Crawl Dir Directory where the crawl/link/segments dirs are saved
Num Rounds The number of rounds to run this crawl for
E non vedo nulla nei documenti che è diverso ... mi manca qualcosa? Come posso far funzionare lo script di scansione con la v1.13?
risposte:
5 per risposta № 1Ho appena trovato il risposta dopo qualche ricerca migliore.
Sembra in 1.14, lo script bin / crawl ora si aspetta che il percorso del seed sia preceduto da -s
Questo funziona: bin / crawl -i -D elastic.server.url =http://localhost:9300/search-index/ -S urls / searchcrawl / 2
-thth chiunque altro