Aiuto nella programmazione, risposte alle domande / Web crawler / Nutch 1.13 script di scansione non funziona - web-crawler, nutch

Lo script per la scansione di Nutch 1.13 non funziona - web-crawler, nutch

Ho installato Nutch 1.10, configurato e funzionante con lo script di ricerca per indicizzazione ma sto provando ad aggiornare a Nutch 1.13. Sto avendo problemi a far funzionare lo script di scansione Nutch con Nutch v1.13.

Questo di solito ha funzionato con la v1.10

bin/crawl -i -D elastic.server.url=http://localhost:9300/search-index/ urls/ searchcrawl/  2

Tuttavia, quando provo a eseguire v1.13 con esso, ottengo

Usage: crawl [-i|--index] [-D "key=value"] [-w|--wait] [-s <Seed Dir>] <Crawl Dir> <Num Rounds>
-i|--index  Indexes crawl results into a configured indexer
-D      A Java property to pass to Nutch calls
-w|--wait   NUMBER[SUFFIX] Time to wait before generating a new segment when no URLs
are scheduled for fetching. Suffix can be: s for second,
m for minute, h for hour and d for day. If no suffix is
specified second is used by default.
-s Seed Dir Path to seeds file(s)
Crawl Dir   Directory where the crawl/link/segments dirs are saved
Num Rounds  The number of rounds to run this crawl for

E non vedo nulla nei documenti che è diverso ... mi manca qualcosa? Come posso far funzionare lo script di scansione con la v1.13?

risposte:

5 per risposta № 1

Ho appena trovato il risposta dopo qualche ricerca migliore.

Sembra in 1.14, lo script bin / crawl ora si aspetta che il percorso del seed sia preceduto da -s

Questo funziona: bin / crawl -i -D elastic.server.url =http://localhost:9300/search-index/ -S urls / searchcrawl / 2

-thth chiunque altro

domande correlate

Come analizzare e recuperare XML sitemap nutch - xml, web-crawler, sitemap, nutch

Apache Nutch su Windows: windows, cygwin, nutch

strumenti di web crawling che supportano l'interazione con i siti di destinazione prima di iniziare a eseguire la scansione - web-crawler, nutch

Nutch sta eseguendo la scansione di pochi link in un dato dominio: web-crawler, nutch

indice nutch vs solr - solr, lucene, nutch

Solr è necessario indicizzare i dati sottoposti a scansione per Nutch? - solr, lucene, nutch

Frasi come documenti in Nutch: ricerca, lucene, indicizzazione, web-crawler, nutch

Necessità di prestazioni Nutch 1.12 e elasticsearch 1.4.1: prestazioni, elasticsearch, web-crawler, nutch

siti di ricapitolazione automatica in nutch 1.4? - Nutch, web-crawler

nutch crawl non usa tutte le voci in seed.txt - nutch, web-crawler

Nutch numSlaves parametro nello script di scansione - nutch, emr

perché nutch crea sempre il linkdb, anche se non è necessario per il recupero dei contenuti? - Nutch

Implementazione Nutch .Net [chiusa] - .net, nutch

Errore nell'esecuzione di Apache nutch-2.2.1 - java, apache, hadoop, nutch

Aggiorna Nutch per recuperare il genitore di ogni URL recuperato - java, nutch

Nutch: ottieni l'URL di ogni url: java, nutch, web-crawler

Come ottenere un file html individuale da "segmenti" che ho ricevuto dopo crwal in nutch? - java, linux, indicizzazione, web-crawler, nutch

Il crawler olandese trova solo un sottoinsieme di link su una determinata pagina? - java, web-crawler, nutch

Come limitare Apache Nutch 2.3.1 per eseguire la scansione del contenuto della storia e non delle barre laterali: apache, hasdoop, web-crawler, sitemap, nutch

Apache Nutch crawler come escludere cartelle statiche come; cgi-bin, immagini, css escludono dal crawl nutch? - apache, hadoop, lucene, mapreduce, nutch