/ / Nutch 1.12 a elasticsearch 1.4.1 potreba výkonu - výkon, elasticsearch, webový prehľadávač, nutch

Nutch 1.12 a elasticsearch 1.4.1 potreba výkonu - výkon, elasticsearch, web-crawler, nutch

Som nový v používaní Nutch a chcem prehľadávať celý zoznam semien, ktorý mám v zázname.

Najprv som použil skript: bin / crawl -i -D elastic.server.url =http://localhost:9200/index_name/ urls ksu_Crawldb / 30

s: 2 CPU a 7,5 GB pamäte

Po 2 dňoch sa však načíta iba dokument 63500 a CPU bolo zaberané iba z 50% a nie na plný úväzok.

tu zadajte popis obrázku

Chcem vedieť, ako načítať maximum dokumentov v krátkom čase.

Po druhé: aký je rozdiel medzi najvyššou N, hĺbkou a kôl?

Ďakujeme za pomoc.

odpovede:

1 pre odpoveď č. 1

Niektoré som nedávno uverejnil benchmarky o Nutch s vysvetlením, prečo zdrojenepoužívajú sa maximálne nepretržite. Apache Nutch je v zásade založený na Hadoope a preto je dávkovo riadený: rôzne operácie sa vykonávajú postupne. Pozri tiež toto Q & A.

Výkon môže byť vyladený rôznymi spôsobmi, ale kľúčovým prvkom je jednoducho rozmanitosť hostiteľov, z ktorých si vyberáte, a nastavenie slušnosti.

Po druhé: aký je rozdiel medzi najvyššou N, hĺbkou a kôl?

topN je počet adries URL, ktoré sa majú vybrať na načítaniena základe ich skóre hĺbka je počet odkazov zo semien na konkrétnu adresu URL Kola je počet iterácií načítania / analýzy / aktualizácie

hĺbka a okrúhlosť sú často rovnaké, ale nie nevyhnutne