/ / Nutch 1.12 e elasticsearch 1.4.1: prestazioni, prestazioni, elasticsearch, web-crawler, nutch

Necessità di prestazioni Nutch 1.12 e elasticsearch 1.4.1: prestazioni, elasticsearch, web-crawler, nutch

Sono nuovo nell'utilizzo di Nutch e voglio sottoporre a scansione l'intera lista di semi che ho in ingresso.

Primo: ho usato la sceneggiatura: bin / crawl -i -D elastic.server.url =http://localhost:9200/index_name/ urls ksu_Crawldb / 30

con: 2 CPU e 7,5 GB di memoria

Ma dopo 2 giorni è sufficiente recuperare il documento di 63500 e la CPU è stata presa solo del 50% e non del tempo pieno.

inserisci la descrizione dell'immagine qui

Voglio sapere come recuperare il massimo di documenti in breve tempo.

Secondo: qual è la differenza tra topN, profondità e round?

Grazie per qualsiasi aiuto.

risposte:

1 per risposta № 1

Di recente ne ho pubblicato alcuni benchmark su Nutch con una spiegazione del perché le risorsenon sono utilizzati al massimo continuamente. Fondamentalmente, Apache Nutch è basato su Hadoop e come tale è guidato da lotti: le diverse operazioni sono eseguite in successione. Guarda anche questo Q & A.

Esistono vari modi in cui è possibile ottimizzare le prestazioni, ma l'elemento chiave è semplicemente la diversità degli host da cui si sta recuperando e le impostazioni di cortesia.

Secondo: qual è la differenza tra topN, profondità e round?

topN è il numero di URL da selezionare per il recuperoin base al loro punteggio profondità è il numero di outlink dai semi per arrivare a un particolare URL rounds è il numero di iterazioni di recupero / analisi / aggiornamento

la profondità e il giro sono spesso uguali ma non necessariamente