/ / Nutch 1.12 et elasticsearch 1.4.1 besoin de performances - performance, elasticsearch, web-crawler, nutch

Nutch 1.12 et elasticsearch 1.4.1 besoin en performances - performance, elasticsearch, web-crawler, nutch

"Je suis nouveau dans l'utilisation de Nutch et je veux explorer toute la liste de graines que j'ai en entrée.

Premièrement: j'ai utilisé le script: bin / crawl -i -D élastique.server.url =http://localhost:9200/index_name/ urls ksu_Crawldb / 30

avec: 2 CPU et 7,5 Go de mémoire

Mais après 2 jours, il ne récupérait que le document 63500, et le processeur n’était occupé que par 50% et non sur le temps complet.

entrer la description de l'image ici

Je veux savoir comment aller chercher le maximum de documents en peu de temps.

Deuxièmement: quelle est la différence entre topN, profondeur et tours?

Merci pour toute aide.

Réponses:

1 pour la réponse № 1

J'ai récemment publié des repères sur Nutch avec une explication de la raison pour laquelle les ressourcesne sont pas utilisés au maximum en continu. Fondamentalement, Apache Nutch est basé sur Hadoop et est donc géré par lots: les différentes opérations sont effectuées successivement. Voir également ce Q & A.

La performance peut être réglée de différentes manières, mais l'élément clé est simplement la diversité des hôtes que vous recherchez et les paramètres de politesse.

Deuxièmement: quelle est la différence entre topN, profondeur et tours?

topN est le nombre d'URL à sélectionner pour la récupérationbasé sur leur score profondeur est le nombre de liens sortants à partir des graines pour accéder à une URL particulière rounds est le nombre d'itérations de récupération / analyse / mise à jour

la profondeur et la rondeur sont souvent les mêmes mais pas nécessairement