/ / Nutch numSlaves Parameter im Crawl-Skript - nutch, emr

Nutch numSlaves Parameter in Crawl-Skript - nutch, emr

Ich benutze Nutch 1.9, um eine Reihe von 500 Websites zu crawlen. Ich arbeite im Amazon EMR Cluster und indiziere die Daten für Solr.

Beim Starten eines EMR-Clusters habe ich mit gestartet5 Slave-Knoten. Ich habe den Parameter numSlaves im Crawl-Skript auf 5 gesetzt. Ich möchte meine Sklaven auf 10 erhöhen, um den Prozess zu befestigen. Ich bin in der Lage, die Anzahl der Slave-Knoten in der AWS-Konsole auf 10 zu erhöhen. Verwendet die Nutch alle 10 Slave-Knoten, ohne meinen Crawl neu zu starten oder das Crawl-Skript zu ändern.

Vielen Dank

Antworten:

1 für die Antwort № 1

Nee. Sie müssen das Crawl-Skript ändern und es neu starten. Kein Problem, nur SSH mit dem Master-Knoten und erstellen Sie eine Datei. STOP in Runtime / deploy / bin. Dies wird die Crawl-Schleife beenden, wenn die aktuelle Iteration abgeschlossen ist. Sie können das Skript dann neu starten, nachdem Sie den Wert auf 10 festgelegt haben.

Übrigens würden Sie schnellere Antworten bekommen, wenn Sie auf den Nutch-Mailinglisten nachfragen