/ / Nutch 1.12 y elasticsearch 1.4.1 necesidad de rendimiento: rendimiento, elasticsearch, rastreador web, nutch

Necesidad de rendimiento de Nutch 1.12 y elasticsearch 1.4.1: rendimiento, elasticsearch, rastreador web, nutch

Soy nuevo en el uso de Nutch y quiero rastrear toda la lista de semillas que tengo en la entrada.

Primero: usé el guión: bin / crawl -i -D elastic.server.url =http://localhost:9200/index_name/ urls ksu_Crawldb / 30

con: 2 CPU y 7.5 GB de memoria

Pero después de 2 días, solo obtuvo el documento 63500, y la CPU solo se tomó en un 50% y no a tiempo completo.

enter image description here

Quiero saber cómo obtener el máximo de documentos en poco tiempo.

Segundo: ¿cuál es la diferencia entre topN, profundidad y rondas?

Gracias por cualquier ayuda.

Respuestas

1 para la respuesta № 1

Recientemente publiqué algunos puntos de referencia en Nutch con una explicación de por qué los recursosNo se utilizan en el máximo de forma continua. Básicamente, Apache Nutch se basa en Hadoop y, como tal, está impulsado por lotes: las diferentes operaciones se llevan a cabo sucesivamente. Ver también este Q&A.

Hay varias formas en las que se puede ajustar el rendimiento, pero el elemento clave es simplemente la diversidad de hosts que está buscando y la configuración de cortesía.

Segundo: ¿cuál es la diferencia entre topN, profundidad y rondas?

topN es el número de URL para seleccionar para obtenerbasado en su puntuación la profundidad es el número de enlaces de salida de las semillas para llegar a una URL particular rondas es el número de iteraciones de búsqueda / análisis / actualización

Profundidad y redondeo son a menudo iguales pero no necesariamente