/ / ¿Por qué nutch siempre crea el linkdb, aunque no es necesario para obtener contenido? - nutch

¿Por qué nutch siempre crea el linkdb, a pesar de que no es necesario obtener contenido? - nutch

Estoy leyendo a través del capítulo sobre nutch in hadoop,La guía definitiva. Entiendo el concepto de clasificar una página usando un enlace inverso. Sin embargo, no veo que desempeñe un papel cuando solo desea rastrear algunos sitios. Dado que la creación de linkdb es un trabajo de reducción de mapas, está obligado a ocupar muchos recursos informáticos. Me pregunto por qué siempre se genera linkdb cuando la mayoría de los casos de uso de nutch es simplemente obtener contenido web para las URL designadas.

Respuestas

1 para la respuesta № 1

Eso es porque Nutch usa el rango de la página (quese calcula utilizando la información del enlace) para priorizar el rastreo. Por ejemplo, un enlace que tiene un alto rango de página será rastreado antes que el que tiene un rango de página bajo.

Nutch fue diseñado para ser utilizado como una gran escalarastreador web, por lo tanto, calculando el rango de la página y puntuando las páginas web, fue y sigue siendo un componente importante. Si está rastreando algunos sitios, entonces probablemente debería usar scrappy (una biblioteca de python).

Espero haber respondido a tu pregunta.