/ / Actualizar Nutch para buscar padre de cada URL obtenida - java, nutch

Actualiza Nutch para buscar el padre de cada URL que se haya obtenido - java, nutch

Mientras ejecuto el rastreador Apache Nutch 1.4, quiero almacenar información adicional. Quiero almacenar el padre de cada URL.

Por ejemplo, quiero rastrear una página a.html que tiene 2 enlaces de anclaje a b.html y c.html Entonces, cuando rastreo a.html, debería obtener algo como esto:

a.html null
b.html a.html
c.html a.html

Quiero almacenar algo como esto. He leído cómo funciona nutch y también he ejecutado nutch en eclipse. También leí fetcher.java e inicié sesión donde obtuvo contenido. Pero no tuve éxito al saber dónde Nutch obtiene las URL secundarias de una página determinada. Creo que este paso tiene lugar después del paso de análisis.

Respuestas

2 para la respuesta № 1

Creo que la información se puede obtener generando linkdb.

La base de datos de enlaces, o linkdb: Contiene la lista de enlaces conocidos a cada URL, que incluye tanto la URL de origen como el texto de anclaje del enlace. Mantiene un mapa de enlaces invertidos, que enumera los enlaces entrantes para cada url.

bin/nutch invertlinks crawldb/linkdb -dir crawldb/segments

En la fase de análisis, nutch genera enlaces de salida deel contenido rastreado y luego las URL recién descubiertas se almacenan en crawldb en la fase de actualización. Las nuevas URL se obtienen en el próximo ciclo / ronda del arrastre de nutch.