/ / Nutch: obtén la url semilla de cada url - java, nutch, web-crawler

Nutch: obtenga la URL de semilla de cada url: java, nutch, web crawler

Intento configurar Nutch como un rastreador de imágenes y ya puedo obtener las URL de las imágenes después del rastreo. Ahora, quiero obtener la URL de semilla de cada URL de imagen, ¿cómo puedo hacer eso? ¡Gracias!

Respuestas

0 para la respuesta № 1

Intente generar linkdb (índice invertido) a partir de los segmentos rastreados y puede obtener los urls "padres. Si la url tiene un padre, entonces será la semilla de esa url.
Leer esta y esta para obtener ayuda sobre los comandos.