/ / ¿Cómo obtener el archivo html indivisual de los "segmentos" que obtuve después de crwal in nutch? - Java, Linux, indexación, rastreador web, nutch

¿Cómo obtener un archivo html indivisual de "segmentos" que obtuve después de crwal in nutch? - java, linux, indexación, web-crawler, nutch

Soy nuevo para nuthHe utilizado nutch para rastrear algunos dominios. Ahora necesito obtener todos los archivos html correspondientes al dominio en una carpeta separada. Obtuve la salida del rastreador como crawler / linkdb, crawler / crawldb y crawler / segment. Ahora, por favor, ayúdame. para proceder a través de la línea de comandos.

Respuestas

0 para la respuesta № 1

Ejecuta el siguiente comando:

bin/nutch readseg -dump <segmentDir> <outputDir>

y reemplace segmentDir y outputDir con sus directorios de segmento y salida (sin "<")