/ / Como obter um arquivo html indivisual de "segmentos" que obtive após o crwal in nutch? - java, linux, indexação, rastreador da web, nutch

Como obter arquivo html indivisual de "segmentos" que eu tenho depois de crwal in nutch? - java, linux, indexação, rastreador da web, nutch

Eu sou novo em nuth.A partir de agora, você pode usar o nutch para rastrear algum domínio, agora eu preciso obter todo o arquivo html correspondente ao domínio em uma pasta separada. Tenho a saída do rastreador como crawler / linkdb, crawler / crawldb e crawler / segmentos. para prosseguir na linha de comando.

Respostas:

0 para resposta № 1

Execute o seguinte comando:

bin/nutch readseg -dump <segmentDir> <outputDir>

e substitua segmentDir e outputDir pelos diretórios de segmento e de saída (sem "<")