Eu sou novo em nuth.A partir de agora, você pode usar o nutch para rastrear algum domínio, agora eu preciso obter todo o arquivo html correspondente ao domínio em uma pasta separada. Tenho a saída do rastreador como crawler / linkdb, crawler / crawldb e crawler / segmentos. para prosseguir na linha de comando.
Respostas:
0 para resposta № 1Execute o seguinte comando:
bin/nutch readseg -dump <segmentDir> <outputDir>
e substitua segmentDir e outputDir pelos diretórios de segmento e de saída (sem "<")