Ajuda na programação, respostas a perguntas / Java / Como obter um arquivo html indivisual de "segmentos" que obtive após o crwal in nutch? - java, linux, indexação, rastreador da web, nutch

Como obter arquivo html indivisual de "segmentos" que eu tenho depois de crwal in nutch? - java, linux, indexação, rastreador da web, nutch

Eu sou novo em nuth.A partir de agora, você pode usar o nutch para rastrear algum domínio, agora eu preciso obter todo o arquivo html correspondente ao domínio em uma pasta separada. Tenho a saída do rastreador como crawler / linkdb, crawler / crawldb e crawler / segmentos. para prosseguir na linha de comando.

Respostas:

0 para resposta № 1

Execute o seguinte comando:

bin/nutch readseg -dump <segmentDir> <outputDir>

e substitua segmentDir e outputDir pelos diretórios de segmento e de saída (sem "<")

Perguntas relacionadas

Como analisar e buscar XML sitemap nutch - xml, rastreador da web, sitemap, nutch

indexação nutch vs solr - solr, lucene, nutch

O Solr é necessário para indexar dados rastreados para o Nutch? - sol, lucene, nutch

Frases como documentos no Nutch - pesquisa, lucene, indexação, rastreador da Web, nutch

Erro no caminho da nutch - nutch

O Nutch 2.1 ainda suporta segmentos de arquivos? - nutch

nutch crawl não usa todas as entradas em seed.txt - nutch, web-crawler

Por que o nutch sempre cria o linkdb, mesmo que não seja necessário buscar conteúdo? - nutch

Implementação Nutch .Net [fechado] - .net, nutch

Erro na execução do Apache nutch-2.2.1 - java, apache, hadoop, nutch

Atualize o Nutch para buscar o pai de todos os URLs buscados - java, nutch

Nutch: obtenha o URL de semente de cada URL - java, nutch, web-crawler

Como usar o Apache Nutch através de um aplicativo Java? - java, nutch

rastreador da web java [fechado] - java

Tutoriais do MapReduce Nutch [closed] - java, mapreduce, nutch

Como criar um gravador de índice personalizado para o Apache Nutch 2.x? - apache, plugins, configuração, nutch

Erro Nutch Nenhum agente listado em 'http.agent.name' - apache, web-crawler, nutch

Como restringir o Apache Nutch 2.3.1 para rastrear conteúdo da história e não barras laterais - apache, hadoop, rastreador da Web, sitemap, nutch

Rastreador Apache Nutch como excluir pastas estáticas como; cgi-bin, imagens, css excluir do rastreador nutch? - apache, hadoop, lucene, mapreduce, nutch

SolrIndexerJob: java.lang.RuntimeException: job failed: - apache, nutch