/ / Atualize o Nutch para buscar o pai de cada URL buscado - java, nutch

Atualize o Nutch para buscar o pai de todos os URLs buscados - java, nutch

Ao executar o rastreador Apache Nutch 1.4, desejo armazenar algumas informações adicionais. Eu quero armazenar o pai de cada URL.

Por exemplo, eu quero rastrear uma página a.html que tenha 2 links de âncora para b.html e c.html. Então, quando eu rastrear a.html, devo obter algo assim: -

a.html null
b.html a.html
c.html a.html

Eu quero armazenar algo assim. Eu li como o nutch funciona e corri o nutch no eclipse também. Eu também li fetcher.java e registrei onde buscava conteúdo. Mas não tive sucesso em saber onde Nutch busca os URLs filhos de uma determinada página. Penso que este passo ocorre após o passo de análise.

Respostas:

2 para resposta № 1

Eu acho que a informação pode ser obtida gerando linkdb.

O banco de dados do link, ou linkdb: Contém a lista de links conhecidos para cada URL, incluindo o URL de origem e o texto âncora do link. Ele mantém um mapa de links invertidos, listando os links recebidos para cada URL.

bin/nutch invertlinks crawldb/linkdb -dir crawldb/segments

Na fase de análise, o nutch gera links fora doo conteúdo rastreado e, posteriormente, os URLs recém-descobertos são armazenados no crawldb na fase de atualização. Os novos URLs são buscados no próximo ciclo / rodada de rastreamento nutch.