/ / Nutch: obtenha o URL de semente de cada URL - java, nutch, web-crawler

Nutch: obtenha o URL de semente de cada URL - java, nutch, web-crawler

Eu tento configurar o Nutch como um rastreador de imagem e já consegui obter os URLs da imagem após o rastreamento. Agora, quero obter o URL de origem de cada URL de imagem. Como posso fazer isso? Obrigado!

Respostas:

0 para resposta № 1

Tente gerar linkdb (índice invertido) a partir dos segmentos rastreados e você pode obter os URLs "pais. Se houver url tem um pai, então será a semente desse URL.
Ler esta e esta para ajuda nos comandos.