/ / por que o nutch sempre cria o linkdb, mesmo que não seja necessário buscar conteúdo? - nutch

Por que o nutch sempre cria o linkdb, mesmo que não seja necessário buscar conteúdo? - nutch

Estou lendo o capítulo sobre nutch no hadoop,o guia definitivo. Entendo o conceito de classificação de uma página usando o link inverso. No entanto, não vejo isso desempenhando um papel quando você deseja rastrear apenas alguns sites. Como a criação do linkdb é um trabalho de redução de mapa, é provável que ele consuma muitos recursos de computação. Estou apenas me perguntando por que o linkdb é sempre gerado quando a maioria dos casos de uso nutch está apenas obtendo conteúdo da web para URLs designados.

Respostas:

1 para resposta № 1

Isso ocorre porque Nutch usa o page rank (queestá sendo calculado usando as informações do link) para priorizar o rastreamento. Por exemplo, um link com alta classificação da página será rastreado antes do que aquele com baixa classificação da página.

Nutch foi projetado para ser usado como uma grande escalarastreador da web, portanto, calcular o page rank e pontuar as páginas da web com ele ainda era um componente importante. Se você estiver rastreando alguns sites, provavelmente deverá usar o scrappy (uma biblioteca python).

Espero que isso responda à sua pergunta.