/ / pourquoi nutch crée-t-il toujours la linkdb, même s’il n’est pas nécessaire de récupérer du contenu? - Nutch

Pourquoi nutch crée-t-il toujours le linkdb, même s'il n'est pas nécessaire de le récupérer? - nutch

Je lis à travers le chapitre sur Nutch dans Hadoop,le guide définitif. Je comprends le concept de classement d'une page à l'aide d'un lien inverse. Cependant, je ne vois pas cela jouer un rôle lorsque vous souhaitez simplement explorer quelques sites. La création de la linkdb étant un travail de réduction de carte, elle nécessitera beaucoup de ressources informatiques. Je me demande simplement pourquoi linkdb est toujours généré, alors que la plupart des cas d'utilisation de type Nutch se contentent d'obtenir du contenu Web pour des URL désignées.

Réponses:

1 pour la réponse № 1

C’est parce que Nutch utilise le page rank (quiest calculée à l’aide des informations sur les liens) pour donner la priorité à l’exploration. Par exemple, un lien ayant un rang de page élevé sera analysé avant celui ayant un rang de page bas.

Nutch a été conçu pour être utilisé comme une grande échelleWeb Crawler, calculant ainsi le classement de la page et la notation des pages Web avec elle était et reste un élément important. Si vous explorez quelques sites, vous devriez probablement utiliser scrappy (une bibliothèque python).

J'espère que cela répond à votre question.