/ / Update Nutch pour récupérer le parent de chaque URL récupérée - java, nutch

Mettre à jour Nutch pour récupérer le parent de chaque URL récupérée - java, nutch

Alors que je lance Apache Nutch 1.4 crawler, je souhaite stocker des informations supplémentaires. Je veux stocker le parent de chaque URL.

Par exemple, je veux explorer une page a.html qui a 2 liens d'ancrage vers b.html et c.html Donc quand j'explore a.html, je devrais obtenir quelque chose comme ça: -

a.html null
b.html a.html
c.html a.html

Je veux stocker quelque chose comme ça. J'ai lu le fonctionnement de Nutch et l'ai également exécuté dans Eclipse. J'ai également lu fetcher.java et ai consigné où il a récupéré le contenu. Mais je n'ai eu aucun succès en sachant où Nutch récupère les URL enfants d'une page donnée. Je pense que cette étape a lieu après l'analyse.

Réponses:

2 pour la réponse № 1

Je pense que l'information peut être obtenue en générant linkdb.

La base de données de liens, ou linkdb: Ceci contient la liste des liens connus vers chaque URL, y compris l'URL source et le texte d'ancrage du lien. Il maintient une carte inversée des liens, répertoriant les liens entrants pour chaque URL.

bin/nutch invertlinks crawldb/linkdb -dir crawldb/segments

En phase d’analyse, Nutch génère des liens sortants surle contenu analysé et, plus tard, les URL nouvellement découvertes sont stockés dans crawldb en phase de mise à jour. Les nouvelles urls sont récupérées lors du prochain cycle / cycle de recherche.