/ / Comment restreindre Apache Nutch 2.3.1 à l'exploration du contenu de l'histoire et non des barres latérales - apache, hadoop, web-crawler, sitemap, nutch

Comment restreindre Apache Nutch 2.3.1 à l'analyse du contenu de l'histoire et non des barres latérales - apache, hadoop, web-crawler, sitemap, nutch

Je dois explorer certains sites Web d'actualités. J'ai installé apache Nutch 2.3.1 avec Hadoop 2.7.4 et le cluster Hbase. Je dois fournir une recherche via Solr 6.6.1. Après avoir exploré certains sites Web, j'ai constaté que Nutch explorait tout dans une page. Dans les sites Web d'actualités, il existe des barres latérales contenant les informations les plus récentes ou les meilleures, etc. Ces contenus de barre latérale ont changé avec le temps. Est-il possible de demander à Nutch d'explorer le contenu principal de l'histoire et d'éviter de tels incidents?

Réponses:

1 pour la réponse № 1

Eh bien, puisque vous utilisez Nutch 2.x c’est un peu difficile, pour Nutch 1.x, vous pouvez utiliser l’implémentation boilerpipe disponible sur Tika. Malheureusement, elle n’a pas encore été transférée à la branche 2.x.