Aide à la programmation, réponses aux questions / Robot d'indexation / Meilleur robot d'exploration pour déterminer construit avec des technologies? - crawler sur le web

Meilleur robot pour déterminer construit avec des technologies? - crawler sur le web

Construit avec.Les services com et similaires fournissent (moyennant des frais) des listes de domaines construits avec des technologies spécifiques telles que SalesForce ou NationBuilder. Je m'intéresse à certaines technologies que le logiciel intégré ne permet pas de rechercher, probablement parce qu’elles sont trop peu présentes sur le marché.

Si nous connaissons certaines signatures de pages quirévéler qu'une technologie est utilisée pour un site, quel est le meilleur moyen d'identifier le plus grand nombre possible de ces sites? Nous nous attendons à ce qu’il y ait 1 000 "s, et nous nous intéressons à ceux des 10 premiers sites par trafic. (Nous ne pensons pas que les plus gros sites utilisent cette technologie.)

J'ai une liste de webcrawlers open source - http://bigdata-madesimple.com/top-50-open-source-web-crawlers-for-data-mining/ - mais mon cas d'utilisation semble différent de beaucoup deles critères habituels pour les robots car nous souhaitons simplement enregistrer les "hits" de domaines portant cette signature. Nous n’avons donc pas besoin d’être rapide, mais nous avons besoin de vérifier toutes les pages du site jusqu’à ce qu’un hit soit détecté, d’utiliser uniquement des méthodes d’analyse responsables, etc. Quel est le meilleur?

Ou au lieu de modifier un robot d'exploration et de l'exécuter, existe-t-il un moyen de faire en sorte que Google ou un autre moteur de recherche trouve les caractéristiques de la page plutôt que du contenu visible par l'utilisateur qui constituerait une meilleure approche?

Réponses:

3 pour la réponse № 1

Vous pouvez modifier un robot d'exploration Web à code source libre. Le lien que vous avez posté mentionnait de nombreuses ressources, mais une fois que vous avez supprimé celles qui ne sont pas maintenues et celles qui ne sont pas distribuées, vous ne resterez plus avec beaucoup. Par définition, vous ne savez pas quels sites contiennent les signatures que vous avez Vous devez donc obtenir une liste des 10 meilleurs sites et les explorer, ce qui est une opération importante, mais c’est certainement faisable avec des outils comme Apache Nutch ou StormCrawler (non répertorié dans le lien que vous avez posté) [AVERTISSEMENT Je suis un committer sur Nutch et l'auteur de SC].

Une autre approche, moins coûteuse et plus rapide, consisterait à traiter le Jeux de données CommonCrawl. Ils fournissent des données d’exploration Web volumineuses sur une base mensuelle.base et effectuons le travail d’exploration du Web pour vous - y compris par politesse, etc. C'est également un bon moyen de vérifier vos hypothèses initiales et le code de détection des signatures sur de très grandes données. Je recommande généralement de traiter CC avant de me lancer dans une analyse de la taille d'un site Web. Le site Web de CC contient des détails sur les bibliothèques et le code pour le traiter.

Ce que la plupart des gens font, y compris moi-même quand jeprocess CC pour mes clients, consiste à implémenter le traitement avec MapReduce et à l’exécuter sur AWS EMR. Le coût dépend bien sûr de la complexité du traitement, mais le budget matériel est généralement de plusieurs centaines de dollars.

J'espère que cela t'aides

MODIFIER: DZone J'ai depuis republié un de mes articles de blog sur l'utilisation de CommonCrawl.