/ / Comment puis-je éviter l'exploration d'URL qui "font" des choses telles que la désinscription d'une personne d'une liste de diffusion - web-crawler

Comment puis-je éviter l'exploration d'URL qui "font" des choses telles que la désinscription d'une personne d'une liste de diffusion - web-crawler

J'écris un outil qui explore les URL dans les emailsun utilisateur peut faire des recherches ciblées. Y a-t-il un moyen de dire à une URL visitée que nous sommes un robot afin que l'utilisateur ne soit pas abonné ou désabonné d'une liste de diffusion ou que d'autres actions dans l'URL ne soient pas susceptibles d'être entreprises.

Sinon, existe-t-il un moyen intelligent de découvrir généralement qu'une URL est destinée à n'être visitée que par un humain qui souhaite agir?

Réponses:

1 pour la réponse № 1

Une façon qui aiderait de toute façon, serait d’obéir à tout fichier robots.txt disponible à la racine du site.

L’auteur du site doit avoir cette configuration pour que tout robot reste à l’écart des zones dans lesquelles il ne veut pas.

Stewart.


0 pour la réponse № 2

En général non.

Il n’existe aucun moyen de déduire de manière fiable si une URL donnée "fait" quelque chose en particulier (je suppose que vous pourriez rechercher des modèles, par exemple "désinscription", mais cela ne serait guère fiable).

Et il n’ya pas de drapeau magique "je suis un robot" que vous pouvez définir lors de la création de requêtes HTTP.