/ / Come posso evitare gli URL di scansione che "fanno" cose come annullare l'iscrizione di una persona da una mailing list - web crawler

Come posso evitare la scansione di URL che "fanno" cose come l'annullamento dell'iscrizione di una persona da una mailing list - web-crawler

Sto scrivendo uno strumento che esegue la scansione degli URL nelle e-mail cosìun utente può effettuare ricerche mirate. c'è un modo per dire a un URL visitato che siamo un crawler in modo tale che l'utente non venga sottoscritto o cancellato da una mailing list o che non sia probabile che vengano intraprese altre azioni nell'URL.

Altrimenti, c'è un modo intelligente per scoprire in generale che un URL deve essere visitato solo da un essere umano che desidera intraprendere qualche azione?

risposte:

1 per risposta № 1

Un modo che sarebbe comunque utile sarebbe obbedire a qualsiasi file robots.txt disponibile nella radice del sito.

L'autore del sito dovrebbe avere questa configurazione in modo che qualsiasi crawler stia lontano dalle aree in cui non vuole che vadano.

Stewart.


0 per risposta № 2

In generale, no.

"Non c'è modo di dedurre in modo affidabile se un determinato URL" faccia "qualcosa in particolare (suppongo che potresti cercare schemi, ad esempio" annullare l'iscrizione ", ma difficilmente sarebbe affidabile).

E non c'è nessun "magico" flag "I a m robot" che puoi impostare quando fai le richieste HTTP.