Sto scrivendo uno strumento che esegue la scansione degli URL nelle e-mail cosìun utente può effettuare ricerche mirate. c'è un modo per dire a un URL visitato che siamo un crawler in modo tale che l'utente non venga sottoscritto o cancellato da una mailing list o che non sia probabile che vengano intraprese altre azioni nell'URL.
Altrimenti, c'è un modo intelligente per scoprire in generale che un URL deve essere visitato solo da un essere umano che desidera intraprendere qualche azione?
risposte:
1 per risposta № 1Un modo che sarebbe comunque utile sarebbe obbedire a qualsiasi file robots.txt disponibile nella radice del sito.
L'autore del sito dovrebbe avere questa configurazione in modo che qualsiasi crawler stia lontano dalle aree in cui non vuole che vadano.
Stewart.
0 per risposta № 2
In generale, no.
"Non c'è modo di dedurre in modo affidabile se un determinato URL" faccia "qualcosa in particolare (suppongo che potresti cercare schemi, ad esempio" annullare l'iscrizione ", ma difficilmente sarebbe affidabile).
E non c'è nessun "magico" flag "I a m robot" che puoi impostare quando fai le richieste HTTP.